生命科學大模型的先行者,向行業打開了一個開放共贏的未來。
今天,百圖生科宣布開源其領先的xTrimo V2中的蛋白質語言模型xTrimoPGLM,7個不同參數量的模型均已發布在huggingface和github,供全球用戶自由獲取和使用。
https://huggingface.co/biomap-research
https://github.com/biomap-research/xTrimoPGLM
xTrimoPGLM是全球首個千億參數的蛋白質語言模型,性能超越了ESM-2、ProGen2等此前業界領先的蛋白質模型,并在 藥物分子設計和優化、抗體工程與疫苗開發、酶工程和生物催化劑設計 等領域展現出廣泛應用前景。
該心血向行業的開放,意味著過去只有頭部藥企和頂尖實驗室才能配備的先進AI工具,如今將惠及更多開發人員,為整個生命科學行業帶來新的發展機遇。
這是一次用創新帶動創新的嘗試,圍繞開源本身,自由交流、開放共享的時代趨勢正在匯聚起“群體智慧”。
當下,人工智能方興未艾,于生命科學的應用更是處于早期,通過開源構建寬廣的創新生態,將蛋糕做得更大,最終帶動整個行業的繁榮,是百圖生科作為領軍者的戰略遠見。
隨著DeepSeek-R1等大模型的開源浪潮興起,極致的性能優化與普惠的開源精神引發深刻的技術平權運動,百圖生科選擇為更加開放與包容的明天播種。
千億級xTrimoPGLM的開源宣告了行業的DeepSeek時刻,站在AI深度融入生命科學的關鍵節點,百圖生科懷普惠之志,以技術創新為基石,以生態協作為階梯,深度提升行業智能化水平。
隨著百圖按下技術落地“加速鍵”,一場行業變革大幕正徐徐拉開。
深耕大模型,百圖的進化論
蛋白質領域,是AI在生命科學應用中成果最豐富、最矚目的一顆明珠。
作為生命體系中的重要分子,蛋白質參與到幾乎所有的生命過程中,包括代謝、免疫、傳導、細胞分化和信號傳遞等,其結構、功能、相互作用與調控機制復雜性一直是科學家們探索的重點。
從2020年的AlphaFold2橫空出世,到摘得2024年諾貝爾化學獎桂冠。AI幫助人類破譯了“蛋白質密碼”并從實驗室走向產業端,涵蓋了新藥研發、疾病診斷、合成生物等多個領域,顯示出巨大的市場潛力。
正因如此,蛋白質模型在AI+生命科學領域的關注度與普及度都遠超其他,也往往是企業或研發團隊證明自身實力贏取行業認可的第一戰,在行業內頗具影響力的Meta、DeepMind都推出過蛋白質相關模型。
正如計算蛋白質先驅David Baker所說:“蛋白質是生命的機器,理解它們的語言將揭開生物學的秘密。”
作為全球最早投身于生命科學大模型研發的公司之一,百圖生科的首個學術開源項目HelixFold-Single就聚焦在蛋白質結構預測領域,曾登上Nature子刊封面。
HelixFold-Single模型框架圖
該模型是全球范圍內首個不依賴MSA 高速蛋白質結構預測模型,實現了“Folding with Large-scale Protein Language Model”的突破,在評測任務上速度提升百倍以上,為蛋白質結構預測領域帶來了新的躍升。
2023年,該公司的蛋白質語言模型xTrimoPGLM更成功融合蛋白質理解+蛋白質生成兩大類不同任務的預訓練方法,在18個任務中有15個取得SOTA,綜合表現優于原來的SOTA任務模型,也優于同為預訓練模型的Meta ESM-2。
同年百圖生科旗下“能生成蛋白質的ChatGPT”也誕生了,這套基于 xTrimo 驅動的 AIGP(AI Generated Protein) 平臺能夠有針對性地生成蛋白質或者對生成式的方式設計蛋白質。
經過數年沉淀,百圖生科的蛋白質大模型已經完成了數輪自我進化與提升,其中的各類數據也通過生態循環反哺AI平臺的訓練并進一步地提升了模型能力。
首個千億參數蛋白質大模型:
大即是強,打通理解和生成
堅定選擇大模型方向,百圖生科以其深刻的技術實踐,拓展了生物計算的疆界。
在自然語言領域,Scaling Law(規模法則)已成為黃金定律,成為人工智能產業最為知名的規律,被微軟CEO納德拉稱為AI革命的真正動力。
究其原因,Scaling Law揭示了全球AI競爭的關鍵——模型性能與數據規模的內在關系:模型性能應隨著模型參數大小、數據量、計算量按比例指數增加而線性增長。
Scaling Law成為GPT等一眾大模型的基石,引發產業各方圍繞數據和算力構筑護城河,成為不少精英堅信AI能夠改變世界的底層信仰。
更進一步地,xTrimoPGLM的研究結果驗證了Scaling Law:隨著蛋白質語言模型計算量的指數增長,下游任務性能也會呈現線性增長。
這一突破性成果證明了大模型在處理生物學復雜任務時的必要性,為生物大模型的發展提供了理論支撐。
在“更大即更強”的規律支配下,擁有業內最大參數規模的百圖生科鎖定了領先地位。
當然,百圖的技術優勢,不僅體現在模型規模的量級突破上,更反映在其對生命科學復雜系統的深入理解與精準把握上。
傳統蛋白質語言模型往往受限于單一預訓練目標,要么擅長理解任務(如ESM系列模型,主要用于蛋白質結構預測),要么專注于生成任務(如ProGen,側重于蛋白質生成),暴露出任務適應性與泛化能力的不足。
而基于對蛋白質數據深層次的把握,百圖生科研發人員創新了xTrimoPGLM的預訓練框架,通過結合GLM(通用語言模型)和MLM(掩碼語言模型)的優勢,成功實現了對理解和生成這兩類任務的同時優化。
這種統一框架使得xTrimoPGLM能夠在理解任務中提供精確的氨基酸和序列級別的表示,同時在生成任務中能夠產生與自然蛋白質結構相似的全新蛋白質序列。
通過構建規模空前的蛋白質語言訓練數據集,并結合創新性的算法架構充分挖掘海量參數的潛在價值,百圖生科研發的xTrimoPGLM展現出卓越的性能表現。
在蛋白質理解任務中,xTrimoPGLM在多種評估中表現出色,涵蓋了蛋白質結構、功能、交互和可開發性等領域的18項任務中的15項超越之前的SOTA模型。
此外,xTrimoPGLM還展現了出色的從頭(de novo)設計蛋白質序列的性能,能夠生成結構相似但序列相異的蛋白質,為藥物設計和蛋白質工程提供了更多可能。
而通過監督微調來定制特定的結構和生物物理特性,xTrimoPGLM的“超級對齊”能力將進一步發揮其作為可編程模型在探索和合成廣闊蛋白質空間方面的潛力。
經過持續的技術迭代與優化,xTrimoPGLM在模型規模與性能指標上均已達到國際領先水平,確立了其在生物計算領域的標桿地位。
毫無疑問,xTrimoPGLM的開源將為學術界和產業界提供了強大動力,這一選擇與DeepSeek的實踐相呼應,推動AI在生命科學的廣泛應用,加速全球研究進程。
技術理想照進現實
百圖賦能全球客戶,引領創新生態
大模型的發展恰如一棵蓬勃生長的大樹,其根基在于底層技術的持續創新,而茂盛的枝葉則象征著整個生態系統的繁榮發展。
xTrimoPGLM的開源只是一個起點,回顧百圖生科成立五年以來的種種歷程,會有這種感嘆:重重挑戰的生命科學大模型之路,已經在技術、商業、生態上已經鋪就了條條通衢。
去年,百圖生科發布了擁有2100億參數、覆蓋蛋白質、DNA、RNA等7大生命科學主流模態的xTrimo V3,成為目前全球規模最大、首個實現全模態覆蓋的生命科學大模型。
這個大模型家族,實際上可應用于生命科學產業鏈的所有不同環境,從分子早期研發、生產放大到臨床真實世界分析,再到最后的藥物市場及銷售,實現全鏈條覆蓋。
全模態體系的構建不僅提供了端到端的技術支撐,更開創了多模態融合的創新范式,在諸多場景展現巨大潛力。
比如,在靶點發現中,通過細胞尺度的多模態協作,結合蛋白質、細胞表征和文本生成擾動編碼,最后通過生物視覺模型輔助驗證,可以顯著提升靶點發現的效率和準確性。
百圖生科已成功驗證并授權了多個免疫組合靶點或腫瘤特異性靶點相關成果,有項目進入臨床前研究階段
不僅如此,借助一站式模型平臺,百圖生科為整個生命科學領域搭建了面向AI時代的革命性基礎設施。
在訓練端: 公司創新性地開發了生物多模態統一訓練框架,實現了從跨模態預訓 練到下游任務微調的全棧支持,顯著提升了模型的泛化能力和適應性。
在推理端: 百圖生科量身打造了生物與AI深度融合的計算引擎,通過算法優化和硬件協同,實現了推理性能的十倍級提升。
這套技術方案已在產業實踐中展現出顯著的應用價值,xTrimo平臺在AI靶點發現、蛋白設計、菌株改造等領域的200余個任務模型中,已支撐客戶取得20余種已驗證抗體/酶設計、10余個創新靶點授權等突破性成果。
在推動AI解決方案落地、提升服務效能的關鍵命題上,百圖生科憑借多年深耕行業的實踐經驗,總結出了一套系統性的方法論。
基于世界上最完善的生命科學AI模型庫、模型定制平臺、模型工作流管理平臺、高性能計算平臺和自動化實驗室-數據中臺五大工具,以及AI 、生信和結構生物學專家支持,公司幫助客戶在AI可以真正提效的核心環節形成核心競爭優勢。
迄今為止,百圖生科服務了400余家全球用戶,60所QS100高校,已簽約訂單潛在價值近20億美元,涵蓋頂尖藥企、科研機構及生物制造企業,覆蓋藥物研發、農業化工、環保等多領域。
誠然,xTrimo尚未完全成熟,而是有著開放發展空間等待探索,也恰恰是這種特性,讓這個平臺富有活力,讓更多企業、科研機構、開發者能夠參與進來,百圖生科為此持續投入生態建設,吸引越來越多的創新力量匯聚成潮,共同推動平臺的迭代升級與價值創造。
去年6月,百圖生科在香港設立旗下首個國際創新中心(BioMap InnoHub),并落地「生物計算創新加速計劃」(BioMap BioX),預計在未來五年支持五十個以上的前沿生命科學早期研發項目。
對于入選項目,百圖將利用自身的生命科學大模型 xTrimo ,為研究者和創業者提供百圖生科的技術支持,并幫助他們對接全球旗艦企業和投資者,探索更多應用場景。
將自身定位為“一家世界領先的生命科學AI模型提供商”的百圖生科,正在逐步打通從底層算法到開發套件到應用場景及商業、生態的全鏈路支持。
先有技術,再筑商業閉環、聯通生態,最終構建起"基礎研究-技術開發-產業應用"的協同加速網絡,實現經濟價值與社會價值的最優解,為全球業務伙伴帶來智能解決方案。
結語:
DeepSeek的異軍突起是今年AI行業最熱門的話題,而今這股浪潮漫過IT產業的堤岸,浸潤至生命科學這片高地。
而百圖生科作為生命科學大模型的領軍者,選擇用行動展示自身的戰略遠見,這一開源動作恰逢其時的深層邏輯,在于人類對蛋白質理解、設計乃至生成的探索正在進入深水區,而開放協作的生態構建,正是通往行業變革的必由之路。
畢竟在生命密碼的破譯長跑中,開放共享或許才是最好的加速器。正如DeepSeek以其開放姿態打破了"小院高墻"的局限,百圖生科的開源同樣彰顯了企業技術創新的深厚底蘊,也是對東方文化中開放包容、協作共贏精神的生動詮釋。
如今,百圖生科正在將AI之根扎進深處,打造全模態、高性能大模型技術底座;以一站式的服務平臺作為枝干,實現生命科學大模型的全棧貫通,以體系化服務能力滿足多元化智能需求。
在不遠的未來,AI根基上培育的生態之葉將伸向遠端,與上下游合作伙伴深度協同,孕育出AI+生命科學的繁花萬千。
—The End—
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.