上周,美國斯坦福大學、英偉達等機構聯(lián)合發(fā)布的生物學AI模型Evo2引起廣泛關注,被譽為“生物版Deepseek”。
正當全球科研人員為這一突破性成果熱議時,該論文中的特殊標注揭開了中國AI的實力——來自中國公司百圖生科xTrimo系列大模型,被Evo2的研究人員列為"參數(shù)規(guī)模更大但尚未開源的競爭對手",揭示中國生物大模型的崛起。
實際上,百圖生科一直被美國市場認定為生命科學基礎大模型的先行者,自2020年起一直前瞻性地在該領域布局。
2024年10月,百圖生科BioMap宣布推出革命性產品——全模態(tài)生物大模型xTrimo V3,以2100萬參數(shù)量刷新全球最大規(guī)模的生命科學AI基礎模型紀錄。
這一模態(tài)生物語言大模型,正在以更低數(shù)據(jù)與成本需求構建高質量AI任務模型,首次實現(xiàn)從DNA、RNA、蛋白質到細胞層級的生物數(shù)據(jù)建模,并支持128K超長DNA序列解析,重新定義了生物大模型的競爭規(guī)則。
更重要的是,百圖生科也將于近期實現(xiàn)1000億參數(shù)版本的開源,將超過Evo2成為全球最大規(guī)模的開源生物學模型。
這也意味著,在這場解碼生命密碼的全球軍備競賽中,中國力量正在蛻變?yōu)轭I跑者。
更懂“生命語言”的AI大模型
參數(shù)規(guī)模與模態(tài)的雙重躍升
眾所周知,參數(shù)量在模型發(fā)展中的關鍵作用,其規(guī)模直接影響模型的學習能力。相較于Evo2的400億參數(shù)規(guī)模,百圖生科xTrimo V3以超5倍量級優(yōu)勢構建起生命科學的超級大腦。
自2020年起,百圖生科便著手構建超大規(guī)模生命科學專屬數(shù)據(jù)圖譜——通過整合蛋白質互作網(wǎng)絡、單細胞測序、基因組學、臨床數(shù)據(jù)等多維度、多模態(tài)生物信息,形成覆蓋超百萬物種、千億級生物實體的結構化知識庫,數(shù)據(jù)規(guī)模達行業(yè)基準的百倍以上。
值得一提的是,單就蛋白模態(tài)而言,其單模型參數(shù)已達100億,并在Evo2論文中被引用為“xTrimo large”,充分彰顯了其在模型規(guī)模上的領先優(yōu)勢。
圖: Evo2論文不同模型參數(shù)對比
堅實的數(shù)據(jù)基礎,也讓百圖生科區(qū)別于ESM、Evo等海外模型的能力,這些模型主要聚焦于蛋白或DNA序列單一模態(tài),但xTrimo V3能夠綜合建模從分子、代謝網(wǎng)絡到細胞乃至多細胞層級的各類生物數(shù)據(jù)。
這也意味著xTrimo能跨模態(tài)對齊技術深度解析生命系統(tǒng)底層規(guī)律,突破單一數(shù)據(jù)模態(tài)的限制,實現(xiàn)從分子到生物系統(tǒng)的全鏈條建模。
如今,xTrimo V3覆蓋了DNA、RNA、蛋白質、細胞、化合物-蛋白互作、蛋白-蛋白互作及生命系統(tǒng)等七大主流模態(tài),實現(xiàn)了從堿基對到細胞集群的全尺度建模。
圖:xTrimo Foundation Model Family
深耕生物學算法,釋放Scaling Law潛能
如果說參數(shù)量是決定模型性能的重要燃料,那么模型算法和架構就如同內燃機,直接決定了如何高效發(fā)揮數(shù)據(jù)的作用。
在技術架構方面,xTrimo系列模型充分考慮了生物信息數(shù)據(jù)的獨特特性,構建了一個大規(guī)模、多模態(tài)、多尺度的模型體系。
一般而言,參數(shù)越多,模型越容易記住訓練時的小錯誤,導致面對新問題時表現(xiàn)失常。百圖生科獨創(chuàng)的MoE架構與生物知識引導的訓練框架,進一步釋放了超大規(guī)模數(shù)據(jù)的潛能,使模型在參數(shù)擴展時仍保持高效學習能力。
為更好地發(fā)揮Scaling Law效能,在DNA模態(tài)模型設計中,百圖生科不再單純追求模型規(guī)模的擴展,而是采用了基于生物知識引導的啟發(fā)式設計,以更合理的網(wǎng)絡結構提升“小模型”的智能水平,從而有效彌合機器學習技術與生物學洞見之間的鴻溝,顯著增強下游應用性能。
在模型架構設計上,針對不同基因及其調控元件在序列長度上存在較大差異的問題百圖生科開創(chuàng)性地引入多窗口尺度注意力機制和原生雙鏈DNA建模技術。
區(qū)別于Evo2的反向互補數(shù)據(jù)增強策略,該模型直接從架構層面支持DNA雙鏈結構建模,并增加局部感知模塊捕捉三維空間信息。
這些針對DNA的獨特網(wǎng)絡設計在Scaling Law效應下展現(xiàn)出巨大優(yōu)勢,在同等訓練數(shù)據(jù)和計算量下,這些創(chuàng)新使xTrimoDNA在同等計算條件下展現(xiàn)出更強的學習能力。 數(shù)據(jù)顯示,在基因突變掃描等核心任務中,10億參數(shù)的xTrimoDNA表現(xiàn)超越Evo1/Evo2。
圖:a) 大模型的擴展規(guī)律,不同架構下模型總計算量FLOPs與評估困惑度(PPL)的關系,綠色實線表明我們改進的多尺度Transformer架構在不同計算量下相比Transformer、Mamba(Caduceus)和StripedHyena(Evo)等架構均有持續(xù)改進。b) 不同模型在DNA/RNA DMS任務zero-shot效果 c) 不同模型在Protein DMS任務zero-shot效果
率先實現(xiàn)價值轉化,全球超400家用戶
大模型的開發(fā)若不能有效轉化為落地應用,其技術價值將淪為空洞的概念。
對此,百圖生科將自身定位成為“一家世界領先的生命科學AI模型提供商”。在絕大多數(shù)基礎大模型還在實驗室階段,百圖生科率先探索AI大模型平臺底座及應用場景的商業(yè)化。
這套技術體系已在產業(yè)端產生顯著價值,xTrimo平臺在AI靶點發(fā)現(xiàn)、蛋白設計、菌株改造等領域的200余個任務模型中,已支撐客戶取得20余種已驗證抗體/酶設計、10余個創(chuàng)新靶點授權等突破性成果。
生命科學大模型領域,百圖生科也開啟了首例標桿性合作,獲得國際頂級藥企背書。
2023年11月,百圖生科宣布與跨國藥企賽諾菲達成大型戰(zhàn)略協(xié)議,雙方將基于百圖生科的生命科學大模型,共同開發(fā)用于生物治療藥物發(fā)現(xiàn)的前沿模型。在這筆合作中,百圖生科將獲得1000萬美元的預付款,總交易金額超過10億美元。
此次是生命科學行業(yè)首次基于基礎大模型的合作,并提出以模型開發(fā)而不是藥物研發(fā)進展作為里程碑,標志著中國AI生物學模型首次以"基礎研究工具"身份進入全球生物醫(yī)藥產業(yè)鏈核心環(huán)節(jié)。
迄今為止,百圖生科服務了400余家全球用戶,60所QS100高校,已簽約訂單潛在價值近20億美元,其客戶涵蓋頂尖藥企、科研機構及生物制造企業(yè),覆蓋藥物研發(fā)、農業(yè)化工、環(huán)保等多領域。
這證明百圖生科不僅能向全球輸出其技術力,也意味著其AI能力轉化為可量產、可復制的商業(yè)解決方案。
其創(chuàng)新成果在多個領域取得突破,尤其在三大方向凸顯其價值:
抗體和細胞基因療法藥物領域,百圖生科創(chuàng)新性地融合結構預測算法與生成式設計技術,建立了涵蓋多肽、小蛋白及納米抗體的全流程設計平臺。
尤其針對給定表位的納米抗體從頭設計這一世界性難題,團隊在無抗原-抗體復合物晶體結構的GPCR表位設計中取得突破性進展——設計序列陽性率較開源方法提升3倍以上。
經N-糖基化掃描(N-glycan scanning)驗證,所獲VHH抗體對目標表位展現(xiàn)出納摩爾級親和力,這一成果標志著我國在計算抗體設計領域已躋身國際前沿。
靶點發(fā)現(xiàn)方面,基于自主研發(fā)的細胞系統(tǒng)大模型,百圖生科構建了從組學數(shù)據(jù)解析到靶點驗證的智能化發(fā)現(xiàn)路徑。該模型通過深度挖掘疾病相關多組學數(shù)據(jù),可精準識別驅動細胞狀態(tài)轉換的核心調控基因,顯著提升了靶點篩選效率。依托高通量蛋白藥物生成平臺,已成功驗證并授權了多個免疫組合靶點或者腫瘤特異性靶點,有項目已進入臨床前研究階段。
微生物研究領域,百圖生科與合作方攜手,將xTrimoDNA大模型與百萬級微生物基因組數(shù)據(jù)庫深度融合,開發(fā)出一款微生物大模型應用,在多方面展現(xiàn)出優(yōu)秀的預測能力。
經過微調之后,同樣在基因注釋、代謝通路分析、表型預測等方面展現(xiàn)出杰出的擬合能力。基于此類微生物大模型技術底座,有望助力微生態(tài)以及生物制造領域研究,使菌株改造有的放矢,周期大幅縮短。
開啟生命科學新紀元
從千億參數(shù)到全模態(tài)覆蓋,從靶點發(fā)現(xiàn)到工業(yè)菌株改造,百圖生科的xTrimo V3,無疑是AI生命科學領域的重要里程碑。
而以DeepSeek為首的大模型開源熱潮,正在將大模型競爭態(tài)勢從“技術獨占”轉向"生態(tài)共建"。
隨著1000億參數(shù)開源版本的臨近,百圖生科的xTrimo 系列模型也為全球生命科學研究貢獻一份重要的中國力量。通過生態(tài)協(xié)作構建競爭優(yōu)勢,相信一定能在全球范圍內掀起生命科學研究的新熱潮。
而定位為一家平臺型公司,xTrimo基礎大模型具有跨領域知識遷移特性,其背后的底層技術不僅能加速藥物研發(fā)、精準醫(yī)療等傳統(tǒng)領域突破,更可拓展至材料科學、環(huán)境治理等新興方向。
當前,合成生物學和生物制造在中國擁有廣闊的市場前景,百圖生科未來有望針對不同規(guī)模和需求的客戶,提供相應的創(chuàng)新服務和解決方案。
未來,AI將不再局限于少數(shù)領域的“高墻深院”,而是成為解碼生命密碼、惠及罕見病治療與精準醫(yī)療的普惠工具。
這不僅會加速藥物研發(fā)、生物制造等行業(yè)的發(fā)展,為企業(yè)帶來更高的效益,更重要的是,有望為全人類的健康福祉開拓出更為廣闊的前景,讓生命科學的進步惠及每一個人。
—The End—
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.