2024年諾貝爾物理學獎、化學獎相繼花落人工智能和人工智能生命科學領域,這一里程碑式的事件向世界宣告:我們正身處一場由AI引領的科學研究范式革命之中。
行至當下,生命科學的探索已全面邁入大模型時代:依托海量數據與龐大算力進行訓練與優化,大模型在精度、效率、可遷移性、涌現性等方面的優勢盡顯,正以前所未有的方式推動著人類對生命系統復雜性的認知邊界。
大模型對科研實踐的革新遠不止于算法性能的提升,更在于其催生了新一代基礎設施與平臺體系,推動科學發現從單點模型突破轉向全流程智能閉環,使得高復雜度、大體量的科研任務能夠實現自主決策、動態優化與持續進化。
作為全球生命科學大模型的先行者,百圖生科于2024年10月發布全模態生物大模型xTrimo V3,以2100億參數量刷新全球最大規模的生命科學AI基礎模型紀錄。以大模型為驅動,百圖生科構建了覆蓋信息搜集-生物洞察-智能實驗的全流程AI生成式發現系統,助力生命科學客戶和合作方實現研發效率提升、加速業務閉環。
據悉,百圖生科將于4月25日召開“智能進化 發現未來”生成式發現系統發布會,可以實現智能體智能調用自研核心工具和外部資源,用戶無需復雜操作,即可驅動“設計-構建-測試-學習”的全流程,并通過知識與模型的共享共建,形成動態、開放、共贏的智能科創生態,加速整個生命科學領域的突破。
近日,智藥局專訪了百圖生科首席科學家(AI大模型)李子青教授,作為享譽世界的AI學者,李教授指導和帶領公司多個大模型項目的研發與應用,參與公司整體技術戰略的規劃和執行。
本次訪談中,我們就AI for Life Science的前沿創新與應用落地等話題進行了深度交流,站在AI深刻變革生命科學發現的歷史節點上,一個人、一家公司的探索軌跡和愿景使命被清晰地呈現出來。
百圖生科首席科學家(AI大模型)李子青教授
李子青(Stan Z. Li)教授是世界著名AI學者,IEEE Fellow、IPAR Fellow。他先后發表論文500余篇、引用76000余次,H-Index指數153,并在2024年世界科學家及大學排名(World Scientist and University Rankings)中, 位列“AI for Science”領域全球第一。他曾擔任包括人工智能頂級刊物《IEEE Transactions on Pattern Analysis and Machine Intelligence》(IEEE T-PAMI)副主編等重要學術職務,長期活躍于國際頂級AI學術一線,享有全球學術界和產業界的廣泛聲譽。
李教授自1991年起在南洋理工大學任職至終身副教授,并于2000年加入微軟亞洲研究院擔任Lead Researcher,積累了豐富的學術研究和工業經驗,發明了世界首個實時人臉識別系統。他2004年起擔任中國科學院模式識別國家重點實驗室資深研究員,主持了十余項國家重大專項研發。2019年起加入西湖大學,擔任人工智能講席教授,主持西湖大學人工智能研究與創新實驗室的工作,并大力投入到AI+生命科學領域,取得了一系列突破性的學術成果。李教授作為項目負責人、首席科學家主持了國家“新一代人工智能”重大項目(AI+蛋白質計算、藥物設計)兩項,自然基金委重點項目(AI+多組學分析)一項,成為AI+生命科學研究領域的前沿探索者。
Q:您從計算機視覺(如人臉識別)轉向AI+生命科學領域的契機是什么?兩個領域的核心方法論有哪些共通之處和差異性?
李子青:我之前一直做的是計算機視覺(Computer Vision),尤其是人臉識別技術研發。在微軟研究院工作期間,成功開發了全球首個實時人臉識別系統Eye-CU,比爾·蓋茨先生曾親自在CNN專訪中演示推薦。
中科院任職期間,帶領團隊將多模態人臉識別系統與智能視頻監控方案應用于多個國家級安防工程,包括2005年設計建設深圳羅湖-香港自動通關系統,和2008北京奧運會及2010上海世博會的安防體系等先導創新性應用。之后,隨著深度學習的成功應用,國內相關AI企業的蓬勃發展,使得人臉識別成為了一個成熟的產業,我意識到,我在人臉識別領域的使命已經完成。
2019年我加入西湖大學并擔任人臉識別講習教授。生命科學是西湖大學的優勢學科,為我提供了轉型契機。通過與生命科學PI合作,開始涉足蛋白質組學研究。盡管研究領域從人臉識別轉向生命科學,但其底層方法仍然是數學、模式識別和機器學習。基于深度神經網絡構建的特征空間映射模型,我們成功開發了高維數據空間到表征空間的深度流形變換,這項核心技術已應用于癌癥早期診斷、蛋白質建模、單細胞分析等多個前沿方向。
Q:針對AI for Life Science的研究,您目前主要精力放在哪些方向上?百圖生科“生命科學基礎大模型”與您的研究愿景有何契合?
李子青:過去5年,我帶領團隊從零開始,從蛋白質組學應用研究開始,逐步向蛋白質結構與功能設計延伸,繼而拓展至生物中心法則建模及靶標藥物開發,從而構建了一個從DNA,RNA、到蛋白質和藥物設計一個比較完整的研究體系,這些屬于AI+分子生物學層面。這一從分子機理到應用落地的研究路徑,與百圖生科的戰略方向高度契合。
接下來幾年,我會將研究拓展到AI+細胞生物學層面,利用AI和大數據,構建刻畫細胞運行機理、細胞分化和細胞命運調控的細胞基座大模型,賦能細胞機理研究及其在生命科學、健康醫療與合成生物學中的應用。
百圖生科致力于AI生命科學大模型研究與產業,也包括AI分子生物學和AI細胞生物學兩個層面,從模型研究到應用落地,這個戰略方向與我的研究興趣高度契合。
在實施層面各有側重,我的實驗室聚焦前沿方法探索,百圖生科則著力于大模型方法的規模化、工程化驗證與產業化落地。
Q:AI for Life Science目前面臨的關鍵挑戰是什么?您和百圖將如何進一步解決這些問題?
李子青:AI與生命科學跨學科的深度融合,是實現突破的關鍵點之一。
以Alphafold 2的突破為例,其背后是DeepMind擁有一支跨學科的隊伍,包括分子動力學專家、生物學家、化學家、AI科學家與工程師等,這樣一個交叉團隊的密切合作與交流碰撞,才造就了Alphafold 2輝煌的成果,也啟動了AI for Science研究的新范式。
另一個例子是斯坦福大學、Arc Institute、英偉達等機構合作的Evo 2。要開發有能力的生命科學大模型,就必須將AI與生命科學進行深入融合,將各個層級的生物內在規律嵌入模型,而不是簡單地套用AI架構。
另外一個關鍵是生物大數據的可得性,Alphafold背后就有PDB(Protein Data Bank)作為數據基礎,當時包含20萬左右的蛋白質結構。如果沒有這樣蛋白質序列和結構的數據,就不會有Alphafold。當前AI還無法很好解決生命科學的許多問題,一個重要的原因就是生物技術領域尚未開發出合適且充分的檢測技術,以支撐有效的AI建模。
深入的學科交叉、充分的數據,當然還有算力,是AI for Science取得突破的必要條件。
Q:蛋白質領域,您和您團隊先后推出了PiFold、FoldToken系列等模型,均展現出相比同類模型更加高效的優勢,這背后有什么秘訣?
李子青:我實驗室的小伙伴們是一個非常年輕且具有創造力的團隊,大都是計算機出身,也有數學和物理等基礎學科的人才,非常聰明能干,勇于進取。新進來的學生在學長指導下通過與刷SOTA積累基礎能力,然后在前沿領域開展具有范式革新意義的工作。
在PiFold中,我們對模型設計對各個層面進行了全面的分析,最終刪繁就簡推出了第一個非自回歸序列設計圖模型,取得了效率與精度取得雙重突破的模型;在FoldToken中,我們對向量量化的基礎方法也進行了詳細剖析和改進,提出了首個基于token化的蛋白質序列-結構建模方法。
我們認為,基礎方法的創新是最重要的,只有在基礎方法上取得突破,才能在各個領域都取得進展。我們也希望通過這些工作,推動蛋白質領域的研究進展。
我作為實驗室的架構師,會有意避免擁擠的賽道,而是去找更加新穎的、更加promising的方向去探索,這也契合西湖大學"高起點、小而精、研究型"的辦學特點。前沿成果可以通過百圖做scaling up,成為大模型的一部分。
Q:您之前提出“所有的生物分子都可以被token化”這個觀點,如何理解?與自然語言大模型相比,生命科學大模型的數據構建、訓練范式有何獨特性?百圖生科做了哪些努力?
李子青:生物數據中的序列(如蛋白質序列)天然適合以token形式表征,而非序列數據(如蛋白質結構、圖像)可通過向量量化轉化為離散token。
這一過程背后的數學物理原理在于:相較于自然語言,生命科學數據是一種更高維度的數據。而連續空間(如n維向量)的表征存在大量信息冗余,而token化通過離散化壓縮信息,僅保留關鍵模式,這可能與物質量子化的離散本質一致,同時也能抑制數據中的噪聲。
另外一個原因是,將生物分子token化后,能夠適配目前應用廣泛的Transformer這樣的通用架構,方便建模。當然,如前所述,其中需要巧妙利用數據的生物規律約束。
在過往的4年多的時間里,百圖生科致力于基于原始數據的數據圖譜構建,針對生物語言和不同模態的算法創新,高通量實驗體系的建設以及大量的自產數據的積累,最終通過在藥物設計、靶點發現、生物制造等不同應用場景進行驗證。
我和百圖生科最近在做一個事情,是將DNA、 RNA 和蛋白質這些分子能夠通過中心法則原理深度地整合起來,嵌入到建模的過程中,我們相信這能夠提升大模型的質量,并產生巨大的行業價值。
Q:在您看來,覆蓋蛋白質、DNA、RNA等多模態的生物大模型未來將在哪些領域率先落地、切實改變我們的生活?
李子青:大語言模型的優勢就在于能夠擴展多維度下游任務。在醫藥領域,xTrimo平臺在AI靶點發現、蛋白設計和生成、生命科學工具、疾病機理研究等應用場景的200余個任務模型中達到了SOTA水平。已支撐客戶取得10余種已驗證抗體、10余個創新靶點授權等突破性成果,全球超400家用戶,在產業端產生顯著價值。
生物制造領域,xTrimo能夠為菌株改造、酶設計、工藝發酵等環節賦能。我們實際推進的產業化項目主要聚焦于工業應用場景,涵蓋化工原料生產、飼料加工、環境保護等領域。從商業化路徑考量,初期突破點將優先選擇高附加值的醫藥中間體和基礎化工原料領域,這類產品具備明確的市場需求和較高的技術可行性。
Q:您最近做了關于虛擬細胞的報告,這個也是諾貝爾化學獎得主德米斯·哈薩比斯口中“會徹底改變生物學研究”的技術,這方面您和百圖做了哪些工作?
李子青:目前,我做AI細胞研究有兩個大的方向,一個是關于生命科學,另一個是合成生物學。這兩個方面都具有重大社會意義。
我們正在構建名為"5M"的多維研究框架,5M即5-Multi,包括多組學、多模態、多擾動、多尺度、多任務,旨在“5M”數據基礎上,構建細胞狀態和隨時間空間變化的模型。我前面說過,AI生命科學發展有賴于生物化學檢測技術的突破,特別是測序技術與成像技術的協同發展。AI虛擬細胞任重道遠。
相較于生命科學,合成生物學更容易落地。我跟百圖生科聚焦于合成生物的產業端,希望能夠解析單細胞微生物原理,并應用于生物制造,包括如何設計改造和優化微生物賦能生物制造,如何將工藝進行優化,從而大幅度提升細胞產出效率。
Q:前不久百圖生科宣布開源全球首個千億參數蛋白質大模型xTrimoPGLM,您覺得這對行業發展有怎樣推動作用?
李子青:我們希望通過開源xTrimoPGLM,推動整個AI+生命科學領域的發展。目前,xTrimoPGLM實現了對蛋白質結構預測、功能分析和序列生成等任務的全方位處理能力,在抗體序列生成和復合物結構預測領域已達到國際領先水平,2025年4月,xTrimoPGLM也登上頂級期刊《Nature Methods》。
其次是降低了行業門檻,加速創新轉化。模型開源后,研究人員可直接針對酶穩定性預測、親和力分析等垂直任務進行微調,大幅降低從零訓練大模型所需的數據與算力成本,這為中小型企業提供了低門檻研發路徑。我們還希望通過開放生態推動行業標準化。以Model Hub為例,該平臺已集成數十個垂類模型,未來有望吸引更多行業貢獻者共建開放生態。
簡單而言,此次開源不僅提供全球領先的蛋白質AI工具,更通過平臺化建設重構研發生態,推動生命科學從單點突破轉向系統性創新,預計將為行業帶來研發效率的指數級提升與成本結構的根本性優化。
Q:AI領域,Agent(智能體)近來成為熱門話題,行業也將2025定位為“智能體元年”,您和百圖生科在這方面做了不少工作,可以分享下相關進展嗎?
李子青:AI Agent技術正以顛覆性姿態重塑全球產業格局。百圖生科在四月底即將發布生成式發現系統,通過多智能體系統重構技術底層。基于2100億參數的xTrimo多模態大模型,智能體能夠自主調用自研核心工具及外部資源,實現超越傳統自動化的“深度研究”能力。
這一技術突破使AI從單一執行工具升級為具備主動推理能力的“智能研究伙伴”,在靶點發現、分子生成等環節中完成復雜任務協同,標志著生命科學領域AI應用從輔助工具向研究主體的范式躍遷。
在交互場景創新方面,百圖生科以自然語言對話重構科研工作流。通過構建“對話即研究”的智能體交互界面,科研人員無需掌握專業編程技能即可驅動涵蓋設計、構建、測試、學習的全流程實驗閉環。這種低門檻的人機協同模式將研究者從重復性工作中解放,使其更聚焦于科學假設與創新突破,重塑了生命科學研發的人機協作生態。
生態構建層面,企業著力打造開放的智能體網絡生態。通過共享模型、數據與知識庫,連接產學研多方資源形成動態協作網絡。這種開放架構不僅加速了技術迭代與知識沉淀,更通過智能體間的協同計算能力,為藥物研發、合成生物等細分領域創造規模化價值,推動整個生命科學產業向智能化、平臺化方向演進。
Q:國內外的一些研究顯示,生成式AI可以有效幫助加速科學發現的進程,”AI科學家“這個概念應運而生,對此您怎么看?AI對科學發現的變革將以何種方式實現?
李子青:生成式AI正推動科研范式革命,“AI科學家”通過整合文獻分析、假設生成、實驗設計、數據驗證及論文撰寫等全流程能力,將科學探索的效率提升至前所未有的高度,同時也引發學界對技術潛力與倫理風險的深度思考。
當前“AI科學家”仍面臨多重瓶頸:其一,多模態能力不足,尤其在視覺信息處理和實驗操作環節依賴人工干預;其二,邏輯推理能力有限,例如大語言模型常出現數字比較錯誤;其三,評估體系尚未成熟,AI生成結論的可解釋性與透明度亟待提升。倫理風險亦不容忽視——自動化論文生產可能加劇學術泡沫,而生物安全等領域的技術濫用更需全球監管協作。
Cell一篇名為“Empowering biomedical discovery with AI agents”的文章深入探討了AI agents如何加速生物醫學研究的突破,及其在與研究人員協同合作中發揮的關鍵作用。文章指出AI agents的發展體現為四個層次:
第一層——AI僅作為工具使用,例如AlphaFold用于預測蛋白質的三維結構;
第二層——AI agents在研究人員的指導下完成特定任務,如在基因組關聯研究(GWAS)中執行生物信息學分析;
第三層——AI agents作為研究人員的“合作伙伴”出現,能夠參與假設生成與實驗規劃。例如,AI agents可以基于現有基因數據自動提出某些基因與特定疾病相關的假設,并設計實驗驗證這些假設。這時的AI agents不僅執行研究人員的指令,還可對實驗方案提出改進建議,基于實驗結果不斷調整研究方向,成為科學研究的重要合作伙伴;
第四層——AI agents被設想為具有獨立科學發現能力的“AI科學家”,能夠基于現有知識自主提出新的科學假設并獨立完成實驗驗證。這類AI agents不僅是工具或助手,更是可以與研究人員并肩作戰的研究伙伴。這時的AI agents需具備高度的學習與推理能力,能夠在面對復雜性和不確定性時做出合理判斷。
學界普遍認為,AI將推動科研進入“第五范式”。AI不僅加速數據處理,更通過知識圖譜構建與跨學科關聯,催生全新科學假設。開放科學資源將成為創新關鍵,而人類科學家的核心角色將轉向戰略規劃與創造力激發。
在這場人機協作的科研革命中,“AI科學家”既是工具也是伙伴。它雖無法替代人類的直覺與靈感,卻能通過超強算力與模式識別,將科學家從重復勞動中解放,聚焦于更本質的探索。隨著多模態模型與系統的進化,一個更自主、更富創造力的科學發現新時代正在加速到來。
Q:目前百圖生科在生命科學大模型的研發和投入主要在哪些方面?未來1-3年的大模型迭代的愿景是什么?
李子青:作為生命科學AI大模型的先行者,百圖生科近年來持續深化生命科學大模型技術的布局和創新。在技術底層,百圖生科構建了全球首個覆蓋蛋白質、DNA、RNA、細胞、小分子等七個模態的生命科學大模型xTrimo V3。
未來三年,百圖生科計劃將模型參數進一步擴展,并新增代謝組學、微生物組等模態,實現從分子到生態系統的全鏈條建模。我們正在研發的跨尺度建模技術,例如結合細胞互作模型與臨床數據預測藥物副作用,或將重新定義藥物研發范式。
應用場景將向合成生物學、細胞基因治療等領域縱深拓展。公司正在開發基于單細胞轉錄組基礎模型scFoundation的“細胞級生命模擬器”,前期成果已入選“2024年度中國生物信息學十大進展”。在生物制造領域,計劃通過AI優化工業菌株改造、提高中試發酵工藝效率。
此外,公司還將繼續執行開源戰略。繼開源xTrimoPGLM后,公司計劃釋放更大規模模型能力,使中小型機構也能低成本使用千億級AI工具。同時加速全球開發者社區建設,我們希望成為生物計算基礎設施的核心提供者。
百圖正以“基礎大模型+垂直場景+開放生態”的三維戰略,努力引領中國在全球生物計算競爭中占據制高點。
注:
本次訪談內容已經過編輯整理并已獲得受訪者認可,我們也歡迎讀者通過留言互動,分享您對本訪談的看法。欲了解更多關于百圖生科生成式發現系統的信息,敬請關注本月
25日的發布會,屆時智藥局也將進行直播。
—The End—
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.