藥物研發(fā)是一條漫長而充滿挑戰(zhàn)的道路。其失敗的核心癥結(jié),往往并非化合物本身的問題,而是源于最初的假設(shè)——對靶點的生物學(xué)作用、疾病相關(guān)性或成藥性的判斷出現(xiàn)了偏差。這一制約在藥物研發(fā)領(lǐng)域的“源頭”難題,長期以來依賴于疾病生物學(xué)家們通過繁重的人工勞動,整合海量、多樣的生物醫(yī)學(xué)數(shù)據(jù),以“直覺驅(qū)動”的方式提出可供驗證的假說。
然而,這一傳統(tǒng)工作流是碎片化的,且嚴(yán)重依賴科學(xué)家的個人經(jīng)驗。隨著基因組學(xué)、蛋白質(zhì)組學(xué)、臨床記錄等多模態(tài)數(shù)據(jù)的爆炸式增長,人類科學(xué)家愈發(fā)難以憑一己之力完成高效、精準(zhǔn)的跨領(lǐng)域推理。
認(rèn)識到國內(nèi)在原創(chuàng)新藥領(lǐng)域的這一基礎(chǔ)性挑戰(zhàn),由臨港實驗室、上海人工智能實驗室、上海交通大學(xué)、復(fù)旦大學(xué)及其附屬中山醫(yī)院等多家機構(gòu)聯(lián)合組建的科研團隊,致力于利用人工智能技術(shù),提升藥物發(fā)現(xiàn)關(guān)鍵環(huán)節(jié)的效率和精度,探索其優(yōu)化與革新的可能性。
近期,該團隊發(fā)布了一個被定義為“自進化虛擬疾病生物學(xué)家”(Self-Evolving Virtual Disease Biologist)的多智能體(Multi-agent)系統(tǒng)。它能夠以規(guī)?;姆绞?,系統(tǒng)性地識別具有清晰機制的、原創(chuàng)性的治療靶點,為加速藥物開發(fā)提供了一個全新的范式。
這項被命名為“元生”(OriGene)的多智能體系統(tǒng)由五個專門的 AI 智能體組成:協(xié)調(diào)智能體(Coordinator Agent)負(fù)責(zé)分析和分解用戶查詢;規(guī)劃智能體(Planning Agent)確定使用哪些專業(yè)工具;推理智能體(Reasoning Agent)綜合多模態(tài)輸出并識別關(guān)鍵關(guān)系;批評智能體(Critic Agent)對模型結(jié)論進行批判性分析;報告智能體(Reporting Agent)將復(fù)雜的研究發(fā)現(xiàn)轉(zhuǎn)化為清晰的報告。
(來源:bioRxiv)
特別值得一提的是,OriGene 采用了獨特的“思維模板”(thinking template)機制。該論文共同通訊作者、上海交通大學(xué)鄭雙佳助理教授鄭鄭雙佳向 DeepTech 表示,目前的 AI 系統(tǒng)雖然在工具調(diào)用方面表現(xiàn)出色,但在復(fù)雜的邏輯推理上仍可能出現(xiàn)偏差。因此,團隊從大量生物信息學(xué)研究論文中提取了專家的推理模式,形成結(jié)構(gòu)化的思維模板來引導(dǎo) AI 的推理過程。“這就像給 AI 配備了一位經(jīng)驗豐富的導(dǎo)師,確保它按照科學(xué)的方法論來分解問題和選擇工具?!?/p>
OriGene 的另一個突破性創(chuàng)新是其雙重自進化能力。在單個問題解決層面,系統(tǒng)通過迭代的任務(wù)分解、工具利用、反思和重新規(guī)劃過程,不斷優(yōu)化答案質(zhì)量。當(dāng)系統(tǒng)處理復(fù)雜的生物學(xué)問題時,會像 DeepResearch 方法一樣,通過增加計算資源和迭代次數(shù)來提升響應(yīng)質(zhì)量。實驗表明,將計算成本增加九倍時,系統(tǒng)在基準(zhǔn)測試上的準(zhǔn)確率從 62.81% 提升到了 78.39%。
更重要的是,OriGene 還具備系統(tǒng)級的自進化能力。系統(tǒng)能夠從自己生成的高質(zhì)量解決方案中提取新的思維模板,不斷擴充和優(yōu)化其推理能力?!斑@創(chuàng)造了一個良性循環(huán):高質(zhì)量的輸出成為模板提取的輸入,生成具有增強推理模式的第二代模板?!编嶋p佳說,“這種多代模板演化使得 OriGene 能夠在沒有傳統(tǒng)模型重新訓(xùn)練的情況下,持續(xù)提升其能力?!?/p>
為了客觀評估 OriGene 的性能,研究團隊構(gòu)建了目前靶標(biāo)發(fā)現(xiàn)領(lǐng)域最大的基準(zhǔn)測試集 TRQA(Target Research Question-Answering),包含 1915 個專家級別的問答對,涵蓋了廣泛的疾病和靶標(biāo)類型范圍。在測試中,OriGene 的表現(xiàn)超越了人類專家、通用語言模型(如 GPT-4o 和 DeepSeek-V3),以及現(xiàn)有的專業(yè) AI 智能體系統(tǒng)。
(來源:bioRxiv)
OriGene 的另一個突出特點是其龐大的工具生態(tài)系統(tǒng)。系統(tǒng)集成了超過 500 種專業(yè)工具和 18 個精選的生物醫(yī)學(xué)數(shù)據(jù)庫,形成了一個統(tǒng)一的分析框架。這些工具涵蓋了疾病生物學(xué)、基礎(chǔ)生物學(xué)、藥理學(xué)和競爭格局分析四個關(guān)鍵領(lǐng)域。通過 MCP(Model Context Protocol)協(xié)議,系統(tǒng)能夠靈活調(diào)用從 ClinVar(臨床變異數(shù)據(jù)庫)到 AlphaFold(蛋白質(zhì)結(jié)構(gòu)預(yù)測)等各種專業(yè)資源。
OriGene 的真正價值在實際應(yīng)用中得到了驗證。團隊將 OriGene 應(yīng)用于肝癌(HCC,Hepatocellular Carcinoma)和結(jié)直腸癌(CRC,Colorectal Cancer)的靶標(biāo)發(fā)現(xiàn),成功識別出了兩個原創(chuàng)治療靶標(biāo):GPR160 和 ARG2。
在肝癌研究中,OriGene 從 125 個初始候選靶標(biāo)中,通過多輪迭代分析,最終鎖定了 GPR160。系統(tǒng)分析顯示,GPR160 在肝癌組織中顯著高表達(dá),且其表達(dá)水平與患者的無復(fù)發(fā)生存期(Recurrence-Free Survival)呈顯著負(fù)相關(guān)。后續(xù)的實驗驗證完全證實了 OriGene 的預(yù)測:GPR160 抑制劑不僅能直接殺傷肝癌細(xì)胞,還能顯著激活 T 細(xì)胞的抗腫瘤免疫反應(yīng)。
“我們發(fā)現(xiàn) GPR160 抑制劑在病人來源的類器官(Patient-Derived Organoids)中表現(xiàn)出了很好的抗腫瘤活性。”鄭雙佳介紹說,“在人源化小鼠模型中,GPR160 抑制劑顯著抑制了腫瘤生長,同時促進了 CD4+ 和 CD8+ T 細(xì)胞向腫瘤微環(huán)境的浸潤。”
在結(jié)直腸癌的研究中,OriGene 同樣展現(xiàn)了出色的靶標(biāo)發(fā)現(xiàn)能力。系統(tǒng)從 86 個候選靶標(biāo)中識別出了 ARG2,并制定了完整的實驗驗證策略。實驗結(jié)果表明,ARG2 抑制劑在 4 例轉(zhuǎn)移性結(jié)直腸癌病人來源類器官中都顯示出了顯著的抗腫瘤活性。
(來源:bioRxiv)
這些發(fā)現(xiàn)的意義不僅在于找到了新的治療靶點,更重要的是證明了 AI 系統(tǒng)能夠自主完成從海量數(shù)據(jù)分析到實驗方案設(shè)計的完整流程。
當(dāng)然,作為一個開創(chuàng)性的系統(tǒng),OriGene 仍然面臨一些挑戰(zhàn)。鄭雙佳表示:“我們的工具調(diào)用其實還不夠好,由于工具數(shù)量龐大,很多沖突的結(jié)論讓 AI 難以判斷哪個更準(zhǔn)確?!贬槍Υ耍瑘F隊正在通過強化學(xué)習(xí)和自進化系統(tǒng)來解決這一問題。
另一個重要挑戰(zhàn)是數(shù)據(jù)資源的擴展?!拔覀儸F(xiàn)在接入了一些開源工具,但在升級版本中,我們已經(jīng)和多家商業(yè)數(shù)據(jù)/情報庫公司建立了合作?!编嶋p佳透露,“通過我們平臺,這些公司愿意將數(shù)據(jù)以 API 形式提供給我們,以更好地發(fā)現(xiàn)新的靶標(biāo)。”
安全性也是團隊高度重視的問題?!坝捎谙到y(tǒng)過于通用,如果有人想要往不良方向使用,比如提出與健康無關(guān)的有害建議,我們現(xiàn)在的防御措施還不夠完善。”鄭雙佳表示,團隊正在加強安全性過濾機制的開發(fā)。
團隊計劃在今年 7 月的世界人工智能大會上正式發(fā)布這一系統(tǒng)。“我們希望通過這個工作讓領(lǐng)域內(nèi)的研究者看到,中國在這個方向上也在積極探索,并且已經(jīng)取得了不錯的進展?!?/p>
日前,相關(guān)研究成果以《OriGene:一種自動進行治療靶點發(fā)現(xiàn)的自我進化虛擬疾病生物學(xué)家》(OriGene: A Self-Evolving Virtual Disease Biologist Automating Therapeutic Target Discovery)為題,發(fā)布于預(yù)印本平臺 bioRxiv。
上海交通大學(xué)、臨港實驗室聯(lián)合培養(yǎng)研究生張仲岳和周卓敏,復(fù)旦大學(xué)智能復(fù)雜體系實驗室本科生邱子杰,復(fù)旦大學(xué)附屬中山醫(yī)院博士生吳英成,西湖大學(xué)工學(xué)院博士后李舒雅和臨港實驗室青年研究員王鼎言為共同第一作者。
上海人工智能實驗室青年科學(xué)家白磊,復(fù)旦大學(xué)附屬中山醫(yī)院高強教授,復(fù)旦大學(xué)、上海人工智能實驗室研究員孫思琦,上海交通大學(xué)院助理教授、臨港實驗室雙聘研究員鄭雙佳擔(dān)任共同通訊作者。
圖丨相關(guān)論文(來源:bioRxiv)
參考資料:
1.https://www.biorxiv.org/content/10.1101/2025.06.03.657658v1
2.https://gentel-lab.github.io/OriGene-Homepage/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.