編輯 | ScienceAI
在化學、材料等前沿領域,每一次突破都離不開大量的實驗驗證,而實驗往往代價高昂、周期漫長。傳統(tǒng) AI 模型雖然能 “紙上談兵” 生成大量假設,但多停留在 “實驗前假設排名” 階段。即,AI 通過大模型(LLMs)的內部推理,預先篩選出一批假設。但這終究是 “紙上談兵”,一旦進入真實實驗,缺乏對經驗反饋的利用,AI 就成了旁觀者,無法根據實驗結果動態(tài)調整。
為了打破這個瓶頸,來自上海人工智能實驗室、中國科學技術大學、南洋理工大學等機構的研究團隊發(fā)表了一項突破性研究成果——MOOSE-Chem3,讓 AI能在實驗反饋中“學習”,實時引導科學發(fā)現。
論文鏈接:https://www.arxiv.org/pdf/2505.17873
項目鏈接:https://github.com/wanhaoliu/MOOSE-Chem3.git
該工作開創(chuàng)性地提出了 “實驗引導的假設排名”(Experiment-Guided Hypothesis Ranking)這一全新范式:讓 AI 不再僅僅是假設的 “生成器”,而是深入到實驗環(huán)節(jié),讓 AI 在每一次實驗后做到:
- 實時優(yōu)化:根據實驗結果,動態(tài)調整所有假設的優(yōu)先級
- 高效決策:幫助科學家選出下一個最具潛力的實驗方向
- 減少試錯:最大限度節(jié)省實驗次數與資源投入
核心引擎:MOOSE-Chem3 如何實現 “智能實驗引導”
要讓 AI 能夠 “邊做邊學”,首先需要一個能模擬真實實驗結果的強大工具。然而,真實實驗成本極高,無法大規(guī)模用于 AI 訓練,研究團隊為此構建了:獨創(chuàng)的 “領域專家知識模擬器 CSX-smi”。
CSX-smi 并非憑空捏造,它基于研究人員與領域專家深度交流后確定的三個核心假設,旨在精確模擬化學實驗的 “真實” 反饋過程。
AI 在模擬器中 “沙盤推演”:四步迭代策略
MOOSE-Chem3 并非簡單地 “測試” 假設,而是采用一套結構化、迭代式的策略。深入分析發(fā)現,有效的假設通常包含足夠數量的關鍵化學組分,它們共同發(fā)揮互補的機制作用,并與研究問題 q 緊密相關。基于這一洞察,MOOSE-Chem3 設計了以下四個核心步驟:
1. 第一步:功能組分提取、分類與聚類。AI 首先將每個候選假設 h 分解為不同的功能化學組分(即可能對目標反應機制有貢獻的獨特子結構或基序)。隨后,這些組分會被分類為:有效、不確定和無效。無效組分將被直接排除,以減少計算開銷。剩余的組分則根據其功能相似性進行聚類,每個聚類代表對解決問題 q 的一種獨特的機制貢獻。
2. 第二步:智能聚類與假設選擇。在大語言模型(LLM)預訓練的化學知識引導下,框架會識別出最有可能包含與研究問題 q 高度相關組分的聚類。在此基礎上,LLM 智能體將根據組分相關性和先驗知識,在該聚類中選擇一個最有前景的假設 h。
3. 第三步:模擬實驗執(zhí)行與結果分析。被選定的假設 h 將被輸入到實驗執(zhí)行器(即 CSX-smi 模擬器)中進行評估。模擬器會返回一個標準化性能得分 s。隨后,AI 對這個模擬實驗結果進行深入分析,以評估所選聚類的有效性,并驗證或更新已有的機制假設。
4. 第四步:迭代總結與持續(xù)優(yōu)化。在每次模擬實驗評估之后,系統(tǒng)都會進行詳細分析,并將獲得的分析整合到一個持續(xù)更新的累計總結中。這份總結綜合了之前所有分析的見解,突出顯示有效的聚類,并為未來的假設和聚類選擇提供具體指導。
通過迭代地利用先驗化學知識和來自模擬實驗的經驗反饋,MOOSE-Chem3 框架能夠系統(tǒng)性地優(yōu)化假設的優(yōu)先級。其總體目標是:高效識別最優(yōu)假設,同時最大程度地減少所需的實驗次數。
CSX-smi:模擬真實,驗證智能
這樣的模擬是否有效? 研究團隊進行了嚴謹的驗證。
測試數據集: 研究團隊收集了 124 個真實的化學實驗假設,針對 30 個不同的化學科學問題進行測試。
評估指標:
- 趨勢一致性 (Trend Alignment): 使用 Spearman 相關系數(Perfect Consistency Indicator, PCI)衡量,看模擬結果的趨勢是否與真實實驗結果高度一致。
- 預測準確性 (Predictive Accuracy): 使用均方根誤差 (Root Mean Square Error, RMSE) 衡量,評估模擬器預測數值的準確性。
驚人結果:CSX-smi 與真實實驗高度匹配
- 趨勢預測: 在 30 組實驗中,CSX-smi 的預測 Spearman 相關系數高達 0.96!其中 26 組實驗的預測趨勢與真實結果完全一致!這表明,CSX-smi 能精準捕捉到化學實驗的關鍵趨勢。
- 數值準確性: 均方根誤差僅為 0.213,顯示了極高的預測準確性。
基于 CSX-smi 的智能排序方法:CSX-Rank
有了高保真模擬器,研究團隊進一步開發(fā)了 CSX-Rank—— 一種聚類驅動的實驗引導假設排名方法。
CSX-Rank 通過實時分析模擬(實驗過)的假設反饋,對物質的機理進行聚類分析和思考總結,結合模型知識和實驗反饋,推薦新的科學假設。
在 TOMATO-chem dataset(包含 1 個 “最優(yōu)假設” 和 63 個負樣本,共 64 個假設)上的測試發(fā)現,由于化學知識的多樣性和復雜性,對關鍵概念理解的微小偏差可能導致結果的嚴重偏離。CSX-Rank 將識別最優(yōu)假設的平均實驗次數(Ntrials)從基線的 32 次降至 15 次。通過消融實驗,發(fā)現聚類方法能有效降低這種偏差帶來的影響。
魯棒性驗證:AI 在噪聲中依然卓越
研究團隊還在模擬器中引入了不同等級的噪聲來驗證 CSX-Rank 的魯棒性。結果顯示:
- 隨著噪聲復雜性的增加,所有方法的性能都逐漸下降,這在更高的實驗次數(Ntrials)中體現。
- CSX-Rank 始終優(yōu)于其消融變體,即使在復雜噪聲下也保持了顯著的效率優(yōu)勢。這些結果突顯了功能聚類和反饋分析在減輕誤導信號和保持搜索效率方面的魯棒性。
MOOSE-Chem3 的非凡價值:
- 大幅降低研發(fā)成本: 將昂貴的濕實驗室試錯,變?yōu)楦咝У?“虛擬沙盤推演”。
- 顯著縮短研發(fā)周期: 快速驗證和迭代科學假設,加速新材料、新藥物的研發(fā)進程。
- AI 輔助科學家突破: 讓 AI 成為科研人員最強大的 “智能實驗助手”,指引每一次關鍵決策。
MOOSE-Chem3 不僅僅是 AI 輔助科學研究的一個工具,更是走向數據驅動、智能決策的科學新范式的關鍵一步!它將徹底改變科學家們的工作方式,讓科研的未來充滿無限可能!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.