導(dǎo)語(yǔ)
在有機(jī)化學(xué)前沿,解析復(fù)雜反應(yīng)背后的動(dòng)力學(xué)機(jī)制始終是一項(xiàng)挑戰(zhàn)。如今,人工智能正在打破人類(lèi)經(jīng)驗(yàn)的局限。上海交大最新發(fā)布的KinFormer模型,首次實(shí)現(xiàn)了從實(shí)驗(yàn)數(shù)據(jù)中自動(dòng)發(fā)現(xiàn)未知化學(xué)反應(yīng)機(jī)理,并能在跨反應(yīng)類(lèi)型的情況下進(jìn)行精準(zhǔn)預(yù)測(cè)。它不僅融合了物理定律與智能搜索,更代表了化學(xué)動(dòng)力學(xué)走向智能化、可解釋的新紀(jì)元。在有機(jī)化學(xué)的最前沿,解析復(fù)雜反應(yīng)背后的動(dòng)力學(xué)機(jī)制始終是一項(xiàng)挑戰(zhàn)。如今,人工智能正在打破人類(lèi)經(jīng)驗(yàn)的局限。上海交大最新發(fā)布的KinFormer模型,首次實(shí)現(xiàn)了從實(shí)驗(yàn)數(shù)據(jù)中自動(dòng)發(fā)現(xiàn)未知化學(xué)反應(yīng)機(jī)理,并能在跨反應(yīng)類(lèi)型的情況下進(jìn)行精準(zhǔn)預(yù)測(cè)。它不僅融合了物理定律與智能搜索,更代表了化學(xué)動(dòng)力學(xué)走向智能化、可解釋的新紀(jì)元。
關(guān)鍵詞:生成式符號(hào)回歸,反應(yīng)動(dòng)力學(xué)建模,物理約束智能搜索
來(lái)源:集智俱樂(lè)部
作者:上海交通大學(xué)人工智能研究院AI for Science團(tuán)隊(duì)
引言:邁向精準(zhǔn)預(yù)測(cè)的催化反應(yīng)動(dòng)力學(xué)
在有機(jī)化學(xué)合成的前沿,從創(chuàng)新藥物分子到高性能功能材料,其核心驅(qū)動(dòng)力往往源于對(duì)反應(yīng)機(jī)理的深刻理解。建立定量的反應(yīng)動(dòng)力學(xué)模型,精準(zhǔn)刻畫(huà)反應(yīng)物濃度隨時(shí)間演化的規(guī)律,是實(shí)現(xiàn)催化劑理性設(shè)計(jì)和反應(yīng)過(guò)程高效優(yōu)化的關(guān)鍵環(huán)節(jié)。這類(lèi)模型能夠建立微觀動(dòng)力學(xué)參數(shù)(如活化能、過(guò)渡態(tài)穩(wěn)定性)與宏觀催化性能(如轉(zhuǎn)化率、選擇性)之間的橋梁,從而推動(dòng)催化研究從傳統(tǒng)的“試錯(cuò)篩選”向“理論預(yù)測(cè)”范式轉(zhuǎn)變。然而,精準(zhǔn)構(gòu)建此類(lèi)動(dòng)力學(xué)模型長(zhǎng)期面臨嚴(yán)峻挑戰(zhàn):
1. 機(jī)理先驗(yàn)依賴(lài)?yán)Ь?: 傳統(tǒng)方法高度依賴(lài)化學(xué)家預(yù)設(shè)反應(yīng)路徑,本質(zhì)上屬于“假設(shè)驅(qū)動(dòng)”范式。這不僅效率低下,遍歷可能的中間態(tài)組合耗時(shí)耗力,更存在因經(jīng)驗(yàn)不足或認(rèn)知局限導(dǎo)致的機(jī)理假設(shè)主觀偏差風(fēng)險(xiǎn)。
2. 數(shù)據(jù)驅(qū)動(dòng)建模的泛化壁壘 : 新興的符號(hào)回歸技術(shù)(Symbolic Regression)雖能直接從數(shù)據(jù)中學(xué)習(xí)微分方程形式,但在復(fù)雜的催化反應(yīng)動(dòng)力學(xué)建模中表現(xiàn)不佳。現(xiàn)有模型(如 ODEFormer )難以有效捕捉催化反應(yīng)特有的復(fù)雜動(dòng)力學(xué)特征(如多步耦合、非線性相互作用),在跨不同反應(yīng)機(jī)制泛化時(shí),常常出現(xiàn)方程結(jié)構(gòu)失配或違背基本物理守恒律(如質(zhì)量守恒)等系統(tǒng)性問(wèn)題。
圖1有機(jī)催化反應(yīng)機(jī)理圖
突破瓶頸:KinFormer——數(shù)據(jù)驅(qū)動(dòng)的通用動(dòng)力學(xué)機(jī)制發(fā)現(xiàn)者
為攻克上述雙重挑戰(zhàn),上海交通大學(xué)人工智能研究院 AI for Science團(tuán)隊(duì)許巖巖等人 在 機(jī)器學(xué)習(xí)頂會(huì) ICLR 2025上提出了 KinFormer 。 首個(gè)利用化學(xué)反應(yīng)實(shí)驗(yàn)數(shù)據(jù)發(fā)現(xiàn)反應(yīng)動(dòng)力學(xué)方程的人工智能模型, 在數(shù)據(jù)驅(qū)動(dòng)方法的基礎(chǔ)上通過(guò)條件訓(xùn)練策略 有效捕捉動(dòng)力學(xué)方程之間的依賴(lài)關(guān)系, 隱式建模包含在反應(yīng)動(dòng)力學(xué)方程中的物理定律,結(jié)合搜索算法, 在少量反應(yīng)模式訓(xùn)練下 構(gòu)建 可泛化 的反應(yīng)機(jī)理發(fā)現(xiàn)模型 , 可 應(yīng)用于發(fā)現(xiàn)新的化學(xué)反應(yīng)機(jī)理。
創(chuàng)新機(jī)制:融合物理約束與智能搜索的動(dòng)力學(xué)方程預(yù)測(cè)框架
KinFormer 的設(shè)計(jì)精髓在于如何讓模型“理解”并遵循化學(xué)反應(yīng)的內(nèi)在物理規(guī)律:
1. 條件式訓(xùn)練策略:打破端到端模型的泛化瓶頸
KinFormer 摒棄了直接端到端生成整個(gè)方程組的傳統(tǒng)做法。在訓(xùn)練過(guò)程中,模型被要求基于隨機(jī)選擇的部分已知方程(作為條件),去預(yù)測(cè)下一個(gè)目標(biāo)微分方程。這種“條件預(yù)測(cè)”任務(wù) 促 使模型深入挖掘并 隱式學(xué)習(xí) 不同方程之間由 質(zhì)量作用定律 所決定的 動(dòng)態(tài)依賴(lài)關(guān)系 (例如,反應(yīng)物消耗速率與中間體生成速率的必然聯(lián)系)以及共享的動(dòng)力學(xué)參數(shù)(如速率常數(shù))。通過(guò) 隨機(jī)打亂方程作為條件的組合和預(yù)測(cè)順序 ,模型有效避免了死記硬背固定方程排列,轉(zhuǎn)而專(zhuān)注于捕捉其內(nèi)在的物理邏輯。
圖2訓(xùn)練策略對(duì)比圖
2. 蒙特卡洛樹(shù)搜索( MCTS):生成順序的全局優(yōu)化
條件策略對(duì)預(yù)測(cè)順序存在敏感性。 KinFormer 創(chuàng)新性地在方程生成層面引入 方程級(jí) MCTS 模塊。它將每個(gè)待生成的微分方程視為搜索樹(shù)的一個(gè)節(jié)點(diǎn),利用概率上界置信啟發(fā)(P-UCB) 策略智能地探索不同的方程組生成路徑。關(guān)鍵的是,MCTS會(huì)對(duì)候選的生成序列進(jìn)行數(shù)值模擬驗(yàn)證,并 結(jié)合 雙指標(biāo) 評(píng)估( r 2 m 和 r 2 M )計(jì)算 路徑的“獎(jiǎng)勵(lì)”值,通過(guò)反向傳播不斷更新 節(jié)點(diǎn)權(quán)重。這一過(guò)程 動(dòng)態(tài)優(yōu)化生成順序 ,最終目標(biāo)是確保預(yù)測(cè)出的整個(gè)微分方程組在數(shù)學(xué)和物理上保持 自洽與一致性 。
圖3MCTS生成順序搜索框架圖
實(shí)驗(yàn)結(jié)果:泛化能力與性能優(yōu)勢(shì)
研究團(tuán)隊(duì)在涵蓋 20類(lèi)具有代表性的催化有機(jī)反應(yīng)(包括基礎(chǔ)核心機(jī)制、復(fù)雜的雙催化體系、以及涉及催化劑活化/失活的關(guān)鍵過(guò)程)上對(duì) KinFormer 進(jìn)行了嚴(yán)格驗(yàn)證,結(jié)果顯著優(yōu)于現(xiàn)有方法:
1. 強(qiáng)大的 跨機(jī)制 泛化 : 在最具挑戰(zhàn)性的“跨類(lèi)別”場(chǎng)景(例如,模型在訓(xùn)練中從未接觸過(guò)特定類(lèi)型的催化劑活化機(jī)制)下, KinFormer 的方程形式準(zhǔn)確率( Accform )達(dá)到了81.41%。這一成績(jī)遠(yuǎn)超傳統(tǒng)符號(hào)回歸方法(如 SINDy , PySR )及同類(lèi)Transformer模型(如 ODEFormer ),提升幅度超過(guò)30個(gè)百分點(diǎn),充分證明了其發(fā)現(xiàn)新機(jī)制的能力。
2. 優(yōu)異的噪聲魯棒性 : 面對(duì)現(xiàn)實(shí)實(shí)驗(yàn)中不可避免的噪聲干擾, KinFormer 即使在輸入數(shù)據(jù)包含顯著高斯噪聲(標(biāo)準(zhǔn)差1e-4) 的情況下,依然能夠準(zhǔn)確預(yù)測(cè)主要反應(yīng)物種的濃度變化軌跡。
3. 高效的智能搜索 : MCTS優(yōu)化模塊展現(xiàn)出高效的搜索能力,通常在20次迭代內(nèi)即可收斂,其推理速度是傳統(tǒng)束搜索(Beam Search)的3倍,且最終性能更優(yōu)。
完整實(shí)驗(yàn)結(jié)果請(qǐng)參考原始論文。
圖4 主要實(shí)驗(yàn)結(jié)果圖
研究意義:推動(dòng)化學(xué)動(dòng)力學(xué)的智能化發(fā)展
創(chuàng)新 性科學(xué)工具 : 為化學(xué)家提供了強(qiáng)大的自動(dòng)化工具,能夠直接從實(shí)驗(yàn)數(shù)據(jù)中解析甚至發(fā)現(xiàn)未知的反應(yīng)機(jī)理,極大加速了新催化劑設(shè)計(jì)與反應(yīng)過(guò)程優(yōu)化,減少對(duì)人工經(jīng)驗(yàn)假設(shè)的依賴(lài)。
普適性方法論 : KinFormer 所開(kāi)創(chuàng)的“ 條件訓(xùn)練 + 物理引導(dǎo)的全局搜索 ”范式,為解決符號(hào)回歸中物理約束嵌入的難題提供了新思路。該方法避免了傳統(tǒng)上需要設(shè)計(jì)復(fù)雜顯式規(guī)則的繁瑣過(guò)程,具有很強(qiáng)的擴(kuò)展性,可廣泛應(yīng)用于物理、生物、工程等領(lǐng)域中具有內(nèi)在規(guī)律(守恒律、對(duì)稱(chēng)性等)的動(dòng)力學(xué)系統(tǒng)建模。
持續(xù)探索 : 研究團(tuán)隊(duì)正致力于提升模型對(duì)更高維反應(yīng)體系和更強(qiáng)噪聲/稀疏數(shù)據(jù)的魯棒性,并推動(dòng)其在真實(shí)實(shí)驗(yàn)室場(chǎng)景中的實(shí)際應(yīng)用,引領(lǐng)化學(xué)動(dòng)力學(xué)研究向智能化、自動(dòng)化深度發(fā)展。
論文標(biāo)題:KINFORMER: GENERALIZABLE DYNAMICAL SYMBOLIC REGRESSION FOR CATALYTIC ORGANIC REACTION KINETICS
會(huì)議:ICLR 2025
引用格式:
Chen, Jindou, Jidong Tian, Liang Wu, Xinwei Chen , Xiaokang Yang, Yaohui Jin , and Yanyan Xu. " KinFormer : Generalizable Dynamical Symbolic Regression for Catalytic Organic Reaction Kinetics." In The Thirteenth International Conference on Learning Representations .
團(tuán)隊(duì)介紹 :
上海交通大學(xué)人工智能研究院 AI for Science團(tuán)隊(duì)在楊小康教授、金耀輝教授、許巖巖副教授帶領(lǐng)下,包括十余位 博士后與碩博 研究生,重點(diǎn)研究生成式人工智能,特別是科學(xué)大模型賦能化學(xué)研究,針對(duì)有機(jī)化學(xué)合成、自動(dòng)化實(shí)驗(yàn)等重大問(wèn)題提出了一系列創(chuàng)新解決方案。團(tuán)隊(duì)發(fā)布了首個(gè)化學(xué)合成大語(yǔ)言模型——白玉蘭科學(xué)大模型,是首個(gè)具備反應(yīng)生成與“人在環(huán)路”反饋優(yōu)化能力、能夠指導(dǎo)實(shí)驗(yàn)探索的化學(xué)大模型,具有分子設(shè)計(jì)、逆合成線路規(guī)劃、反應(yīng)條件生成、反應(yīng)產(chǎn)率預(yù)測(cè)、實(shí)驗(yàn)條件優(yōu)化迭代等化學(xué) 合成全 功能。團(tuán)隊(duì)研究成果已發(fā)表于Nature Energy, Nature Computational Science (封面), Nature Machine Intelligence, Science Advances, 以及CCF A類(lèi)會(huì)議。團(tuán)隊(duì)所屬的上海交通大學(xué)人工智能研究院、人工智能教育部重點(diǎn)實(shí)驗(yàn)室計(jì)算資源豐富,積累大量數(shù)據(jù)和基礎(chǔ)模型,并與化學(xué)與化工學(xué)院、變革性分子前沿科學(xué)中心團(tuán)隊(duì)緊密合作,形成交叉學(xué)科研究體系。
閱讀最新前沿科技趨勢(shì)報(bào)告,請(qǐng)?jiān)L問(wèn)歐米伽研究所的“未來(lái)知識(shí)庫(kù)”
https://wx.zsxq.com/group/454854145828
未來(lái)知識(shí)庫(kù)是“ 歐米伽 未來(lái)研究所”建立的在線知識(shí)庫(kù)平臺(tái),收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類(lèi)風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來(lái)趨勢(shì)。目前擁有超過(guò)8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問(wèn)https://wx.zsxq.com/group/454854145828進(jìn)入。
截止到3月31日 ”未來(lái)知識(shí)庫(kù)”精選的百部前沿科技趨勢(shì)報(bào)告
(加入未來(lái)知識(shí)庫(kù),全部資料免費(fèi)閱讀和下載)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.