編輯 | 白菜葉
隨著人工智能的快速發(fā)展,大型語言模型越來越多地被用于應對各類科學挑戰(zhàn)。這里有一個關鍵步驟:需要將特定領域的數(shù)據(jù)轉換為用于語言建模的標記序列。
在化學領域,分子通常用分子線性符號表示,化學反應則被描述為反應物和產物的序列對。然而,這種方法無法捕捉反應過程中原子和鍵的變化。
中國科學院、Proton Unfold 等組成的聯(lián)合研究團隊提出了 ReactSeq,一種定義分子編輯操作以進行逐步化學轉化的反應描述語言。
基于 ReactSeq,逆向合成預測的語言模型幾乎在所有基準測試中始終表現(xiàn)出色,并在人機交互和可解釋的人工智能中展現(xiàn)出極大潛力。
此外,ReactSeq 使研究人員能夠獲得通用且可靠的化學反應表征,實現(xiàn)在反應空間的準確導航,并有助于優(yōu)化實驗步驟和預測反應產量。該團隊認為,ReactSeq 可以成為縮小化學與人工智能之間發(fā)展差距的橋梁。
研究以「Bridging chemistry and artificial intelligence by a reaction description language」為題,于 2025 年 5 月 13 日發(fā)布在《Nature Machine Intelligence》。
背景
以大型語言模型(LM)為代表的人工智能技術在自然語言處理領域取得了前所未有的突破,深刻影響著科研模式。在化學和制藥領域,處理化學分子和反應的化學語言模型(CLM)這一重要概念應運而生。
與自然語言、蛋白質和基因不同,化學分子缺乏固有的序列表示。CLM 利用化學家定義的分子線性符號來學習和生成分子結構。最常用的分子線性符號是簡化分子線性輸入系統(tǒng)(SMILES)。
然而,這些符號僅能描述分子的靜態(tài)結構,無法清晰表達化學反應中原子和鍵的動態(tài)變化,限制了其在反應預測中的應用。
現(xiàn)有方法(如兩階段設計的合成子轉化模型)雖然提升了可解釋性,但是同時也增加了復雜性,且受 SMILES 語法限制,無法詳細描述原子級變化。此外,目前化學反應的向量表征仍面臨挑戰(zhàn),自監(jiān)督方法難以捕捉反應間相似性。
因此,開發(fā)新的化學反應描述語言是關鍵,需兼顧預測準確性、可解釋性、可控性,并能生成高質量的反應表征從而支持下游任務。
化學反應描述語言
在最新的研究中,中國科學院、Proton Unfold 等組成的聯(lián)合研究團隊提出了一種名為 ReactSeq 的反應描述語言,旨在實現(xiàn)上述目標。
圖示:整體概述。(來源:論文)
受逆合成過程的啟發(fā),ReactSeq 定義了產物結構以及將其轉化回反應物分子所需的分子編輯操作 (MEO)。這些 MEO 包括化學鍵的斷裂和改變、原子電荷的改變以及離去基團 (LG) 的添加等。
具體來講,ReactSeq 由兩部分組成:頭部和尾部。頭部包含目標分子的結構細節(jié)以及其原子和鍵的變化信息,描述如何將其轉化為相應的合成子。尾部包含 LG 的結構及其與合成子的連接位置,描述如何將合成子完成為反應物。
在標準 SMILES 中,雙鍵和三鍵的 token 可見,而單鍵的 token 則隱藏。但是,可以使用具有顯式鍵的 SMILES 指定隱藏的 token。
通過將 SMILES 中的這些鍵標記替換為 MEO 標記(例如,使用感嘆號“!”表示鍵斷裂),研究人員得到了 ReactSeq 的頭部,用于記錄化學鍵的變化和斷裂。逆合成中的某些目標分子不涉及重原子之間鍵的斷裂或改變,而是直接連接到分子蓋層。
在這種情況下,首先將原子標記轉換為顯式氫模式,例如將 O 更改為 [OH],然后再添加相應的 MEO 標記 (~)。此外,ReactSeq 還定義了手性、電荷和順反異構體的變化。
圖示:ReactSeq 的插圖。(來源:論文)
為了獲得 ReactSeq 的尾部,首先要識別目標分子中能夠連接到 LG 的原子,即附著點。這些原子包括直接連接到 LG 或參與斷鍵或還原的原子。每個附著點的 LG 都括在尖括號中,并根據(jù)其連接附著點的原子索引進行排序。按照這些步驟,即可獲得一個標準的頭尾 ReactSeq,并與目標分子的 SMILES 保持高度比對。
基于 ReactSeq 的模型性能
在基于 ReactSeq 的逆合成語言模型中,反應物并非從零開始逐個標記生成,而是通過這些中間態(tài)氧化單元 (MEO) 從產物分子轉化而來。這確保了預測反應物和產物之間精確的原子映射,從而增強了模型的可解釋性。使用 ReactSeq,普通的反式分子模型 (vanilla transformer) 可以在逆合成預測中取得最佳性能。
圖示:使用 ReactSeq 進行可解釋的逆合成預測。(來源:論文)
此外,ReactSeq 具有表示 MEO 的顯式 token,從而支持人工指令的編碼。測試結果表明,人類專家的提示可以顯著提升模型的性能,甚至可以引導模型探索新的反應。此外,這些 MEO token 的嵌入提供了一種通用且可靠的反應表征。這些自監(jiān)督表征可以自然地區(qū)分不同的反應類型并評估它們的相似性,從而促進相似反應的檢索、實驗步驟的推薦和反應產量的預測。
總而言之,ReactSeq 代表了化學語言的重大擴展,并賦予了化學語言模型(CLM)一系列極具潛力的新興能力。這一進展使科學家能夠應對許多此前難以企及的化學挑戰(zhàn),為化學人工智能基礎模型的開發(fā)開辟了新的途徑。
論文鏈接:https://www.nature.com/articles/s42256-025-01032-8
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.