網易首頁 > 網易號 > 正文申請入駐

AI讀懂化學反應，中國科學院開發(fā)化學反應描述語言，登Nature子刊

2025-05-23 13:50:29　來源: ScienceAI

天津舉報

分享至

編輯 | 白菜葉

隨著人工智能的快速發(fā)展，大型語言模型越來越多地被用于應對各類科學挑戰(zhàn)。這里有一個關鍵步驟：需要將特定領域的數(shù)據(jù)轉換為用于語言建模的標記序列。

在化學領域，分子通常用分子線性符號表示，化學反應則被描述為反應物和產物的序列對。然而，這種方法無法捕捉反應過程中原子和鍵的變化。

中國科學院、Proton Unfold 等組成的聯(lián)合研究團隊提出了 ReactSeq，一種定義分子編輯操作以進行逐步化學轉化的反應描述語言。

基于 ReactSeq，逆向合成預測的語言模型幾乎在所有基準測試中始終表現(xiàn)出色，并在人機交互和可解釋的人工智能中展現(xiàn)出極大潛力。

此外，ReactSeq 使研究人員能夠獲得通用且可靠的化學反應表征，實現(xiàn)在反應空間的準確導航，并有助于優(yōu)化實驗步驟和預測反應產量。該團隊認為，ReactSeq 可以成為縮小化學與人工智能之間發(fā)展差距的橋梁。

研究以「Bridging chemistry and artificial intelligence by a reaction description language」為題，于 2025 年 5 月 13 日發(fā)布在《Nature Machine Intelligence》。

背景

以大型語言模型（LM）為代表的人工智能技術在自然語言處理領域取得了前所未有的突破，深刻影響著科研模式。在化學和制藥領域，處理化學分子和反應的化學語言模型（CLM）這一重要概念應運而生。

與自然語言、蛋白質和基因不同，化學分子缺乏固有的序列表示。CLM 利用化學家定義的分子線性符號來學習和生成分子結構。最常用的分子線性符號是簡化分子線性輸入系統(tǒng)（SMILES）。

然而，這些符號僅能描述分子的靜態(tài)結構，無法清晰表達化學反應中原子和鍵的動態(tài)變化，限制了其在反應預測中的應用。

現(xiàn)有方法（如兩階段設計的合成子轉化模型）雖然提升了可解釋性，但是同時也增加了復雜性，且受 SMILES 語法限制，無法詳細描述原子級變化。此外，目前化學反應的向量表征仍面臨挑戰(zhàn)，自監(jiān)督方法難以捕捉反應間相似性。

因此，開發(fā)新的化學反應描述語言是關鍵，需兼顧預測準確性、可解釋性、可控性，并能生成高質量的反應表征從而支持下游任務。

化學反應描述語言

在最新的研究中，中國科學院、Proton Unfold 等組成的聯(lián)合研究團隊提出了一種名為 ReactSeq 的反應描述語言，旨在實現(xiàn)上述目標。

圖示：整體概述。（來源：論文）

受逆合成過程的啟發(fā)，ReactSeq 定義了產物結構以及將其轉化回反應物分子所需的分子編輯操作 (MEO)。這些 MEO 包括化學鍵的斷裂和改變、原子電荷的改變以及離去基團 (LG) 的添加等。

具體來講，ReactSeq 由兩部分組成：頭部和尾部。頭部包含目標分子的結構細節(jié)以及其原子和鍵的變化信息，描述如何將其轉化為相應的合成子。尾部包含 LG 的結構及其與合成子的連接位置，描述如何將合成子完成為反應物。

在標準 SMILES 中，雙鍵和三鍵的 token 可見，而單鍵的 token 則隱藏。但是，可以使用具有顯式鍵的 SMILES 指定隱藏的 token。

通過將 SMILES 中的這些鍵標記替換為 MEO 標記（例如，使用感嘆號“!”表示鍵斷裂），研究人員得到了 ReactSeq 的頭部，用于記錄化學鍵的變化和斷裂。逆合成中的某些目標分子不涉及重原子之間鍵的斷裂或改變，而是直接連接到分子蓋層。

在這種情況下，首先將原子標記轉換為顯式氫模式，例如將 O 更改為 [OH]，然后再添加相應的 MEO 標記 (~)。此外，ReactSeq 還定義了手性、電荷和順反異構體的變化。

圖示：ReactSeq 的插圖。（來源：論文）

為了獲得 ReactSeq 的尾部，首先要識別目標分子中能夠連接到 LG 的原子，即附著點。這些原子包括直接連接到 LG 或參與斷鍵或還原的原子。每個附著點的 LG 都括在尖括號中，并根據(jù)其連接附著點的原子索引進行排序。按照這些步驟，即可獲得一個標準的頭尾 ReactSeq，并與目標分子的 SMILES 保持高度比對。

基于 ReactSeq 的模型性能

在基于 ReactSeq 的逆合成語言模型中，反應物并非從零開始逐個標記生成，而是通過這些中間態(tài)氧化單元 (MEO) 從產物分子轉化而來。這確保了預測反應物和產物之間精確的原子映射，從而增強了模型的可解釋性。使用 ReactSeq，普通的反式分子模型 (vanilla transformer) 可以在逆合成預測中取得最佳性能。

圖示：使用 ReactSeq 進行可解釋的逆合成預測。（來源：論文）

此外，ReactSeq 具有表示 MEO 的顯式 token，從而支持人工指令的編碼。測試結果表明，人類專家的提示可以顯著提升模型的性能，甚至可以引導模型探索新的反應。此外，這些 MEO token 的嵌入提供了一種通用且可靠的反應表征。這些自監(jiān)督表征可以自然地區(qū)分不同的反應類型并評估它們的相似性，從而促進相似反應的檢索、實驗步驟的推薦和反應產量的預測。

總而言之，ReactSeq 代表了化學語言的重大擴展，并賦予了化學語言模型（CLM）一系列極具潛力的新興能力。這一進展使科學家能夠應對許多此前難以企及的化學挑戰(zhàn)，為化學人工智能基礎模型的開發(fā)開辟了新的途徑。

論文鏈接：https://www.nature.com/articles/s42256-025-01032-8

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.