編輯 | 蘿卜皮
分子表征是科學家理解物理世界的關鍵要素,也是現代分子機器學習的基礎。
先前的分子機器學習模型使用了字符串、指紋、全局特征和簡單的分子圖,這些本質上都是信息稀疏的表征。然而,隨著預測任務的復雜性不斷增加,分子表征需要編碼更高保真度的信息。
卡內基梅隆大學(Carnegie Mellon University)的研究人員提出了一種新方法,通過立體電子效應將富含量子化學信息的信息注入分子圖,從而增強分子圖的表達性和可解釋性。
通過雙圖神經網絡注入立體電子信息,該團隊顯著提升了分子性質預測模型的性能,并表明在小分子訓練的學習表征可以準確地外推到大分子(如蛋白質),這為分子設計提供了新方法,且無需昂貴量子計算。
該研究以「Advancing molecular machine learning representations with stereoelectronics-infused molecular graphs」為題,于 2025 年 5 月 23 日發布在《Nature Machine Intelligence》。
背景
分子表征是化學的基石。遵循化學家的直覺,骨架結構成為了化學的通用語言。它們使科學家能夠捕捉分子(主要是有機分子)的多樣性,同時保持其簡單性,使人類更容易識別常見模式。
除了影響人們對化學的思考和描述方式外,這些表征還推動了分子機器學習 (ML) 的進步,該技術已被用于各種應用。
機器學習在此類場景中最成功的應用之一是預測分子特性,這是化學、生物和材料科學的核心。從太陽能電池板材料的發現到創紀錄的新藥研發,分子機器學習通過實現快速推理,對現代科學產生了重大影響。
機器學習模型的性能與底層的分子表征密切相關,這可以說是其成功的最關鍵因素。標準分子表征方法包括全局描述符、字符串序列標記和共價鍵拓撲圖,部分方法還融入了空間結構信息。
一種新方法 SIMG
由于當前應用最多的圖表征缺乏量子化學先驗知識或可解釋性,另一方面計算化學已發展出量化軌道相互作用的立體電子分析技術。這種能解釋化學鍵相互作用(如蛋白質-底物結合)的信息若能被高效整合到分子表征中,將顯著提升機器學習模型的性能。
卡內基梅隆大學的研究人員提出了一種基于分子圖的新表示方法,該方法通過與鍵軌道、孤對電子及其相互作用(本質上編碼了關系型三維信息)相對應的節點來增強,稱為 SIMG(stereoelectronics-infused molecular graphs)。
圖示:常見的分子表征和新方法概述。(來源:論文)
研究人員在論文里描述了如何從自然鍵軌道 (NBO) 分析數據構建 SIMG 表示,并使用圖神經網絡 (SIMG*) 進行近似從而實現快速預測。
他們研究了將這些表示方法用作消息傳遞二維機器學習算法的輸入以進行分子性質預測的優勢。并進一步證明了 SIMG* 預測模型可以在小分子數據上進行訓練,并準確預測整個蛋白質的表征。
SIMG 擁有在直接量子化學 NBO 計算難以實現的體系中識別立體電子軌道相互作用的能力,從而揭示了此前無法獲得的化學洞見。
局限性
當然,也存在一些局限性。在該團隊的表示中,元素采用獨熱編碼,因此要添加另一個元素,需要收集包含新元素的結構的擴展 NBO 分析數據集。這可以通過使用元素的物理屬性作為特征來規避,但需要進一步研究。該研究也僅限于整體中性、閉殼層分子結構。研究人員正在將該方法擴展到可變電荷和開殼層分子。
結語
分子機器學習是藥物和材料發現、催化劑優化流程的關鍵組成部分,也是研究復雜生化過程的寶貴工具。
將量子力學特征融入分子機器學習的圖形表示中,將增強研究人員對這些算法的信任,有助于提高模型的可解釋性,并為研究電子結構與分子性質之間的關系開辟新的機遇。
預測的軌道信息也可用于分析各種體系中的化學反應性。
該團隊還發布了一個網絡應用程序 ,大家可以去嘗試一下。
程序鏈接:https://simg.cheme.cmu.edu/
論文鏈接:https://www.nature.com/articles/s42256-025-01031-9
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.