分子的理化性質,如前線軌道能級、化學鍵能、光譜特征等,構成了理解和預測分子化學行為的基礎。分子理化性質的精準認識,是人類探索分子世界的重要途徑之一,不僅有助于深入理解化學反應的微觀機制,還能夠有效指導新反應的設計與開發,是化學科學研究的長期焦點之一。
隨著化學數據的不斷積累和人工智能技術的顯著進步,機器學習方法在化學中的應用取得了顯著進展,在分子理化性質的預測上展現了重要潛力。基于大規模的分子性質數據與創新的分子建模架構,人工智能模型能夠成功捕捉分子結構與理化性質之間的高維聯系,并據此準確預測分子性質。在QM9等代表性的分子性質數據集上,前沿的機器學習模型不僅在預測精度上達到了媲美傳統量化計算的水平,同時在計算效率上實現了幾何級數的增長。分子性質的智能預測為化學家認識和探索化學世界提供了全新的策略,不僅將加速化學研究的步伐,也為醫藥、材料等相關學科提供了新的助力。
本文聚焦于有機分子的理化性質預測,不涉及藥化性質等生物活性分子的應用場景,從數據集、代表性場景等方面探討該領域的前沿進展,并就領域的研究現狀和挑戰進行總結和展望。
PART.01
有機分子理化性質數據庫與數據集
有機分子的結構復雜、性質多樣,共同組成了一個關于理化性質的龐大構效空間,成為了機器學習建模的數據源泉。本節簡要概述了代表性的有機分子理化性質數據庫與數據集 ( 表1 ) 。
表1 代表性分子理化性質數據庫與數據集
PART.02
機器學習方法
自1956年達特矛斯會議首次提出人工智能概念,至2010年深度學習技術的興起,機器學習方法持續演進與進步。2022年,ChatGPT的推出進一步揭示了AI在眾多領域的廣泛應用潛力。這些新興的機器學習方法為有機分子理化性質的預測開辟了新的研究路徑。本節將概述有機分子理化性質預測中普遍采用的機器學習流程,并介紹當前領域內一些代表性的分子編碼、算法架構與機器學習策略。
2.1
機器學習流程簡介
傳統的判別式監督學習在有機分子理化性質預測中應用廣泛,通過在數據集上進行訓練,得到一個模型來聯系數據集中的輸入和輸出,進而建立分子結構與其理化性質之間的數學模型并用于新分子的性質預測。圖1描述了數據驅動理化性質預測的常見流程.
圖1 分子性質機器學習建模的基本流程
2.2
機器學習方法進展
機器學習的持續發展促進了有機分子理化性質預測的精確度和效率的顯著提升。目前,多種機器學習模型已被應用于這一領域。為了高效利用數據并提高模型的預測性能,研究者們探索了多種分子編碼與機器學習算法。本小節簡要概述領域前沿的分子編碼、神經網絡(NN)框架以及機器學習方法。
PART.03
具體機器學習模型在有機分子理化性質預測上的應用
近年來,圍繞如光譜性質、軌道能量、pKa、BDE、氧化還原電勢、Mayr方程參數等代表性的有機分子理化性質,機器學習建模的精度和泛化能力取得了長足的進步。
圖2 光譜性質預測的部分最近進展. (a) NN模型快速預測酰胺I帶紅外譜圖的工作流程; (b) NN模型預測氨基酸的拉曼光譜; (c) 全自旋系統精準預測的工作流程
圖3 分子軌道能量預測的部分最近進展. (a) 利用軌道加權平均方法預測軌道能量和位置的原子神經網絡(AtNN)示意圖. (b) 機器學習方法快速準確地估計有機光伏材料特性
圖4 pKa與BDE預測的部分最近進展. (a) 使用NN或XGBoost建立整體pKa預測模型的工作流程. (b) 使用 ANI-2x 獲得的神經網絡特征進行蛋白質pKa預測. (c) 預測BDE的GCN結構概述
圖5 氧化還原電勢與Mayr方程參數預測的部分最近進展. (a) 機器學習加速氧化還原電勢預測的流程. (b) 通過機器學習研究親核性和親電性的一般工作流程
PART.04
總結與展望
近年來,隨著化學數據的不斷積累和人工智能技術的顯著進步,數據驅動的有機分子理化性質預測經歷了跨越式的發展。在光譜性質、軌道能量、pKa、鍵解離能(BDE)、氧化還原電勢以及Mayr參數等關鍵的分子性質方面,機器學習技術已經展示出了其卓越的預測能力。這些工作不僅能夠在部分例子上達到了與傳統量子化學計算相媲美的精度水平,而且在效率上實現了顯著的提升,使得海量的分子性質預測成為了可能。這種新型的智能預測工具不僅將加速化學研究的步伐,而且為功能分子的設計和預測提供了強有力的支持,有望推動化學與材料科學的快速發展。
盡管分子性質的智能預測取得了顯著進步,該領域仍面臨一些關鍵的挑戰和局限。首先,標準化且大規模的分子性質數據庫的缺乏限制了機器學習模型的訓練和驗證。相對于理論上1060數量級的分子化學空間,現有的數據量遠遠不足以覆蓋廣泛的化學多樣性。其次,盡管機器學習模型在預測精度和效率上取得了一定的平衡,但這種平衡尚未達到完全可以取代傳統的DFT計算的水平。特別是對于DFT難以處理的復雜體系,機器學習預測也難以勝任。最后,目前的預測建模工作與新穎功能分子設計的聯系并不緊密,多數研究停留在數據集本身的建模展示階段,而未能實質性地應用于新功能分子的創造和設計中,因此在化學領域的影響力和共識還需進一步提升。
展望未來,為了充分利用機器學習在分子科學領域的潛力,可以從以下幾個方向努力:一是構建更全面和標準化的分子性質數據庫,以支持更復雜的模型訓練和更廣泛的化學空間探索。二是開發基于化學理論和原理的人工智能模型框架,而非僅僅對現有處理文字或圖像的AI技術進行簡單的修改。基于對化學過程本質的理解,將這些原理融合到算法中,以更精確地模擬和預測復雜的分子行為。三是加強預測模型與實驗化學家的互動,將模型預測更直接地應用于新分子的設計和合成,以真正實現機器學習在化學創新中的應用。我們充分相信,在數據、建模和應用的協力發展下,分子科學將在AI時代迎來更大的突破。
孫一舟,湯繆炅,張碩卿*,洪鑫*. 數據驅動的有機分子理化性質預測. 科學通報, 2025, 70(4-5): 492–507
https://doi.org/10.1360/TB-2024-0812
轉載、投稿請留言
| 關注科學通報 | 了解科學前沿
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.