探索金屬有機框架(MOFs)這一龐大且尚未充分利用的化學空間,有望在材料科學領域拓展出一片更廣闊的學術空間。
其中,MOFs 以模塊化著稱,以前所未有的靈活性根據特殊需要定制功能。但在面臨如此龐大的空間,如何進行有效地「分子導航」成為了一個問題。
英國曼徹斯特大學(University of Manchester)采用了一種名為「deep dreaming」的方法,在虛擬空間優化 MOFs,試圖從一開始就生成系統性地接近目標功能的結構。
該研究以「Inverse design of metal-organic frameworks using deep dreaming approaches」為題,于 2025 年 5 月 26 日刊登于《Nature Communications》。
論文鏈接:https://www.nature.com/articles/s41467-025-59952-3
Deep dreaming
具體來講,Deep dreaming 是一個可解釋的框架,整合了性質預測與結構優化,采用專門的化學語言模型,聚焦于發掘在碳捕獲和能源存儲等應用中至關重要的 MOF 性質。
時至今日,實驗中合成的 MOFs 數量已經超過了十萬種,但有機連接體的廣闊化學空間暗示了幾乎無限的 MOF 組合可能。
高通量計算篩選(HTCS)常用于尋找特定應用的有前途的 MOF 候選物。這種方法從一系列結構中選取具有特定關鍵指標的材料,但也會落入已知材料的性質會與目標有偏差的困境。
因此,在 HTCS 中提供一個顯著擴大的潛在結構選擇至關重要,這有助于研究人員能在合成材料時考慮到最佳的組合。
Deep dreaming 方法先僅使用標記數據來訓練機器學習模型,預測分子屬性從字符串表示。然后,通過「inceptionism」技術將機器學習架構反轉,從而修改輸入以達到目標屬性值,進而在過程中創建新的分子。
這種技術提供了一種擴展給定應用可能候選材料池的方法,還提供了對模型理解的可解釋洞察。在逆向訓練過程中,模型的預訓練權重和偏置被凍結,輸入通過梯度下降逐步修改為新的、最優的特征向量。
團隊擴展了用于逆向設計 MOFs 的方法,以恢復優化過程。考慮到任務中元素的獨特作用,團隊參考了 Bucior 等人提出的 MOF 識別方案,將他們的 MOF 字符串分為三類表示:
(1)邊緣 SBU 表示,使用 Group SELFIES 字符串來描述重要的化學亞結構,如功能基團和芳香環;
(2)節點 SBU 表示,使用 SELFIES 字符串描述;
(3)拓撲表示,使用 RCSR 代碼描述。
這些元素共同捕捉了 MOFs 的化學和部分拓撲特征,但不包含任何結構細節。雖然這種方法在表達能力上可能不如基于結構的模型強大,但它可以通過簡單的字符串操作在逆向過程中高效地探索性質空間。
圖 1:Deep dreaming 模型和金屬有機框架(MOF)字符串表示。(圖源:論文)
接著,團隊使用 PyTorch(v.2.2.1)開發了一種適用于復雜序列到回歸任務的機器學習架構,結合了長短期記憶(LSTM)網絡和注意力機制。
通過引入自注意力機制,模型可以專注于輸入序列中與當前回歸任務關聯性最高的部分。如此操作能提高模型的物理可解釋性,在推理過程中應用注意力權重可以揭示 MOF 字符串中不同標記的重要性及其對模型預測的貢獻。
最后,從兩個 LSTM 分支獲得的向量被連接起來,并通過 MLP 得到最終的性質預測。雖然每一種組合由于算法原因在化學上都是可行的,但并非每個樣例都代表有效預測。
圖 2:使用 Deep dreaming 方法逆向設計工程金屬有機框架(MOFs)。(圖源:論文)
優化 MOF 結構
在這個部分,團隊使用直觀的優化軌跡(如比表面積 VF)對單個 MOF 進行實驗。實驗的出發點是基于 VF(以及其他結構特征)與 MOF 功能的密切相關性。團隊期望在增加 MOF 的 VF 的模型訓練中發現類似的優化策略。
為進一步探索這一想法,研究人員決定讓模型最大化 MOF 的 VF,從一個基點 MOF 結構開始,模型將在數百個訓練周期中對邊 SBU 編碼進行微小調整,對應 deep dreaming 過程。
后續進程里,有效的轉變路徑被定義為一系列成功的連接分子修改,而轉變路徑則指模型建議的所有修改,無論是否有效。通過檢查有效的轉變路徑,可以清楚地看到從初始種子結構到最終解碼結構的連接點之間的延伸,一些無效的連接分子將會被剔除出考慮范圍。
圖 3:優化單個金屬有機框架(MOF)結構。(圖源:論文)
在每次迭代中,基點 MOF 都會被轉換成具有擴展孔隙空間的結構。因此,盡管軌跡在多次重復試驗中可能會有所不同,但設計策略保持一致。這里可以將這些結果解釋為一系列局部優化,再從局部中擇取最優的結構選項即可獲得全局最優結果。
值得強調的優勢
Deep dreaming 的過程實際上賦予了它較高的物理可解釋性。對于 VF 的具體情況進行直接預測可以得到「連接體越長,VF 越高」的一般結論,但這個解讀過程對于機器學習的洞察過程來說往往比較復雜。
通過使用直接對應于化學結構的 MOF 字符串,團隊可以確保特征不僅具有物理意義,而且可復制:經驗豐富的化學家,配備適當的實驗工具,可以復刻出模型建議的連接體修飾。
與 Sm-VAE 等模型相比,盡管限制了設計范圍,但 deep dreaming 方法使用相對較少的訓練數據實現了高有效性(~95.5%) 和唯一性(~99.4%)。
原則上,設計團隊可以通過模仿模型的自動化優化策略,對有價值的設計規則加以推導。
借助這種能力,deep dreaming 可以同時在科學發現和理解方面實現雙重目標,從而照亮人工智能的「黑箱」,并朝著更具解釋性的人工智能邁進。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.