計算化學和機器學習(ML)的進步使針對需要的有潛力或特殊性質的材料設計與工程成為可能。雖然這類虛擬材料的發現速度正在穩步提升,但實驗驗證的成功仍然很耗時。
為彌補這一差距,首爾大學(Seoul National University)與美國福特漢姆大學(Fordham University)的合作團隊開發了一種新技術,以大型語言模型(LLM)來預測新材料的可合成性并解釋此類預測的基礎。
這項研究先后發布在《Journal of the American Chemical Society》(2024 年 7 月 11 日)和《Angewandte Chemie International Edition》(2025 年 2 月 13 日)。
《Large Language Models for Inorganic Synthesis Predictions》:
論文鏈接:https://pubs.acs.org/doi/10.1021/jacs.4c05840
《Explainable Synthesizability Prediction of Inorganic Crystal Polymorphs Using Large Language Models》:
論文鏈接:https://onlinelibrary.wiley.com/doi/10.1002/anie.202423950
新材料的開發
與傳統的基于圖形的定制 ML 模型相比,微調的 LLM 和基于 LLM 嵌入的定制 ML 模型顯示出良好的性能。此外,微調的 LLM 可以通過簡單的提示推斷確定可合成性的原因來提供可解釋性。
在稍早一點的研究過程中,團隊主要展示了如何在僅給定成分信息的情況下使用微調的 LLM 來預測無機合成性和合成前驅體。然而,相同成分的不同結構可能具有截然不同的特性,并且在大多數情況下,目標是合成特定的多晶型物。
最新的研究表明基于目標晶體結構的文本描述的微調 LLM 可以提供與最新的定制圖神經網絡 ML 模型相當的可合成性預測性能,再通過在 LLM 衍生的晶體結構描述表示上訓練神經網絡模型,可以在性能上得到更好的提升。
圖 1:利用 LLM 進行基于結構的一般合成性預測及其解釋。(圖源:論文)
可合成性預測
現有的預測方法僅限于評估材料的熱力學穩定性,導致預測精度低,預測與實際實驗合成成功率之間存在顯著差異。
為了保證實驗數據的穩定性,團隊遵循先前的工作策略,為一般的合成能力預測任務微調了 OpenAI GPT-4o-mini 模型。他們設計了兩種微調模型:StructGPT提供化學計量公式信息和結構描述,StoiGPT僅包含化學計量信息,不包含結構描述。
圖 2:一般合成能力預測的模型性能比較。(圖源:論文)
微調模型 StructGPT-FT 的性能優于非微調的 GPT 模型,這表明微調對于合成能力預測任務至關重要。而兩種學習分類器方法中,先進行文本轉換的PU-GPT 嵌入模型的性能優于 StructGPT-FT 和 PU-CGCNN 模型,GPT 嵌入分別比傳統的基于圖形的結構表示更有效。
結構靈敏度與熱力學穩定性
為了檢查對輸入結構變化的敏感性,團隊在保持測試集的 CIF 結構中隨機改變了 1% 和 5% 的分數坐標,隨后處理這些突變的 CIF 結構,將其轉換為文本描述。
整體文本長度增加,表明結構對稱性在突變過程中降低,導致描述更長。對于這些突變的合成可預測性的變動來看,原始結構對 StructGPT-FT 的召回率為 71.0%,對于未標記的數據,預測可合成的比例從 6.2% 下降到 0.2% 和 0.1%。
圖 3:晶體結構預測(圖源:論文)
而在基于熱力學的預測假設里,雖然在亞穩范圍(<0.2 eV/atom)中實現了 87.1% 的召回率,在接近穩定范圍(<0.05 eV/atom)中實現了 74.4% 的召回率。但它們的精度遠低于微調后的模型,對上述的兩種情況對比誤差在 72% 與 33.3% ,與新模型的 6.1% 無法相比。
圖 4:基于熱力學的合成預測。(圖源:論文)
新模型的進一步發展
與近期普遍使用 LLM 實現材料結構-屬性可解釋性的工作不同,LLM 通過簡單提示獲得的解釋適用于模型預測,不再需要文獻示例。
基于這些解釋可以指定與一般合成性測定相關的詳細和基本方面。譬如通過對不可合成材料采用這種策略,可以確定導致其低可合成性的因素,并指導化學家修改或優化不可合成的假設結構,使其可合成。
團隊的指導教授 Yousung Jung 教授表示,這項研究意義重大,因為它表明 LLM 不僅可以精確預測新材料的可合成性,還可以解釋這些預測背后的原因并揭示潛在的化學原理。
「隨著基于 LLM 的技術不斷發展,它們有望為新型材料設計提供更有效、更直觀的方向。」本研究的一作作者 Seongmin Kim 計劃后續研究將機器學習和材料科學相結合,以探索新型材料開發的范式轉變。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.