在材料化學領域,生成式 AI 早已嶄露頭角,尤其是在晶體結構預測方面,AI 已經成為科研人員的得力助手。然而,面對浩瀚如海的化學成分和復雜的分子/晶體結構空間,如何高效精準地探索和篩選,仍然是個極具挑戰性的科學難題。
英國帝國理工學院(Imperial College)利用生成式 AI 能根據材料的結構特性數據集進行有效地導航的特性,提出了名為 Chemeleon 的模型,旨在通過從文本描述和三維結構數據中學習來生成化學成分和晶體結構。
該研究以「Exploration of crystal chemical space using text-guided generative artificial intelligence」為題,于 2025 年 5 月 12 日刊登于《Nature Communications》。
論文鏈接:https://www.nature.com/articles/s41467-025-59636-y
Chemeleon
Chemeleon,一種基于去噪擴散的生成材料模型,從文本描述和三維結構數據中學習,以對化學成分和晶體結構進行采樣。通過將文本納入訓練,模型得以更好地了解構圖與結構之間的關系。
為了彌合文本描述和晶體結構生成之間的差距,團隊開發了一個生成模型,模型包含兩個組件。
第一個組件是通過對比學習進行預訓練的文本編碼器——Crystal CLIP,旨在對齊文本編碼器生成的文本嵌入向量與等變圖神經網絡(GNNs)生成的圖嵌入向量。
第二個組件是無分類器引導的去噪擴散模型,用于成分與結構生成,該模型通過整合預訓練文本編碼器生成的文本嵌入,預測噪聲的時間演化過程。
圖 1:在 Chemeleon 中實現的跨模態對比學習和生成擴散方法的圖示。(圖源:論文)
晶體結構的對比學習
已有研究通過在廣泛的材料科學文獻語料庫上訓練 Word2Vec,提出了材料領域構建文本嵌入的方法。然而,此類方法在理解材料三維空間結構方面仍存在局限性。
為了彌合文本嵌入和準確晶體結構表示之間的差距,研究團隊開發了一個跨模態對比學習框架,名為Crystal CLIP。
Crystal CLIP 框架在設計之初被定義為這兩者之間的連接器,有助于將文本編碼器中的文本嵌入與來自其他模態的文本嵌入進行對齊,與僅針對文本數據訓練的模型相比,它們顯示出增強的性能。
圖 2: 文本和晶體圖的對比學習。(圖源:論文)
團隊添加了基于 MatTPUSciBERT 的 Crystal CLIP(以下簡稱 Baseline BERT)的對比學習結果,主要目標是增強潛在空間中文本和圖形嵌入之間的對齊。
Crystal CLIP 的元素嵌入揭示了元素的不同聚類,例如過渡金屬、鹵素和惰性氣體。相比之下,Baseline BERT 模型沒有顯示如此明顯的聚類,它無法區分正對和負對,突出了 Crystal CLIP 中對比學習的效用。
Crystal CLIP 表現出顯著優勢:即使面對通用文本描述,仍能在文本數據集中生成 20% 的未見真值結構,其性能大幅超越基線模型 Baseline BERT,充分彰顯了它對文本中精確結構的更強復現能力。這一結果凸顯了 Crystal CLIP 在處理非結構化文本輸入時,具備更優異的結構還原精度。
除了從原始數據分布中隨機生成化合物外,Chemeleon 還能夠通過文本描述指導特定類型的結構生成,通過無分類器的指導,利用 Crystal CLIP 的文本嵌入向量當做條件數據,可以有效指導文本到晶體結構的生成過程。
Chemeleon 的應用
為探索新模型的功能,研發團隊針對不同的化學空間進行了測試,論文中所給出的示例為 Ti-Zn-O 系統與 Li-P-S-Cl 系統。這種廣闊的空間將會使全面探索非常耗時且計算更加復雜。
為了解決這個問題,研究中引入了一個集成了多種計算工具的定制工作流程:SMACT(化學濾波器)、Chemeleon(采樣)、MACE-MP(初步幾何優化)和 Atomate2(自動密度泛函理論計算),該工作流程有助于構建相圖和識別潛在的新化合物。
首先,可以通過有關電負性平衡和電荷中性的化學規則將巨大的搜索空間搜索可行的部分,隨后,Chemeleon 僅對通過化學過濾器的組合物進行結構采樣。
圖 3:Zn-Ti-O 空間。(圖源:論文)
圖 4:Li-P-S-Cl 空間。(圖源:論文)
在這個工作流程中,文本引導的生成模型被證明可以作為導航化學空間的高效且多功能的工具。基于擴散的 DiffCSP、基于 LLM 的 CrystaLLM 和元素替換等側重于根據組成輸入優化原子排列和晶格矩陣,也可以集成到此工作流程中。
模型限制
Chemeleon 的輸入文本與生成的化合物之間沒有嚴格的約束,但涉及到靈活的逆向設計時,這個問題可以被視為一個特性,因為提示只是一個文本指南,而不是硬編碼的規則或關系。
當前的文字編碼器難以準確地解釋和生成數據,在區分數值方面仍存在困難,尤其是因為許多模型是在掩碼語言建模任務上預訓練的,并不擅長處理數字。
當文本描述具有多種風格時,對比學習的效果更為顯著,而不是依賴于嚴格格式化的文本。這種方法提供了關于 AI 模型生成能力的見解,雖然需要進一步發展以擴展到更復雜的結構和性質,但這些方法已經使大規模的化學空間計算搜索更加便捷。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.