編輯 | 蘿卜皮
一種基于擴散模型的生成式 ML 框架 PXRDnet 解決材料難題。
在材料領域有一個長期存在的問題,它致使救命藥物的研發被迫擱置,新一代電池的發展受到阻礙,考古學家無法確定古代文物的來源。
百年來,科學家們一直使用晶體學方法來確定材料的原子結構,它的工作原理是將 X 射線束照射到材料樣品上,并觀察其產生的衍射圖案。
從衍射圖案中,理論上可以計算出樣品中原子的精確排列。然而,挑戰在于,這種技術只有在研究人員擁有大量且純凈的晶體時才能有效。
當他們不得不面對一種被稱為納米晶體的微小粉末時,這種方法只能提供一些線索,無法完全揭示那些看不見的結構。
「人工智能可以從結構數據庫中學習各類知識,來解決這個問題。正如 ChatGPT 學習語言模式一樣,人工智能模型能夠學習自然界中物理允許的原子排列模式?!垢鐐惐葋喆髮W(Columbia University)工程學院材料科學、應用物理和應用數學教授 Simon Billinge 表示。
Billinge 領導的研究團隊提出了一種基于擴散模型的生成式機器學習框架 PXRDnet,它在 45,229 個已知結構上進行訓練。
僅基于化學式和信息稀缺的有限尺寸展寬粉末衍射圖,PXRDnet 成功解決了 200 種不同對稱性和復雜程度的材料中小至 10?? 的納米晶體,包括所有七種晶體系統的結構。
相關研究以「Ab initio structure solutions from nanocrystalline powder diffraction data via diffusion models」為題,于 2025 年 4 月 28 日發布在《Nature Materials》。
過去一百年持續不斷的材料革命,建立在科學界對原子排列(即材料結構)及其特性對這一底層結構的內在依賴性的深入理解之上。用解析衍射圖譜確定材料結構,必要條件是單晶結構解。
圖示:納米材料 PXRD(powder X-ray diffraction) 圖譜。(來源:論文)
不過,在許多現實情況下,獲取純單晶樣品并不可行,尤其是納米級原子團簇(即所謂的納米結構問題)。在這些情況下,衍射圖譜的信息含量會顯著降低。必須從粉末衍射圖譜中重疊的峰中提取峰強度,而這個問題在納米材料(定義為尺寸小于 1,000 ? 的晶體)中被大大放大,因為有限尺寸效應會導致布拉格峰顯著增寬。
總而言之,這項任務困難重重!
PXRDnet 來解決困難
Billinge 團隊的目標是看看是否可以使用已有結構形式的先驗知識,來訓練生成人工智能 (AI) 模型,從而克服從「信息退化的衍射圖案」中解決結構問題的挑戰。
于是,他們利用 4 萬個已知原子結構訓練了一個生成式人工智能模型 PXRDnet。
「從之前的研究來看,我們知道納米晶體的衍射數據所包含的信息不足以得出最終結果。該算法利用了數千個不相關結構的知識來增強衍射數據。」Billinge 解釋道。
圖示: PXRDnet 結構預測。(來源:論文)
在信息量非常低的情況下,例如 10 ? 納米晶體尺寸,PXRDnet 的預測表現得非常出色。
PXRDnet 能夠在五次測試中有四次成功,且生成了可驗證地確定結構候選,這些候選結構的平均誤差僅為 7%。此外,PXRDnet 能夠從實際實驗中收集的噪聲衍射圖譜中解析結構。
與任何結構求解方法一樣,該團隊并不期望 100% 的成功,而是尋求一種能夠提供結構候選物并可進一步評估其有效性的方法。在這方面,PXRDnet 展現出了卓越的性能,這得益于朗之萬動力學(Langevin Dynamics)固有的隨機性,從而產生了多個結構候選物。
早期,科學家使用 Liga 算法通過原子對分布函數求解納米結構的研究,僅在對稱性足夠高的結構中成功,這限制了該方法的影響力。
PXRDnet 通過利用其訓練數據中的信息,在這種低輸入信息環境下取得了更大的成功,而這是 Liga 無法做到的。PXRDnet 的成功,表明擴散模型或許可以為更廣泛的科學問題提供一種強有力的方法。
這說明對人類來說超級難的問題,對數據驅動的機器學習方法來說并不一定很難。
圖示:五次測試的實驗數據。(來源:論文)
還有很大的提升空間
雖然如此,這項研究依然存在一些局限性。
PXRDnet 的局限性在于需要預先知道化學式,未來將探索在未知或部分已知化學成分情況下的結構解析能力。此外,當前研究僅適用于晶胞原子數不超過20的材料,未來需擴展至更多原子的材料。
數據質量方面,這里使用的低質量圖譜(Q < 8.2 ?^?1)限制了模型性能,而更高質量的數據有望提升預測準確性。機器學習層面,模型基于現成的 CDVAE 主干,其貢獻在于解決了納米材料結構測定難題而非算法創新。
研究人員還表示,未來另一個優化方向是增強對背景信號的穩健性,例如通過消除容器信號干擾來提升模型表現。
結語
圖示:晶體衍射示意。(來源:論文)
「粉末晶體學問題是著名的蛋白質折疊問題的姊妹問題,在蛋白質折疊問題中,分子的形狀是通過線性數據特征間接推導出來的?!垢鐐惐葋喒こ虒W院機械工程系主任、論文作者之一 Hod Lipson 教授說道,「現在,尤其讓我興奮的是,人工智能在物理或幾何背景知識相對匱乏的情況下,竟然能夠學會解決困擾人類研究人員一個世紀的難題。」
這個百年粉末晶體學之謎對于 Lipson 來說意義非凡。Lipson 是計算晶體學方法先驅 Henry Lipson(CBE,FRS,1910-1991)的孫子。20 世紀 30 年代,Henry Lipson 與 Bragg 等人合作,開發了早期的晶體學計算技術,這些技術被廣泛應用于解決早期的復雜分子,例如青霉素。
「我上中學的時候,這個領域還在苦苦掙扎,那時候構建能夠區分貓、狗的算法都超級困難?!拐撐牡牡谝蛔髡摺⑺固垢4髮W的博士生 Gabe Guo 表示:「現在,像我們這樣的研究領域,正在展示人工智能的巨大威力。它確實能夠增強人類科學家的能力,并將創新推向新的高度。」
總而言之,這項研究為未來的計算晶體學和材料科學研究帶來了樂觀的展望。
論文鏈接:https://www.nature.com/articles/s41563-025-02220-y
相關報道:https://www.eurekalert.org/news-releases/1081847
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.