編輯 | 白菜葉
自然界中充滿了尚未被人類發現的化學物質。探索這些化學物質可以加速新藥研發、更深入理解生物過程、開發更環保的農藥等等。
每種物質具有一種獨特的模式,類似于人類的指紋,可以被質譜(MS)方法所捕獲。
雖然質譜方法可以生成大量數據,但解讀這些數據并揭示精確的分子結構卻極其困難。由此產生的質譜數據集,有時候看起來像是一堆毫無意義的龐大數字表格。
為了探尋未知分子的奧秘,捷克科學院(ASCR)和捷克技術大學(CTU)的研究團隊開發了一個基于 Transformer 的神經網絡 DreaMS,該網絡以自監督的方式預訓練了數百萬張未注釋的串聯質譜(MS/MS)圖,這些質譜圖均來自 MassIVE GNPS 庫中的 GNPS 實驗質譜 (GeMS) 數據集。
通過進一步微調神經網絡,該團隊發布了在各項任務中均達到最佳性能的 DreaMS Atlas——一個基于 DreaMS 注釋構建的包含 2.01 億張 MS/MS 光譜的分子網絡。
就像ChatGPT等大型語言模型能夠在不預先知道單詞含義的情況下學習理解語言一樣,DreaMS 也可以嘗試在不預先了解其化學結構的情況下解讀質譜圖。
該研究以「Self-supervised learning of molecular representations from millions of tandem mass spectra using DreaMS」為題,于 2025 年 5 月 23 日發布在《Nature Biotechnology》。
DreaMS 無需依賴現有方法或人類領域專業知識,即可適用于各種光譜注釋任務,并可作為 MS/MS 的基礎模型。
「ChatGPT 可以從大量文本中推斷單詞的含義及其之間的聯系,而 DreaMS 神經網絡則利用自監督機器學習,學習識別光譜中隱藏的分子結構。它利用了數百萬個示例的數據。」論文的通訊作者之一,來自 CTU 的 Josef ?ivic 博士解釋道。
圖示:DreaMS 神經網絡克服了質譜數據庫的局限性。(來源:論文)
為了搭建 DreaMS,研究人員首先構建了一個高質量的數據集——GNPS 實驗質譜 (GeMS),其中包含從全球天然產物社會分子網絡 (GNPS) 庫中挖掘出的多達 7 億條 MS/MS 光譜。
之后,該團隊設計了一個 Transformer 神經網絡,并使用 GeMS 數據對其進行了預訓練,以預測掩蔽譜峰和色譜保留順序。結果表明,通過在未注釋的質譜上針對這些自監督目標進行優化,該模型能夠發現豐富的分子結構表征。
具體來說,DreaMS 表示(1,024 維實值向量)是根據分子之間的結構相似性組織的,并且對質譜條件表現出穩健性。
「DreaMS 模型基于來自不同生物體和環境(植物、微生物、食物、組織和土壤樣本)的數千萬張光譜進行訓練。得益于此,它可以發現乍看起來毫無關聯的光譜之間隱藏的相似之處。」論文的通訊作者之一、Neuron獎獲得者 、捷克科學院的 Tomá? Pluskal 解釋道。
針對各種質譜注釋任務,研究人員對 DreaMS 進行了微調,包括預測光譜相似性、分子指紋、化學性質和氟的存在,其性能超越了傳統算法和質譜領域的機器學習模型。
「我們特別驚訝的是,該模型學會了檢測氟。」Pluskal 說,「氟存在于大約三分之一的藥物和農用化學品中,但我們之前無法從質譜中可靠地檢測到它。在對數百萬張光譜進行預訓練后,我們用幾千個含氟分子樣本對其進行了微調——突然間,它就成功了。」
然后,研究人員用微調模型構建了 DreaMS Atlas——一個使用 DreaMS 注釋組裝的 2.01 億個 MS/MS 光譜的分子網絡。
圖示:DreaMS Atlas 是一個包含 2.01 億個 MS/MS 光譜的分子網絡,它為整個 MassIVE GNPS 存儲庫提供了全面的系統化。(來源:論文)
DreaMS Atlas 是一個綜合資源,利用 DreaMS 預測和 MassIVE GNPS 元數據來解釋質譜圖。將 DreaMS Atlas 視為化學上可信的分子結構空間的近似值,為計算化學面臨的各種挑戰提供了新的視角。
例如,可以通過在 DreaMS Atlas 中的已知藥物之間進行插值來解決基于片段的藥物設計問題,并且可以通過識別 DreaMS Atlas 圖形結構中稀疏連接的區域來促進具有潛在原始作用模式的結構獨特化合物的檢測。
換句話說,在 DreaMS Atlas 上,用戶可以搜索、探索已發現的聯系并提出新的問題——例如:殺蟲劑、食物和人體皮膚有什么共同點?
目前,該團隊正進行下一步的研究:如何預測整個分子結構。如果成功,它將從根本上改變我們對化學多樣性的理解——無論是在地球上還是宇宙中的任何地方。
論文鏈接:https://www.nature.com/articles/s41587-025-02663-3
相關內容:https://phys.org/news/2025-05-unknown-molecules-ai.html
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.