在科研中使用 AI 模型已經成為了實驗室習以為常的生活片段,只是有些時候,AI 的理解結果與自身的表述始終會出現偏差。
就拿藥物開發中的分子設計來說,不僅要滿足多樣性要求,還需要統合領域專家概述的各種對稱性以及結構和結構限制。目前還缺少一類規范性的語言來描述自己的需求。
2025 年 5 月 7 日,一篇名為「Sculpting molecules in text-3D space: a flexible substructure aware framework for text-oriented molecular optimization」的文章刊登于《BMC Bioinformatics》。文中,華為與中科院、香港大學共同探討了一種解決該問題的創新想法。
論文鏈接:https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-025-06072-w
一結構-結構對齊對稱擴散框架
文中提到了一種結構-結構對齊對稱擴散框架 3DToMolo,旨在協調各類模式(文本描述與圖形結構等特征),并把它們整合到一起。
自然語言文本帶來了一個有凝聚力的框架,用于闡述有關分子結構和性質特征的復雜細節。研發團隊遵循 MoleculeSTM 提出的方法,認識到分子的 3D 構象中包含的 2D 化學鍵排列對整體有著重大影響,進而得出一個成功的優化需要有集成 3D 結構的結論。
圖 1:3DToMolo 概述。
根據這樣的任務指導,3DToMolo 將流程劃分為兩個件階段:預訓練和預訓練模型在三種類型的下游優化任務。
預訓練
在這個階段,該框架追求兩個關鍵點,文本描述與化學結構的對齊、啟動無條件的 2D+3D 分子生成模型。
文本嵌入方面,受邀做客的是近來廣受好評的大語言模型 LLAMA。作為編碼器,它可以從文本描述中捕獲細微語義表示。通過 encoder 組件提取的分子潛在表示與成對的文本對比學習,進而完成對齊工作。
表 1:對 8 個二元分類數據集的預測結果。
在 8 項預測任務里,有 5 項表現出卓越的性能,其余表現出與領先基線相當的結果。與隨機初始化的方法相比,基于預訓練的方法顯著提高了整體分類準確性。
在預測任務之外,另有一個無條件擴散模型早已被訓練完成。它的任務是作為支柱捕獲龐大而復雜的數據分布,并在選定的化學空間內生成新的結構。通過將對齊目標集成到降噪的過程中,該模型能夠以端到端的方式無縫優化所需分子。
3DToMolo所采用的是零樣本優化,因其允許探索新的化學空間或設計具有新特性的分子,而無需對每個樣本重新訓練或作微調。整個優化過程都是如此,避免了在校正中引入反饋。
分子優化
根據分子優化過程中涉及的知識難度,分子優化被分為靈活優化與硬編碼優化。
前者未指明優化原子的位點與連接的鍵的過程。后者則精確指示了優化位置或要保留的子結構的過程,為目標原子及其幾何形狀提供硬約束。
為研究優化的過程是否利用了文本提示中的屬性,團隊在驗證中設置了多目標提示,以評估 3D 結構約束是否有助于優化。
圖 2:示例性提示驅動分子優化(圖示:論文)
團隊先后進行對單、多目標分子優化的可視性分析,并相繼測試了具有結構約束的提示驅動分子優化與在指定位點進行硬編碼分子優化。
在這些測試中, 3DToMolo 能夠處理無提示的無條件生成,它有著在自然語言指導下選擇性地指定和修改子結構方面的非凡能力,特別是涉及復雜異構結構和三維考慮的情況。
多模態分子結構修飾方法
從廣義上講,論文中所提及的文本結構優化策略屬于多模態受控分子結構修飾方法的范疇。在研究中,團隊整合了分子的三種模態:分子圖、3D 構象異構體和文本描述。
實驗驗證表明,3DToMolo 結合 2D 與 3D 噪聲-降噪擴散模型,能夠實現極具潛力的優化效果。
考慮到數據效率的關鍵方面,該設計還與分子結構生成模型等有關聯。經由事實證明,當用于指導文本結構對齊的標記數據有限時,3DToMolo 展示出極高的性能表現。
論文提示讀者,該研究只是利用多模態信息的潛力來指導分子結構優化的初步嘗試,生成分子的合成能力的不確定性仍然是懸而未決的問題。
隨著新合成方法的增多,數據與知識不斷更替,應采用不斷更新的大量數據與知識庫來訓練模型。雖然 3DToMolo 沒有納入合成相關數據,但其優化結果保持了與輸入相匹配的水準。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.