藥物開發中,頻繁的結構活性變動與藥物特性的未知帶來的高昂成本時常會讓人苦惱,居高臨下的失敗率更是頭疼。
為此,山東大學、天津大學與澳門理工大學的研究團隊提出了一種創新深度學習架構,將其命名為self-conformation-awaregraph transformer(SCAGE)。該模型預訓練了大約 500 萬例藥物樣化合物,適用于分子性質監測。
該研究以「A self-conformation-aware pre-training framework for molecular property prediction with substructure interpretability」為題,于 2025 年 5 月 12 日刊登于《Nature Communications》。
論文鏈接:https://www.nature.com/articles/s41467-025-59634-0
框架簡介
SCAGE 框架遵循預訓練-微調范式,包括兩部分:用于分子表征學習的預訓練模塊和用于預測下游分子特性任務的微調模塊。
圖 1:SCAGE 框架概述。(圖源:論文)
該框架包含四個有監督和無監督任務:分子指紋預測、使用化學先驗信息進行官能團預測、2D 原子距離預測和 3D 鍵角預測,涵蓋從分子結構到功能的各個方面。
為了更好地指導模型在分子構象尺度上理解和表示原子關系,團隊還設計了一種數據驅動的多尺度構象學習策略。在 9 種分子特性和 30 種結構活性懸崖基準方面,SCAGE 都實現了顯著的性能改進。
預訓練模塊中,給定的分子最初被轉換為分子圖數據,再利用 Merck 分子力場(MMFF)來獲得分子的穩定構象。
在這些構象中,一般會選擇能量最低的構象,以保證分子的穩定性。為了測試,實驗中還使用了不同能級的構象作為補充。確定主要目標為局部最小構象后,分子圖數據會被輸入到圖轉換器的修改版本中,以此捕獲分子的全局和局部結構語義。
模型預訓練后,將會在 finetuning 模塊中,對預訓練良好的 SCAGE 進行分子特性和活性懸崖任務的微調。
與當前方法的比較
為全面測評 SCAGE 對分子特性預測的作用,它被設置在 9 個廣泛使用的基準數據集上進行實驗,測試涵蓋靶標結合、藥物吸收和藥物安全性等在內的不同屬性。
表 1:SCAGE 和最先進的方法在隨機支架分裂的 9 個分子特性基準上的整體性能。
在實驗中,團隊觀察到以下內容:
- 對于基架拆分,沒有一種方法可以在所有 9 個數據集中實現最佳性能。但 SCAGE 在 8 個數據集上優于其他方法。(其他方法最多在兩個數據集上實現最佳)
- 在支架拆分評估中,SCAGE 在 BACE 數據集上的 AUC 和 MolAE 相對提高了 10.8%……這些信息凸顯了 SCAGE 在標簽信息有限的任務中的有效性,以及在小型數據集上的顯著性能改進。
- 盡管 SCAGE 在 ESOL 數據集上沒有達到最佳性能,但與 ImageMol 和 Uni-Mol 相比,它實現了 42.5% 的平均改進。
總體來說, SCAGE 在分子性質預測任務中優于現有方法。與其他訓練方法相比,SCAGE 使用的預訓練數據要少得多——只有第二名方法 Uni-Mol 使用的數據的四分之一。
圖 2:方法在活性懸崖數據集上的性能。(圖源:論文)
均方根誤差(RMSE)代表著模型相對于生物活性值的性能量化。在這方面,與基線模型相比,論文中采用的方法在所有 30 個數據集中都表現出卓越的性能。更具點來說就是它在 23 個數據集上實現了 SOTA,并在另外 6 個數據集上排名第二。
從結構來看,新方法的誤差較低,而無論采用哪種方法,與活性懸崖相關的化合物往往表現出更高的預測誤差。SCAGE 在保持在 RMSE (cliff) 上平衡性能的同時,在 RMSE 指標上取得了優異的結果。
方法評價
SCAGE,這是一種利用分子構象和空間信息的分子特性架構。
它結合了多任務學習預訓練方法和兩個主要策略:MCL 模塊與原子級官能團注釋算法。廣泛的實驗表明,SCAGE 在各種基準生物醫學數據集和藥物發現任務中,相較于多個競爭基線更具有優勢。
作為預訓練模型,SCAGE 強調了選擇預訓練任務的重要性。精心選擇的預訓練任務組合可以顯著提高模型的泛化能力。實驗中簡單的增減數據集大小只能對模型性能產生有限的改進。
雖然分子的空間構象不盡相同,局限了 SCAGE 的性能發揮,但將官能團輔助技術與其他研究領域相結合為未來的探索提供了一條有趣的途徑。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.