編輯 | ScienceAI
本文作者分別來自清華大學、人民大學高瓴人工智能學院,和字節跳動AI制藥團隊。
論文第一作者孔祥哲來自清華大學計算機系自然語言處理與社會人文計算實驗室(TsinghuaNLP),導師為劉洋老師。目前研究方向主要在利用幾何深度學習進行基于結構的藥物分子設計。
在藥物研發中,針對不同靶點特性和疾病機制需要采用差異化的分子設計策略。小分子憑借其優異的藥代動力學性質和細胞滲透性,成為靶向細胞內蛋白和口服藥物的首選;多肽分子則填補了小分子與生物制劑之間的空白,其延展性結合界面可有效調控傳統小分子難以靶向的蛋白-蛋白相互作用等相對大而平坦的界面;而抗體憑借超高特異性和親和力,在需要精確識別的治療領域(癌癥、自免等疾病)占據主導地位。
然而,當前的計算生成方法仍受限于單一分子領域:小分子領域基于原子的自回歸或擴散模型無法推廣至更大體系的分子設計(如抗體);而抗體生成框架通常為氨基酸表征做了特化,缺乏向其他分子類型的擴展能力。
當然,Alphafold 3等結構預測的模型已經顯示了不同類型的分子進行統一建模可以大幅提升結構預測的準確性。同樣的,在基于靶點的藥物分子設計上,統一建模也能帶來很多好處。
從實際應用的角度來說,統一建模可以為同一個靶點探索不同的分子類型,以適配不同的醫療需求(口服、穿膜等);從機器學習的角度來說,不同分子間享有類似的設計原理,即所有結合分子都遵循相同的分子結合規律(如氫鍵網絡、疏水作用互補)和幾何約束(鍵長、鍵角等),統一建模可以利用更多已有的數據,訓練更大、泛化性更強的模型。
該論文提出的UniMoMo是首個統一小分子、多肽和抗體設計的生成模型。通過構建層級化的模塊(block)表示和等變隱空間擴散方法,該框架突破了傳統領域界限,同時保持了原子級的生成精度。UniMoMo在多類分子任務基準的評測中均實現領先表現,展示了跨模態知識遷移與數據共享的巨大潛力。
論文標題:UniMoMo: Unified Generative Modeling of 3D Molecules forDe NovoBinder Design
論文地址:https://arxiv.org/abs/2503.19300
Github地址:https://github.com/kxz18/UniMoMo
1、如何進行統一建模?
為了同時保留原子級幾何精度以及捕捉不同種類分子結構的層次性,UniMoMo創新性地提出了兩階段解決方案。
以block層次化全原子表示
UniMoMo將各類分子統一表示為以分子片段(block)作為節點構成的圖結構,其中每個block對應標準氨基酸或經主子圖算法提取的小分子片段(如苯環、吲哚)。這種表示既保留了原子級坐標信息(每個block包含完整原子類型與三維坐標),又通過block級別的抽象實現了結構層次化,有效地銜接了純原子粒度表示以及為氨基酸特化的表示之間的鴻溝,在維持計算復雜度和可擴展性的基礎上,保留了原子粒度的幾何特征。
全原子迭代變分自編碼器(Iterative Full-Atom VAE)
隱空間擴散模型(Latent Diffusion)
全原子VAE定義了連續且定長的block-level的隱狀態節點,使得各種迭代式生成算法(diffusion、flow matching等)可以直接在隱空間上應用來進行生成。實際的實驗中,研究者使用二次復雜度的E(3)-等變transformer實例化去噪網絡,直接使用標準的DDPM即可得到不錯的效果。全原子VAE+block-level diffusion的思路巧妙規避了傳統擴散模型無法處理變長數據的難題,同時利用隱空間降維顯著提升計算效率。Diffusion的過程主要聚焦于block的全局空間排布,而VAE則注重于局部細粒度的原子重建,實現了高效性與原子級準確性的統一。
2、統一建模是否真的有用?
為全面評估UniMoMo的統一建模能力,研究團隊在三大分子類型(小分子、多肽、抗體)的結構設計任務中進行了系統性驗證。實驗設計采用雙重對比策略:一方面與各領域最優單類型模型對標,另一方面比較統一訓練(all)與單域訓練(single)的模型變體,以驗證跨域知識遷移的有效性。
多肽設計性能突破
在PepBench測試集上,UniMoMo展現出顯著的幾何建模優勢。相較最優基線PepGLAD,在結構恢復程度上UniMoMo有大幅的性能提升,復合物RMSD從2.74 ? 降至2.19?,配體自身RMSD從1.60 ?降至1.27?。Rosetta界面能(-34.35 kcal/mol)比最優基線(-23.12 kcal/mol)相對提升49%,在40.86%的靶點上能生成優于天然結合多肽的新結合多肽。
而在主鏈/側鏈二面角JSD(0.205/0.180)上,UniMoMo也是大幅優于最好的基線結果(0.240/0.398),說明UniMoMo能生成更偏向天然結構的全原子多肽結構。并且,UniMoMo(all)相比單肽版本在各項指標上均有大幅提升,驗證了抗體/小分子數據對生成多肽的幾何構象以及交互界面的優化作用。
抗體CDR設計優勢
在RAbD測試集上,UniMoMo的百次采樣性能同樣展示了其優越的生成能力。在序列和結構的恢復率上,UniMoMo的CDR-H3的AAR(52.34%)和RMSD(1.04?)相比DiffAb均有大幅優化。而在65%的靶點上,UniMoMo均能生成出結合強度超越天然CDR的結果。除此之外,UniMoMo生成結構的主鏈和側鏈二面角也更接近天然結構的分布。統一訓練使H3的序列恢復率提升了約4%,結構RMSD降低了25%,主鏈和側鏈二面角分布JSD分別降低19%和22%,證實多肽和小分子數據有助于改善抗體CDR的構象采樣。
小分子CBGBench結果
在小分子生成任務中,UniMoMo同樣展現了優越的性能。通過在CrossDocked2020數據集上的評估,作者發現UniMoMo在基于CBGBench的綜合評價上超越了現有主流方法。
具體而言,UniMoMo在子結構分布(原子種類、官能團等)、化學性質合理性(QED、LogP、SA等)、幾何結構質量(鍵長/角度分布與原子沖突率等)以及相互作用得分(Vina docking)等方面均取得了更高的綜合評分(完整的實驗結果請查看原文)。
尤為重要的是,與僅在小分子數據上訓練的單域版本相比,跨分子類型訓練的UniMoMo(all) 在所有評估維度上均有顯著提升。這表明,即便是在分子結構構成最為靈活、類型最為多樣的小分子場景中,統一模型依然能夠從其他分子類型中遷移幾何規律與相互作用模式,進而提升小分子的單體構象和相對口袋空間布局的合理性。
這一現象再次驗證了UniMoMo的核心理念:不同分子之間的幾何約束和結合機制具有可共享的模式,統一建模可以有效激發這一潛力。
統一建模的協同效應
三類任務的性能增益呈現顯著規律性:跨域訓練的UniMoMo(all)相比單域版本在核心指標上均有大幅提升,且優勢隨分子數據稀缺性(抗體>肽>小分子)遞增。
這一現象揭示了分子設計的底層統一性:不同分子類型共享局部幾何約束(如芳環平面性)和界面作用模式(如氫鍵網絡構建),而統一建模通過隱空間全局性的知識共享,以及原子粒度局部性的知識共享,實現了跨尺度的規律遷移。實驗結果不僅驗證了UniMoMo的技術創新性和有效性,更為構建通用型分子生成系統提供了實證基礎。
3、GPCR案例研究
研究者進一步以G蛋白偶聯受體(GPCR,PDB8U4R)為靶點,系統驗證了UniMoMo在單一結合位點上實現多肽、抗體和小分子協同設計的能力。實驗結果顯示,UniMoMo生成的各類分子均展現出優異的結合特性,體現在不錯的Rosetta ΔG,Vina score分布。
深入分析發現,UniMoMo展現出獨特的結構仿生設計能力。比如模擬天然氨基酸的側鏈與靶點殘基形成關鍵的相互作用,或是借鑒多肽和抗體中的酰胺鍵連接骨架,形成整體較大的分子來填充較大的口袋。模型能將蛋白質-蛋白質相互作用的關鍵模式轉化為小分子藥效團,實現相互作用模式的跨模態遷移;能精準轉化不同分子類型的局部構象特征,使小分子能根據口袋大小自適應地調整分子大小。
這種突破性的跨模態設計能力,為開發針對復雜靶點的多模態藥物組合提供了全新的技術路徑。
4、未來展望
盡管UniMoMo在統一分子生成領域取得了重要突破,其技術框架仍為未來的深入探索提供了廣闊空間。在分子覆蓋范圍方面,當前工作主要基于標準氨基酸和常見分子片段,而進一步拓展至非天然氨基酸、翻譯后修飾多肽/抗體(如磷酸化、糖基化變體)以及復雜環狀分子等結構,將顯著增強模型在更廣泛藥物化學空間中的適用性。
這種擴展不僅能夠覆蓋更多樣化的候選分子類型,還可能揭示不同結構域間新的構效關系。統一建模的理念也為模型的可控性和可解釋性研究提供了契機,有望進一步推進生成模型向更可信、更實用的分子設計平臺發展。
總之,UniMoMo的提出不僅為分子設計任務提供了一個通用而強大的生成框架,也為AI驅動的藥物發現打開了一個充滿潛力的新方向。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.