7 月 10 日,微軟研究院 AI for Science 團隊在《Science》雜志發表了題為「Scalable emulation of protein equilibrium ensembles with generative deep learning」的研究成果。
- 論文
- https://www.science.org/doi/10.1126/science.adv9817
- 代碼
- github.com/microsoft/bioemu
- 模型
- https://huggingface.co/microsoft/bioemu
- 評估基準
- github.com/microsoft/bioemu-benchmarks
- ColabFold:https://colab.research.google.com/github/sokrypton/ColabFold/blob/main/BioEmu.ipynb
- AI Foundry:https://ai.azure.com/catalog/models/BioEmu
該研究提出了一種名為 BioEmu 的生成式深度學習模型,能夠以前所未有的效率和精度模擬蛋白質的構象變化,為理解蛋白質功能機制和加速藥物發現打開了新路徑。
從結構預測到功能模擬:蛋白質研究的下一個前沿
近年來,AlphaFold 等模型在蛋白質結構預測方面取得了突破性進展,但這些方法通常只能預測單一靜態結構,難以捕捉蛋白質在功能過程中所經歷的動態變化。蛋白質并非靜止不動的分子,而是處于不斷變化的構象系綜(conformational ensemble)中,其功能往往依賴于這些結構之間的轉換。
BioEmu 正是為了解決這一挑戰而生。它通過結合 AlphaFold 數據庫中的靜態結構、超過 200 毫秒的分子動力學(MD)模擬數據,以及 50 萬條蛋白穩定性實驗數據,訓練出一個能夠在單張 GPU 上每小時生成上千個獨立蛋白質結構的生成模型。
視頻:BioEmu生成的蛋白質動態構象展示
生成式建模
BioEmu 承接自微軟研究院的前期工作 DiG(Distributional Graphormer),基于擴散模型架構,結合 AlphaFold 的 evoformer 編碼器和二階積分采樣技術,能夠高效地從蛋白質構象分布中采樣。其核心創新在于:
- 能夠模擬蛋白質在功能過程中出現的關鍵結構變化,如隱性口袋、局部解折疊和結構域重排;
- 在自由能預測方面達到 1 kcal/mol 的誤差水平,與毫秒級 MD 模擬和實驗數據高度一致,相比分子動力學模擬實現了若干個數量級的加速;
- 對突變體的穩定性變化(ΔΔG)預測表現出色,平均絕對誤差低于 1 kcal/mol,Spearman 相關系數超過 0.6。
開源發布
研究團隊已在 GitHub 和 HuggingFace 上開源了模型參數和代碼,還發布了超過 100 毫秒的 MD 模擬數據,涵蓋數千個蛋白系統和數萬個突變體,為后續研究提供了豐富資源。BioEmu 也部署在了 Azure AI Foundry 和 ColabFold 等平臺,使得用戶可以便捷地運行模型。
展望未來:從單體蛋白到多分子系統
BioEmu 的開源發布也標志著微軟在推動開放科學方面邁出的重要一步。目前,BioEmu 的建模對象主要是單體蛋白質。研究團隊正在探索將其擴展到蛋白質復合物、蛋白-配體相互作用等更復雜的生物體系,并結合實驗數據進一步提升模型的泛化能力和可解釋性。在蛋白質科學、藥物設計和合成生物學等領域,BioEmu 有望成為連接結構與功能、理論與實驗的橋梁。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.