撰文丨王聰
編輯丨王多魚
排版丨水成文
2021 年,AlphaFold2的問世曾讓整個(gè)科學(xué)界沸騰,它用深度學(xué)習(xí)(Deep Learning)技術(shù)解決了困擾生物學(xué) 50 年的蛋白質(zhì)折疊難題,實(shí)現(xiàn)了對蛋白質(zhì)結(jié)構(gòu)的快速、精準(zhǔn)預(yù)測,并于 2024 年獲得了諾貝爾獎(jiǎng)的認(rèn)可。
2025 年 5 月 23 日,南開大學(xué)統(tǒng)計(jì)與數(shù)據(jù)科學(xué)學(xué)院鄭偉教授聯(lián)合新加坡國立大學(xué)張陽教授、密歇根大學(xué)安娜堡分校及密歇根州立大學(xué)的研究人員,在 Nature 子刊Nature Biotechnology上發(fā)表了題為:Deep-learning-based single-domain and multidomain protein structure prediction with D-I-TASSER 的研究論文。
該研究開發(fā)了一種新的蛋白質(zhì)結(jié)構(gòu)預(yù)測工具——D-I-TASSER(deep-learning-based iterative threading assembly refinement,基于深度學(xué)習(xí)的迭代線程裝配優(yōu)化),在蛋白質(zhì)結(jié)構(gòu)預(yù)測權(quán)威比賽 CASP15 中碾壓所有對手。其在單結(jié)構(gòu)域、多結(jié)構(gòu)域的蛋白質(zhì)結(jié)構(gòu)預(yù)測方面均優(yōu)于AlphaFold2和AlphaFold3。
大規(guī)模蛋白質(zhì)折疊實(shí)驗(yàn)進(jìn)一步表明,研究團(tuán)隊(duì)還使用 D-I-TASSER 預(yù)測了人類蛋白質(zhì)組中 19512 個(gè)蛋白質(zhì),其能夠折疊人類蛋白質(zhì)組中 81%的蛋白質(zhì)結(jié)構(gòu)域和 73%的全長序列,其結(jié)果與最近發(fā)布的 AlphaFold2.3 模型高度互補(bǔ)。
這些結(jié)果凸顯了一條新途徑——把深度學(xué)習(xí)與基于經(jīng)典物理學(xué)的折疊模擬相結(jié)合,從而實(shí)現(xiàn)高精度的蛋白質(zhì)結(jié)構(gòu)和功能預(yù)測,這些預(yù)測可用于全基因組范圍的應(yīng)用。
為什么 AlphaFold 不是終點(diǎn)?
AlphaFold 通過海量數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò),直接從蛋白質(zhì)的氨基酸序列來預(yù)測其三維立體結(jié)構(gòu),但其局限性也逐漸顯現(xiàn):
1、多結(jié)構(gòu)域預(yù)測短板:80% 的人類蛋白質(zhì)含多個(gè)結(jié)構(gòu)域,傳統(tǒng)方法常因忽略域間相互作用導(dǎo)致整體構(gòu)象錯(cuò)誤;
2、靜態(tài)模型困境:深度學(xué)習(xí)易輸出單一構(gòu)象,難以捕捉蛋白質(zhì)動(dòng)態(tài)變化;
3、孤兒蛋白難題:對缺乏同源序列的蛋白質(zhì),預(yù)測能力驟降。
這些問題背后,是純數(shù)據(jù)驅(qū)動(dòng)方法的先天局限——蛋白質(zhì)折疊本質(zhì)上是一個(gè)物理過程,僅靠數(shù)據(jù)擬合,可能丟失底層規(guī)律。
D-I-TASSER:讓 AI 學(xué)會(huì)觸類旁通的混合智能
D-I-TASSER的核心創(chuàng)新在于深度融合深度學(xué)習(xí)與物理模擬:
多源信息整合:同時(shí)利用 AlphaFold2 的距離圖譜、自研的 DeepPotential 接觸圖譜、AttentionPotential 氫鍵網(wǎng)絡(luò),構(gòu)建多維約束;
物理引擎迭代優(yōu)化:通過蒙特卡洛模擬在能量場中“打磨”結(jié)構(gòu),突破神經(jīng)網(wǎng)絡(luò)不可微函數(shù)的限制;
多結(jié)構(gòu)域拆分重組:首創(chuàng)自動(dòng)切割-獨(dú)立預(yù)測-動(dòng)態(tài)組裝的流程,域內(nèi)精度達(dá) 0.858(較 AlphaFold2 提升2.8%),域間取向誤差降低 17%。
D-I-TASSER 蛋白質(zhì)結(jié)構(gòu)預(yù)測流程圖
技術(shù)亮點(diǎn):
采用升級(jí)版 DeepMSA2 搜索宏基因組數(shù)據(jù)庫,多序列比對(MSA)信息量提升 6.75 倍;
在 CASP15 盲測中,對困難靶標(biāo)的預(yù)測精度比 AlphaFold2 高 29.2%;
成功解析超過 3000 個(gè)氨基酸殘基的超大蛋白質(zhì)(例如新冠病毒刺突蛋白),捕捉開放/閉合雙構(gòu)象。
CASP15比賽 中 D-I-TASSER 建模結(jié)果
人類蛋白質(zhì)組:新模型打開未知疆域
研究團(tuán)隊(duì)用 D-I-TASSER 預(yù)測了人類蛋白質(zhì)約 20000 個(gè)功能蛋白中的 19512 個(gè)蛋白質(zhì)結(jié)構(gòu)(覆蓋率為 95%):
覆蓋度創(chuàng)紀(jì)錄:81% 結(jié)構(gòu)域、73% 全長序列可準(zhǔn)確建模,較 AlphaFold 數(shù)據(jù)庫新增 3020 個(gè)獨(dú)有模型;
動(dòng)態(tài)優(yōu)勢顯現(xiàn):無序區(qū)域構(gòu)象多樣性比 AlphaFold 高 59%;
功能注釋突破:基于預(yù)測結(jié)構(gòu),系統(tǒng)注釋了 ATP 結(jié)合、鐵硫簇組裝等關(guān)鍵功能位點(diǎn),首次揭示 11 號(hào)染色體富集視覺相關(guān)蛋白。
挑戰(zhàn)與未來
盡管 D-I-TASSER 表現(xiàn)驚艷,但也仍面臨一些挑戰(zhàn):
孤兒蛋白(同源序列<1%)預(yù)測精度驟降至 0.67 TM-score;
尚未涉及蛋白質(zhì)復(fù)合體的結(jié)構(gòu)預(yù)測;
計(jì)算耗時(shí)仍高于純深度學(xué)習(xí)模型。
D-I-TASSER 的突破證明了蛋白質(zhì)折疊的終極答案,或許不在數(shù)據(jù)或物理的單一維度,而在二者的深度協(xié)同,當(dāng)深度學(xué)習(xí)遇見物理模擬,我們離破譯蛋白質(zhì)折疊密碼又近了一步。此外,研究團(tuán)隊(duì)已開源 D-I-TASSER 預(yù)測模型(https://zhanggroup.org/D-I-TASSER/),基于 D-I-TASSER 的人類蛋白質(zhì)組預(yù)測數(shù)據(jù)庫也同步開放。
論文鏈接:
https://www.nature.com/articles/s41587-025-02654-4
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.