撰文丨王聰
編輯丨王多魚
排版丨水成文
近年來,人工智能(AI)在生命科學領域的最重要的突破莫過于AlphaFold,這款由 DeepMind 推出的 AI 工具能夠僅根據氨基酸序列就實現對蛋白質三維結構的精準預測,并獲得了諾貝爾獎的認可。
而最近, DeepMind 推出了一款新型 AI 工具——AlphaGenome,這是一個全新的DNA 序列模型,能夠 更全面、更準確地預測人類 DNA 序列中的單堿基突變如何影響調控基因的多種生物過程,該模型能夠處理高達 100萬堿基對的長 DNA 序列,并輸出高分辨率的預測結果,例如,準確預測白血病患者中的非編碼基因突變間接激活了附近的致癌基因表達。
該研究于 2025 年 6 月 25 日發表于預印本,論文題為: AlphaGenome: advancing regulatory variant effect prediction with a unified DNA sequence model.
DeepMind表示 , 相信 AlphaGenome 能夠成為科學界的一項寶貴資源,幫助科學家更好地理解基因組功能、疾病生物學,最終推動新的生物學發現以及新療法的開發。
基因組是我們的細胞操作手冊。它是完整的 DNA 集合,幾乎指導著生物體的每一個部分,從外觀和功能到生長和繁殖。基因組 DNA 序列的細微變化可能會改變生物體對環境的反應或其對疾病的易感性。但要解讀基因組指令在分子層面是如何被讀取的——以及當 DNA 發生微小變化時會發生什么——仍是生物學最大的謎團之一。
實際上,在科學家完成人類基因組草圖近 25 年后的今天,人類基因組中絕大部分對我們來說仍然是個謎,占基因組 98% 的非編碼序列尤其令人困惑,它們不編碼蛋白質,但發揮著重要的調控作用。
2020 年,DeepMind 推出AlphaFold2,大大推進了解決困擾研究人員數十年的問題的進程:蛋白質序列如何影響其三維結構。
而要弄清楚 DNA 序列的作用則有所不同,因為不像 AlphaFold2 提供的蛋白質三維結構那樣只有一個答案。實際上,一段 DNA 序列會有眾多相互關聯的作用——從吸引一組細胞機制附著到染色體的特定部分并將附近的基因轉錄成 RNA 分子,到吸引影響基因表達位置、時間和程度的蛋白質轉錄因子。例如,許多 DNA 序列通過改變染色體的 3D 形狀來影響基因活性,要么限制要么促進轉錄機制的接近。
幾十年來,生物學家一直在利用各種計算工具來研究這個問題。在過去十年左右的時間里,科學家們開發了數十種 AI 模型來解讀基因組。其中許多模型專注于單一任務,比如預測基因表達水平或確定單個基因中的外顯子是如何被剪切和拼接成不同蛋白質的。但科學家們越來越對能夠“all in one”解讀 DNA 序列的工具感興趣。
AlphaGenome 如何運作
AlphaGenome 模型以長 DNA 序列作為輸入——長達 100 萬個堿基對,預測數千種分子特性,這些特性表征其調控活性。它還能通過將突變序列的預測結果與未突變序列的預測結果進行比較,來評估基因變異或突變的影響。
預測的屬性包括不同細胞類型和組織中基因的起始和終止位置、基因的剪接位置、產生的 RNA 水平,以及哪些 DNA 基因座是可及的、彼此靠近的或被某些蛋白質結合的。訓練數據來自大型公共聯盟,包括 ENCODE、GTEx、4D Nucleome 和 FANTOM5,這些聯盟通過實驗測量了涵蓋數百種人類和小鼠細胞類型及組織的重要基因調控模式的這些屬性。
AlphaGenome 架構使用卷積層初步檢測基因組序列中的短模式,利用 Transformer 在序列的所有位置之間傳遞信息,并通過最終的一系列層將檢測到的模式轉化為不同模態的預測。在訓練期間,針對單個序列的計算會被分布到多個互連的張量處理單元(TPU)上執行。
該模型建立在 DeepMind 之前的基因組學模型 Enformer 的基礎上,并與 AlphaMissense 互補,后者專門對蛋白質編碼區內突變的影響進行分類。這些區域覆蓋了基因組的 2%。剩下的 98% 被稱為非編碼區,它們對調控基因活動至關重要,并包含許多與疾病相關的突變。AlphaGenome 為解釋這些擴展序列及其突變提供了一個新的視角。
AlphaGenome 的強大之處
與現有的 DNA 序列模型相比,AlphaGenome 提供了多項獨特特性:
長序列背景下的高分辨率:
AlphaGenome 模型能夠分析多達 100 萬堿基對的 DNA 序列,并以單堿基的精度進行預測。長序列背景對于覆蓋遠距離調控基因的區域十分重要,而單堿基分辨率對于捕捉細微的生物學細節至關重要。
此前的模型必須在序列長度和分辨率之間做出權衡,這限制了它們能夠聯合建模和準確預測的模態范圍。而技術進步解決了這一局限性,且并未顯著增加訓練資源——訓練單個 AlphaGenome 模型(未采用知識蒸餾)僅需四小時,所需的計算預算僅為訓練最初的 Enformer 模型的一半。
全面的多模態預測:
通過為長輸入序列解鎖高分辨率預測,AlphaGenome 能夠預測最多樣化的模態。通過這種方式,AlphaGenome 為科學家提供了有關基因調控復雜步驟的更全面的信息。
高效突變評分:
除了能夠預測多種分子特性之外,AlphaGenome 還能在一秒內高效評估基因突變對所有這些特性的影響。它通過將突變序列的預測結果與未突變序列的預測結果進行對比,并針對不同模態采用不同的方法對這種對比進行高效總結來實現這一點。
新型剪接位點建模:
許多罕見遺傳疾病,例如脊髓性肌萎縮癥(SMA)和某些類型的囊性纖維化,可由 RNA 剪接錯誤引。AlphaGenome 首次能夠直接從序列中明確建模這些位點的位置和表達水平,從而更深入地了解基因突變對 RNA 剪接的影響。
在各項基準測試中均達到頂尖水平(SOTA):
AlphaGenome 在廣泛的基因組預測基準測試中均達到了頂尖水平,例如預測 DNA 分子的哪些部分會彼此靠近、某個基因突變是否會增加或減少基因表達,或者是否會改變基因的剪接模式。
AlphaGenome 在不同的 DNA 序列和突變效應任務上的相對改進情況,與每個類別中當前最佳方法的結果進行了對比
在對單個 DNA 序列進行預測時,AlphaGenome 在 24 項評估中有 22 項的表現優于最佳外部模型。而在預測突變的調控效應時,它在 26 項評估中有 24 項的表現與最佳外部模型持平或更優。這些比較涵蓋了專門針對特定單一任務的模型,AlphaGenome 是唯一能夠同時預測所有評估模式的模型,突顯了其通用性。
統一模型的優勢
AlphaGenome 的通用性使科學家能夠通過一次 API 調用同時探究一個突變體對多種模態的影響。這意味著科學家能夠更迅速地生成和測試假設,而無需使用多個模型來研究不同的模態。
此外,AlphaGenome 的出色表現表明,它在基因調控的背景下已經學習到了相對通用的 DNA 序列表示。這為更廣泛的科研群體提供了一個堅實的基礎,以便在此基礎上進行拓展。一旦該模型完全發布(當前發布的是預覽版),科學家們就能夠根據自己的數據集對其進行調整和微調,從而更好地解決他們各自獨特的研究問題。
最后,這種方法為未來提供了一種靈活且可擴展的架構。通過擴充訓練數據,AlphaGenome 的能力可以得到拓展,從而實現更優的性能、涵蓋更多物種,或者納入更多模態,使模型更加全面。
強大的研究工具
AlphaGenome 的預測能力能夠助力多個研究方向:
疾病理解:通過更準確地預測基因破壞情況,AlphaGenome 能夠幫助研究人員更精確地確定疾病潛在成因,并更好地解讀與某些特征相關的突變的功能影響,從而有可能發現新的治療靶點。該模型特別適合研究那些可能具有重大影響的罕見突變,例如導致罕見孟德爾遺傳病的突變。
合成生物學:其預測結果可用于指導設計具有特定調節功能的合成 DNA,例如僅在神經細胞中激活而不激活肌肉細胞中的基因。
基礎研究:它能夠通過協助繪制基因組的關鍵功能元件并定義其作用,加速我們對基因組的理解,識別出對特定細胞類型功能進行調節的最必要 DNA 指令。
例如,DeepMind 的研究人員利用 AlphaGenome 來探究一種與癌癥相關的突變的潛在機制。在一項現有的T 細胞急性淋巴細胞白血病(T-ALL)患者研究中,研究人員觀察到基因組中非編碼區域存在突變。利用 AlphaGenome,預測這些非編碼基因突變會通過引入一個 MYB DNA 結合基序,激活附近的一個名為TAL1的基因,而這是一個一直的致癌基因,這突顯了 AlphaGenome 將特定非編碼基因突變與疾病基因相聯系的能力。
AlphaGenome 模型架構、訓練方案以及全面的評估性能
當前的局限性
AlphaGenome 是一項重大進步,但當前仍存在一些局限性。
與其他基于序列的模型一樣,AlphaGenome 在準確捕捉相隔甚遠的調控元件(比如相隔超過 10 萬個堿基對的元件)的影響,仍是當前面臨的一項挑戰。未來工作的另一個重點是進一步增強模型捕捉細胞和組織特異性模式的能力。
DeepMind 尚未針對個人基因組預測對 AlphaGenome 進行設計或驗證,這是 AI 模型面臨的一個已知難題。相反,他們更側重于對單個基因突變表現的特征描述。盡管 AlphaGenome 能夠預測分子層面的結果,但它無法全面展現基因突變如何導致復雜性狀或疾病。這些通常涉及更廣泛的生物學過程,比如發育和環境因素,而這些超出了該模型的直接研究范圍。DeepMind 表示,目前正在不斷改進該模型,并收集反饋以幫助彌補這些不足。
目前,DeepMind 已向非商業用途開放 API 接口,但需要指出的是,該模型的預測功能只用于科學研究,并未設計或驗證用于直接臨床目的。DeepMind 希望 AlphaGenome 能成為更好地理解基因組的重要工具,并致力于與學術界、工業界和政府組織的外部專家合作,以確保 AlphaGenome 能夠造福盡可能多的人。
最后,DeepMind 表示,希望與更廣泛的科學界共同努力,能夠加深我們對 DNA 序列中編碼的復雜細胞學過程以及突變影響的理解,并推動基因組學和醫療保健領域令人振奮的新發現。
論文鏈接:
https://storage.googleapis.com/deepmind-media/papers/alphagenome.pdf
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.