智東西
作者 李水青
編輯 心緣
智東西6月25日報道,今天,谷歌DeepMind推出AlphaGenome,一款能幫助人們快速預測基因變化影響的AI模型。
AlphaGenome就像一臺“觀察人類DNA的AI顯微鏡”,以長達100萬個堿基對的長DNA序列作為輸入,預測數千種表征其調控活性的分子特性,在超20項廣泛的基因組預測基準中實現了最先進的性能。
與已有的DNA序列模型相比,AlphaGenome具有幾個獨特的特點:支持高分辨率的長序列上下文、綜合多模態預測、高效變異評分和新穎的剪接連接模型。
當下,谷歌通過AlphaGenome API提供AlphaGenome預覽版,供非商業研究使用,并計劃在未來發布該模型。
紀念斯隆·凱特琳癌癥中心的博士Caleb Lareau說:“這是該領域的一個里程碑。我們首次擁有一個能夠統一遠程上下文、基礎精度和各種基因組任務的尖端性能的單一模型。”
論文地址:
https://storage.googleapis.com/deepmind-media/papers/alphagenome.pdf
一、百萬DNA序列輸入,預測數千種分子特性
AlphaGenome模型以長達100萬個堿基對的長DNA序列作為輸入,預測數千種表征其調控活性的分子特性。它還可以通過比較突變序列與未突變序列的預測結果來評估遺傳變異或突變的影響。
預測的屬性包括基因在不同細胞類型和組織中的起始和終止位置、基因剪接的位置、產生的RNA數量,以及哪些DNA堿基可接近、彼此靠近或與某些蛋白質結合。訓練數據來源于大型公共聯盟,包括ENCODE、GTEx、4D Nucleome和FANTOM5,這些聯盟通過實驗測量了這些屬性,涵蓋了數百種人類和小鼠細胞類型和組織中基因調控的重要模式。
以下動畫顯示AlphaGenome將一百萬個DNA字母作為輸入,并預測不同組織和細胞類型的不同分子特性。
AlphaGenome架構使用卷積層初步檢測基因組序列中的短模式,使用轉換器在序列的所有位置傳遞信息,最后使用一系列層將檢測到的模式轉化為不同模態的預測。在訓練過程中,此計算分布在單個序列的多個互連張量處理單元(TPU)上。
該模型以谷歌之前的基因組學模型Enformer為基礎,并與AlphaMissense相輔相成,后者專門對蛋白質編碼區內變異的影響進行分類。這些區域覆蓋了基因組的2%。其余98%的區域稱為非編碼區,對調控基因活動至關重要,并包含許多與疾病相關的變異。AlphaGenome為解讀這些廣泛的序列及其內部的變異提供了一個新的視角。
二、高分辨率的長序列上下文,綜合多模態預測
與已有的DNA序列模型相比,AlphaGenome具有幾個獨特的特點:
1、高分辨率的長序列上下文
谷歌的模型分析多達一百萬個DNA堿基,并以單個堿基的分辨率進行預測。長序列上下文對于覆蓋遠處調控基因的區域至關重要,而堿基分辨率對于捕捉精細的生物學細節至關重要。
先前的模型必須在序列長度和分辨率之間做出權衡,這限制了它們能夠聯合建模并準確預測的模態范圍。谷歌的技術進步解決了這一限制,且無需顯著增加訓練資源——訓練單個AlphaGenome模型(未進行數據蒸餾)耗時4小時,且所需的計算預算僅為訓練原始Enformer模型的一半。
2、綜合多模態預測
通過解鎖長輸入序列的高分辨率預測,AlphaGenome能夠預測最多樣化的模態。由此,AlphaGenome為科學家提供了有關基因調控復雜步驟的更全面的信息。
3、高效變異評分
除了預測各種分子特性外,AlphaGenome還能在一秒鐘內高效地評估基因變異對所有這些特性的影響。它通過對比突變序列和未突變序列的預測,并針對不同模式使用不同的方法高效地總結這種對比來實現這一點。
4、新穎的剪接連接模型
許多罕見遺傳疾病,例如脊髓性肌萎縮癥和某些形式的囊性纖維化,都可能由RNA剪接錯誤引起。RNA剪接是指RNA分子的部分被移除,或“剪接掉”,然后剩余的末端重新連接在一起的過程。AlphaGenome首次能夠直接從序列中明確模擬這些連接的位置和表達水平,從而更深入地了解遺傳變異對RNA剪接的影響。
三、超20項基準測試中表現最佳
AlphaGenome在廣泛的基因組預測基準中實現了最先進的性能,例如預測DNA分子的哪些部分將會靠近,遺傳變異是否會增加或減少基因的表達,或者它是否會改變基因的剪接模式。
下方條形圖顯示了AlphaGenome在選定的DNA序列和變異效應任務上的相對改進,并與每個類別中當前最佳方法的結果進行了比較。
在對單個DNA序列進行預測時,AlphaGenome在24項評估中,有22項的表現優于市面上已有的最佳模型。在預測變異的調控效應時,它在26項評估中,有24項的表現與最佳外部模型相當甚至超過了最佳外部模型。
本次比較涵蓋了針對特定任務的模型。AlphaGenome是唯一能夠聯合預測所有評估模態的模型,彰顯了其通用性。
四、統一模型,更快地生成和測試假設
AlphaGenome的通用性使科學家能夠通過單個API調用同時探索一個變異對多種模式的影響。這意味著科學家可以更快地生成和測試假設,而無需使用多個模型來研究不同的模式。
此外,AlphaGenome的出色表現表明,它已經在基因調控的背景下學習到了相對通用的DNA序列表征。這為更廣泛的研究社區奠定了堅實的基礎。一旦該模型全面發布,科學家們將能夠在自己的數據集上對其進行調整和微調,以更好地解決他們獨特的研究問題。
最后,這種方法為未來提供了一個靈活且可擴展的架構。通過擴展訓練數據,AlphaGenome的功能可以得到擴展,從而獲得更好的性能,覆蓋更多物種,或包含更多模態,使模型更加全面。
五、助力疾病理解、基礎研究等
AlphaGenome的預測能力可以幫助多種研究途徑:
1、疾病理解:通過更準確地預測基因突變,AlphaGenome可以幫助研究人員更精準地查明疾病的潛在病因,并更好地解釋與某些性狀相關的變異的功能影響,從而可能發現新的治療靶點。我們認為該模型尤其適用于研究可能產生巨大影響的罕見變異,例如導致罕見孟德爾遺傳病的變異。
2、合成生物學:它的預測可用于指導具有特定調節功能的合成DNA的設計——例如,僅激活神經??細胞中的基因,而不是肌肉細胞中的基因。
3、基礎研究:它可以通過協助繪制基因組的關鍵功能元素并定義其作用,識別調節特定細胞類型功能的最重要DNA指令,加速我們對基因組的理解。
例如,谷歌使用AlphaGenome研究了一種癌癥相關突變的潛在機制。在一項針對T細胞急性淋巴細胞白血病(T-ALL)患者的現有研究中,研究人員觀察到基因組特定位置的突變。利用AlphaGenome,他們預測這些突變會通過引入MYB DNA結合基序來激活附近的TAL1基因,這復制了已知的疾病機制,并凸顯了AlphaGenome將特定非編碼變異與疾病基因關聯起來的能力。
倫敦大學學院馬克·曼蘇爾教授說:“AlphaGenome將成為該領域的一個強大工具。確定不同非編碼變異之間的相關性可能極具挑戰性,尤其是在大規模研究的情況下。該工具將提供關鍵的線索,幫助我們更好地理解癌癥等疾病。”
結語:AI基因預測重要一步
AlphaGenome標志著AI基因預測向前邁出了重要一步,但仍有其局限性。
與其他基于序列的模型一樣,準確捕捉極遠距離調控元件的影響(如那些相距超過10萬 DNA 堿基的調控元件)仍然是一個尚未解決的挑戰。
同時,谷歌尚未設計或驗證AlphaGenome用于個人基因組預測。雖然AlphaGenome可以預測分子結果,但它并不能全面展現基因變異如何導致復雜的性狀或疾病。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.