新智元報道
編輯:桃子 好困
【新智元導讀】前有AlphaFold破解蛋白質之謎,今有AlphaGenome揭示DNA天書。谷歌DeepMind最新103頁力作,用AI成功預測基因突變,一次即可讀取100萬個DNA堿基,精度無「模」能敵。
基因組,宛如生命的藍圖,藏在我們每一個細胞之中。
這套完整的DNA指令集,主導著生命體從外觀功能到生長繁殖的幾乎每一個方面,甚至是對疾病抵御的能力。
2003年,人類基因組測序完成,讓人類首次窺見了DNA的全貌。
然而,如何破譯這些指令,一個微小DNA變異如何改變生命軌跡,至今仍是生物學的未解之謎。
現在,這個局面將被徹底改寫。
今天,谷歌DeepMind重磅發布AlphaGenome——一款革命性的AI工具,以及103頁的詳細技術報告。
論文地址:https://deepmind.google/discover/blog/alphagenome-ai-for-better-understanding-the-genome/
一個模型,可讀取100萬個DNA堿基,并預測任何基因變異/突變如何改變分子的功能。
它不僅限于單個基因預測,而是貫穿了整個調控基因組。
誠如網友所言,「DNA就是代碼,而你就是軟件」。
比如,它可以回答「某個基因的活性是會增強還是減弱」。而這,正是生物學家們在實驗室中,需要通過大量實驗來反復驗證的問題。
那么,這是如何做到的?
AlphaGenome以長DNA序列為輸入,經過數據處理后,通過表征其調控活性來預測數千種分子特性。
諾獎得主Demis Hassabis曾在采訪中堅定地表示,「未來十年,AI將會治愈所有疾病」。
如今,AlphaGenome的誕生,讓這一宏偉的愿景更進一步。
它可以讓科學家快速預測基因變化可能帶來的影響,推動生物學的全新發現與新療法的誕生。
解密生命密碼
DeepMind開啟NDA研究新紀元
在解密生命「密碼」這一領域,谷歌DeepMind早已展開布局。
5年前,蛋白質預測模型AlphaFold出世,在業界曾掀起海嘯級巨震,還登上了Neture、Science年度十大科學發現榜單。
從初代AlphaFold到AlphaFold 3,階躍式進化,成功預測了人類98.5%蛋白質,并拿下2024年諾貝爾獎。
這項世界級成果催生了專注于藥物發現的衍生公司Isomorphic Labs,引領了用AI設計新藥的浪潮。
AlphaGenome的出世,再一次拓展了AI在NDA領域的研究。
人類基因約有30億個堿基,但其中只有不到2%的序列,用于編碼蛋白質,其余98%被稱為非編碼區。
然而,它們對調控基因的活性至關重要,并包含了大量與疾病相關的變異位點。
直到現在,生物學家實際上無法看清它是如何運作的。
AlphaGenome正是為解讀這些廣闊的非編碼序列及其內部變異,提供了全新的視角。
這是該領域的里程碑式突破。我們首次擁有了一個統一模型,能在各類基因組任務中同時實現長程上下文關聯、堿基級精度和最先進的性能表現。
如今,AlphaGenome能夠接收長達100萬個堿基字母(即堿基對)的DNA序列作為輸入,并據此預測用以表征其調控活性的數千種分子特性。
通過比對突變序列與原始序列的預測結果,模型還能量化評估基因變異或突變所帶來的影響。
AlphaGenome將一百萬個DNA堿基作為輸入,并預測不同組織和細胞類型中的多種分子特性
這款模型的預測范圍非常廣泛,包括了在不同的細胞類型和組織中,基因的起始與終止位點、基因的剪接位置、RNA的生成數量,以及哪些DNA堿基是可訪問的、哪些在空間上相互靠近、哪些與特定的蛋白質結合等。
AlphaGenome能夠同時做出多方面的預測,得益于其頗具層次的核心架構。
如下圖所示,首先通過卷積層初步檢測基因組序列中的短模式,再利用Transformer架構在整個序列的任意位置之間高效傳遞信息。
最后,經由一系列輸出層,將識別出的模式轉化為對不同調控維度的具體預測。
在訓練過程中,針對單個序列的龐大計算量,會被分散到多個互聯的張量處理單元(TPU)上協同完成。
模型基于谷歌先前的基因組學模型Enformer構建,并與AlphaMissense模型形成互補——后者專注于分類蛋白質編碼區內的變異所造成的影響。
順便提一句,模型的訓練數據源自多個大型公共科研項目,如ENCODE、GTEx、4D Nucleome和FANTOM5。
這些項目通過實驗,測量并覆蓋了數百種人類及小鼠細胞與組織中基因調控的多種關鍵維度。
一次100萬DNA堿基,瞬間預測
與現有的DNA序列模型相比,AlphaGenome具備幾項顯著的獨特優勢:
兼顧長序列與高分辨率
處理長序列對于覆蓋遠距離的基因調控區至關重要,而堿基級別的分辨率則是捕捉精細生物學細節的關鍵。
以往的模型不得不在序列長度和分辨率之間做出艱難取舍,這限制了它們能夠同時建模和準確預測的生物學維度。
而谷歌的技術突破成功克服了這一限制,且并未顯著增加訓練所需的資源。
訓練一個完整的AlphaGenome模型(未經蒸餾)僅需4小時,算力開銷僅為最初訓練Enformer模型時的一半。
結果就是,AlphaGenome已經可以實現長達100萬個DNA堿基字母的序列的分析,并能以單個堿基的分辨率進行精細預測。
全面的多維度預測
通過解鎖對長輸入序列的高分辨率預測能力,AlphaGenome得以對迄今最多樣化的生物學維度進行預測。
這為科學家們提供了關于基因調控復雜過程的、更全面的信息。
變異效應的高效評估
除了能預測多種分子特性,AlphaGenome還能在短短一秒內,高效評估某個基因變異對所有這些特性的影響。
它通過對比突變序列與原始序列的預測結果,并針對不同維度采用相應的分析方法,來高效地量化這種差異。
創新的剪接點建模
許多罕見的遺傳性疾病,如脊髓性肌萎縮癥和某些類型的囊性纖維化,病因就可能源于RNA剪接過程的錯誤——在該過程中,RNA分子的一部分被移除,剩余的兩端再重新連接。
值得一提的是,AlphaGenome首次實現了直接從DNA序列出發,預測剪接點,并將其用于變異效應預測。
這為深入理解遺傳變異對RNA剪接的后果提供了前所未有的視角。
Jun Cheng是共同一作中唯一的華人
刷新SOTA,覆蓋多種生物模態
AlphaGenome在基因學組基準測試中,表現又如何?
無論是在預測DNA分子中哪些部分會在空間上相互靠近,還是在判斷某個基因變異是會增強或減弱基因表達,抑或是改變其剪接模式等任務上,這款模型均刷新了SOTA。
AlphaGenome在部分DNA序列及變異效應預測任務上,性能大幅提升
在生成單個DNA序列的預測時,24項評估中有22項的表現都超越了當前最優的外部模型。
在預測基因變異的調控效應時,26項評估中有24項的表現都達到或超過了頂尖的外部模型。
值得一提的是,上述比較中的外部模型大多是為單一任務專門優化的。
而AlphaGenome是唯一能夠同時對所有評估維度進行聯合預測的模型,這充分凸顯了其強大的通用性。
一個模型,全搞定
要知道,AlphaGenome的創新不僅在于準確性,還在于統一性。
以前,科學家可能需要10多個模型,才能了解一個突變的作用。而現在,一次API調用,還是全分辨率。
科學家僅通過一次API調用,就能同時探究某個基因變異對多種不同調控維度的影響。
這意味著科學家可以更迅速地提出并驗證科學假說,無需再為了研究不同維度而調用多個不同的模型。
此外,AlphaGenome的強勁表現表明,它已在基因調控的框架下,學習到了一種相對通用的DNA序列特征表示。這使其成為一個堅實的基礎,便于更廣泛的科研社區在此之上進行構建和拓展。
而且, AlphaGenome還可以支持特定場景、自己的數據集上,進行適配和微調,從而更有效地解決他們獨特的科研難題。
最后,這種統一的方法為,未來提供了一個靈活且可擴展的架構。
通過擴充訓練數據,AlphaGenome的能力還可以被進一步擴展,以獲得更優的性能、覆蓋更多的物種,或納入額外的生物學維度,從而使模型變得更加全面和強大。
DNA預測,生物學的新曙光
毋庸置疑,AlphaGenome的強大預測能力,將為未來多個科研領域的研究提供助力。
首先,它能加深人類對疾病的理解。
通過更精準地預測基因功能擾動,AlphaGenome能幫助研究人員更精確地定位疾病的潛在根源,并更好地闡釋與特定性狀相關的變異所造成的功能性影響,從而有望揭示新的治療靶點。
由此谷歌認為,AlphaGenome將尤其適合用于研究那些可能引發嚴重后果的罕見變異,例如導致孟德爾遺傳病的變異。
其次,AlphaGenome還可以賦能「合成生物學」。
模型的預測結果可用于指導設計具備特定調控功能的合成DNA。例如,設計出僅在神經細胞中激活某個基因,而在肌肉細胞中保持沉默的DNA序列。
最最重要的是,AlphaGenome將會推動未來的生物學基礎研究。
通過協助繪制基因組的關鍵功能元件圖譜并闡明其作用,以及識別調控特定細胞功能所必需的核心DNA指令,該模型將加速我們對基因組的理解。
舉個例子,在一項針對T細胞急性淋巴細胞白血病(T-ALL)患者的現有研究中,科研人員發現基因組特定位點的突變。
隨后在AlphaGenome的加持下,谷歌的研究人員預測這些突變會通過引入一個MYBDNA結合基序,來異常激活鄰近的一個名為TAL1的基因。
這一預測結果與已知的致病機制完全吻合,充分展現了AlphaGenome將特定非編碼變異與致病基因聯系起來的強大能力。
AlphaGenome將是這個領域的一款強大工具。要確定不同非編碼變異的重要性極具挑戰性,尤其是在大規模研究的背景下。這款工具將補上這塊拼圖上至關重要的一塊,讓我們能夠建立更清晰的聯系,從而更深入地理解癌癥等復雜疾病。
每一次失敗的療法,每一次罕見的疾病,每一種復雜性狀,都始于被誤讀的DNA。
如今,人類終于可以看清生命這一系統。
當你能清晰洞見系統全貌時,就能開始重新設計它。生物學也就不再神秘莫測,開始變得的可編程。
這是從「認知」到「掌控」的躍遷。AlphaGenome,正是這個轉折點。
參考資料:
https://deepmind.google/discover/blog/alphagenome-ai-for-better-understanding-the-genome/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.