撰文丨王聰
編輯丨王多魚
排版丨水成文
生命的語言以 DNA、RNA 和蛋白質的形式編碼,構成了生命的基石,但由于其復雜性,解讀起來頗具挑戰。傳統的計算方法往往難以整合這些分子的信息,從而限制了對生物系統的全面理解。
自然語言處理(NLP)技術的進步,尤其是預訓練模型的發展,為解讀生命的語言帶來了新的可能。想象一下,如果存在一種“翻譯器”,能夠像我們理解人類語言一樣,讀懂構成生命的核心“語言”——DNA、RNA 和蛋白質序列中蘊含的復雜信息,那將會怎樣?
2025 年 6 月 18 日,阿里云智能飛天實驗室李兆融、賀勇及中山大學施莽教授等,在 Nature 子刊Nature Machine Intelligence上發表了題為:Generalized biological foundation model with unified nucleic acid and protein language 的研究論文。
該研究開發了廣義生物學基礎模型——LucaOne,這是世界首個能夠同時理解并統一處理核酸(DNA和RNA)和蛋白質序列的基礎模型,堪稱生命科學領域的“DeepSeek”。
LucaOne 在基于 169861 種物種的核酸和蛋白質序列進行了預訓練,通過大規模數據整合和半監督學習,LucaOne 展現出了對諸如 DNA 翻譯為蛋白質等關鍵生物學原理的理解。利用少樣本學習,它能夠有效地理解分子生物學的中心法則,并在涉及 DNA、RNA 或蛋白質輸入的任務中表現出色。我們的研究結果突顯了統一基礎模型在解決復雜生物學問題方面的潛力,為生物信息學研究提供了一個靈活的框架,并有助于更好地解讀生命的復雜性。
生命語言的復雜性:為何需要新工具?
從 DNA 的發現到對各種生物形式的測序,生物序列信息從DNA到RNA再到蛋白質的忠實且基于規則的流動一直是生命科學的核心原則——“中心法則”,即 DNA 攜帶遺傳信息,轉錄成 RNA,再翻譯成蛋白質執行功能。
這三種主要的信息承載生物大分子在細胞內承擔了大部分工作,進而決定了各種生物體的結構、功能和調節機制。它們本質上都是線性排列的“字母”序列:DNA 和 RNA 均由 4 種核苷酸組成,前者是 A、T、C、G,后者是 A、U、C、G;蛋白質則由 20 種標準氨基酸以及少量非標準氨基酸組成。
正如達爾文在其著作《人類的由來》中所寫:不同語言的形成以及不同物種的產生,以及兩者都是通過一個漸進的過程發展起來的證據,竟如此驚人的相同。此后,各種研究都證實了這些相似之處,促進了對生命的語言的理解和破譯。
就像人類的語言有其語法和語義一樣,這些核酸(DNA、RNA)和蛋白質序列的排列組合、以及它們折疊形成的復雜結構,編碼了生命的所有秘密(結構、功能、調控)。然而,傳統計算方法往往只能孤立地分析其中一種分子(例如只分析蛋白質或只分析 DNA),難以整合三者之間的復雜關系(例如 RNA 如何精確翻譯成特定蛋白質),限制了我們對生命系統的全面理解
LucaOne:生命語言的“通才”模型
LucaOne正是為了解決這一挑戰而誕生。它的核心思想借鑒了自然語言處理(NLP)領域的革命性突破——Transformer架構(這也是 ChatGPT 的基礎架構)和“基礎模型”(Foundation Model)的概念。
海量數據訓練: 研究團隊構建了前所未有的龐大訓練數據集,涵蓋了 169861 個物種的核酸和蛋白質序列,數據來源包括權威數據庫,例如 RefSeq(基因數據庫)、UniProt(蛋白質數據庫)、ColabFoldDB(蛋白質折疊數據庫)等。
統一“詞匯表”: LucaOne 擁有一個包含 39 個“字符”的詞匯表,將核苷酸和氨基酸統一編碼,從而能同時“閱讀”核酸和蛋白質的“句子”。
半監督學習: 除了讓模型像“完形填空”一樣預測被掩蓋的序列片段(自監督學習),研究團隊還巧妙地融入了已知的生物學注釋信息(例如基因組區域類型、蛋白質結構域、物種分類等)進行半監督學習。這相當于在讓模型自學的同時,也給它一些“生物學教科書”作為參考,加速其理解。
LucaOne的工作流程
LucaOne擁有 18 億參數,是一個名副其實的“大模型”。經過相當于閱讀了 369.5 億個生物序列“單詞” 的訓練后,該模型學會了提取核酸和蛋白質序列中深層的、通用的模式和規律。
LucaOne的“超能力”展示
研究團隊通過一系列精心設計的實驗,驗證了 LucaOne 的強大能力:
1、無師自通“中心法則”: 最令人驚訝的是,LucaOne 在沒有被明確教導 DNA 和蛋白質對應關系的情況下,僅僅通過海量數據的訓練,就自發地理解了 DNA 序列與其編碼的蛋白質序列之間的內在聯系!在判斷一段 DNA 序列和一段蛋白質序列是否匹配的任務中,LucaOne 僅需極少量的樣本進行微調(Few-shot Learning),其表現就遠超其他專門為 DNA 或蛋白質設計的先進模型(例如 DNABert2、ESM2-3B),甚至超過了將這兩個模型簡單組合使用。這表明,統一訓練讓 LucaOne 真正“領悟”了生命信息傳遞的核心規則。
LucaOne 理解了中心法則
2、卓越的“嵌入”表示: LucaOne 能將任何輸入的 DNA、RNA 或蛋白質序列,轉換成一個高維的數學向量(稱為“嵌入”或Embedding)。這個向量如同該序列的“數字指紋”,精準地捕捉了其生物學意義。實驗證明,LucaOne 生成的嵌入在聚類相似序列(例如同物種 DNA、同功能蛋白質)方面,效果顯著優于其他模型。
3、勝任各種生物計算任務的多面手: 利用 LucaOne 生成的嵌入作為起點,研究團隊在 7 項具有挑戰性的下游生物信息學任務中進行了測試,結果表現非常亮眼:
物種分類(GenusTax): 根據一段 DNA 片段預測它來自哪個物種(屬或種級別),準確率大幅提升。
非編碼 RNA 家族分類(ncRNAFam): 識別不同類型的非編碼 RNA,準確率更高。
蛋白質亞細胞定位(ProtLoc): 預測蛋白質在細胞內的位置(細胞膜或細胞質),表現優異,與 ESM2-3B 模型相當,優于 SOTA 模型。
蛋白質熱穩定性預測(ProtStab): 預測蛋白質結構是否穩定,相關性指標領先。
流感病毒抗原性預測(InfA): 基于病毒 RNA 序列對預測其抗原性是否相似,達到近乎完美(100%)的準確率。
蛋白質-蛋白質相互作用(PPI): 判斷兩個蛋白質是否會相互作用,效果拔尖。
非編碼 RNA-蛋白質相互作用(ncRPI): 預測非編碼 RNA 與蛋白質的相互作用,表現優于 DNABert2 + ESM2-3B 模型的組合。
LucaOne 在 7 種任務中的表現
在這 7 個任務中,LucaOne 使用相對簡單的下游網絡就能取得媲美甚至超越專用復雜模型的效果,大大降低了后續任務開發的復雜度和計算成本。
意義與展望:打開生命密碼的新大門
LucaOne 的誕生具有重大意義:
1、統一框架: 它首次為同時理解生命的兩大核心分子載體(核酸和蛋白質)提供了一個強大的統一計算框架,打破了分子類型間的壁壘;
2、基礎模型賦能: 它證明了“基礎模型”范式在生物信息學中的巨大潛力。預訓練好的 LucaOne 就像一個強大的“預訓練大腦”,研究人員可以基于它提供的“嵌入”,用相對較少的數據快速開發各種特定的生物計算工具(例如疾病診斷、藥物靶點發現、合成生物學設計),極大地提高效率;
3、解碼生命復雜性: LucaOne 展現出的對“中心法則”等核心生物學原理的自發理解,為未來利用 AI 更深入地、更自動化地解析生命復雜系統(例如基因調控網絡、疾病機制)鋪平了道路。
當然,挑戰依然存在: 作者也在論文也坦誠討論了 LucaOne 在理解基因組中非編碼區域、應對罕見密碼子使用偏好物種、整合更多非序列信息(例如表型、環境)以及模型可解釋性等方面仍需改進。此外,模型的訓練也需要巨大的計算資源。
總的來說,LucaOne 的出現,標志著生物信息學正在進入一個由大型通用基礎模型驅動的新時代。它不僅僅是一個強大的工具,更像是一把新打造的、能同時解讀核酸和蛋白質這兩種“生命語言”的鑰匙,為我們開啟“孟德爾圖書館”(The Library of Mendel)中更深奧的“書架”提供了可能。盡管前路漫漫,但 LucaOne 已經照亮了方向,讓我們對利用 AI 徹底解碼生命語言、加速生命科學研究的未來充滿期待!
論文鏈接:
https://www.nature.com/articles/s42256-025-01044-4
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.