該圖片由 Midjourney 生成。
編輯 | 白菜葉
從 DNA 的發現到對各種生物進行基因測序,「DNA 到 RNA 再到蛋白質」的「中心法則」一直是生命科學的核心原則。這三種承載信息的生物聚合物承擔著細胞內的大部分工作,進而決定了各種生物體的結構、功能和調控。
今天的故事就從「中心法則」開始。還記得去年 6 月 ScienceAI 報道過的開源生物大模型「LucaOne」嗎?不記得也不要緊,現在帶大家復習一下。
LucaOne 是首個聯合 DNA、RNA、蛋白質的生物大模型,由中山大學施莽、阿里云李兆融領導的聯合研究團隊開發。該模型旨在綜合學習遺傳和蛋白質組語言,涵蓋 169,861 個物種的數據。
該模型不僅可以對核酸、蛋白質的內部特征進行挖掘,還可識別核酸與蛋白質之間的聯系,可以幫助研究人員探索更多生物系統的內在邏輯與規則。
時隔一年,這項研究以「Generalized biological foundation model with unified nucleic acid and protein language」為題,于 2025 年 6 月 18 日刊登在了《Nature Machine Intelligence》雜志。
LucaOne 的核心亮點在于其獨特的自監督加半監督學習架構,該架構基于生物語言的本質屬性設計,使得模型能夠在 10 億量級的序列與注釋信息上進行學習,參數規模約 1.8 B。
讓我們簡單看一下 LucaOne 是怎樣工作的。
圖示:LucaOne 的工作流程。(來源:論文)
宏觀層面
相比于其他面向單類型數據的生物大模型 [DNA(如 DNABert2、EVO)、RNA(如 UniRNA)、蛋白質(如 ESM2)],LucaOne 是第一個面向生物學「中心法則」的這三種類型數據的基礎大模型。從 DNA 轉錄成 RNA 再翻譯成蛋白質,這些數據本身具有內源性,所以放在一起建模是合理的。
現有模型的只對序列進行自監督建模(序列的 mask 任務或者下一個 token 預測),LucaOne 是第一個將生物領域內大量的基礎并通用的標簽信息加入預訓練階段,讓模型能夠學習到足夠多的信息,從而表征能力足夠強大且通用。
「這個模型目標是希望學習生物系統的底層編碼,目前這個版本以基因組、轉錄組、蛋白質組為核心。其中的核苷酸及氨基酸序列是生物系統里的兩種模態,放在一起統一學習能幫助模型更快學習到生物系統的編碼體系。」去年這個項目開源時,這項研究的負責人李兆融對媒體解釋道。
圖示:分子生物學中心法則任務的工作流程。(來源:論文)
微觀層面
LucaOne 使用的是 Transformer-Encoder 架構,在此基礎上進行了一些局部設計,包括:
a. 將 DNA,RNA 與 Protein 的 Token 統一起來;
b. 除了本身的序列自監督學習,增加了 8 個基礎性的半監督學習任務,避免只對序列學習的不足問題(區別于文本,人類認識通過注釋這些分子本身不存在的標簽信息來認識與理解這些自然界語言的);
c. 多個半監督學習任務如何融合以及半監督信息的假陰性如何容錯;
d. 增加分子類型編碼與改進位置編碼等。
「這里我們考慮的是生物序列的信息密度,雖然不能這樣武斷的說,但是大致上基因組的信息密度是低于文本信息的,并且可能分布不均。比如,生物序列里可能會存在一些無意義片段,且片段非常長;應對這類問題,我們需要一些取巧的方式。」李兆融曾經表示,「因此,在我們設置了 8 個有監督的任務,這使得模型更有效的進行學習。」
「模型的參數有 1.8 B,什么概念呢?我們希望模型既足夠「大」,能理解復雜生物系統,又不至于太大影響下游的使用效率。在整理高質量數據后,我們將模型參數設置在這個級別。」
性能
圖示:具有三種輸入類型的下游任務網絡和八個驗證任務的結果比較。(來源:論文)
在后續的驗證測試中,LucaOne 在中心法則學習任務上取得了顯著成效,預測準確率達到 0.85,遠優于其他計算方法。
當分析細分表現時發現,LucaOne 在處理具有特殊進化適應性的生物如海鞘(Ciona intestinalis)時,預測表現特別差。海鞘利用中心法則的具體規則-密碼子偏好性,與其他生物明顯不同。
研究人員表示,這種情況可以認為海鞘用的是一種中心法則語法「方言」。而這種「方言」在訓練數據集里僅有 100 條,因此模型沒有很好的學習到這種規則。這表明了生物世界的多樣性與復雜性,也為模型未來的數據擴充和優化指明方向。
在另外廣泛選取的 7 個任務里,LucaOne 則表現優異,尤其是在流感 H3N2 病毒的免疫逃逸風險預測任務中,LucaOne 結合簡單感知機模型實現了 100% 的準確率,可以為這一類公共衛生的重要問題提供了有力的支持。
結語
在這里,LucaOne 不僅是一種通用工具的嘗試,它在回答一個開放性的問題:什么是「生物系統」的語言?這種語言能否被建模?顯然,答案正逐漸傾向于肯定,這與「中心法則」息息相關。不過,這個問題目前來看是沒有止境的,生命的規律還有太多未知在等待我們去破譯。LucaOne 是一個好的開端。
相信,隨著更多數據、更豐富模態的加入,以及模型的持續升級,LucaOne 將更深入揭示生物系統的智能,推動 AI 在生物科學、疾病診斷、藥物開發等領域的廣泛應用。
開源地址:https://github.com/LucaOne
論文鏈接:https://www.nature.com/articles/s42256-025-01044-4
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.