99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

生物學的DeepSeek:阿里云發布LucaOne模型,首次統一DNA/RNA和蛋白質語言,能夠理解中心法則

0
分享至

撰文丨王聰

編輯丨王多魚

排版丨水成文

生命的語言以 DNA、RNA 和蛋白質的形式編碼,構成了生命的基石,但由于其復雜性,解讀起來頗具挑戰。傳統的計算方法往往難以整合這些分子的信息,從而限制了對生物系統的全面理解。

自然語言處理(NLP)技術的進步,尤其是預訓練模型的發展,為解讀生命的語言帶來了新的可能。想象一下,如果存在一種“翻譯器”,能夠像我們理解人類語言一樣,讀懂構成生命的核心“語言”——DNA、RNA 和蛋白質序列中蘊含的復雜信息,那將會怎樣?

2025 年 6 月 18 日,阿里云智能飛天實驗室李兆融賀勇及中山大學施莽教授等,在 Nature 子刊Nature Machine Intelligence上發表了題為:Generalized biological foundation model with unified nucleic acid and protein language 的研究論文。

該研究開發了廣義生物學基礎模型——LucaOne,這是世界首個能夠同時理解并統一處理核酸(DNA和RNA)和蛋白質序列的基礎模型,堪稱生命科學領域的“DeepSeek”。

LucaOne 在基于 169861 種物種的核酸和蛋白質序列進行了預訓練,通過大規模數據整合和半監督學習,LucaOne 展現出了對諸如 DNA 翻譯為蛋白質等關鍵生物學原理的理解。利用少樣本學習,它能夠有效地理解分子生物學的中心法則,并在涉及 DNA、RNA 或蛋白質輸入的任務中表現出色。我們的研究結果突顯了統一基礎模型在解決復雜生物學問題方面的潛力,為生物信息學研究提供了一個靈活的框架,并有助于更好地解讀生命的復雜性。


生命語言的復雜性:為何需要新工具?

從 DNA 的發現到對各種生物形式的測序,生物序列信息從DNARNA再到蛋白質的忠實且基于規則的流動一直是生命科學的核心原則——“中心法則”,即 DNA 攜帶遺傳信息,轉錄成 RNA,再翻譯成蛋白質執行功能。

這三種主要的信息承載生物大分子在細胞內承擔了大部分工作,進而決定了各種生物體的結構、功能和調節機制。它們本質上都是線性排列的“字母”序列:DNA 和 RNA 均由 4 種核苷酸組成,前者是 A、T、C、G,后者是 A、U、C、G;蛋白質則由 20 種標準氨基酸以及少量非標準氨基酸組成。

正如達爾文在其著作《人類的由來》中所寫:不同語言的形成以及不同物種的產生,以及兩者都是通過一個漸進的過程發展起來的證據,竟如此驚人的相同。此后,各種研究都證實了這些相似之處,促進了對生命的語言的理解和破譯。

就像人類的語言有其語法和語義一樣,這些核酸(DNA、RNA)和蛋白質序列的排列組合、以及它們折疊形成的復雜結構,編碼了生命的所有秘密(結構、功能、調控)。然而,傳統計算方法往往只能孤立地分析其中一種分子(例如只分析蛋白質或只分析 DNA),難以整合三者之間的復雜關系(例如 RNA 如何精確翻譯成特定蛋白質),限制了我們對生命系統的全面理解

LucaOne:生命語言的“通才”模型

LucaOne正是為了解決這一挑戰而誕生。它的核心思想借鑒了自然語言處理(NLP)領域的革命性突破——Transformer架構(這也是 ChatGPT 的基礎架構)和“基礎模型”(Foundation Model)的概念。

海量數據訓練: 研究團隊構建了前所未有的龐大訓練數據集,涵蓋了 169861 個物種的核酸和蛋白質序列,數據來源包括權威數據庫,例如 RefSeq(基因數據庫)、UniProt(蛋白質數據庫)、ColabFoldDB(蛋白質折疊數據庫)等。

統一“詞匯表”: LucaOne 擁有一個包含 39 個“字符”的詞匯表,將核苷酸和氨基酸統一編碼,從而能同時“閱讀”核酸和蛋白質的“句子”。

半監督學習: 除了讓模型像“完形填空”一樣預測被掩蓋的序列片段(自監督學習),研究團隊還巧妙地融入了已知的生物學注釋信息(例如基因組區域類型、蛋白質結構域、物種分類等)進行半監督學習。這相當于在讓模型自學的同時,也給它一些“生物學教科書”作為參考,加速其理解。


LucaOne的工作流程

LucaOne擁有 18 億參數,是一個名副其實的“大模型”。經過相當于閱讀了 369.5 億個生物序列“單詞” 的訓練后,該模型學會了提取核酸和蛋白質序列中深層的、通用的模式和規律。

LucaOne的“超能力”展示

研究團隊通過一系列精心設計的實驗,驗證了 LucaOne 的強大能力:

1、無師自通“中心法則”: 最令人驚訝的是,LucaOne 在沒有被明確教導 DNA 和蛋白質對應關系的情況下,僅僅通過海量數據的訓練,就自發地理解了 DNA 序列與其編碼的蛋白質序列之間的內在聯系!在判斷一段 DNA 序列和一段蛋白質序列是否匹配的任務中,LucaOne 僅需極少量的樣本進行微調(Few-shot Learning),其表現就遠超其他專門為 DNA 或蛋白質設計的先進模型(例如 DNABert2、ESM2-3B),甚至超過了將這兩個模型簡單組合使用。這表明,統一訓練讓 LucaOne 真正“領悟”了生命信息傳遞的核心規則。


LucaOne 理解了中心法則

2、卓越的“嵌入”表示: LucaOne 能將任何輸入的 DNA、RNA 或蛋白質序列,轉換成一個高維的數學向量(稱為“嵌入”或Embedding)。這個向量如同該序列的“數字指紋”,精準地捕捉了其生物學意義。實驗證明,LucaOne 生成的嵌入在聚類相似序列(例如同物種 DNA、同功能蛋白質)方面,效果顯著優于其他模型。

3、勝任各種生物計算任務的多面手: 利用 LucaOne 生成的嵌入作為起點,研究團隊在 7 項具有挑戰性的下游生物信息學任務中進行了測試,結果表現非常亮眼:

  • 物種分類(GenusTax): 根據一段 DNA 片段預測它來自哪個物種(屬或種級別),準確率大幅提升。

  • 非編碼 RNA 家族分類(ncRNAFam): 識別不同類型的非編碼 RNA,準確率更高。

  • 蛋白質亞細胞定位(ProtLoc): 預測蛋白質在細胞內的位置(細胞膜或細胞質),表現優異,與 ESM2-3B 模型相當,優于 SOTA 模型。

  • 蛋白質熱穩定性預測(ProtStab): 預測蛋白質結構是否穩定,相關性指標領先。

  • 流感病毒抗原性預測(InfA): 基于病毒 RNA 序列對預測其抗原性是否相似,達到近乎完美(100%)的準確率。

  • 蛋白質-蛋白質相互作用(PPI): 判斷兩個蛋白質是否會相互作用,效果拔尖。

  • 非編碼 RNA-蛋白質相互作用(ncRPI): 預測非編碼 RNA 與蛋白質的相互作用,表現優于 DNABert2 + ESM2-3B 模型的組合。


LucaOne 在 7 種任務中的表現

在這 7 個任務中,LucaOne 使用相對簡單的下游網絡就能取得媲美甚至超越專用復雜模型的效果,大大降低了后續任務開發的復雜度和計算成本。

意義與展望:打開生命密碼的新大門

LucaOne 的誕生具有重大意義:

1、統一框架: 它首次為同時理解生命的兩大核心分子載體(核酸和蛋白質)提供了一個強大的統一計算框架,打破了分子類型間的壁壘;

2、基礎模型賦能: 它證明了“基礎模型”范式在生物信息學中的巨大潛力。預訓練好的 LucaOne 就像一個強大的“預訓練大腦”,研究人員可以基于它提供的“嵌入”,用相對較少的數據快速開發各種特定的生物計算工具(例如疾病診斷、藥物靶點發現、合成生物學設計),極大地提高效率;

3、解碼生命復雜性: LucaOne 展現出的對“中心法則”等核心生物學原理的自發理解,為未來利用 AI 更深入地、更自動化地解析生命復雜系統(例如基因調控網絡、疾病機制)鋪平了道路。

當然,挑戰依然存在: 作者也在論文也坦誠討論了 LucaOne 在理解基因組中非編碼區域、應對罕見密碼子使用偏好物種、整合更多非序列信息(例如表型、環境)以及模型可解釋性等方面仍需改進。此外,模型的訓練也需要巨大的計算資源。

總的來說,LucaOne 的出現,標志著生物信息學正在進入一個由大型通用基礎模型驅動的新時代。它不僅僅是一個強大的工具,更像是一把新打造的、能同時解讀核酸和蛋白質這兩種“生命語言”的鑰匙,為我們開啟“孟德爾圖書館”(The Library of Mendel)中更深奧的“書架”提供了可能。盡管前路漫漫,但 LucaOne 已經照亮了方向,讓我們對利用 AI 徹底解碼生命語言、加速生命科學研究的未來充滿期待!

論文鏈接

https://www.nature.com/articles/s42256-025-01044-4

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
事故遇難者家屬經鎮政府安排住酒店被追索13萬元房費續:酒店已撤訴

事故遇難者家屬經鎮政府安排住酒店被追索13萬元房費續:酒店已撤訴

澎湃新聞
2025-06-19 10:18:27
謝霆鋒現身四川瀘定橋被偶遇,網友:可以不喜歡他但不能說他不帥

謝霆鋒現身四川瀘定橋被偶遇,網友:可以不喜歡他但不能說他不帥

趣享娛事菌
2025-06-18 15:12:10
女子自曝22年不卸妝,臉紅成關公!如今臉部過敏,自卑不敢見人

女子自曝22年不卸妝,臉紅成關公!如今臉部過敏,自卑不敢見人

楊哥歷史
2025-06-19 16:25:16
美軍今晚一旦對伊朗發動軍事打擊,那么,救不救伊朗就是一個問題

美軍今晚一旦對伊朗發動軍事打擊,那么,救不救伊朗就是一個問題

小企鵝侃世界
2025-06-19 14:21:38
馮紹峰帶女友與李治廷聚餐!女方臉部科技感滿滿,被指不如趙麗穎

馮紹峰帶女友與李治廷聚餐!女方臉部科技感滿滿,被指不如趙麗穎

鑫鑫說說
2025-06-19 13:54:19
伊朗警告美國:所有選項都在考慮范圍內

伊朗警告美國:所有選項都在考慮范圍內

財聯社
2025-06-19 16:04:08
伊朗向以色列境內發動新一輪導彈襲擊

伊朗向以色列境內發動新一輪導彈襲擊

財聯社
2025-06-19 00:46:07
罕見!25年來第一次,中國跌至世界第三,釋放不尋常信號

罕見!25年來第一次,中國跌至世界第三,釋放不尋常信號

張嘴說財經
2025-06-03 14:02:16
有驚無險!中國女排3-2險勝保加利亞,一戰打出七個沒有想到!

有驚無險!中國女排3-2險勝保加利亞,一戰打出七個沒有想到!

田先生籃球
2025-06-19 23:06:46
4位名人炮轟郭德綱:欺騙觀眾、造謠恩師、圈錢無下限,句句狠辣

4位名人炮轟郭德綱:欺騙觀眾、造謠恩師、圈錢無下限,句句狠辣

楊哥歷史
2025-06-19 15:38:51
中國足協宣布塞爾維亞教練接任國足主帥,備戰2030年世界杯

中國足協宣布塞爾維亞教練接任國足主帥,備戰2030年世界杯

呂彍極限手工
2025-06-18 16:54:08
造車十一年,巨虧1300億,李斌被靈魂拷問:蔚來什么時候倒閉?

造車十一年,巨虧1300億,李斌被靈魂拷問:蔚來什么時候倒閉?

麥大人
2025-06-18 12:08:41
超級模特何穗大膽泳裝身材真好,個子太高

超級模特何穗大膽泳裝身材真好,個子太高

鄉野小珥
2025-06-04 03:42:44
強烈建議對未成年人失蹤失聯一律啟動命案機制查找!

強烈建議對未成年人失蹤失聯一律啟動命案機制查找!

兵叔評說
2025-06-16 23:10:29
伊朗駐聯合國大使:如果我們得出結論美國直接參與了對伊朗的襲擊,我們將對美國采取回應措施

伊朗駐聯合國大使:如果我們得出結論美國直接參與了對伊朗的襲擊,我們將對美國采取回應措施

和訊網
2025-06-18 16:27:03
五局擊敗保加利亞女排,中國女排斬獲世界聯賽香港站兩連勝

五局擊敗保加利亞女排,中國女排斬獲世界聯賽香港站兩連勝

澎湃新聞
2025-06-19 22:52:29
打虎!胡幼桃被查

打虎!胡幼桃被查

觀察者網
2025-06-19 20:19:08
雙雙宣布:降息!降息!

雙雙宣布:降息!降息!

中國基金報
2025-06-19 18:02:17
伊朗媒體稱伊又擊落一架以色列F-35戰機!以防長警告伊朗:如果繼續襲擊,德黑蘭將化為火海

伊朗媒體稱伊又擊落一架以色列F-35戰機!以防長警告伊朗:如果繼續襲擊,德黑蘭將化為火海

每日經濟新聞
2025-06-15 00:21:17
突發!兩架伊朗政府飛機已離開伊朗,機上人員尚未可知

突發!兩架伊朗政府飛機已離開伊朗,機上人員尚未可知

不掉線電波
2025-06-18 23:08:54
2025-06-20 00:51:00
生物世界 incentive-icons
生物世界
最前沿、最有趣的生命科學研究
7578文章數 144696關注度
往期回顧 全部

科技要聞

羅永浩數字人爆火,可怕的不是5500萬GMV

頭條要聞

美打擊伊核設施計劃披露 特朗普鼓勵以總理"繼續干"

頭條要聞

美打擊伊核設施計劃披露 特朗普鼓勵以總理"繼續干"

體育要聞

22年,云南足球走出了一條自己的路

娛樂要聞

章子怡“吃蛋糕”戲在全網爆火

財經要聞

Labubu黃牛價腰斬 誰會是最后的接盤俠

汽車要聞

5.99萬起/空間大續航長 純電小車凱翼拾月Mate上市

態度原創

健康
數碼
親子
教育
房產

呼吸科專家破解呼吸道九大謠言!

數碼要聞

小米“三機”規格被官方確認:兩款平板+一款性價比,就差價格了

親子要聞

小葉教我句話還讓我挺意外,原來中外文化差異這么大

教育要聞

2025年山東夏季合格考準考證打印操作詳細教程

房產要聞

預定爆款!江東CBD+海中,海口這一國企大盤,即將引爆市場!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 韶山市| 边坝县| 萨嘎县| 巢湖市| 米泉市| 长汀县| 绥德县| 社会| 宝丰县| 盈江县| 滦南县| 射阳县| 澄迈县| 两当县| 云霄县| 津市市| 电白县| 独山县| 福贡县| 吉首市| 上林县| 金门县| 吉安市| 顺昌县| 车险| 鹤岗市| 洪洞县| 乌拉特前旗| 吉水县| 庄河市| 墨竹工卡县| 安平县| 肃宁县| 海兴县| 梧州市| 黄山市| 大同市| 防城港市| 象山县| 迁安市| 蕲春县|