99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Science:AI模擬5億年生物進化,創造了一種「前所未有」的蛋白質

0
分享至


大數據文摘受權轉載自學術頭條

作者:木木

蛋白質是生物體中非常重要的功能性分子,它們的形成過程經過了數十億年的自然選擇和進化。在這一過程中,蛋白質的序列和結構經過無數次隨機突變,并通過生物系統的選擇機制進行篩選,最終形成那些具有特定生物學功能的蛋白質。

近年來,隨著深度學習和語言模型(LM)的發展,科學家們開始嘗試將這些工具應用于理解生物系統,尤其是蛋白質。

今天,Science 雜志發表了一項重要研究成果,展示了如何利用語言模型來生成和推理蛋白質序列、結構和功能,并提出了一個名為 ESM3 的多模態生成式模型。該模型不僅能夠生成功能性蛋白質,還能夠模擬超過 5 億年的進化過程,生成與自然界已知蛋白序列不同的全新蛋白質。


ESM3 模型由人工智能初創公司 Evolutionary Scale 研發,旨在幫助科學家理解、構思和創造蛋白質。在這項工作中,研究人員通過 ESM3 設計了一個新的綠色熒光蛋白(GFP),其基因序列與已知熒光蛋白的差異巨大,如果通過天然熒光蛋白的生物進化,則需要超過 5 億年左右的時間。

這意味著,語言模型不僅可以解讀自然進化中積累的生物數據,還能通過分析進而生成新型生物分子,開辟蛋白質設計和藥物開發的新路徑。

AI 解碼生物語言

生物體本質上是可編程的。

這是因為自然界的每個生物體都共享相同的遺傳密碼,構成生命物質基礎的蛋白質就是僅由 20 種氨基酸組成。也因此,有人將其比作生命的“字母表”。

生物體中復雜的蛋白質信息蘊含著深層的生物學規律和演化歷史。近年來,科學家們通過對基因組序列和蛋白質結構的測序,積累了大量的蛋白質數據,包括數十億條序列和數億個結構信息。

隨著 AI 技術的發展,科學家們開始嘗試利用深度學習模型,如大語言模型(LLM),將這些遺傳信息“解碼”,以揭示蛋白質序列中隱藏的深層模式和邏輯,并通過這些模式推斷、設計全新的蛋白質結構和功能。

當前,已有多個語言模型(如 ProtBERT、ProtGPT)證明了蛋白質序列中的模式能夠被語言模型“解碼”,從而可以幫助理解其功能。這一領域的研究還表明,隨著模型規模的擴大,語言模型的能力和準確性也隨之提升。

為此,研究人員使用了超過 31.5 億條蛋白質序列、2.36 億個蛋白質結構,以及 5.39 億個帶有功能注釋的蛋白質數據來訓練 ESM3 模型。該模型總共有三種不同的規模,分別為 14 億、70 億和 980 億參數。

實驗表明,隨著模型參數規模的增加,ESM3 在生成能力和表示學習上的性能有顯著提升,特別是在生成蛋白質結構時,980 億參數的模型表現出超越現有模型的強大能力。

作為該領域的前沿成果,ESM3 不僅僅是一個傳統的序列生成模型,而是一個多模態生成模型,能夠同時處理蛋白質的序列、三維結構和功能。

ESM3 還展示了其在多種生成任務上的卓越性能。ESM3 使用了一種名為“生成掩碼語言模型”的方法,在輸入中對蛋白質的序列、結構和功能進行隨機掩碼,然后通過模型推理生成缺失的部分。


(來源:Evolutionary Scale)

研究人員通過隨機掩碼并生成序列和結構,對比生成結果與真實蛋白質的匹配情況,發現模型能夠生成高質量的蛋白質序列和結構,其與真實結構的平均差異僅為 0.5?。

此外,研究表明,ESM3 能夠通過不同的提示生成具有目標功能的蛋白質,這為蛋白質設計帶來了高度靈活性。與傳統的三維空間中的復雜建模方法不同,ESM3 將三維結構離散化為 token,這使得它能夠與序列和功能信息一同被輸入模型進行處理。這種方法避免了復雜的三維空間擴散架構,使得生成過程更加高效、可控。

生成需 5 億年進化的熒光蛋白

為了展示了 ESM3 模型在生成全新蛋白質方面的巨大潛力,研究人員嘗試選擇綠色熒光蛋白進行挑戰。

綠色熒光蛋白在生物學研究中是非常重要的工具,用于標記和跟蹤細胞內的分子與結構。然而,現有的熒光蛋白大多數來自自然界,且其突變通常限制在已有序列周圍,很難大幅度改變其序列。在少數情況下,利??通量實驗和機器學習,科學家僅能夠引?至多 40-50 個突變(即 80% 的序列同源性),同時保留蛋白的熒光功能。


(來源:Evolutionary Scale)

為了突破這一瓶頸,研究人員通過對 ESM3 模型進行特定的功能提示,嘗試生成生成一個全新的綠色熒光蛋白,要求該蛋白的序列與已知的綠色熒光蛋白序列相似性較低,但仍要保持其熒光特性。

首先,研究人員定義了一個 229 個氨基酸長的蛋白質序列,其中包含了與綠色熒光蛋白熒光活性相關的關鍵氨基酸,研究人員還提供了綠色熒光蛋白的三維信息,尤其是與形成熒光色素的活性位點相關的氨基酸殘基。

ESM3 模型在接收到這些提示后,會生成一個蛋白質的三維結構,尤其是確保活性位點的氨基酸位置協調良好。然后,基于生成的結構,模型進一步推理生成合適的氨基酸序列,并嘗試保持活性位點的正確結構。

在這個過程中,ESM3 不僅僅是根據已有的綠色熒光蛋白結構生成新的序列,還能夠在“已知”結構的基礎上進行創新,生成具有低序列相似性的新型蛋白質。

經過一系列的生成和優化步驟,研究人員獲得了多個新的綠色熒光蛋白,其中一個特別的設計被命名為 esmGFP。這個全新的蛋白質與現有的熒光蛋白(如 tagRFP)之間的序列相似性為 58%,與最接近的天然蛋白(eqFP578)之間的序列差異為 107 個氨基酸,序列相似性為 53%。

研究人員還進一步驗證了生成的綠色熒光蛋白是否具有實際的熒光功能。結果表明,盡管 esmGFP 發光特性有所延遲,成熟時間較長,但最終的熒光亮度與已知的綠色熒光蛋白相似,且具有穩定的熒光特性。

研究人員還提供了時間校準系統發育分析,指出如果通過現有蛋白的自然界進化過程得到 esmGFP,則需要超過 5 億年的等效時間。

ESM3 的未來潛力與應用


ESM3 的另一個顯著亮點是其在多模態條件下的生成和控制能力。

也就是說,研究人員能夠通過提示特定的蛋白質結構、功能或特定的關鍵氨基酸,生成滿足這些條件的新型蛋白質。例如,模型能夠生成具有特定功能位點的蛋白質,同時保持整體結構的完整性。

此外,通過組合不同的提示,模型也能夠生成符合復雜要求的蛋白質。例如,研究人員提示蛋白質的二級結構和功能關鍵詞,并生成了與這些提示高度一致的蛋白質。

ESM3 模型的這種提示響應能力和可控特性,使得它在蛋白質設計領域具有高度實用價值,尤其是在生成與現有已知蛋白質具有顯著差異的新型蛋白質方面。

在 ESM3 模型的幫助下,研究人員不僅能夠設計出新型的綠色熒光蛋白,還能在設計中創新,突破自然進化的局限。這為未來蛋白質工程、合成生物學和藥物開發等領域提供了新的可能性,也為蛋白質的設計和功能驗證提供了更加高效的工具。

例如,與自然進化相比,ESM3 能夠大大加速蛋白質設計的速度,并生成在自然界中無法輕易獲得的新蛋白質,而這對于基礎研究和應用研究來說都是巨大的突破。

另外,在藥物設計領域中,生成具有特定功能的蛋白質是一個重要的研究方向,而通過 ESM3,研究人員能夠設計出符合特定靶點的蛋白質,減少實驗驗證的時間和成本。

而在合成生物學領域中,ESM3 能夠為開發新的合成途徑提供幫助,生成具備新功能的酶或代謝途徑。

研究人員還指出,隨著模型規模和數據量的進一步增加,ESM3 有潛力生成更加復雜和創新的蛋白質。未來,ESM3 的應用可能涵蓋從基礎研究到藥物設計等更多領域,為蛋白質工程開辟全新的可能性。

目前,ESM3 已通過 API 推出公開測試版,使科學家能夠通過編程或基于瀏覽器的交互式 app 來設計蛋白質。科學家們可以通過免費學術訪問層使用 EvolutionaryScale Forge API,也可以使用開放模型的代碼和權重。

GPU算力按需租用

A100/H100 GPU算力按需租用,

秒級計費,平均節省開支30%以上!

掃碼了解詳情?


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
五一檔電影票房慘淡 同比暴跌超93%

五一檔電影票房慘淡 同比暴跌超93%

熱搜熱點熱評
2025-05-01 14:15:32
廈門機場工地驚現2條巨蟒,一條重達百斤,現場一片嘩然

廈門機場工地驚現2條巨蟒,一條重達百斤,現場一片嘩然

史海流年號
2025-05-02 09:35:11
4種魚已被列入“致癌名單”,吃多了或致癌!再愛吃也要管住嘴

4種魚已被列入“致癌名單”,吃多了或致癌!再愛吃也要管住嘴

腫瘤的真相與誤區
2025-03-09 20:35:22
我們今天最大的危機,不是科學錯了,而是科學不允許被懷疑

我們今天最大的危機,不是科學錯了,而是科學不允許被懷疑

Thurman在昆明
2025-04-27 00:39:29
35歲女人自述:我跟情人出軌四年,兩年后,我遭到丈夫最狠的報復

35歲女人自述:我跟情人出軌四年,兩年后,我遭到丈夫最狠的報復

混音情感
2025-05-02 08:13:08
演員章子怡發生意外!

演員章子怡發生意外!

上海約飯局
2025-04-29 21:09:32
【轉載】真正的子弟早就看不上電力煙草,而是都往這里擠

【轉載】真正的子弟早就看不上電力煙草,而是都往這里擠

阿燕姐說育兒
2025-04-30 10:18:55
還好不是河南的!大媽偷19井蓋回家鋪豬圈雞圈,網友:娘家河南的

還好不是河南的!大媽偷19井蓋回家鋪豬圈雞圈,網友:娘家河南的

青青子衿
2025-05-01 11:16:12
五一小長假,中國這5座旅游打卡城市將會“擠到爆”,請謹慎前往

五一小長假,中國這5座旅游打卡城市將會“擠到爆”,請謹慎前往

山河月明史
2025-05-02 01:30:03
土媒:穆里尼奧正在對費內巴切進行陣容清洗,兩人已被排除出球隊下賽季計劃

土媒:穆里尼奧正在對費內巴切進行陣容清洗,兩人已被排除出球隊下賽季計劃

雷速體育
2025-05-02 11:51:10
歷史第一人發表言論引熱議!奧沙利文:趙心童被禁賽有點不公平!

歷史第一人發表言論引熱議!奧沙利文:趙心童被禁賽有點不公平!

世界體壇觀察家
2025-05-02 00:05:54
馬斯克盯上新目標?美聯儲花25億美元翻新總部,馬斯克:這令人震驚,絕對應該審查

馬斯克盯上新目標?美聯儲花25億美元翻新總部,馬斯克:這令人震驚,絕對應該審查

每日經濟新聞
2025-05-02 00:08:14
消失的“嘉寶果”,曾貴到500元一斤,為何如今銷聲匿跡了?

消失的“嘉寶果”,曾貴到500元一斤,為何如今銷聲匿跡了?

農夫也瘋狂
2025-04-28 11:51:03
夫妻最不合的屬相,在一起爭吵不斷,互相不順眼

夫妻最不合的屬相,在一起爭吵不斷,互相不順眼

顧一宸
2025-04-11 21:58:59
“臭名昭彰”的黃油公司,卻救贖了玩家的靈魂

“臭名昭彰”的黃油公司,卻救贖了玩家的靈魂

街機時代
2025-04-30 17:42:38
為什么沒有國家趁著中國過節的時候,攻打中國?看看網友們的說法

為什么沒有國家趁著中國過節的時候,攻打中國?看看網友們的說法

賤議你讀史
2025-03-14 16:44:45
瓜越滾越大:麻醉師群里怒罵,患者控訴,細節曝光肖飛醫德敗壞!

瓜越滾越大:麻醉師群里怒罵,患者控訴,細節曝光肖飛醫德敗壞!

奇思妙想草葉君
2025-04-29 23:54:53
Shams:聯盟其他球隊正準備迎接綠軍在今年休賽期的陣容變動

Shams:聯盟其他球隊正準備迎接綠軍在今年休賽期的陣容變動

直播吧
2025-05-02 09:01:09
跨洋大撤離,兩個外籍老板套現15億后,讓廣州政府成為“接盤俠”

跨洋大撤離,兩個外籍老板套現15億后,讓廣州政府成為“接盤俠”

古事尋蹤記
2025-05-02 06:55:06
曼城官方:因與足總杯決賽時間沖突,德布勞內主場告別戰將推遲

曼城官方:因與足總杯決賽時間沖突,德布勞內主場告別戰將推遲

懂球帝
2025-05-02 00:41:48
2025-05-02 15:56:49
大數據文摘 incentive-icons
大數據文摘
專注大數據,每日有分享!
6611文章數 94407關注度
往期回顧 全部

科技要聞

在華不及預期!蘋果稱關稅將增9億美元成本

頭條要聞

重慶市榮昌區的政府食堂假期火了:米飯蒸了1000多斤

頭條要聞

重慶市榮昌區的政府食堂假期火了:米飯蒸了1000多斤

體育要聞

為了湖人的28號秀,森林狼差點沒換來戈貝爾

娛樂要聞

霍啟剛郭晶晶夫婦現身馬麗新片首映

財經要聞

黃仁勛在美國又穿西裝表態,怎么看?

汽車要聞

全路況 大格局 前路山海皆坦途

態度原創

藝術
房產
手機
時尚
數碼

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

房產要聞

火了!一二手房交易量大漲,五一購房窗口期來了!

手機要聞

多虧了三星:安卓15市場份額首次超10%!

5件襯衫粗暴種草!顯瘦遮肉人手一件!

數碼要聞

格力空調獲2025中國制冷展金獎:省電25% 越用越省電

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 克拉玛依市| 德清县| 时尚| 吉林省| 漳平市| 常宁市| 商丘市| 古田县| 宁武县| 浦江县| 湘乡市| 南丰县| 安陆市| 筠连县| 闸北区| 元氏县| 锡林浩特市| 大冶市| 威海市| 岳阳市| 韶山市| 河东区| 峨眉山市| 和田县| 莒南县| 城固县| 乡城县| 灌云县| 兴和县| 湄潭县| 凤庆县| 武乡县| 平阴县| 黎川县| 瓮安县| 泽库县| 阳泉市| 大港区| 庆阳市| 郧西县| 抚顺县|