摘要
超過 30 億年的進化在天然蛋白質的空間中形成了生物學的圖景。在此,我們展示了大規模訓練的基于進化數據的語言模型能夠生成與已知蛋白質相去甚遠的功能性蛋白質。我們推出了 ESM3,這是一種前沿的多模態生成語言模型,能夠對蛋白質的序列、結構和功能進行推理。ESM3 能夠遵循結合其模態的復雜提示,并且對齊度的提高能顯著提升其準確性。我們提示 ESM3 生成熒光蛋白。在我們合成的生成物中,我們發現了一種與已知熒光蛋白相距甚遠(序列同源性為 58%)的明亮熒光蛋白,據估計這相當于模擬了 5 億年的進化。
本周四,有一場以“蛋白質折疊與能量景觀:淀粉樣蛋白的錯誤折疊之路”為主題的分享,歡迎你預約:
關鍵詞:蛋白質設計(Protein Design)、語言模型(Language Model)、進化模擬(Evolution Simulation)、ESM3、熒光蛋白(Fluorescent Protein)、多模態生成(Multimodal Generation)
集智編輯部丨作者
論文題目:Simulating 500 million years of evolution with a language model 發表時間:2025年1月16日 論文地址:https://www.science.org/doi/10.1126/science.ads0018 期刊名稱:Science
蛋白質是生命活動的核心執行者,其設計一直是合成生物學和藥物開發的“圣杯”。然而,自然進化需要數億年才能產生功能性蛋白,而傳統設計方法往往局限于對已知蛋白的微小修飾。近日,發表于Science期刊的一項研究,提出了一種多模態生成語言模型ESM3,成功設計出與天然熒光蛋白序列差異達58%的新型熒光蛋白esmGFP,相當于模擬了超過5億年的自然進化。這一突破標志著人工智能在蛋白質設計領域邁入全新階段。
ESM3:多模態驅動的蛋白質“全能設計師
ESM3的核心創新在于將蛋白質的序列(Sequence)、結構(Structure)、功能(Function)統一編碼為離散令牌(Discrete Tokens),通過Transformer架構進行多模態聯合建模。與以往專注于單一模態的模型不同,ESM3利用掩碼語言建模(Masked Language Modeling)目標,隨機遮蓋任意模態的令牌并預測缺失部分,從而學習三者間的深層關聯。
結構編碼是技術難點之一:ESM3將三維原子坐標壓縮為離散的結構令牌,通過幾何自注意力機制(Geometric Attention)捕捉局部與全局空間關系,重建誤差低至0.5 ?(RMSD)。功能層面,模型整合了基因本體論(Gene Ontology)關鍵詞和二級結構(Secondary Structure)等語義信息,實現從原子細節到功能描述的多層次控制。
研究團隊訓練了三個規模的模型(1.4B/7B/98B參數),發現模型能力隨規模顯著提升。最大的98B模型在結構預測任務中超越前代ESMFold(平均LDDT 0.88 vs. 0.86),生成的蛋白結構多樣性覆蓋天然蛋白質分布(圖1E),且預測置信度(pTM)高達0.84。
圖 1. ESM3 是一種生成式語言模型,能夠對蛋白質的序列、結構和功能進行推理。(A)ESM3 的迭代采樣。生成一種α/β水解酶。序列、結構和功能都可以用作提示模型。在每個時間步 t,對部分掩碼位置進行采樣,直到所有位置都未被掩碼。(B)ESM3 架構。序列、結構和功能在輸入和輸出端均表示為離散標記的軌道。該模型由一系列的 Transformer 塊組成,所有軌道都在一個單一的潛在空間中融合;第一個塊中的幾何注意力允許基于原子坐標進行條件設置。ESM3 通過預測掩碼標記進行監督訓練。(C)結構標記化。每個氨基酸周圍的局部原子結構被編碼為標記。(D)模型在三個規模上進行訓練:14 億、70 億和 980 億參數。測試集上負對數似然(平均于掩碼率)作為訓練 FLOPs 的函數顯示了對每個輸入軌道進行條件設置的響應,隨著 FLOPs 的增加而提高(95%置信區間)。(E)ESM3 980 億參數模型的無條件生成(按顏色區分)與訓練集中最接近序列的序列一致性,通過 ESM3 嵌入,并通過 UMAP 投影,同時還有從 UniProt 中隨機抽取的序列(以灰色顯示)。生成的序列多樣、質量高,并涵蓋了天然序列的分布。
“編程式”設計:從原子到功能的自由操控
ESM3的顛覆性在于其可編程性,用戶可通過組合不同模態的提示(Prompt)指導生成。例如,指定關鍵催化殘基的原子坐標,同時用關鍵詞描述酶功能,模型即可生成滿足條件的全新蛋白。實驗顯示,ESM3能生成遠離自然分布的蛋白:當輸入非天然對稱結構或功能關鍵詞時,模型輸出序列與天然蛋白的相似度低于20%,結構差異顯著(TM Score <0.5)。
更令人驚嘆的是其創造性解決能力。例如,ESM3將絲氨酸蛋白酶(Serine Protease)的活性位點移植到完全不同的折疊架構中,并壓縮序列長度33%,仍保持催化功能。這種“原子級嫁接”在自然進化中幾乎不可能實現,卻通過多模態提示輕松達成。
對齊訓練:解鎖大模型的“隱藏技能”
研究進一步發現,通過偏好優化(Preference Optimization)對齊模型,可大幅提升復雜任務解決能力。例如,在“三級結構基序支架(Tertiary Motif Scaffolding)”任務中,98B模型經對齊后成功率從26.8%躍升至65.5%,且能生成多個結構迥異的解決方案。這表明大模型內部形成了對蛋白質物理和進化規律的深刻表征,而對齊技術能有效提取這種“隱性知識”。
跨越5億年的熒光奇跡:esmGFP誕生記
為驗證ESM3的生物學保真度,團隊挑戰了高難度目標——設計遠距離熒光蛋白。熒光功能依賴精密排列的色氨酸殘基(Chromophore),傳統方法僅能引入數十個突變,而ESM3通過鏈式思維(Chain-of-Thought)生成策略,逐步優化序列與結構。最終合成的esmGFP與最近天然熒光蛋白(tagRFP)僅有58%序列相似性,相差96個突變,相當于自然進化超過5億年的分歧。
實驗證實,esmGFP的熒光強度與天然蛋白相當,光譜特性接近。其結構預測顯示,22個突變位于色氨酸周圍的敏感區域,但ESM3仍成功維持了功能所需的空間配置(圖4E)。這一成果不僅打破了蛋白質工程的極限,更揭示了AI探索“進化未達之地”的潛力。
圖 2. 通過一系列的思考生成一種遠距離熒光蛋白。(A)我們用形成和催化發色團反應所需的殘基序列和結構以及天然綠色熒光蛋白(GFP)部分中央α螺旋的結構來提示 ESM3(左)。通過一系列的思考,ESM3 生成設計候選(右)。(B)在兩次實驗中,ESM3 找到了一種遠離其他已知 GFP 的明亮 GFP。我們在大腸桿菌裂解液中測量了熒光。上排,平板照片。下排,平板讀取器熒光定量。已知 GFP 的陽性對照用紫色圓圈標記,沒有 GFP 序列或沒有大腸桿菌的陰性對照用紅色圓圈標記。在第一次實驗(左)中,我們表達了具有不同序列同源性的設計。在 B8 孔(底部黑色圓圈,頂部白色圓圈突出顯示)中出現了一個值得注意的設計,其與已知熒光蛋白的序列同源性較低(57%)。我們從 B8 孔中的蛋白質繼續進行第二次實驗(右)。在 C10 孔(與已知熒光蛋白的序列同源性為 58%,黑色圓圈)中出現了一個明亮的設計。(B)我們將其命名為 esmGFP 的是底部為白色圓圈頂部為綠色熒光蛋白的結構。(C)esmGFP 的熒光強度與常見的 GFP 相似。實驗 2 中部分蛋白質的歸一化熒光強度如圖所示。(D)esmGFP 的激發和發射光譜與 EGFP 的光譜重疊。(E)esmGFP 預測結構中中央α螺旋和β桶內部的兩個截面圖。esmGFP 相對于其最近的鄰居 tagRFP 的 96 個突變以藍色顯示。(F)不同分類群中熒光蛋白之間的序列同源性累積密度。esmGFP 與其他所有 FP 的相似程度通常在比較不同目但同屬的序列時才會出現。(G)三種典型珊瑚綱 GFP 和 esmGFP 的進化距離(以百萬年為單位)和序列同源性。(H)根據 GFP 序列同源性估算的進化距離(以百萬年為單位)。我們估計 esmGFP 與已知最近的蛋白質在自然進化中相隔超過 5 億年。
ESM3的突破性在于其隱式建模進化路徑的能力。蛋白質可視為由突變連接的“進化網絡”,而語言模型通過預測進化可能的方向,構建出超越自然歷史的“虛擬進化空間”。esmGFP的案例表明,這種空間內存在大量功能蛋白的“島嶼”,它們雖未被自然選擇青睞,卻可通過AI直接挖掘。未來,隨著模型規模擴大,ESM3有望成為“蛋白質宇宙”的通用模擬器,加速藥物設計、酶工程等領域的突破。
彭晨| 編譯
關于集智俱樂部
集智俱樂部成立于 2003 年,是一個從事學術研究、享受科學樂趣的探索者的團體,也是國內最早的研究人工智能、復雜系統的科學社區。它倡導以平等開放的態度、科學實證的精神,進行跨學科的研究與交流,力圖搭建一個中國的 “ 沒有圍墻的研究所 ”。集智科學研究中心(民間非盈利企業)是集智俱樂部的運營主體,長期運營社區生態,催化理論創新。使命:營造跨學科探索小生境,催化復雜性科學新理論。
生命復雜性讀書會:
生命復雜系統的構成原理
在生物學中心法則的起點,基因作為生命復雜系統的遺傳信息載體,在生命周期內穩定存在;而位于中心法則末端的蛋白質,其組織構成和時空變化的復雜性呈指數式增長。隨著分子生物學數十年來的突飛猛進,尤其是生命組學(基因組學、轉錄組學、蛋白質組學和代謝組學等的集合)等領域的日新月異,當代生命科學臨近爆發的邊緣。如此海量的數據如何幫助我們揭示宇宙中最復雜的物質系統——“人體”的構成原理和設計原理?闡釋人類發育、衰老和重大疾病的發生機制?
集智俱樂部聯合西湖大學理學院及交叉科學中心講席教授湯雷翰,國家蛋白質科學中心(北京)副研究員常乘、李楊,香港浸會大學助理教授唐乾元,北京大學前沿交叉學科研究院研究員林一瀚,中國科學院分子細胞科學卓越創新中心博士后唐詩婕,共同發起,從微觀細胞尺度、介觀組織器官尺度到宏觀人體尺度,梳理生命科學領域中的重要問題及重要數據,由生物學家提問,希望促進統計物理、機器學習方法研究者和生命科學研究者之間的深度交流,建立跨學科合作關系,激發新的研究思路和合作項目。讀書會目前共進行10期,現在報名參與讀書會可以加入讀書會社群,觀看視頻回放,解鎖完整讀書會權限。
詳情請見:
大模型與生物醫學:
AI + Science第二季讀書會
生物醫學是一個復雜且富有挑戰性的領域,涉及到大量的數據處理、模式識別、理論模型建構和實驗驗證等問題。AI基礎模型的引入,使得我們能夠從前所未有的角度去觀察和理解這個領域的問題,加速科學研究的步伐,提高醫療服務的效率和效果。這種交叉領域的合作,標志著我們正在向科技與生物醫學深度融合的新時代邁進,對于推動科學研究、優化醫療服務、促進人類健康有著深遠的影響。
集智俱樂部聯合西湖大學助理教授吳泰霖、斯坦福大學計算機科學系博士后研究員王瀚宸、博士研究生黃柯鑫、黃倩,華盛頓大學博士研究生屠鑫明,共同發起以“大模型與生物醫學”為主題的讀書會,共學共研相關文獻, 探討基礎模型在生物醫學等科學領域的應用、影響和展望。 讀書會已完結,現在報名可加入社群并解鎖 回放 視頻權限。
詳情請見:
1.
2.
3.
4.
5.
6.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.