在合成生物學領域,科學家們希望能“編程”生命 ,實現可預測地 設計 基因 元件(比如啟動子 、 增強子) 、蛋白質等目標, 讓細胞按照 人們 預定 的強度 表達 功能 基因。近 年來 ,人工智能 (AI) 特別是深度學習技術,成 為 這項工作的“新引擎”。通過分析實驗數據,AI模型能預測哪些序列會帶來強或弱的基因表達,甚至能設計出全新的調控序列。
然而 ,這項技術 存在一個長期 被低估的難題 —— “數據污染”。 正如 人們 所討論的, 大語言模型會 受到 網絡 中 “錯誤信息” 的 污染, 其 本質 在于 訓練數據 受到 非目標信息干擾, 導致 模型學 習到 錯誤 的 規律。 在常 規生物 實驗中,研究者會在 特定 宿主細胞 中對 人工設計的序列 進行 測試。但很多看起來“活躍”的序列, 其活性實際上源于 宿主細胞自身的 意外激活 ,而 非 目標 元件本身 的 活性 。把這 類 “污染”數據喂給AI 模型 ,就 如同教幼兒 識字時混進錯別字, AI 模型也會 因此“學偏” ,記住不 應 有的規則。 這不僅會導致模型的預測結果失真,還使其難以在不同物種間實現通用。
近日, 中國科學院 深圳先進 技術研究 院 定量合成生物學全國重點實驗室、合成生物學研究所 婁春波 課題組與清華大學自動化系 汪小我 課題組 合作 在Nucleic Acids Research期刊 上 發表了文章
De novo design of insulated cis-regulatory elements based on deep learning-predicted fitness landscape, 提出并驗證了一項關鍵觀點: 去除宿主 細胞內“ 污染 語料 ”,是實現高精度模型預測 及 可控 從頭 設計 順式基因元件 的前提條件。
問題發現 : 數據污染是模型“預測失靈”的根源
在利用深度學習設計基因調控元件的過程中,存在一個常被忽視但至關重要的問題—— 宿主背景污染 。研究團隊在分析K1.5啟動子系統的實驗數據時發現: 當采用 隨機序列篩選活性啟動子時, 許 多看 似 “活躍”的序列 ,其活躍并非源于 對目標RNA聚合酶(K1.5 RNAP) 的 調控,而是因意外被宿主大腸桿菌自身的轉錄體系激活 所致 。
這類似于教 AI識別蘋果 圖片 時, 訓練數據中混入了橘子圖片卻都標注為 “蘋果”; 在此情況下, AI模型學到的不是真正區分蘋果的特征,而是各種混 雜 的錯誤模式。
研究人員通過深入分析發現,這種“宿主背景污染”并非個別現象,而是在宿主細胞中任意篩選隨機序列時普遍存在的問題。在傳統體系里,順式調控元件必須和宿主的轉錄因子(比如 RNA聚合酶、σ因子等)協 同作用 , 因此 隨機序列 極易 無意中激活宿主 自身的調控機制 ,產生“偽陽性”信號。
這類“非目標”信號會對 AI模型 形成誤導 ,使得它學到的規律 僅 在特定宿主 內 有效,無法遷移到其他物種或新的表達系統。要真正實現可預測、可遷移的功能元件設計,就必須從源頭上去掉 此類 背景干擾,建立一個真正“正交”(即彼此獨立、互不干擾)的表達系統, 確保AI 模型學到的調控規律 具有 純粹 性 、可解釋 性和 可泛化 性 。
為此,研究團隊設計了一套“預測 +實驗雙重篩選”的數據凈化流程: 首先通過 模型預測識別 并 排除可能受宿主背景激活的序列,再 借助 雙通道誘導實驗(有/無IPTG條件)進一步篩掉對目標RNA聚合酶無響應的序列。最終,團隊構建出一個 僅 包含K1.5系統 真實 調控信息、宿主背景 干擾 最小化的高質量數據集。
圖1 研究人員構建的正交調控系統示意圖
建模突破:構建絕緣表達系統 , 繪制真實 的全 景觀 活性功能
基于 上述 凈化后的高質量數據集,研究團隊訓練了一個深度卷積神經網絡模型。模型 以 DNA啟動子序列的編碼 作為輸入 , 以 實驗測得的表達強度 作為 輸出。
不同于傳統 僅 能給出結果預測的“黑箱”模型,團隊通過特征可視化分析,成功繪制 出 “ 活性功能全景觀 ” 。這 一 “景觀” 可類比 表達強度隨DNA序列變化的 地形 圖 。 模型能在 該景觀 里找到“局部高峰” (即 表達強度最優的序列模式 ), 還能識別出關鍵的功能motif(序列片段), 從而 幫助 解析 基因調控的內在規律。
一個 極具 意義的發現是: 僅需 大約1250條經凈化的高質量序列, 即可 把模型的表達強度預測精度做到R2=0.90。 這表明 數據的“ 純凈度 ”比規模更重要。 該 結果為 后續 利用生成模型設計新序列打下了堅實的基礎。
在這 一 精準的表達景觀模型基礎上,團隊開發 出 真正的“從頭設計(de novo design)”策略。從完全隨機生成的DNA序列 出發 ,利用模型預測到的“爬坡”方向,通過反向傳播和迭代優化, 持續 調整堿基組成,讓序列在“表達景觀” 中逐步 攀升 至 目標表達強度區域。
這一方法 突破了以往以來 天然模板、 通過 反復突變和篩選 實現的 “半理性設計” 模式 ,實現了真正意義上的“從零生成”。實驗驗證顯示, 該 方法設計出的人工啟動子 其 表達強度范圍 廣泛 覆蓋野生型水平 ,且 預測值和實際測試結果高度一致,尤其在中高表達區的偏差 極 小 ,且 設計出的不同序列之間差異 顯著 ( Hamming 距離大于10bp), 有效規避 了同源重組或序列冗余問題,保證了多樣性和穩定性。
功能驗證:生成啟動子在不同宿主中保持表達可預測性
為進一步驗證所設計調控元件的功能穩定性與跨物種適應性,研究團隊將部分模型生成的啟動子序列移植至哺乳動物細胞系統中進行表達測試。實驗 選取 常用的中國倉鼠卵巢細胞(CHO)為代表,在等效的啟動子-RNAP組合條件下評估其表達活性。
結果顯示,這些 已 在大腸桿菌中驗證的人工啟動子,在CHO細胞中同樣 呈現 出與模型預測值 基本 一致的表達趨勢, 其表達強度與模型預測結果間具有顯著線性相關性(R2 = 0.54) 。盡管不同物種的表達背景存在差異,該結果仍表明 , 模型設計出的順式元件具備良好的表達可控性和 宿主 遷移能力, 具備“跨宿主平臺”通用化應用的潛力 。
為評估該策略的系統適配性,研究團隊進一步將 活性功能景觀建模 與 從頭 設計方法拓展至 T7 RNA聚合酶系統 。作為經典的合成表達平臺 , T7系統具有較強的表達能力和廣泛的應用基礎。研究顯示,所生成的T7啟動子序列同樣實現了表達水平的可控設計,且與模型預測結果高度一致。這一結果驗證了該方法不僅適用于K1.5系統, 還 具備向其他 單因子驅動、正交表達系統泛化的能力 ,為調控元件的模塊化設計與系統工程化打下了通用基礎。
本研究建立了一套面向順式調控元件的高通量、可解釋、跨系統泛化的從頭設計流程,有望解決以往因為宿主背景干擾導致的模型預測失真和遷移失敗這一長期難題。通過結合絕緣型表征系統的構建和深度學習預測模型,研究團隊實現了從隨機序列到目標功能啟動子的精準生成,并驗證了其在不同 RNA聚合酶系統和不同宿主細胞中的通用性。 該成果 為合成生物線路設計、跨物種基因回路構建以及可編程細胞工廠的開發提供了 全新 解決方案, 或將 推動AI驅動的基因調控研究邁向真正的“功能級別智能設計”階段。
中國科學院深圳先進技術研究院研究員婁春波 、 清華大學教授 汪小我 為本文共同通訊作者。清華大學博士研究生王昊 晨 ,中國科學院深圳先進技術研究院 助理研究員 項 延會 、 研究助理 劉子 明 為共同第一作者。
https://academic.oup.com/nar/article/53/12/gkaf611/8185980?login=false
制版人: 十一
學術合作組織
(*排名不分先后)
戰略合作伙伴
(*排名不分先后)
轉載須知
【非原創文章】本文著作權歸文章作者所有,歡迎個人轉發分享,未經作者的允許禁止轉載,作者擁有所有法定權利,違者必究。
BioArt
Med
Plants
人才招聘
近期直播推薦
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.