網易首頁 > 網易號 > 正文申請入駐

Nucleic Acids Research?|?基于深度學習與絕緣化原理的合成生物順式調控元件從頭設計

2025-07-08 08:47:45　來源: BioArt

上海舉報

分享至

在合成生物學領域，科學家們希望能“編程”生命，實現可預測地設計基因元件（比如啟動子、增強子）、蛋白質等目標，讓細胞按照人們預定的強度表達功能基因。近年來，人工智能（AI）特別是深度學習技術，成為這項工作的“新引擎”。通過分析實驗數據，AI模型能預測哪些序列會帶來強或弱的基因表達，甚至能設計出全新的調控序列。

然而，這項技術存在一個長期被低估的難題 —— “數據污染”。正如人們所討論的，大語言模型會受到網絡中 “錯誤信息” 的污染，其本質在于訓練數據受到非目標信息干擾，導致模型學習到錯誤的規律。在常規生物實驗中，研究者會在特定宿主細胞中對人工設計的序列進行測試。但很多看起來“活躍”的序列，其活性實際上源于宿主細胞自身的意外激活，而非目標元件本身的活性。把這類 “污染”數據喂給AI 模型，就如同教幼兒識字時混進錯別字， AI 模型也會因此“學偏” ，記住不應有的規則。這不僅會導致模型的預測結果失真，還使其難以在不同物種間實現通用。

近日，中國科學院深圳先進技術研究院定量合成生物學全國重點實驗室、合成生物學研究所婁春波課題組與清華大學自動化系汪小我課題組合作在Nucleic Acids Research期刊上發表了文章

De novo design of insulated cis-regulatory elements based on deep learning-predicted fitness landscape

，提出并驗證了一項關鍵觀點：去除宿主細胞內“ 污染語料 ”，是實現高精度模型預測及可控從頭設計順式基因元件的前提條件。

問題發現：數據污染是模型“預測失靈”的根源

在利用深度學習設計基因調控元件的過程中，存在一個常被忽視但至關重要的問題—— 宿主背景污染。研究團隊在分析K1.5啟動子系統的實驗數據時發現：當采用隨機序列篩選活性啟動子時，許多看似 “活躍”的序列，其活躍并非源于對目標RNA聚合酶（K1.5 RNAP）的調控，而是因意外被宿主大腸桿菌自身的轉錄體系激活所致。

這類似于教 AI識別蘋果圖片時，訓練數據中混入了橘子圖片卻都標注為 “蘋果”；在此情況下， AI模型學到的不是真正區分蘋果的特征，而是各種混雜的錯誤模式。

研究人員通過深入分析發現，這種“宿主背景污染”并非個別現象，而是在宿主細胞中任意篩選隨機序列時普遍存在的問題。在傳統體系里，順式調控元件必須和宿主的轉錄因子（比如 RNA聚合酶、σ因子等）協同作用，因此隨機序列極易無意中激活宿主自身的調控機制，產生“偽陽性”信號。

這類“非目標”信號會對 AI模型形成誤導，使得它學到的規律僅在特定宿主內有效，無法遷移到其他物種或新的表達系統。要真正實現可預測、可遷移的功能元件設計，就必須從源頭上去掉此類背景干擾，建立一個真正“正交”（即彼此獨立、互不干擾）的表達系統，確保AI 模型學到的調控規律具有純粹性、可解釋性和可泛化性。

為此，研究團隊設計了一套“預測 +實驗雙重篩選”的數據凈化流程：首先通過模型預測識別并排除可能受宿主背景激活的序列，再借助雙通道誘導實驗（有/無IPTG條件）進一步篩掉對目標RNA聚合酶無響應的序列。最終，團隊構建出一個僅包含K1.5系統真實調控信息、宿主背景干擾最小化的高質量數據集。

圖1 研究人員構建的正交調控系統示意圖

建模突破：構建絕緣表達系統，繪制真實的全景觀活性功能

基于上述凈化后的高質量數據集，研究團隊訓練了一個深度卷積神經網絡模型。模型以 DNA啟動子序列的編碼作為輸入，以實驗測得的表達強度作為輸出。

不同于傳統僅能給出結果預測的“黑箱”模型，團隊通過特征可視化分析，成功繪制出 “ 活性功能全景觀 ” 。這一 “景觀” 可類比表達強度隨DNA序列變化的地形圖。模型能在該景觀里找到“局部高峰” （即表達強度最優的序列模式），還能識別出關鍵的功能motif（序列片段），從而幫助解析基因調控的內在規律。

一個極具意義的發現是：僅需大約1250條經凈化的高質量序列，即可把模型的表達強度預測精度做到R2=0.90。這表明數據的“ 純凈度 ”比規模更重要。該結果為后續利用生成模型設計新序列打下了堅實的基礎。

在這一精準的表達景觀模型基礎上，團隊開發出真正的“從頭設計（de novo design）”策略。從完全隨機生成的DNA序列出發，利用模型預測到的“爬坡”方向，通過反向傳播和迭代優化，持續調整堿基組成，讓序列在“表達景觀” 中逐步攀升至目標表達強度區域。

這一方法突破了以往以來天然模板、通過反復突變和篩選實現的 “半理性設計” 模式，實現了真正意義上的“從零生成”。實驗驗證顯示，該方法設計出的人工啟動子其表達強度范圍廣泛覆蓋野生型水平，且預測值和實際測試結果高度一致，尤其在中高表達區的偏差極小，且設計出的不同序列之間差異顯著（ Hamming 距離大于10bp），有效規避了同源重組或序列冗余問題，保證了多樣性和穩定性。

功能驗證：生成啟動子在不同宿主中保持表達可預測性

為進一步驗證所設計調控元件的功能穩定性與跨物種適應性，研究團隊將部分模型生成的啟動子序列移植至哺乳動物細胞系統中進行表達測試。實驗選取常用的中國倉鼠卵巢細胞（CHO）為代表，在等效的啟動子-RNAP組合條件下評估其表達活性。

結果顯示，這些已在大腸桿菌中驗證的人工啟動子，在CHO細胞中同樣呈現出與模型預測值基本一致的表達趨勢，其表達強度與模型預測結果間具有顯著線性相關性（R2 = 0.54）。盡管不同物種的表達背景存在差異，該結果仍表明，模型設計出的順式元件具備良好的表達可控性和宿主遷移能力，具備“跨宿主平臺”通用化應用的潛力。

為評估該策略的系統適配性，研究團隊進一步將活性功能景觀建模與從頭設計方法拓展至 T7 RNA聚合酶系統。作為經典的合成表達平臺， T7系統具有較強的表達能力和廣泛的應用基礎。研究顯示，所生成的T7啟動子序列同樣實現了表達水平的可控設計，且與模型預測結果高度一致。這一結果驗證了該方法不僅適用于K1.5系統，還具備向其他單因子驅動、正交表達系統泛化的能力，為調控元件的模塊化設計與系統工程化打下了通用基礎。

本研究建立了一套面向順式調控元件的高通量、可解釋、跨系統泛化的從頭設計流程，有望解決以往因為宿主背景干擾導致的模型預測失真和遷移失敗這一長期難題。通過結合絕緣型表征系統的構建和深度學習預測模型，研究團隊實現了從隨機序列到目標功能啟動子的精準生成，并驗證了其在不同 RNA聚合酶系統和不同宿主細胞中的通用性。該成果為合成生物線路設計、跨物種基因回路構建以及可編程細胞工廠的開發提供了全新解決方案，或將推動AI驅動的基因調控研究邁向真正的“功能級別智能設計”階段。

中國科學院深圳先進技術研究院研究員婁春波、清華大學教授汪小我為本文共同通訊作者。清華大學博士研究生王昊晨，中國科學院深圳先進技術研究院助理研究員項延會、研究助理劉子明為共同第一作者。

https://academic.oup.com/nar/article/53/12/gkaf611/8185980?login=false

制版人：十一

學術合作組織

（*排名不分先后）

戰略合作伙伴

（*排名不分先后）

轉載須知

【非原創文章】本文著作權歸文章作者所有，歡迎個人轉發分享，未經作者的允許禁止轉載，作者擁有所有法定權利，違者必究。

BioArt

Med

Plants

人才招聘

近期直播推薦

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.