99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Nucleic Acids Research?|?基于深度學習與絕緣化原理的合成生物順式調控元件從頭設計

0
分享至


在合成生物學領域,科學家們希望能“編程”生命 ,實現可預測地 設計 基因 元件(比如啟動子 、 增強子) 、蛋白質等目標, 讓細胞按照 人們 預定 的強度 表達 功能 基因。近 年來 ,人工智能 (AI) 特別是深度學習技術,成 為 這項工作的“新引擎”。通過分析實驗數據,AI模型能預測哪些序列會帶來強或弱的基因表達,甚至能設計出全新的調控序列。

然而 ,這項技術 存在一個長期 被低估的難題 —— “數據污染”。 正如 人們 所討論的, 大語言模型會 受到 網絡 中 “錯誤信息” 的 污染, 其 本質 在于 訓練數據 受到 非目標信息干擾, 導致 模型學 習到 錯誤 的 規律。 在常 規生物 實驗中,研究者會在 特定 宿主細胞 中對 人工設計的序列 進行 測試。但很多看起來“活躍”的序列, 其活性實際上源于 宿主細胞自身的 意外激活 ,而 非 目標 元件本身 的 活性 。把這 類 “污染”數據喂給AI 模型 ,就 如同教幼兒 識字時混進錯別字, AI 模型也會 因此“學偏” ,記住不 應 有的規則。 這不僅會導致模型的預測結果失真,還使其難以在不同物種間實現通用。

近日, 中國科學院 深圳先進 技術研究 院 定量合成生物學全國重點實驗室、合成生物學研究所 婁春波 課題組與清華大學自動化系 汪小我 課題組 合作 在Nucleic Acids Research期刊 上 發表了文章

De novo design of insulated cis-regulatory elements based on deep learning-predicted fitness landscape
, 提出并驗證了一項關鍵觀點: 去除宿主 細胞內“ 污染 語料 ”,是實現高精度模型預測 及 可控 從頭 設計 順式基因元件 的前提條件。


問題發現 : 數據污染是模型“預測失靈”的根源

在利用深度學習設計基因調控元件的過程中,存在一個常被忽視但至關重要的問題—— 宿主背景污染 。研究團隊在分析K1.5啟動子系統的實驗數據時發現: 當采用 隨機序列篩選活性啟動子時, 許 多看 似 “活躍”的序列 ,其活躍并非源于 對目標RNA聚合酶(K1.5 RNAP) 的 調控,而是因意外被宿主大腸桿菌自身的轉錄體系激活 所致 。

這類似于教 AI識別蘋果 圖片 時, 訓練數據中混入了橘子圖片卻都標注為 “蘋果”; 在此情況下, AI模型學到的不是真正區分蘋果的特征,而是各種混 雜 的錯誤模式。

研究人員通過深入分析發現,這種“宿主背景污染”并非個別現象,而是在宿主細胞中任意篩選隨機序列時普遍存在的問題。在傳統體系里,順式調控元件必須和宿主的轉錄因子(比如 RNA聚合酶、σ因子等)協 同作用 , 因此 隨機序列 極易 無意中激活宿主 自身的調控機制 ,產生“偽陽性”信號。

這類“非目標”信號會對 AI模型 形成誤導 ,使得它學到的規律 僅 在特定宿主 內 有效,無法遷移到其他物種或新的表達系統。要真正實現可預測、可遷移的功能元件設計,就必須從源頭上去掉 此類 背景干擾,建立一個真正“正交”(即彼此獨立、互不干擾)的表達系統, 確保AI 模型學到的調控規律 具有 純粹 性 、可解釋 性和 可泛化 性 。

為此,研究團隊設計了一套“預測 +實驗雙重篩選”的數據凈化流程: 首先通過 模型預測識別 并 排除可能受宿主背景激活的序列,再 借助 雙通道誘導實驗(有/無IPTG條件)進一步篩掉對目標RNA聚合酶無響應的序列。最終,團隊構建出一個 僅 包含K1.5系統 真實 調控信息、宿主背景 干擾 最小化的高質量數據集。


圖1 研究人員構建的正交調控系統示意圖

建模突破:構建絕緣表達系統 , 繪制真實 的全 景觀 活性功能

基于 上述 凈化后的高質量數據集,研究團隊訓練了一個深度卷積神經網絡模型。模型 以 DNA啟動子序列的編碼 作為輸入 , 以 實驗測得的表達強度 作為 輸出。

不同于傳統 僅 能給出結果預測的“黑箱”模型,團隊通過特征可視化分析,成功繪制 出 “ 活性功能全景觀 ” 。這 一 “景觀” 可類比 表達強度隨DNA序列變化的 地形 圖 。 模型能在 該景觀 里找到“局部高峰” (即 表達強度最優的序列模式 ), 還能識別出關鍵的功能motif(序列片段), 從而 幫助 解析 基因調控的內在規律。

一個 極具 意義的發現是: 僅需 大約1250條經凈化的高質量序列, 即可 把模型的表達強度預測精度做到R2=0.90。 這表明 數據的“ 純凈度 ”比規模更重要。 該 結果為 后續 利用生成模型設計新序列打下了堅實的基礎。

在這 一 精準的表達景觀模型基礎上,團隊開發 出 真正的“從頭設計(de novo design)”策略。從完全隨機生成的DNA序列 出發 ,利用模型預測到的“爬坡”方向,通過反向傳播和迭代優化, 持續 調整堿基組成,讓序列在“表達景觀” 中逐步 攀升 至 目標表達強度區域。

這一方法 突破了以往以來 天然模板、 通過 反復突變和篩選 實現的 “半理性設計” 模式 ,實現了真正意義上的“從零生成”。實驗驗證顯示, 該 方法設計出的人工啟動子 其 表達強度范圍 廣泛 覆蓋野生型水平 ,且 預測值和實際測試結果高度一致,尤其在中高表達區的偏差 極 小 ,且 設計出的不同序列之間差異 顯著 ( Hamming 距離大于10bp), 有效規避 了同源重組或序列冗余問題,保證了多樣性和穩定性。

功能驗證:生成啟動子在不同宿主中保持表達可預測性

為進一步驗證所設計調控元件的功能穩定性與跨物種適應性,研究團隊將部分模型生成的啟動子序列移植至哺乳動物細胞系統中進行表達測試。實驗 選取 常用的中國倉鼠卵巢細胞(CHO)為代表,在等效的啟動子-RNAP組合條件下評估其表達活性。

結果顯示,這些 已 在大腸桿菌中驗證的人工啟動子,在CHO細胞中同樣 呈現 出與模型預測值 基本 一致的表達趨勢, 其表達強度與模型預測結果間具有顯著線性相關性(R2 = 0.54) 。盡管不同物種的表達背景存在差異,該結果仍表明 , 模型設計出的順式元件具備良好的表達可控性和 宿主 遷移能力, 具備“跨宿主平臺”通用化應用的潛力 。

為評估該策略的系統適配性,研究團隊進一步將 活性功能景觀建模 與 從頭 設計方法拓展至 T7 RNA聚合酶系統 。作為經典的合成表達平臺 , T7系統具有較強的表達能力和廣泛的應用基礎。研究顯示,所生成的T7啟動子序列同樣實現了表達水平的可控設計,且與模型預測結果高度一致。這一結果驗證了該方法不僅適用于K1.5系統, 還 具備向其他 單因子驅動、正交表達系統泛化的能力 ,為調控元件的模塊化設計與系統工程化打下了通用基礎。

本研究建立了一套面向順式調控元件的高通量、可解釋、跨系統泛化的從頭設計流程,有望解決以往因為宿主背景干擾導致的模型預測失真和遷移失敗這一長期難題。通過結合絕緣型表征系統的構建和深度學習預測模型,研究團隊實現了從隨機序列到目標功能啟動子的精準生成,并驗證了其在不同 RNA聚合酶系統和不同宿主細胞中的通用性。 該成果 為合成生物線路設計、跨物種基因回路構建以及可編程細胞工廠的開發提供了 全新 解決方案, 或將 推動AI驅動的基因調控研究邁向真正的“功能級別智能設計”階段。

中國科學院深圳先進技術研究院研究員婁春波 、 清華大學教授 汪小我 為本文共同通訊作者。清華大學博士研究生王昊 晨 ,中國科學院深圳先進技術研究院 助理研究員 項 延會 、 研究助理 劉子 明 為共同第一作者。

https://academic.oup.com/nar/article/53/12/gkaf611/8185980?login=false

制版人: 十一

學術合作組織

(*排名不分先后)



戰略合作伙伴

(*排名不分先后)

轉載須知


【非原創文章】本文著作權歸文章作者所有,歡迎個人轉發分享,未經作者的允許禁止轉載,作者擁有所有法定權利,違者必究。

BioArt

Med

Plants

人才招聘

近期直播推薦

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
郭德綱一家三口同框,10歲郭汾陽身高近170看著有180斤,像成年人

郭德綱一家三口同框,10歲郭汾陽身高近170看著有180斤,像成年人

柒佰娛
2025-07-19 16:23:58
哈哈長公主的秘密前夫!

哈哈長公主的秘密前夫!

多元思想
2025-07-18 16:19:25
北極圈內氣溫超30℃,當地人熱到光膀子上街

北極圈內氣溫超30℃,當地人熱到光膀子上街

大象新聞
2025-07-18 10:57:25
宗慶后為何愛睡女下屬

宗慶后為何愛睡女下屬

不正確
2025-07-18 17:58:01
為什么偏偏是好麗友,讓中產破防?

為什么偏偏是好麗友,讓中產破防?

有意思報告
2025-07-17 18:11:42
曼晚:塞斯科可能加盟曼聯,他&姆貝莫、庫尼亞三叉戟將大放異彩

曼晚:塞斯科可能加盟曼聯,他&姆貝莫、庫尼亞三叉戟將大放異彩

直播吧
2025-07-19 18:22:08
《奔跑吧》爭議不斷的嘉賓,又懶又自以為是,沙溢宋雨琦都討厭他

《奔跑吧》爭議不斷的嘉賓,又懶又自以為是,沙溢宋雨琦都討厭他

一娛三分地
2025-07-19 13:33:19
為什么俄羅斯參觀完055后,一回去就終止了自己60億美刀造艦項目

為什么俄羅斯參觀完055后,一回去就終止了自己60億美刀造艦項目

窺史
2025-07-19 05:01:27
網盤中的加密文件,二十年后依然回味無窮

網盤中的加密文件,二十年后依然回味無窮

街機時代
2025-04-27 16:10:02
毀三觀!印度發生集體猥褻事件,現場畫面曝光,女人被圍住狂蹭

毀三觀!印度發生集體猥褻事件,現場畫面曝光,女人被圍住狂蹭

烏娛子醬
2025-07-18 19:30:23
朱拉尼逃跑,高層遭斬首,電視臺被叛軍占領,國家剛到手就丟了?

朱拉尼逃跑,高層遭斬首,電視臺被叛軍占領,國家剛到手就丟了?

奧字侃娛
2025-07-19 16:07:51
研究分析296例熱射病:90%患者都在大量喝水,為何還是沒能保命?

研究分析296例熱射病:90%患者都在大量喝水,為何還是沒能保命?

健身狂人
2025-07-19 03:50:36
曝大明玉遺體找到!丈夫愿望成真,救援隊犯難,有具遺體無法打撈

曝大明玉遺體找到!丈夫愿望成真,救援隊犯難,有具遺體無法打撈

阿傖說事
2025-07-19 09:11:52
這兩件事一起看,已不是諷刺的問題!

這兩件事一起看,已不是諷刺的問題!

走讀新生
2025-07-18 17:55:53
老年暴走團遭社會性死亡!央媒怒批:這不是素質問題,是個人私利

老年暴走團遭社會性死亡!央媒怒批:這不是素質問題,是個人私利

說說史事
2025-07-19 11:00:27
一天2包煙一頓8兩酒,李琦體重250斤住ICU,70歲終于醒悟

一天2包煙一頓8兩酒,李琦體重250斤住ICU,70歲終于醒悟

山河月明史
2025-07-18 22:52:57
“香港不是中國的”,港獨議員叫囂反華言論,馬化騰要求滾出中國

“香港不是中國的”,港獨議員叫囂反華言論,馬化騰要求滾出中國

霽寒飄雪
2025-07-19 09:20:27
男孩被塞后備箱后續!親媽曝光與前公公聊天記錄,毀三觀

男孩被塞后備箱后續!親媽曝光與前公公聊天記錄,毀三觀

魔都姐姐雜談
2025-07-19 11:41:24
遼寧暴走團阻礙3輛救援車通行,警方回應,央媒:這不是素質問題

遼寧暴走團阻礙3輛救援車通行,警方回應,央媒:這不是素質問題

觀察鑒娛
2025-07-19 12:38:12
不打了!楊瀚森正式退賽!手腕韌帶撕裂!鵜鶘13號秀突然重傷...

不打了!楊瀚森正式退賽!手腕韌帶撕裂!鵜鶘13號秀突然重傷...

技巧君侃球
2025-07-19 17:08:20
2025-07-19 19:52:49
BioArt incentive-icons
BioArt
探索生物藝術之奧秘
7449文章數 18440關注度
往期回顧 全部

科技要聞

工信部等約談17家車企巨頭,競爭劃新紅線

頭條要聞

緬甸園區老板送回19歲高考生:你前途光明 不該留在這

頭條要聞

緬甸園區老板送回19歲高考生:你前途光明 不該留在這

體育要聞

韋德:楊瀚森讓我想起王治郅 打球都非常聰明

娛樂要聞

肖戰微博改名:去掉X玖少年團頭銜

財經要聞

娃哈哈爭產大戰:杜建英的進擊

汽車要聞

中汽中心新能源檢驗中心煥新發布"汽車行車控制安全技術驗證VCTA"

態度原創

健康
游戲
手機
旅游
藝術

呼吸科專家破解呼吸道九大謠言!

Faker敗了!T1戰隊0:2不敵AL戰隊 無緣EWC決賽

手機要聞

HMD Aura2 手機上架:紫光展銳 SC9863A + 4G + 256G 售 799 元

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 江川县| 乡宁县| 永春县| 汝阳县| 泸西县| 高碑店市| 秭归县| 阳春市| 宜兰市| 张北县| 富民县| 桂平市| 平原县| 韩城市| 三江| 双峰县| 房山区| 资阳市| 南安市| 精河县| 肥东县| 任丘市| 岑巩县| 永安市| 巧家县| 贵阳市| 文山县| 故城县| 清丰县| 类乌齐县| 富阳市| 文昌市| 星子县| 吴桥县| 甘泉县| 瑞金市| 乐平市| 五华县| 上高县| 永靖县| 镇沅|