導語
高質量的數據是AI驅動生命科學的重要瓶頸。近日,浙江大學郭國驥團隊在《Cell》發表最新研究,開發了超高通量單細胞染色質開放測序技術(UUATAC-seq),并構建跨物種單細胞深度學習模型(女媧CE),實現了調控序列的精準預測和疾病相關突變功能驗證,發現了跨物種的基因調控“語法”,為計算醫學提供了新的工具和思路。
7月10日(周四)19:00-21:00,我們特別邀請到郭國驥老師在第二期活動中分享這一最新研究成果。“AI驅動的計算醫學前沿:從科學發現到數字孿生”系列研討會由DAMO開發者矩陣與集智俱樂部聯合主辦,深入探討AI與生物醫學交叉的最新進展。
劉培源丨作者
論文地址:https://doi.org/10.1016/j.cell.2025.06.020
AI正在深刻影響生命科學,尤其在多組學領域。過去幾年,AI算法在蛋白質結構預測(如AlphaFold)和基因功能解析(如Enformer)等方向上接連取得突破。然而,用AI實現生命系統的精準建模,依賴于覆蓋多物種、多細胞類型的高質量數據。在基因組與表觀基因組領域,這類數據的缺乏已成為制約AI深入理解基因調控機制的瓶頸。
其中有代表性的是細胞染色質的開放狀態數據。染色質開放狀態決定了DNA序列能否被轉錄因子等調控蛋白有效識別和結合,從而直接影響基因的表達與調控。因此,染色質可及性分析(如ATAC-seq)成為揭示基因組功能的重要技術手段,能夠幫助我們明確基因組中哪些區域處于染色質開放狀態。但目前單細胞水平的ATAC-seq(轉座酶可及染色質測序)技術,普遍存在通量低、靈敏度不足等問題,難以為AI模型提供充足且高質量的訓練數據。
浙江大學郭國驥團隊7月8日在《Cell》雜志發表的最新工作,回應了上述挑戰。團隊開發了UUATAC-seq(超高通量單核ATAC測序)技術,首次實現單日內構建跨物種的單細胞染色質圖譜。該研究基于新測序技術,進一步提出了深度學習模型NvwaCE(女媧CE),實現了跨物種、跨細胞類型的單細胞調控序列精準預測。這項研究不僅顯著提升了AI模型在基因調控領域的預測性能,也為后續研究提供了高質量的數據基礎與全新思路。
單細胞染色質測序新方法
具體而言,UUATAC-seq通過一種四輪條碼標記方法,實現了高效率、高精度的單細胞處理。與傳統單細胞測序方法相比,這一技術利用創新的雙端同型轉座酶切設計,大幅提高了對開放染色質區域DNA片段的捕獲效率。同時,利用溫控接頭轉換策略,在每一輪細胞混合與分組過程中精確加入新的條碼標簽,有效避免了細胞之間標簽的交叉污染。
圖1(原圖1A) UUATAC?seq 的實驗流程與“四輪池拆條碼”設計,高效完成單細胞染色質檢測。第一步,利用特殊的酶給每個細胞的DNA打上初始標簽條碼;第二步,細胞混合后,再給每個細胞添加一個獨特標簽;第三步,通過溫度控制的方式精確加入第三個標簽;最后一步,通過DNA擴增加入第四個標簽,完成單細胞水平的染色質分析。
基于這些改進,UUATAC-seq可在單日內完成對多個物種、數十萬細胞核的染色質可及性分析,數據質量和實驗通量顯著優于現有的單細胞測序技術,為后續AI模型的高效訓練提供了堅實的數據基礎。
基因調控“語法”的AI預測模型
在獲得高質量數據基礎上,郭國驥團隊進一步構建了一個強大的AI模型:NvwaCE(女媧CE)。該模型直接以DNA序列作為輸入,以單細胞(single-cell)甚至單核(single-nucleus)級別的分辨率精準預測染色質開放性,從而系統地解讀隱藏于基因組序列中的調控“語法”。
其中,CE 指順式調控元件(cis-regulatory element),即基因組中不直接編碼蛋白質、但能調控基因表達的功能序列。這些調控元件能夠決定哪些基因、何時何地被激活或關閉,從而控制細胞類型的多樣性。以往基因組AI模型大多側重于從DNA序列的相似性來預測功能。女媧CE則側重從DNA序列中直接學習染色質的開放狀態及其調控模式,而非簡單基于序列匹配。
這種策略使得女媧CE能夠有效識別跨物種的普適的調控序列語法,并由此揭示脊椎動物細胞功能調控中的通用規律。
具體而言,女媧CE模型采用了多任務深度學習架構(圖2),其核心結構由卷積網絡CNN與殘差網絡ResNeXt組成,能夠有效捕捉DNA序列中復雜的模式特征與多尺度信息。模型以固定長度(500 bp)的基因組序列為輸入,經卷積層和瓶頸層的特征壓縮后,最終輸出這段序列在數萬個單細胞核內處于染色質開放狀態(調控元件活躍)的概率。
圖2(原圖5A)女媧 CE 模型架構示意。
在性能評估中,女媧CE模型表現出卓越的預測能力,在不同物種的染色質開放狀態預測任務中均達到高精度(AUROC > 0.80,部分甚至達到0.99),明顯優于主流模型(如scBasset和Transformer)。更重要的是,即便對于未經過訓練的物種(如雞、壁虎、蠑螈、斑馬魚),模型依然具有很強的泛化預測能力。
這表明調控元件背后的“序列語法”遠比DNA序列本身更為保守,更揭示了脊椎動物基因調控的共性。此外,女媧CE還能自動識別出與神經、免疫、脂代謝等功能相關的序列模塊,不僅提高了預測準確度,也增強了模型的可解釋性。
功能驗證與精準醫學應用
這項研究進一步探索了女媧CE模型在實際生物醫學問題中的應用潛力,特別是在針對人類疾病相關非編碼調控元件的突變效應預測方面,評估了該模型的精準醫學價值。
團隊選取了361個已知與人類疾病密切相關的精細定位非編碼位點,逐一利用女媧CE模型進行突變功能效應預測,成功鑒定出265個具有明確功能影響的關鍵變異位點,明顯優于傳統方法。
團隊還利用基因編輯實驗,首次在人體細胞中驗證了完全由AI精準預測的疾病治療關鍵位點(胎兒血紅蛋白基因HBG1-68:A>G)。這為AI在臨床治療靶點設計中的應用提供了明確的實驗證據。
跨尺度與跨物種的研究前景
在這項工作中,研究團隊揭示了跨物種的調控序列共性規律。他們發現不同脊椎動物的基因組中,調控元件數量隨著基因組規模的擴增而穩定增加(圖3),但每個調控元件自身的長度則相對穩定。這意味著在不同物種之間可能存在某種普遍的、內在的調控設計原則。
圖3(原圖4F)展示了脊椎動物基因組規模(Genome size)與候選順式調控元件數量(Number of cCREs)之間顯著的線性關系,揭示了不同物種基因組中,調控元件數量隨基因組規模擴增而穩定增加的規律。
如何在物種、組織、細胞類型等不同生命尺度之間發現普適規律,一直是生命科學的重要挑戰,也是系統科學的主戰場,更是當前AI for Science的主要靶標。
近兩年來,一系列新興AI方法,均嘗試以不同的策略和尺度來解碼生命系統的功能信息。例如,Evo 2模型從基因組序列的宏觀尺度,嘗試用大規模參數模型來統一不同種類的序列信息;而ChromBPNet則致力于細致刻畫堿基尺度上的調控序列與染色質狀態的關系。但這些工作普遍受到訓練數據尺度與類型的限制,難以從根本上解決“單細胞—全基因組”這一交叉尺度問題。
在此背景下,女媧CE模型的突破,不依賴于ENCODE(DNA元件百科全書計劃)的復雜數據體系,就能夠實現單細胞水平的序列功能預測,并且理解大量隱藏的特異性調控規則。
總之,郭國驥團隊的最新工作,為全面解讀基因組語言和建立數字生命模型,奠定了更實的基礎。尤其是女媧CE模型在跨物種泛化預測和非編碼變異功能驗證中的成功,有望加速精準醫學和合成生物學發展,進一步打開AI for Science的想象空間。
AI驅動的計算醫學前沿研討會
生命科學與醫學領域正經歷著深刻的智能革命。大語言模型與多智能體技術快速發展,正在推動形成計算醫學(Computational Medicine)新范式,為精準醫療、疾病診斷和健康管理開辟全新路徑。AI驅動的計算醫學在自主探索、跨尺度數據融合、個體建模與數字孿生等方面快速發展,然而跨學科合作與方法論整合仍是重要挑戰。
為此,DAMO開發者矩陣(由阿里巴巴達摩院和中國互聯網協會聯合發起)與集智俱樂部共同主辦,邀請多位國內外前沿學者與業界專家分享交流。系列研討會將系統梳理計算醫學與AI交叉領域的最新進展,自2025年7月6日(周日)開始,共5大議題分享與討論。歡迎相關研究、應用領域的朋友報名參加,共同推動生命科學與醫療健康的智能未來!
本活動免費報名,實行審核入群制,請填寫信息后入群參與交流并獲得每期活動信息。
詳情請見:
1.
2.
3.
4.
5.
6.
7.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.