導語
1971年12月,時任美國總統理查德·尼克松簽署《國家癌癥法》,2016年,時任美國副總統拜登發起“攻克癌癥登月計劃”,再次向癌癥宣戰。可如今面對大多數癌癥我們依然束手無策。近年來越來越多的AI+多組學的科研突破層出不窮,這次能不能攻克癌癥,是否真的和之前不一樣了?要回答這個問題,我們先回到30多年前的基因組,梳理清為何需要多組學才能進行精準醫學。
AI+多組學融合議題正在DAMO開發者矩陣(由阿里巴巴達摩院和中國互聯網協會聯合發起)與集智俱樂部共同主辦的中探討。研討會邀請多位國內外前沿學者與業界專家分享交流。系列研討會將系統梳理計算醫學與AI交叉領域的最新進展,周期為2025年7月6日-8月初,共5大議題分享與討論。研討會未免費報名-專業審核制,歡迎相關研究、應用領域的朋友報名參加,共同探討生命科學與醫療健康的智能未來!
7月15日(本周二)19:00,計算醫學研討會將舉辦第三期《AI for 蛋白質科學:從結構預測到臨床標志物》,邀請吳家睿老師分享《AI驅動的蛋白質科學》,常乘老師分享《蛋白質組大數據智能解析》,并組織圓桌探討“從AlphaFold到虛擬細胞——AI多組學的融合之路”。歡迎感興趣的朋友預約直播,報名加入研討會交流!
郭瑞東丨作者
為什么需要多組學?
人類基因組計劃無疑是生命科學史上的里程碑。它首次繪制了人類遺傳密碼的完整“藍圖”,讓我們得以從分子層面認識生命的基礎。在癌癥領域,基因組測序揭示了驅動腫瘤發生發展的關鍵基因突變(如EGFR、KRAS、TP53等),催生了靶向治療革命,顯著改善了部分患者的生存期。這似乎讓人們看到了“精準醫學”的曙光——根據個體的基因變異定制治療方案。
然而,基因組學的局限性在深入實踐中逐漸顯露,癌癥的復雜性遠超最初的想象,例如為何擁有相同驅動基因突變的患者(如同為EGFR突變的肺癌),對同一靶向藥的反應和生存期可能存在巨大差異。基因組信息無法完全解釋這種異質性。
這背后的原因是因為基因組提供了DNA序列信息,但基因何時、何地、以何種程度表達(轉錄組)、最終形成何種功能的蛋白質(蛋白質組)、細胞如何進行代謝活動(代謝組)、以及環境如何通過表觀遺傳標記(表觀組)調控基因活性……這些動態的、多層次的信息才是生命活動的直接執行者和調控者。癌癥的發生發展是這些層面共同失調的結果。
腫瘤并非孤立的癌細胞團塊,它浸潤在由免疫細胞、成纖維細胞、血管、信號分子等構成的復雜微環境中。這個微環境深刻影響腫瘤的侵襲、轉移和耐藥性。基因組測序主要聚焦癌細胞本身,難以全面捕捉微環境的動態相互作用。腫瘤在生長過程中會發生演化,不同區域的癌細胞可能具有不同的基因突變和特性(空間異質性),其特性也會隨時間推移而改變(時間異質性)。單次或單點的基因組測序可能無法反映腫瘤全貌。
但使用了更多的方式收集數據,并用更高的頻率采集數據后,問題就變成了如何從這些數據中獲得有意義的洞察,進而實現個體化的精準預測、預防、診斷和治療。不同組學產生的數據是海量、高維、異質且復雜的。傳統分析方法難以有效整合它們并挖掘其中深層次的關聯和模式。這正是人工智能(AI) 大顯身手的領域。
人工智能需要做的,是打破組學數據間的壁壘,整合基因組、轉錄組、蛋白組、代謝組、影像組、臨床數據。從海量數據中發現人眼難以識別的疾病亞型、預后標志物、治療靶點和耐藥機制。有了標志物,就能夠預測疾病風險、進展、分出了疾病亞型,就能讓藥物更為有效,減少副作用,輔助臨床決策,而在計算機中模擬腫瘤演化、藥物作用等復雜過程,可加速發現治療靶點的發現。
圖1 多組學中癌癥相關研究中的應用 來自[1]
回到最初的問題:這次AI+多組學的浪潮,能否帶來真正的不同?答案的關鍵就在于它直面了基因組學時代的核心挑戰——生命復雜性的多維度本質。它不再局限于單一的“藍圖”,而是試圖構建一個動態的、多層次的“生命運行模擬器”。接下來,讓我們看看最近有那些相關的研究,他們做了什么,和之前有何不同。
從DNA→RNA→蛋白質,多組學的研究進展
所謂多組學,從中心法則來看,是從DNA→RNA→蛋白質的信息流動過程,DNA上的突變,是基因檢測的關注點,而對于基因突變的解讀,已經從數據庫的查詢,走向了模型預測。例如Evo 2 模型[2],這是一個跨生命領域的生物基礎模型,訓練于9.3萬億DNA堿基(涵蓋細菌、古菌、真核生物、噬菌體),憑借100 萬 token 上下文窗口能有效捕捉長距離基因組模式,能夠在單核苷酸分辨率下預測變異致病性、還可以生成給定功能的基因組序列,模型具備跨物種預測和設計能力,尤其適用于非編碼變異致病性判讀,為遺傳病診斷和合成生物學帶來全新工具。
圖2 Evo 2簡單示意圖,來自https://github.com/arcinstitute/evo2
DNA如同建筑藍圖,而RNA則如同建筑師,將藍圖實現為具體的一棟棟高樓大廈,這一過程被稱為翻譯,而在翻譯過程中,建筑師會根據周圍的環境修改藍圖,例如進行可變剪切(單個基因可被剪接成多種RNA變體,生成功能迥異的蛋白質),甲基化標簽(在藍圖上DNA添加可擦寫的環境注釋貼,指示哪些區域該優先建造或暫時封存)對此的研究稱之為表觀基因組。如同建筑工地的智能總控中心,接收營養、壓力、毒素等環境信號,通過化學標記(DNA甲基化、組蛋白修飾、非編碼RNA)指揮基因的“開工”與“停工”,使同一份DNA藍圖在不同細胞中建出千差萬別的“生命建筑”。
由于人類基因組中僅有不到 2% 的區域直接編碼蛋白質,而大部分遺傳變異位于非編碼區,雖然它們不會改變蛋白序列,但其中一部分可以通過調控轉錄、剪接、mRNA 穩定性或翻譯等環節影響基因功能。浙江大學良渚實驗室/附屬第二醫院熊旭深課題組24年在 Nature Machine Intelligence 發表的基于Transformer架構的多模態深度學習模型Translatomer[3],該模型整合 mRNA 表達、基因序列等信息,在 33 種人類組織和細胞系的 RNA-seq 與 Ribo-seq 數據上訓練;在跨細胞類型預測核糖體占據圖譜時可取得 0.72–0.80 的 Pearson/Spearman 相關系數。依托模型的解釋能力,研究者鑒定出 3041 個與復雜疾病相關、位于非編碼區的遺傳變異,這些變異對翻譯效率的影響呈組織特異性,為揭示阿爾茨海默病、自閉癥等復雜疾病的分子機制提供了新的線索。
圖3 Translatomer的輸入輸出集其在進化研究,疾病位點解讀上的應用。來自https://github.com/xiongxslab/Translatomer
除了解釋機制,表觀基因組與AI的結合還可輔助診斷crossNN[4],一個跨平臺的基于DNA 甲基化數據,對178種腫瘤進行分類的可解釋深度學習框架,適用于不明原發部位癌癥的診斷工作,其診斷精度達到了97.8%,在腦腫瘤中甚至達到了99.1%。在手術中使用該技術將是一個有趣的方向。通過納米孔測序可以在90分鐘內得出結果,這使得手術中的應用成為可能。外科醫生可以在手術過程中暫停手術,并根據表觀遺傳指紋的結果來決定后續的手術步驟。
而浙江大學郭國驥團隊提出的計算模型神農[5],通過對多種癌細胞及臨近的健康組織及免疫細胞進行單細胞轉錄組測序,構建數據集,之后通過根據變分自編碼器的深度學習模型,計算每個細胞對特定藥物處理的響應強度,評估不同藥物對特定細胞類型的影響。該方法能篩選潛在的廣譜抗癌藥,還能預測藥物的治療效果和副作用,指導藥物篩選,從而發現針對特定細胞類型的候選藥物。
除了從DNA到RNA的過程復雜,每一個細胞也并非一座孤島,而是受到周圍細胞的影響,因而能夠保留相對位置信息,并檢測分子生物學特征(例如基因突變,轉錄表達譜,表觀調節)的空間組學成為了破解生命復雜性的另一塊關鍵拼圖。2024年8月23日,Nature method 刊發評論文章[6]:經由 AI 解鎖空間組學數據的能力,指出人工智能有可能釋放空間組學的全部潛力,促進復雜數據集的整合和新生物醫學見解的發現。對此,浙江大學郭國驥團隊2024發表的關于單細胞轉錄組的綜述論文[7]中,討論了從組織樣本(bulk)到單細胞,再到結合空間組,表觀組,從數個細胞到百萬細胞的發展過程,對相關問題感興趣的可閱讀原文。
AI驅動的計算醫學前沿研討會第二期中,郭國驥老師分享報告《用AI解讀基因組調控語法》討論了神農模型等工作和2025年7月新工作女媧CE模型(),熊旭深分享報告《基于深度學習的RNA調控及疾病解析》具體介紹了Translatomer模型等工作。報名可查看講座錄播。
圖4 單細胞多組學的發展方向 來自[7]
而在經歷了從DNA到RNA再到蛋白的一系列過程,最終的結果是參與新陳代謝的一系列小分子,例如脂肪,碳水等,對此的研究被稱為代謝組。2025 年 3 月,美國佛羅里達大學發布了 MetaVision3D——一種借助人工智能的高分辨率 3D 代謝組成像平臺,可為正常小鼠和阿爾茨海默病模型小鼠構建可交互的大腦代謝圖譜[8]。研究者和臨床人員可以自由縮放并探查任意腦區,直觀比較不同分子(尤其是與神經退行性疾病相關的代謝物)在空間上的分布差異。MetaVision3D 為解析飲食、運動、遺傳等因素對腦細胞代謝及疾病進程的影響提供了全新視角和工具。
AI+多組學推動走向精準醫療
精準醫療正在通過根據個體患者的獨特特征量身定制治療方案來重塑醫療保健格局。相比之前,生物醫學的研究者能夠使用更多樣的工具,跟蹤生物體從設計(DNA)到實現(代謝物)的這一動態過程中的每一步,并對可能的擾動所帶來的影響進行預測。這就如同之前的研究者試圖攻克癌癥時是蒙著眼射箭,而AI的引入讓這一過程帶上了瞄準鏡,同時還會根據風速預測最佳軌跡,從而做到轅門射戟級的精準打擊癌細胞。
下圖是一個完整的AI驅動的多組學整合臨床決策系統,實現了從患者樣本到用藥建議的端到端閉環。通過多組學數據采集,電子病歷,由AI模型進行數據整合,預測藥物響應,支持臨床決策,最終通過采集患者的實際情況,持續改進治療方案。
圖5 預測藥物反應的 AI 驅動多組學流程。源自患者的組學數據,包括基因組學(例如,WES/WGS)、表觀基因組學(例如,BS-seq、ATAC-seq)、轉錄組學(RNA-seq)、蛋白質組學(質譜分析)和代謝組學(例如,LC-MS、NMR),被融合與協調以作為模型輸入。深度學習模型(例如,VAEs、GANs、GNNs)預測藥物療效、不良藥物反應(ADR)風險和劑量建議。可解釋性模塊增強模型透明度,而基于真實世界結果的驗證則實現持續優化。最終輸出通過集成到電子健康記錄(EHR)的臨床決策支持系統(CDSS)交付給臨床醫生。來自 [9]
此外,對于復雜的復雜多基因性狀(如糖尿病,阿茲海默等)機器學習模型通過改進變量選擇和加權來增強多基因風險評分,提高預測效用。超越基因組學,轉錄組學、蛋白質組學和代謝組學的整合提供了對疾病表型的更精細的理解[10]。
盡管具有巨大潛力,但這種方法面臨著數據有限、隱私問題和生物系統復雜性的挑戰。整合基因組學、轉錄組學和蛋白質組學數據對于全面了解患者健康狀況至關重要。omicsGAN[11] 等模型通過結合多種數據類型來增強疾病表型預測和治療計劃。利用自編碼器、圖卷積網絡,如MOGONET[12]、集成方法和對比學習等技術來可應對多組學異構數據集成帶來的挑戰。這些方法通過識別共同潛在因素和學習跨組學表示,能夠學習不同組學層之間的復雜非線性相互作用,通常在藥物反應和疾病預后方面實現卓越的預測性能,促進了穩健生物標志物的檢測。
此外,人工智能不僅有助于數據集成,還通過可解釋人工智能(XAI)技術提高可解釋性,從而在依賴這些復雜、數據驅動方法的臨床醫生和研究人員中建立了信任。像 MOVIS 這樣的平臺提供動態、多模態時間序列聚類和嵌入任務的可視化工具。例如MOVIS [13]設計用于處理各種組學類型——基因組學、蛋白質組學、轉錄組學、代謝組學——以及物理化學數據。其基于網絡的界面允許臨床醫生和研究人員以并排的方式探索和交互多組學數據,促進縱向研究中的假設檢驗和模式識別。
參考文獻
[1] Yates, Josephine, and Eliezer M. Van Allen. "New horizons at the interface of artificial intelligence and translational cancer research." Cancer Cell 43.4 (2025): 708-727.
[2] Brixi G, Durrant MG, Ku J, et al. Genome modeling and design across all domains of life with Evo 2. bioRxiv. Preprint posted online February 21, 2025. doi: 10.1101/2025.02.18.638918.
[3] He, Jialin, et al. "Deep learning prediction of ribosome profiling with Translatomer reveals translational regulation and interprets disease variants." Nature Machine Intelligence 6.11 (2024): 1314-1329.
[4] Yuan, Dongsheng, et al. "crossNN is an explainable framework for cross-platform DNA methylation-based classification of tumors." Nature Cancer (2025): 1-12.
[5] Zhang, Peijing, et al. "A deep learning framework for in silico screening of anticancer drugs at the single-cell level." National Science Review 12.2 (2025): nwae451.
[6] Coleman, Kyle, Amelia Schroeder, and Mingyao Li. "Unlocking the power of spatial omics with AI." nature methods 21.8 (2024): 1378-1381.
[7] Wang, Jingjing, et al. "Advances and applications in single-cell and spatial genomics." Science China Life Sciences (2024): 1-57.
[8] Ma, Xin, et al. "AI-driven framework to map the brain metabolome in three dimensions." Nature metabolism (2025): 1-12.
[9] Zack, Mike, et al. "AI and Multi-Omics in Pharmacogenomics: A New Era of Precision Medicine." Mayo Clinic Proceedings: Digital Health (2025): 100246.
[10] Ahmed Z, Thirunavukarasu R and Khan A (2025) Editorial: Computational genomic and precision medicine. Front. Genet. 16:1631668. doi: 10.3389/fgene.2025.1631668
[11] Ahmed, Khandakar Tanvir, et al. "Multi-omics data integration by generative adversarial network." Bioinformatics 38.1 (2022): 179-186.
[12] Wang, Tongxin, et al. "MOGONET integrates multi-omics data using graph convolutional networks allowing patient classification and biomarker identification." Nature communications 12.1 (2021): 3445.
[13] An?el, Aleksandar, Dominik Heider, and Georges Hattab. "MOVIS: a multi-omics software solution for multi-modal time-series clustering, embedding, and visualizing tasks." Computational and Structural Biotechnology Journal 20 (2022): 1044-1055.
AI驅動的計算醫學前沿研討會
DAMO開發者矩陣(由阿里巴巴達摩院和中國互聯網協會聯合發起)與集智俱樂部共同主辦,邀請多位國內外前沿學者與業界專家分享交流。本活動免費報名,實行審核入群制,請填寫信息后入群參與交流并獲得每期活動信息。
7月15日(周二)將舉辦研討會第三期,《AI for 蛋白質科學:從結構預測到臨床標志物》,歡迎預約直播和報名參與。 邀請吳家睿老師分享《 AI驅動的蛋白質科學 》,常乘老師分享《 蛋白質組大數據智能解析 》,并組織圓桌探討“ 從AlphaFold到虛擬細胞——AI多組學的融合之路 ”。 歡迎感興趣的朋友預約直播,報名加入研討會交流!
詳情請見:
1.
2.
3.
4.
5.
6.
7.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.