近年來,單細胞多模態組學技術取得突破性進展,科學家已能在單細胞分辨率下實現對基因組、轉錄組、蛋白質組及空間組學的多維度聯合解析。這一技術突破使得研究者能夠通過單細胞尺度的多組學定量,系統構建細胞在發育分化、疾病演進等過程中的全維度分子圖譜。近年來公開的海量單細胞多模態數據集,使得基于多組學數據構建細胞狀態預測大模型成為可能,也為虛擬細胞(Virtual Cell)構建提供多模態層面的技術和數據支撐。然而,面對日益增長的多模態數據,如何有效整合不同分子模態以及如何處理海量異構數據來解釋細胞的復雜調控機制,已成為當前單細胞多模態研究領域的核心挑戰。
同濟大學生命科學與技術學院生物信息系劉琦教授團隊長期致力于組學智能解析及精準醫學應用,前期在單細胞組學驅動的虛擬細胞構建AI方法路徑,特別是跨組學整合的AI算法層面進行了系統而創新性的探索,曾開發了基于隱空間聯合嵌入的單細胞RNA-seq和ATAC-seq整合算法scMVP【1】,以及面向低質資源數據的T細胞轉錄組和TCR跨模態整合算法UniTCR【2】。
2025年7月10日,劉琦教授團隊在Nature Methods雜志發表了題為“Benchmarking single-cell multi-modal data integrations”的論文,發布了面向單細胞多模態整合的全面基準評估平臺SCMMIB(Single Cell Multi-Modal Integration Benchmark),旨在為領域內的單細胞多模態整合算法提供一個具備全面性、定量化、多尺度、多指標的系統評估計算平臺。該平臺的測試評估涵蓋了40個軟件所涉及的65種整合算法,包含了RNA和ATAC (DNA,高維度)、 ADT(蛋白,低維度)和空間組學。根據多模態數據類型和數據集配對關系,該平臺為多模態整合算法設計了六大類基準評估任務(圖1)。
圖1. SCMMIB平臺框架設計
針對多模態整合不同應用場景、該平臺構建了兼具可用性、準確性和穩定性的三維度基準評價指標和流程(圖2)。其中,可用性指標主要針對不同數據集大小下(500到50萬細胞)算法、硬件平臺(僅CPU/GPU加速)下軟件是否可以正常使用。準確性指標不依賴于多模態整合算法的數據金標準,評估了生物學結構保留、批次去除、和細胞對齊三類隱空間指標和跨模態生成準確性。穩定性指標主要衡量算法多次運行及不同模態數據集質量下算法性能和結果的穩定性。
圖2. SCMMIB平臺評估流程
在模態匹配信息完全的配對(paired)多模態整合任務中,國際主流的Seurat 工具包中權重近鄰(WNN)算法【3】在RNA+ATAC和RNA+ADT均獲得了最好的綜合性能,優于現有設計更為復雜的深度學習模型。
在部分或者全部匹配信息缺失的整合任務中,若干深度生成模型表現尤為突出;在部分模態信息匹配的馬賽克整合(unpaired mosaic)任務中, MIDAS算法等【4】在隱空間準確性和穩定性上表現最佳,在跨模態生成(imputation)任務中MIDAS性能顯著優于同類算法,并且作為無監督算法,其準確性已經接近多模態有監督(10%預測模態輸入)生成模型;在完全非配對(unpaired diagonal)整合任務中,GLUE算法【5】在模態對齊準確性的所有指標中領先其他算法,對齊性能已接近有部分配對信息馬賽克整合算法;在空間多組學任務中,領域內已有算法相對于空轉經典分析工具(Harmony【6】, STAligner【7】)并未有明顯優勢,仍有待發展創新算法對空間多組學數據整合和應用進行進一步探索。
綜上所述,該平臺對單細胞多模態整合領域的研究提供了一個系統而全面的基準評估框架,其評估結果為單細胞DNA、RNA、蛋白及空間組學數據的整合方法評估以及跨模態生物學知識智能發現提供了一個全面的參考和指南,有望進一步推動單細胞跨模態整合領域的AI方法學開發、細胞調控關系解析以及相關的生物學應用。
該論文第一作者是劉琦教授課題組的傅沙镠博士和博士生王曙光,通訊作者是同濟大學劉琦教授。
https://www.nature.com/articles/s41592-025-02737-9
參考文獻:
1.Li G, Fu S, Wang S, Zhu C, Duan B, Tang C, Chen X, Chuai G, Wang P, Liu Q: A deep generative model for multi-view profiling of single-cell RNA-seq and ATAC-seq data.Genome Biology 2022, 23:20.
2.Gao Y, Dong K, Gao Y, Jin X, Yang J, Yan G, Liu Q: Unified cross-modality integration and analysis of T cell receptors and T cell transcriptomes by low-resource-aware representation learning.Cell Genom 2024, 4:100553.
3.Hao Y, Hao S, Andersen-Nissen E, et al: Integrated analysis of multimodal single-cell data.Cell 2021, 184:3573-3587 e3529.
4.He Z, Hu S, Chen Y, et al: Mosaic integration and knowledge transfer of single-cell multimodal data with MIDAS.Nat Biotechnol 2024.
5.Cao Z-J, Gao G: Multi-omics single-cell data integration and regulatory inference with graph-linked embedding.Nature Biotechnology 2022.
6.Korsunsky I, Millard N, Fan J, Slowikowski K, Zhang F, Wei K, Baglaenko Y, Brenner M, Loh PR, Raychaudhuri S: Fast, sensitive and accurate integration of single-cell data with Harmony.Nat Methods 2019, 16:1289-1296.
7.Zhou X, Dong K, Zhang S: Integrating spatial transcriptomics data across different conditions, technologies and developmental stages.Nat Comput Sci 2023, 3:894-906.
學術合作組織
(*排名不分先后)
戰略合作伙伴
(*排名不分先后)
轉載須知
【非原創文章】本文著作權歸文章作者所有,歡迎個人轉發分享,未經作者的允許禁止轉載,作者擁有所有法定權利,違者必究。
BioArt
Med
Plants
人才招聘
近期直播推薦
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.