編輯丨coisini
包含 1 億個人類細胞的超大規模數據集什么樣?在其上訓練出的單細胞基礎模型什么樣?
單細胞 RNA 測序(scRNA-seq)技術的出現為分子生物學帶來了革命性突破,其能以空前規模和精度測量轉錄組圖譜、揭示細胞異質性。然而,當前單細胞數據分析受到固有數據噪聲、批次效應和稀疏性的困擾。
目前領域內研究者已開發出諸多單細胞專用分析工具來應對這些挑戰,但這些工具在新數據集上的表現往往不盡如人意,并且難以適應數據規模的持續增長。受大型語言模型(LLM)取得顯著成功的啟發,同時為了降低訓練成本,研究人員開始探索用相對少量的單細胞數據對 LLM 進行微調,但這種方法仍然無法充分挖掘大型圖譜數據集中的豐富信息。
為了解決上述挑戰,來自中山大學等機構的研究團隊整合了一個包含 1 億個人類細胞的超大規模多樣化數據集,并在該數據集上訓練出具有 8 億參數的單細胞基礎模型 ——CellFM。為平衡效率與性能,該模型基于 MindSpore 平臺,采用改進版RetNet架構進行訓練。
大量實驗表明,CellFM 在細胞注釋、擾動預測、基因功能預測及基因互作關系捕捉等任務上均優于現有模型。研究論文發表在《Nature Communications》上。
論文地址:https://www.nature.com/articles/s41467-025-59926-5
8 億參數的高效基礎模型 CellFM
單物種訓練數據(如人類細胞)的稀缺性阻礙了大規模單物種模型的發展 —— 現有單物種模型通常在約 5000 萬細胞上進行訓練,參數量不足 1 億。這種局限性部分源于單細胞數據收集的困難:數據以不同格式存儲,并分散在不同數據庫中,包括美國生物技術信息中心(NCBI)的基因表達綜合庫(GEO)、歐洲核苷酸檔案(ENA)、基因組序列歸檔(GSA)以及免疫學數據庫(ImmPort)。
研究團隊從公共數據庫中系統整合了單細胞數據(圖 1a),經過數據清洗和格式標準化處理,最終構建了含約 1 億人類細胞的跨技術測序數據集。具體來說,數據來自不同器官和測序技術的 19,914 個樣本,共計 102,304,686 個人類細胞。其中,4,630 萬細胞來自健康供體,其余來自疾病供體。
圖 1:CellFM 框架概述
基于該數據集,研究團隊開發了具有 8 億參數的高效基礎模型 CellFM(圖 1b),其核心架構包含嵌入模塊、堆疊式 ERetNet 層和低秩自適應模塊(LoRA)。
CellFM 首先通過嵌入模塊將標量基因表達數據轉化為高維特征,隨后輸入 L 個 ERetNet 層以捕捉基因表達譜間的復雜關系。每個 ERetNet 層由門控多頭注意力(MHA)、簡單門控線性單元(SGLU)和層歸一化(LN)構成(圖 1c),兼具訓練并行化、推理高效和性能卓越的優勢。此外,CellFM 集成 LoRA 模塊以減少模型在新數據集微調時的可訓練參數量。
訓練完成后,CellFM 可應用于基因功能預測、擾動響應預測、細胞類型注釋等下游任務。
提升基因功能預測精度
基因功能預測是解析基因在不同條件下作用機制的關鍵。人類基因組約含 20,000 個蛋白質編碼基因,其中大量基因缺乏功能注釋,準確預測其功能對理解生物學系統至關重要。研究團隊通過三類基因分類任務評估了 CellFM 的性能:劑量敏感性基因(T1)、二價甲基化 vs 非甲基化基因(T2)、二價甲基化 vs 僅 Lys4 甲基化基因(T3)。
為了公平比較,所有模型均采用零樣本學習策略。如圖 2a 所示,CellFM 在三個任務中均取得最佳性能,其平均準確率較 UCE 和 scGPT 分別提升 5.68% 和 5.86%,Macro-F1 分數也呈現相同趨勢(圖 2b)。此外,如圖 2c 所示,CellFM 能清晰區分劑量敏感與非敏感基因。這些結果證實了 CellFM 在無需微調的情況下,即可通過零樣本學習精準預測基因功能。
圖 2:零樣本設置下基因功能預測性能對比
擾動響應預測
隨著測序與基因編輯技術的進步,大規模實驗性擾動模擬已成為研究基因表達與細胞行為變化的重要手段。這些模擬對理解細胞對外界刺激的響應機制至關重要,已廣泛應用于藥物效應評估、疾病機理探究及治療策略開發。
為了驗證 CellFM 的擾動響應預測能力,該研究采用兩個 Perturb-seq 數據集:(1)Adamson 數據集;(2)Norman 數據集。
如圖 3 所示,該研究選取差異表達最顯著的 20 個基因,采用皮爾遜相關系數進行評估。CellFM 在平均 PCC 和 MSE 指標上分別較 scFoundation 提升 1% 和 1.45%,較GEARS更是分別取得 4.75% 和 7% 的優勢。評估結果證實,CellFM 能準確預測擾動作用方向。
圖 3:擾動響應與逆向擾動預測分析
細胞類型注釋
細胞類型注釋是單細胞數據分析的核心任務。為了評估 CellFM 性能,該研究基于最新基準框架 scEval8,與多種單細胞基礎模型及基線方法(SVM、scmap)進行了跨數據集比較。實驗包括:
- 數據集內評估
- 跨批次評估
- 嵌入質量分析
實驗結果如圖 4 所示。
圖 4:各模型的零樣本細胞類型注釋性能
感興趣的讀者可以閱讀論文原文,了解更多研究內容。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.