隨著 單細(xì)胞 和空間組 學(xué) 技術(shù) 的 快速 發(fā)展, 公開可共享 數(shù)據(jù)量已突破億級大關(guān)。 然而,技術(shù)平臺 產(chǎn)生的 差異、復(fù)雜疾病狀態(tài)以及跨物種研究帶來的批次效應(yīng)和離群細(xì)胞( Out-of-Distribution Cell , OOD 細(xì)胞), 對數(shù)據(jù)解讀 構(gòu)成巨大挑戰(zhàn)。面對動輒百萬規(guī)模的 OOD 細(xì)胞,依賴 “ 先聚類、后注釋 ” 的傳統(tǒng)分析方法已顯力不從心,難以快速、精準(zhǔn)且可解釋地將這些 “ 身份不明 ” 的細(xì)胞映射到日益完善的參考細(xì)胞圖譜上。如何 高效 實現(xiàn)細(xì)胞的數(shù)字化表征、整合與解析,已成為一個關(guān)鍵瓶頸,嚴(yán)重制約著單細(xì)胞數(shù)據(jù)在跨大規(guī)模人群隊列研究、多模態(tài)信息整合以及物種間保守性探索等核心方向上潛力的釋放。
近日,國家生物信息中心計算生物學(xué)部蔣嵐團隊在Genome Biology期刊發(fā)表了題為CellMemory: hierarchical interpretation of out-of-distribution cells using bottlenecked transformer的研究論文 ,研發(fā)了一款高效、泛化且可解釋的有監(jiān)督細(xì)胞表征和解析模型CellMemory。
該模型 受全局工作空間理論( Global Workspace Theory, GWT )啟發(fā), 對 傳統(tǒng) Transformer 架構(gòu) 進行改造, 植入 低維 記憶 空間 “ Memory Space ” , 通過 Cross-Attention 機制將高維基因特征壓縮 、 競爭 、 廣播 , 提高 計算 效率 3-5 倍 ,顯著 增強 模型泛化 能力 ,無需預(yù)訓(xùn)練即可實現(xiàn)單細(xì)胞數(shù)據(jù)跨平臺、物種整合 。 同時, 記憶空間為 CellMemory 帶來分層式“可讀窗口” 。 L1 (Gene Level): 面對特定細(xì)胞,研究者可知 單個基因 對 目標(biāo) 細(xì)胞表征的 貢獻 分?jǐn)?shù); L2 (Gene Program Level ) : 模型在 記憶空間中 , 自動 歸納 協(xié)調(diào) 的共表達(dá) /共調(diào)控模式 。 多層可解釋性為理解模型決策邏輯,探索 表型關(guān)聯(lián) 細(xì)胞狀態(tài)提供了 可靠解決方案 ,即“高準(zhǔn)確性 + 強可解釋性” 。
研究團隊將 CellMemory 與 3個單細(xì)胞基礎(chǔ)大模型、16 個任務(wù)專用模型在一千五百萬細(xì)胞上進行比較。 基準(zhǔn)評測 結(jié)果顯示, CellMemory 在人群尺度的單細(xì)胞數(shù)據(jù)整合、 超 高分辨率細(xì)胞狀態(tài)注釋等任務(wù) 中均取得了 State-of-the-Art 級別的表現(xiàn)。 面對 59 張 MERFISH小鼠腦 空間 組學(xué) 切片 ( 4 百萬細(xì)胞、 338 個細(xì)胞亞群 ), 相較 基 于 傳統(tǒng) transformer架構(gòu)預(yù)訓(xùn)練的 單細(xì)胞基礎(chǔ)大模型, CellMemory 在 95% 的 空間 切片上取得 領(lǐng)先 的注釋 表現(xiàn), 準(zhǔn)確率 較 傳統(tǒng) 機器學(xué)習(xí)方法提升 30% , 證明 CellMemory 出色的泛化能力 。
當(dāng)前,將疾病細(xì)胞與健康細(xì)胞比對仍然是巨大挑戰(zhàn)。 得益于準(zhǔn)確與可解釋的細(xì)胞表征 , 研究團隊進一步利用 CellMemory 在多 個 癌癥 隊列單細(xì)胞圖譜 中解析疾病 復(fù)雜性 。例如在肺腺癌隊列中,模型基于參考圖譜定位到 MSLN+ CAPN8+ 的肺泡 2型過渡態(tài)細(xì)胞,并觀測到其顯著的拷貝數(shù)變異,提示肺腺癌可能利用肺泡2型細(xì)胞可塑性獲得侵襲能力 。 在混合表型急性白血病、髓母細(xì)胞瘤等數(shù)據(jù)中,模型 基于健康參考圖譜 揭示了不同患者潛在的異質(zhì)性起源,為耐藥和預(yù)后研究提供了高分辨率 數(shù)據(jù)解析基礎(chǔ) 。展示出 CellMemory 在 離群 細(xì)胞推斷場景中的 強大表征 能力。
綜上, 從 “序列 搜索 ”到“ 亞群搜索 ” , 參考映射 正在重塑單細(xì)胞數(shù)據(jù)分析的技術(shù)范式 。 憑借 強大的泛化能力與 高效的計算效率, CellMemory 有望成為 覆蓋病理、時空和物種等多維度細(xì)胞參考圖譜 建設(shè)與臨床精準(zhǔn)診療的關(guān)鍵引擎。
C ellMemory 模型架構(gòu)與應(yīng)用場景
上述工作由國家生物信息中心蔣嵐團隊和多家單位合作完成。蔣嵐研究員、新加坡國立大學(xué)劉鈿渤教授、 加拿大 麥吉爾大學(xué)李岳教授為本文的共同通訊作者。蔣嵐團隊博士研究生王棄非, 加拿大 麥吉爾大學(xué)博士生朱赫為文章的并列第一作者。 清華大學(xué)張學(xué)工、斯坦福大學(xué) James Zou , 博德研究所 Manolis Kellis 教授 對本項目也有貢獻。
原文鏈接:https://doi.org/10.1186/s13059-025-03638-y
專家點評
趙屹( 中科院計算所)
當(dāng)前單細(xì)胞與空間組學(xué)面臨兩大挑戰(zhàn),海量異構(gòu)數(shù)據(jù)下傳統(tǒng)方法難以解析跨技術(shù)平臺、跨病理狀態(tài)、跨物種的批次效應(yīng)與離群細(xì)胞,現(xiàn)有算法依賴預(yù)訓(xùn)練且可解釋性薄弱制約臨床轉(zhuǎn)化。 CellMemory 通過底層架構(gòu)的原創(chuàng)設(shè)計, 解決規(guī)模化數(shù)據(jù)整合痛點,為AI賦能生物醫(yī)學(xué)研究樹立新標(biāo)桿。該團隊未簡單調(diào)用傳統(tǒng)Transformer架構(gòu),而是創(chuàng)造性地引入瓶頸層,通過壓縮、競爭、廣播機制實現(xiàn)基因特征降維。這一改造使得模型訓(xùn)練成本節(jié)省80%以上,并顯著增強泛化能力,使其無需預(yù)訓(xùn)練即可支撐跨物種、跨模態(tài)整合,并高效實現(xiàn)疾病細(xì)胞與健康細(xì)胞的精準(zhǔn)比對。其分層可解釋架構(gòu)從基因?qū)拥酵穼咏沂灸P蜎Q策的生物學(xué)邏輯,成功定位肺腺癌中MSLN+ CAPN8+肺泡2型過渡態(tài)細(xì)胞等疾病起源譜系。這種輕量化適配生物學(xué)復(fù)雜性的設(shè)計哲學(xué),既規(guī)避算力堆砌陷阱,又為探究疾病細(xì)胞異質(zhì)性起源提供了高分辨率解析基礎(chǔ)。 CellMemory 通過生物啟發(fā)式架構(gòu)革新單細(xì)胞分析范式,其融合計算科學(xué)與生命機理的跨界探索,為疾病機制解析提供了全新視角。
制版人:十一
BioArt
Med
Plants
人才招聘
學(xué)術(shù)合作組織
(*排名不分先后)
戰(zhàn)略合作伙伴
(*排名不分先后)
轉(zhuǎn)載須知
【非原創(chuàng)文章】本文著作權(quán)歸文章作者所有,歡迎個人轉(zhuǎn)發(fā)分享,未經(jīng)作者的允許禁止轉(zhuǎn)載,作者擁有所有法定權(quán)利,違者必究。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.