99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

1億人類細胞數據集8億參數單細胞基礎模型,中山大學等推出CellFM

0
分享至



編輯丨coisini

包含 1 億個人類細胞的超大規模數據集什么樣?在其上訓練出的單細胞基礎模型什么樣?

單細胞 RNA 測序(scRNA-seq)技術的出現為分子生物學帶來了革命性突破,其能以空前規模和精度測量轉錄組圖譜、揭示細胞異質性。然而,當前單細胞數據分析受到固有數據噪聲、批次效應和稀疏性的困擾。

目前領域內研究者已開發出諸多單細胞專用分析工具來應對這些挑戰,但這些工具在新數據集上的表現往往不盡如人意,并且難以適應數據規模的持續增長。受大型語言模型(LLM)取得顯著成功的啟發,同時為了降低訓練成本,研究人員開始探索用相對少量的單細胞數據對 LLM 進行微調,但這種方法仍然無法充分挖掘大型圖譜數據集中的豐富信息。

為了解決上述挑戰,來自中山大學等機構的研究團隊整合了一個包含 1 億個人類細胞的超大規模多樣化數據集,并在該數據集上訓練出具有 8 億參數的單細胞基礎模型 ——CellFM。為平衡效率與性能,該模型基于 MindSpore 平臺,采用改進版RetNet架構進行訓練。

大量實驗表明,CellFM 在細胞注釋、擾動預測、基因功能預測及基因互作關系捕捉等任務上均優于現有模型。研究論文發表在《Nature Communications》上。



論文地址:https://www.nature.com/articles/s41467-025-59926-5

8 億參數的高效基礎模型 CellFM

單物種訓練數據(如人類細胞)的稀缺性阻礙了大規模單物種模型的發展 —— 現有單物種模型通常在約 5000 萬細胞上進行訓練,參數量不足 1 億。這種局限性部分源于單細胞數據收集的困難:數據以不同格式存儲,并分散在不同數據庫中,包括美國生物技術信息中心(NCBI)的基因表達綜合庫(GEO)、歐洲核苷酸檔案(ENA)、基因組序列歸檔(GSA)以及免疫學數據庫(ImmPort)。

研究團隊從公共數據庫中系統整合了單細胞數據(圖 1a),經過數據清洗和格式標準化處理,最終構建了含約 1 億人類細胞的跨技術測序數據集。具體來說,數據來自不同器官和測序技術的 19,914 個樣本,共計 102,304,686 個人類細胞。其中,4,630 萬細胞來自健康供體,其余來自疾病供體。

圖 1:CellFM 框架概述

基于該數據集,研究團隊開發了具有 8 億參數的高效基礎模型 CellFM(圖 1b),其核心架構包含嵌入模塊、堆疊式 ERetNet 層和低秩自適應模塊(LoRA)。

CellFM 首先通過嵌入模塊將標量基因表達數據轉化為高維特征,隨后輸入 L 個 ERetNet 層以捕捉基因表達譜間的復雜關系。每個 ERetNet 層由門控多頭注意力(MHA)、簡單門控線性單元(SGLU)和層歸一化(LN)構成(圖 1c),兼具訓練并行化、推理高效和性能卓越的優勢。此外,CellFM 集成 LoRA 模塊以減少模型在新數據集微調時的可訓練參數量。

訓練完成后,CellFM 可應用于基因功能預測、擾動響應預測、細胞類型注釋等下游任務。

提升基因功能預測精度

基因功能預測是解析基因在不同條件下作用機制的關鍵。人類基因組約含 20,000 個蛋白質編碼基因,其中大量基因缺乏功能注釋,準確預測其功能對理解生物學系統至關重要。研究團隊通過三類基因分類任務評估了 CellFM 的性能:劑量敏感性基因(T1)、二價甲基化 vs 非甲基化基因(T2)、二價甲基化 vs 僅 Lys4 甲基化基因(T3)。

為了公平比較,所有模型均采用零樣本學習策略。如圖 2a 所示,CellFM 在三個任務中均取得最佳性能,其平均準確率較 UCE 和 scGPT 分別提升 5.68% 和 5.86%,Macro-F1 分數也呈現相同趨勢(圖 2b)。此外,如圖 2c 所示,CellFM 能清晰區分劑量敏感與非敏感基因。這些結果證實了 CellFM 在無需微調的情況下,即可通過零樣本學習精準預測基因功能。



圖 2:零樣本設置下基因功能預測性能對比

擾動響應預測

隨著測序與基因編輯技術的進步,大規模實驗性擾動模擬已成為研究基因表達與細胞行為變化的重要手段。這些模擬對理解細胞對外界刺激的響應機制至關重要,已廣泛應用于藥物效應評估、疾病機理探究及治療策略開發。

為了驗證 CellFM 的擾動響應預測能力,該研究采用兩個 Perturb-seq 數據集:(1)Adamson 數據集;(2)Norman 數據集。

如圖 3 所示,該研究選取差異表達最顯著的 20 個基因,采用皮爾遜相關系數進行評估。CellFM 在平均 PCC 和 MSE 指標上分別較 scFoundation 提升 1% 和 1.45%,較GEARS更是分別取得 4.75% 和 7% 的優勢。評估結果證實,CellFM 能準確預測擾動作用方向。



圖 3:擾動響應與逆向擾動預測分析

細胞類型注釋

細胞類型注釋是單細胞數據分析的核心任務。為了評估 CellFM 性能,該研究基于最新基準框架 scEval8,與多種單細胞基礎模型及基線方法(SVM、scmap)進行了跨數據集比較。實驗包括:

  • 數據集內評估
  • 跨批次評估
  • 嵌入質量分析

實驗結果如圖 4 所示。





圖 4:各模型的零樣本細胞類型注釋性能

感興趣的讀者可以閱讀論文原文,了解更多研究內容。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
高溫黃色預警!35℃只是起步,連續37℃候場!上海人靈魂發問:出梅了嗎?

高溫黃色預警!35℃只是起步,連續37℃候場!上海人靈魂發問:出梅了嗎?

新民晚報
2025-06-26 14:56:28
已證實!巨頭高管及父母全部遇難

已證實!巨頭高管及父母全部遇難

FM93浙江交通之聲
2025-06-25 23:05:58
全球最小的發達國家,快被中國人“買”下了,中國移民占比87%!

全球最小的發達國家,快被中國人“買”下了,中國移民占比87%!

毒sir財經
2025-06-25 16:30:27
哈伊戰爭,經典性的結果。。。

哈伊戰爭,經典性的結果。。。

西樓飲月
2025-06-25 18:30:14
美軍研制巨型鉆地炸彈新型號

美軍研制巨型鉆地炸彈新型號

環球時報國際
2025-06-26 15:15:09
蒙古國突然找中國談邊境!決定把遺留問題都處理好,有何目的?

蒙古國突然找中國談邊境!決定把遺留問題都處理好,有何目的?

十點軍史
2025-06-26 11:19:20
張朝陽直播2.5小時解析高考物理壓軸題,稱如果自己出題,會出簡單點的

張朝陽直播2.5小時解析高考物理壓軸題,稱如果自己出題,會出簡單點的

觀威海
2025-06-24 09:38:43
英外長通告全球,砸8億美金對付中國,不到24小時,中方反將一軍

英外長通告全球,砸8億美金對付中國,不到24小時,中方反將一軍

大白話瞰世界
2025-06-26 16:11:42
寧靜回應與汪峰戀情:我不喜歡他

寧靜回應與汪峰戀情:我不喜歡他

魯中晨報
2025-06-25 19:40:11
江蘇連發15條預警!局地11級雷暴大風或弱龍卷

江蘇連發15條預警!局地11級雷暴大風或弱龍卷

魯中晨報
2025-06-26 14:40:09
華為固態電池炸場!5分鐘充3000km,燃油車真要涼了?

華為固態電池炸場!5分鐘充3000km,燃油車真要涼了?

西莫的藝術宮殿
2025-06-26 13:28:17
第一次撤銷黨內職務,第二次黨內嚴重警告,受兩次處分的楊志東被查

第一次撤銷黨內職務,第二次黨內嚴重警告,受兩次處分的楊志東被查

新京報政事兒
2025-06-26 13:21:38
42歲尼格買提曬新疆老家,千平別墅鋪昂貴地毯,比北京那棟還豪華

42歲尼格買提曬新疆老家,千平別墅鋪昂貴地毯,比北京那棟還豪華

頭號劇委會
2025-06-25 21:22:45
當過常務副市長、市長、廳長,王秉清搞權色交易,退休后收受禮品

當過常務副市長、市長、廳長,王秉清搞權色交易,退休后收受禮品

新京報
2025-06-26 14:17:09
莊雅婷(2000年生,議員),宣布退選!

莊雅婷(2000年生,議員),宣布退選!

揚子晚報
2025-06-25 22:02:13
為什么說B2轟炸機也就能欺負一下伊朗這樣防空系統比較差的國家?

為什么說B2轟炸機也就能欺負一下伊朗這樣防空系統比較差的國家?

阿龍聊軍事
2025-06-25 17:18:04
800公里收費2萬8回旋鏢來了!多家轉運公司不接單,醫院嚴禁推薦

800公里收費2萬8回旋鏢來了!多家轉運公司不接單,醫院嚴禁推薦

慢半拍sir
2025-06-25 08:14:08
全國城管機構大撤銷!百萬城管咋辦?六個方案能解決重就業問題?

全國城管機構大撤銷!百萬城管咋辦?六個方案能解決重就業問題?

說宇宙
2025-06-22 11:20:03
審計署披露:山西蒲縣疾控一職工,“1歲工作、22歲退休”

審計署披露:山西蒲縣疾控一職工,“1歲工作、22歲退休”

封面新聞
2025-06-25 14:43:08
中紀委再劃紅線!公務員下班后吃飯,這4種行為將被嚴肅追責!

中紀委再劃紅線!公務員下班后吃飯,這4種行為將被嚴肅追責!

鬼菜生活
2025-06-17 12:39:27
2025-06-26 16:59:00
ScienceAI incentive-icons
ScienceAI
關注人工智能與其他前沿技術
983文章數 214關注度
往期回顧 全部

科技要聞

奧特曼剛警告完 Meta就挖走OpenAI三名大將

頭條要聞

媒體:英國公布針對中國的審計報告 對華“既要又要”

頭條要聞

媒體:英國公布針對中國的審計報告 對華“既要又要”

體育要聞

蓄謀已久的開拓者,就是最適合楊瀚森的球隊

娛樂要聞

倪妮,怎么突然下桌了?

財經要聞

免除蘇寧易購5億債務的神秘人是誰?

汽車要聞

奇瑞最大轎車 風云A9L把VIP待遇和續航焦慮一起解決

態度原創

旅游
游戲
本地
時尚
公開課

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

CS2明星選手喜提保時捷911:車牌"幀數"很高很電競

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

“淺口鞋”今年夏天爆火!這5雙怎么搭都好看

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 通海县| 凤庆县| 乌兰县| 丰顺县| 西贡区| 广平县| 格尔木市| 涟源市| 东宁县| 京山县| 桓台县| 嘉义县| 木兰县| 留坝县| 施秉县| 大连市| 荆门市| 祁阳县| 元阳县| 新巴尔虎左旗| 南京市| 日土县| 原平市| 如东县| 龙泉市| 鹤壁市| 鲁甸县| 米林县| 越西县| 都安| 高碑店市| 湘潭县| 礼泉县| 封开县| 蓬安县| 榆林市| 泸州市| 灵山县| 衡南县| 福清市| 永丰县|