來源:北京大學(xué)生物醫(yī)學(xué)前沿創(chuàng)新中心
近日,北京大學(xué)生物醫(yī)學(xué)前沿創(chuàng)新中心(BIOPIC)湯富酬課題組在Genome Biology發(fā)表題為
scExtract: leveraging large language models for fully automated single-cell RNA-seq data annotation and prior-informed multi-dataset integration的研究論文。
該研究開發(fā)了基于大語言模型智能體的單細(xì)胞 RNA 測序數(shù)據(jù)處理框架 scExtract,提高了單細(xì)胞數(shù)據(jù)分析的效率和準(zhǔn)確性。
隨著單細(xì)胞 RNA 測序技術(shù)的發(fā)展,公開可用的單細(xì)胞數(shù)據(jù)快速增長。截至 2024 年 8 月,cellxgene 數(shù)據(jù)庫收錄了 1458 個數(shù)據(jù)集,但新發(fā)表的單細(xì)胞測序研究數(shù)量遠(yuǎn)超過現(xiàn)有數(shù)據(jù)庫的收錄速度。
由于數(shù)據(jù)共享協(xié)議通常只要求提交原始測序數(shù)據(jù),缺乏標(biāo)準(zhǔn)化的細(xì)胞注釋信息,這給數(shù)據(jù)整合分析帶來了挑戰(zhàn)。研究人員在構(gòu)建整合數(shù)據(jù)集時,往往需要花費(fèi)大量時間手動提取預(yù)處理方法和標(biāo)記基因描述,這種方法在處理多個數(shù)據(jù)集時效率較低。
針對這一問題,湯富酬課題組開發(fā)了scExtract 框架。
該框架以原始表達(dá)矩陣和研究文章內(nèi)容作為輸入,可以自動執(zhí)行與原文方法一致的預(yù)處理、聚類和注釋操作。scExtract 采用大語言模型模擬專家分析流程,能夠從文章文本中提取每個步驟使用的參數(shù),并基于 scanpy 系統(tǒng)實(shí)現(xiàn)計算。
在聚類階段,scExtract 可以從文章中提取聚類數(shù)目等參數(shù),當(dāng)文章未明確說明時,能根據(jù)文章討論的細(xì)胞群體數(shù)量和注釋粒度推斷合適的聚類策略。在注釋階段,scExtract 結(jié)合標(biāo)記基因列表和文章背景知識,使注釋結(jié)果與文章內(nèi)容保持一致。此外,scExtract 還能通過查詢特征標(biāo)記基因的表達(dá)水平來優(yōu)化初始注釋結(jié)果。
圖 1 scExtract 的工作流程
研究團(tuán)隊使用來自 cellxgene 的 18 個人工標(biāo)注數(shù)據(jù)集對 scExtract 進(jìn)行了測試。結(jié)果顯示 scExtract 的準(zhǔn)確性優(yōu)于 SingleR、scType 和 CellTypist 等方法。在群體級別準(zhǔn)確性指標(biāo)上,scExtract 表現(xiàn)出更好的性能,反映了其對稀有細(xì)胞類型的識別能力。
圖 2 scExtract 在 cellxgene 標(biāo)注數(shù)據(jù)集上的測試
研究團(tuán)隊還開發(fā)了 scanorama-prior 和 cellhint-prior 兩種改進(jìn)的整合算法。scanorama-prior 在構(gòu)建相互最近鄰時考慮細(xì)胞類型間的先驗(yàn)差異,并在細(xì)胞移位過程中將原始細(xì)胞群體作為整體移向目標(biāo)數(shù)據(jù)集中的對應(yīng)群體。cellhint-prior 則根據(jù)細(xì)胞群體分配的不確定性水平動態(tài)調(diào)整先驗(yàn)知識的權(quán)重。
在整合性能評估中,使用胰腺單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)集的測試表明,scanorama-prior 在消除批次效應(yīng)的同時,能較好地保持細(xì)胞類型間的真實(shí)生物學(xué)差異。在大規(guī)模數(shù)據(jù)集評估中,scExtract 的兩步整合策略在批次校正和保留生物學(xué)信息方面表現(xiàn)良好。
作為應(yīng)用實(shí)例,研究團(tuán)隊利用 scExtract 整合了14 個皮膚單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)集,構(gòu)建了包含超過 44 萬個細(xì)胞的皮膚免疫失調(diào)數(shù)據(jù)集。該數(shù)據(jù)集涵蓋了銀屑病、特應(yīng)性皮炎等多種疾病狀態(tài),以及從新生兒到老年人的不同發(fā)育階段。
通過對角質(zhì)細(xì)胞亞群的分析,研究團(tuán)隊發(fā)現(xiàn)了銀屑病特異性的增殖性角質(zhì)細(xì)胞擴(kuò)增現(xiàn)象,并揭示了CXCL14+角質(zhì)細(xì)胞在銀屑病發(fā)病機(jī)制中的潛在作用。
圖 3 scExtract 整合分析角質(zhì)細(xì)胞亞群的疾病特征
scExtract 框架具有實(shí)用價值:處理單個轉(zhuǎn)錄組數(shù)據(jù)集約需 20 分鐘,成本低于 1 美元,且不需要額外高性能計算資源。
隨著大語言模型技術(shù)的發(fā)展,scExtract 的準(zhǔn)確性和效率有望進(jìn)一步提高。該工具為單細(xì)胞組學(xué)研究提供了數(shù)據(jù)分析支持,有助于更高效挖掘現(xiàn)有數(shù)據(jù)資源,推進(jìn)對細(xì)胞異質(zhì)性的研究。
北京大學(xué)生物醫(yī)學(xué)前沿創(chuàng)新中心湯富酬教授為該論文的通訊作者;博士研究生吳宇軒為該論文的第一作者。該研究得到了北京市自然科學(xué)基金、新基石科學(xué)基金會等項目的支持。
論文鏈接:https://doi.org/10.1186/s13059-025-03639-x
開源代碼:https://github.com/yxwucq/scExtract
湯富酬,北京大學(xué)生物醫(yī)學(xué)前沿創(chuàng)新中心教授,北京未來基因診斷高精尖創(chuàng)新中心研究員、副主任,北大-清華生命科學(xué)聯(lián)合中心研究員,國家杰出青年科學(xué)基金獲得者。
湯富酬實(shí)驗(yàn)室主要從事人類生殖系發(fā)育以及腫瘤發(fā)生的單細(xì)胞功能基因組學(xué)研究,圍繞人類生殖系發(fā)育研究多種干細(xì)胞的自我更新和分化發(fā)育調(diào)控的表觀遺傳調(diào)控機(jī)理,以及相關(guān)的生殖系發(fā)育的表觀遺傳編程和重編程機(jī)理。
利用自身發(fā)展的單細(xì)胞功能基因組學(xué)高通量測序技術(shù)體系(單細(xì)胞轉(zhuǎn)錄組、基因組、DNA 甲基化組、染色質(zhì)狀態(tài)組、基因組三維結(jié)構(gòu)組、以及多組學(xué)測序等技術(shù)),基因編輯技術(shù)、哺乳動物胚胎顯微操作技術(shù)、類器官培養(yǎng)技術(shù)、以及人類胚胎干細(xì)胞體外定向分化等技術(shù)在單細(xì)胞和單堿基的極限分辨率下深入研究人類生殖系細(xì)胞發(fā)育以及腫瘤發(fā)生過程中基因表達(dá)網(wǎng)絡(luò)的表觀遺傳學(xué)調(diào)控機(jī)理,并在此基礎(chǔ)上深入探索生殖細(xì)胞發(fā)育異常相關(guān)的不孕不育、以及癌癥等疾病的診斷和治療策略。
我們長期為科研用戶提供前沿資訊、實(shí)驗(yàn)方法、選品推薦等服務(wù),并且組建了 70 多個不同領(lǐng)域的專業(yè)交流群,覆蓋神經(jīng)科學(xué)、腫瘤免疫、基因編輯、外泌體、類器官等領(lǐng)域,定期分享實(shí)驗(yàn)干貨、文獻(xiàn)解讀等活動。
添加實(shí)驗(yàn)菌企微,回復(fù)【】中的序號,即可領(lǐng)取對應(yīng)的資料包哦~
【2401】論文寫作干貨資料(100 頁)
【2402】國內(nèi)重點(diǎn)實(shí)驗(yàn)室分子生物學(xué)實(shí)驗(yàn)方法匯總(60 頁)
【2403】2024 最新最全影響因子(20000+ 期刊目錄)
【2404】免疫學(xué)信號通路手冊
【2405】PCR 實(shí)驗(yàn) protocol 匯總
【2406】免疫熒光實(shí)驗(yàn) protocol 合集
【2407】細(xì)胞培養(yǎng)手冊
【2408】蛋白純化實(shí)驗(yàn)手冊
【2501】染色體分析方法匯總
【2502】國自然中標(biāo)標(biāo)書模板
【2503】WB 實(shí)驗(yàn)詳解及常見問題解答
【2504】DeepSeek 論文寫作常用口令
【2505】中國科學(xué)院期刊分區(qū)表(2025 年最新版)
【2506】期刊影響因子(2025 年最新版)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.