來源:北京大學生物醫學前沿創新中心
近日,北京大學生物醫學前沿創新中心(BIOPIC)湯富酬課題組在Genome Biology發表題為
scExtract: leveraging large language models for fully automated single-cell RNA-seq data annotation and prior-informed multi-dataset integration的研究論文。
該研究開發了基于大語言模型智能體的單細胞 RNA 測序數據處理框架 scExtract,提高了單細胞數據分析的效率和準確性。
隨著單細胞 RNA 測序技術的發展,公開可用的單細胞數據快速增長。截至 2024 年 8 月,cellxgene 數據庫收錄了 1458 個數據集,但新發表的單細胞測序研究數量遠超過現有數據庫的收錄速度。
由于數據共享協議通常只要求提交原始測序數據,缺乏標準化的細胞注釋信息,這給數據整合分析帶來了挑戰。研究人員在構建整合數據集時,往往需要花費大量時間手動提取預處理方法和標記基因描述,這種方法在處理多個數據集時效率較低。
針對這一問題,湯富酬課題組開發了scExtract 框架。
該框架以原始表達矩陣和研究文章內容作為輸入,可以自動執行與原文方法一致的預處理、聚類和注釋操作。scExtract 采用大語言模型模擬專家分析流程,能夠從文章文本中提取每個步驟使用的參數,并基于 scanpy 系統實現計算。
在聚類階段,scExtract 可以從文章中提取聚類數目等參數,當文章未明確說明時,能根據文章討論的細胞群體數量和注釋粒度推斷合適的聚類策略。在注釋階段,scExtract 結合標記基因列表和文章背景知識,使注釋結果與文章內容保持一致。此外,scExtract 還能通過查詢特征標記基因的表達水平來優化初始注釋結果。
圖 1 scExtract 的工作流程
研究團隊使用來自 cellxgene 的 18 個人工標注數據集對 scExtract 進行了測試。結果顯示 scExtract 的準確性優于 SingleR、scType 和 CellTypist 等方法。在群體級別準確性指標上,scExtract 表現出更好的性能,反映了其對稀有細胞類型的識別能力。
圖 2 scExtract 在 cellxgene 標注數據集上的測試
研究團隊還開發了 scanorama-prior 和 cellhint-prior 兩種改進的整合算法。scanorama-prior 在構建相互最近鄰時考慮細胞類型間的先驗差異,并在細胞移位過程中將原始細胞群體作為整體移向目標數據集中的對應群體。cellhint-prior 則根據細胞群體分配的不確定性水平動態調整先驗知識的權重。
在整合性能評估中,使用胰腺單細胞轉錄組數據集的測試表明,scanorama-prior 在消除批次效應的同時,能較好地保持細胞類型間的真實生物學差異。在大規模數據集評估中,scExtract 的兩步整合策略在批次校正和保留生物學信息方面表現良好。
作為應用實例,研究團隊利用 scExtract 整合了14 個皮膚單細胞轉錄組數據集,構建了包含超過 44 萬個細胞的皮膚免疫失調數據集。該數據集涵蓋了銀屑病、特應性皮炎等多種疾病狀態,以及從新生兒到老年人的不同發育階段。
通過對角質細胞亞群的分析,研究團隊發現了銀屑病特異性的增殖性角質細胞擴增現象,并揭示了CXCL14+角質細胞在銀屑病發病機制中的潛在作用。
圖 3 scExtract 整合分析角質細胞亞群的疾病特征
scExtract 框架具有實用價值:處理單個轉錄組數據集約需 20 分鐘,成本低于 1 美元,且不需要額外高性能計算資源。
隨著大語言模型技術的發展,scExtract 的準確性和效率有望進一步提高。該工具為單細胞組學研究提供了數據分析支持,有助于更高效挖掘現有數據資源,推進對細胞異質性的研究。
北京大學生物醫學前沿創新中心湯富酬教授為該論文的通訊作者;博士研究生吳宇軒為該論文的第一作者。該研究得到了北京市自然科學基金、新基石科學基金會等項目的支持。
論文鏈接:https://doi.org/10.1186/s13059-025-03639-x
開源代碼:https://github.com/yxwucq/scExtract
湯富酬,北京大學生物醫學前沿創新中心教授,北京未來基因診斷高精尖創新中心研究員、副主任,北大-清華生命科學聯合中心研究員,國家杰出青年科學基金獲得者。
湯富酬實驗室主要從事人類生殖系發育以及腫瘤發生的單細胞功能基因組學研究,圍繞人類生殖系發育研究多種干細胞的自我更新和分化發育調控的表觀遺傳調控機理,以及相關的生殖系發育的表觀遺傳編程和重編程機理。
利用自身發展的單細胞功能基因組學高通量測序技術體系(單細胞轉錄組、基因組、DNA 甲基化組、染色質狀態組、基因組三維結構組、以及多組學測序等技術),基因編輯技術、哺乳動物胚胎顯微操作技術、類器官培養技術、以及人類胚胎干細胞體外定向分化等技術在單細胞和單堿基的極限分辨率下深入研究人類生殖系細胞發育以及腫瘤發生過程中基因表達網絡的表觀遺傳學調控機理,并在此基礎上深入探索生殖細胞發育異常相關的不孕不育、以及癌癥等疾病的診斷和治療策略。
我們長期為科研用戶提供前沿資訊、實驗方法、選品推薦等服務,并且組建了 70 多個不同領域的專業交流群,覆蓋神經科學、腫瘤免疫、基因編輯、外泌體、類器官等領域,定期分享實驗干貨、文獻解讀等活動。
添加實驗菌企微,回復【】中的序號,即可領取對應的資料包哦~
【2401】論文寫作干貨資料(100 頁)
【2402】國內重點實驗室分子生物學實驗方法匯總(60 頁)
【2403】2024 最新最全影響因子(20000+ 期刊目錄)
【2404】免疫學信號通路手冊
【2405】PCR 實驗 protocol 匯總
【2406】免疫熒光實驗 protocol 合集
【2407】細胞培養手冊
【2408】蛋白純化實驗手冊
【2501】染色體分析方法匯總
【2502】國自然中標標書模板
【2503】WB 實驗詳解及常見問題解答
【2504】DeepSeek 論文寫作常用口令
【2505】中國科學院期刊分區表(2025 年最新版)
【2506】期刊影響因子(2025 年最新版)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.