編輯 | 爛菜葉
在 1985 年,當科學家們發起預算達 30 億美元的人類基因組計劃時,可能怎么也不會想到「基因測序」會變成生物實驗室的「家常便飯」。
如今,任何一個課題組、研究人員都可以向測序公司提交樣品,短則一天多則三五天,就能獲得樣品的全部序列。這也意味著,新增的各類生物的核酸、蛋白的序列數據會指數般增長。
在過去十年中,生物序列庫的規模擴大了 30-40 倍之多。
這些海量數據的積累極具價值。只要數據條目注釋良好,就可以為進一步研究提供支撐。然而,這些數據的提交者所提供的測序記錄元數據質量參差不齊,給數據的重復利用帶來了巨大挑戰。
瑞士蘇黎世大學(University of Zurich)的研究人員測試了大型語言模型(LLM)在多大程度上可以用于經濟高效地重新注釋測序記錄;既無需重新訓練,也不需要根據與微生物組研究相關的廣泛生態環境的簡化分類方案進行重新注釋。
該研究以 「Enhanced semantic classification of microbiome sample origins using Large Language Models (LLMs)」為題,于 2025 年 4 月 27 日發布在bioRxiv預印平臺。
規范化和標準化的原始數據,對科研工作的可重復性至關重要。
過去十年中,GenBank 數據庫規模擴大了 30 多倍,全基因組測序數據庫(WGS)增長近 40 倍,歐洲核苷酸檔案庫(ENA)在 2012 至 2022 年間也報告了 10 倍的增長。這種激增為有效管理、標準化和利用大規模數據等工作產生了巨大壓力。
雖然數據庫會提供提交指南和結構化元數據模板,但提交環節常常被提交者忽視,導致元數據質量參差不齊。例如,NCBI 雖通過下拉菜單(如生物類型字段)和提交教程等措施盡量實現標準化,但歷史遺留的自由格式數據仍難以統一處理。
傳統自然語言處理方法(如 TF-IDF)因缺乏語境理解能力,難以應對含專業術語、拼寫變體的復雜元數據。新興的大型語言模型(LLM)憑借上下文理解能力,顯著提升了跨領域元數據的解析和挖掘效能,或許是應對該挑戰的解決方法。
圖示:流程概要。(來源:論文)
蘇黎世大學的研究團隊使用 MicrobeAtlas 作為使用 LLM 進行元數據解析的測試平臺。MicrobeAtlas 是一個龐大而多樣化的資源,包含從 NCBI 檢索到的數百萬個宏基因組 SRA 樣本。
MicrobeAtlas 使用從元數據中提取的關鍵字,根據硬編碼規則將樣本分配到定義的環境類別中。然而,這種非語義方法可能無法為術語賦予正確的含義,尤其是在存在多樣化、用戶定義的元數據字段的情況下,從而導致分配結果模棱兩可甚至錯誤。
該團隊的目標是利用通用的 LLM 將樣本(重新)分類到定義的環境類別中,同時從元數據中檢索有效信息。LLM 的任務是:
1、將樣本分類到主要類別(主要討論「生物群落」,即「動物」、「水」、「土壤」、「植物」等);2、將樣本進一步分類到子類別,這里稱為「亞生物群落」;3、提取給定采樣點的地理位置;4、提取最多八個描述樣本的關鍵術語。
目標是以經濟高效的方式獲得高質量的成果,探索不同版本 GPT 在各種條件和配置下的功能。
圖示:生物群落分類準確度的熱圖(所有 GPT 運行的平均值)。(來源:論文)
研究人員評估了 GPT 模型的可擴展性、時間和成本效益,以及與包含 1000 個示例的多樣化、手工篩選的 ground-truth 基準測試的性能,這些示例涵蓋了元數據解讀的復雜程度。
他們觀察到,注釋性能顯著優于基于關鍵詞的人工篩選、非機器學習的基準方法。更改模型(或模型參數)對性能的影響很小,但提示需要精心設計以匹配任務。
該團隊將優化后的流程應用于環境中超過 380 萬條測序記錄,提供了覆蓋全球的粗粒度但標準化的采樣點注釋。
研究結果表明,LLM 的上下文感知解析能力足以完成元數據(重新)注釋——至少在相對結構化的任務(例如微生物組樣本來源分類)中是如此。
雖然錯誤仍然存在,一部分原因是模型限制,另一部分原因是現實世界樣本固有的模糊性,偶爾也源于解析問題。另外,更直接的技術限制包括商業 API 施加的速率限制和每個請求的 token 數量限制。
盡管如此,研究人員給出的結論是:像 GPT 這樣的 LLM 可以有效地補充數據管理周期中的現有工作流程,包括指導元數據提交或協助事后元數據整理。高質量的元數據對于增強數據可重用性至關重要,對于管理日益增長的微生物組數據至關重要,并最終將支持該領域的新發現。
論文鏈接:https://www.biorxiv.org/content/10.1101/2025.04.24.650461v1
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.