99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

LLM增強微生物組樣本語義分類,提高數據可用性

0
分享至



編輯 | 爛菜葉

在 1985 年,當科學家們發起預算達 30 億美元的人類基因組計劃時,可能怎么也不會想到「基因測序」會變成生物實驗室的「家常便飯」。

如今,任何一個課題組、研究人員都可以向測序公司提交樣品,短則一天多則三五天,就能獲得樣品的全部序列。這也意味著,新增的各類生物的核酸、蛋白的序列數據會指數般增長。

在過去十年中,生物序列庫的規模擴大了 30-40 倍之多。

這些海量數據的積累極具價值。只要數據條目注釋良好,就可以為進一步研究提供支撐。然而,這些數據的提交者所提供的測序記錄元數據質量參差不齊,給數據的重復利用帶來了巨大挑戰。

瑞士蘇黎世大學(University of Zurich)的研究人員測試了大型語言模型(LLM)在多大程度上可以用于經濟高效地重新注釋測序記錄;既無需重新訓練,也不需要根據與微生物組研究相關的廣泛生態環境的簡化分類方案進行重新注釋。

該研究以 「Enhanced semantic classification of microbiome sample origins using Large Language Models (LLMs)」為題,于 2025 年 4 月 27 日發布在bioRxiv預印平臺。



規范化和標準化的原始數據,對科研工作的可重復性至關重要。

過去十年中,GenBank 數據庫規模擴大了 30 多倍,全基因組測序數據庫(WGS)增長近 40 倍,歐洲核苷酸檔案庫(ENA)在 2012 至 2022 年間也報告了 10 倍的增長。這種激增為有效管理、標準化和利用大規模數據等工作產生了巨大壓力。

雖然數據庫會提供提交指南和結構化元數據模板,但提交環節常常被提交者忽視,導致元數據質量參差不齊。例如,NCBI 雖通過下拉菜單(如生物類型字段)和提交教程等措施盡量實現標準化,但歷史遺留的自由格式數據仍難以統一處理。

傳統自然語言處理方法(如 TF-IDF)因缺乏語境理解能力,難以應對含專業術語、拼寫變體的復雜元數據。新興的大型語言模型(LLM)憑借上下文理解能力,顯著提升了跨領域元數據的解析和挖掘效能,或許是應對該挑戰的解決方法。



圖示:流程概要。(來源:論文)

蘇黎世大學的研究團隊使用 MicrobeAtlas 作為使用 LLM 進行元數據解析的測試平臺。MicrobeAtlas 是一個龐大而多樣化的資源,包含從 NCBI 檢索到的數百萬個宏基因組 SRA 樣本。

MicrobeAtlas 使用從元數據中提取的關鍵字,根據硬編碼規則將樣本分配到定義的環境類別中。然而,這種非語義方法可能無法為術語賦予正確的含義,尤其是在存在多樣化、用戶定義的元數據字段的情況下,從而導致分配結果模棱兩可甚至錯誤。

該團隊的目標是利用通用的 LLM 將樣本(重新)分類到定義的環境類別中,同時從元數據中檢索有效信息。LLM 的任務是:

1、將樣本分類到主要類別(主要討論「生物群落」,即「動物」、「水」、「土壤」、「植物」等);2、將樣本進一步分類到子類別,這里稱為「亞生物群落」;3、提取給定采樣點的地理位置;4、提取最多八個描述樣本的關鍵術語。

目標是以經濟高效的方式獲得高質量的成果,探索不同版本 GPT 在各種條件和配置下的功能。



圖示:生物群落分類準確度的熱圖(所有 GPT 運行的平均值)。(來源:論文)

研究人員評估了 GPT 模型的可擴展性、時間和成本效益,以及與包含 1000 個示例的多樣化、手工篩選的 ground-truth 基準測試的性能,這些示例涵蓋了元數據解讀的復雜程度。

他們觀察到,注釋性能顯著優于基于關鍵詞的人工篩選、非機器學習的基準方法。更改模型(或模型參數)對性能的影響很小,但提示需要精心設計以匹配任務。

該團隊將優化后的流程應用于環境中超過 380 萬條測序記錄,提供了覆蓋全球的粗粒度但標準化的采樣點注釋。

研究結果表明,LLM 的上下文感知解析能力足以完成元數據(重新)注釋——至少在相對結構化的任務(例如微生物組樣本來源分類)中是如此。

雖然錯誤仍然存在,一部分原因是模型限制,另一部分原因是現實世界樣本固有的模糊性,偶爾也源于解析問題。另外,更直接的技術限制包括商業 API 施加的速率限制和每個請求的 token 數量限制。

盡管如此,研究人員給出的結論是:像 GPT 這樣的 LLM 可以有效地補充數據管理周期中的現有工作流程,包括指導元數據提交或協助事后元數據整理。高質量的元數據對于增強數據可重用性至關重要,對于管理日益增長的微生物組數據至關重要,并最終將支持該領域的新發現。

論文鏈接:https://www.biorxiv.org/content/10.1101/2025.04.24.650461v1

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
俗稱“水米子”,30年前江里很多,上岸就死,至今無法規?;B殖

俗稱“水米子”,30年前江里很多,上岸就死,至今無法規模化養殖

貍貓之一的動物圈
2025-06-25 09:59:53
劉畊宏做客鐘麗緹北京豪宅,趕飯點吃六個菜,家里有倆保姆照顧她

劉畊宏做客鐘麗緹北京豪宅,趕飯點吃六個菜,家里有倆保姆照顧她

清游說娛
2025-06-18 11:14:39
楊瀚森:很喜歡20歲的生日禮物,沒辜負19歲的自己,你好NBA!

楊瀚森:很喜歡20歲的生日禮物,沒辜負19歲的自己,你好NBA!

林小湜體育頻道
2025-06-26 12:45:55
就在門頭溝!北京唯一國家一級重點保護野生植物,從2株擴繁至近500株

就在門頭溝!北京唯一國家一級重點保護野生植物,從2株擴繁至近500株

西山大喇叭
2025-06-26 12:29:48
人過80歲,只剩歸途,聰明的老人,會提前準備好這5件事

人過80歲,只剩歸途,聰明的老人,會提前準備好這5件事

小鬼頭體育
2025-06-26 09:51:38
中國女排比賽推遲!原因讓人無奈,唯一女教練帶隊,訓練可以暫停

中國女排比賽推遲!原因讓人無奈,唯一女教練帶隊,訓練可以暫停

跑者排球視角
2025-06-25 23:56:08
尼日爾暫緩 4 億美元款項并調整中企人員,我方早有預案妥善應對

尼日爾暫緩 4 億美元款項并調整中企人員,我方早有預案妥善應對

星宇共鳴
2025-05-21 17:58:05
警方通告!常州又一家公司暴雷!

警方通告!常州又一家公司暴雷!

常州大喇叭
2025-06-25 15:24:07
“老泄殘精,人窮壽盡”,提醒:60歲以后,牢記三不要

“老泄殘精,人窮壽盡”,提醒:60歲以后,牢記三不要

有故事的人
2025-06-25 06:32:14
2025高考狀元大洗牌:河南與湖南的傳統強校均顆粒無收,太意外!

2025高考狀元大洗牌:河南與湖南的傳統強校均顆粒無收,太意外!

涵豆說娛
2025-06-26 10:40:15
獲D評分遭看衰,為何開拓者敢16順位跳選楊瀚森?5大理由給出答案

獲D評分遭看衰,為何開拓者敢16順位跳選楊瀚森?5大理由給出答案

鍋子籃球
2025-06-26 11:41:52
開拓者GM羅寧:我們關注楊瀚森很久了,16號簽再不選后面可就不保險了!

開拓者GM羅寧:我們關注楊瀚森很久了,16號簽再不選后面可就不保險了!

雷速體育
2025-06-26 15:12:11
曝王政源已開始退贓款,母親出面,請求簽和解協議,受害者曬轉賬

曝王政源已開始退贓款,母親出面,請求簽和解協議,受害者曬轉賬

大笑江湖史
2025-06-26 11:28:00
戰火未歇經濟先崩:以色列超10萬家公司已倒閉

戰火未歇經濟先崩:以色列超10萬家公司已倒閉

敏??v覽
2025-06-23 16:10:02
亞足聯處罰中國足協!

亞足聯處罰中國足協!

FM93浙江交通之聲
2025-06-25 20:35:59
小楊哥倒臺竟是國家出手,三只羊迎來離職風波!內部紛紛爆料

小楊哥倒臺竟是國家出手,三只羊迎來離職風波!內部紛紛爆料

觀察鑒娛
2025-06-24 10:38:30
國家電力局長意外被捕!居然早成美國間諜,被捕時叫囂我是美國人,被判5年監禁后驅離出境

國家電力局長意外被捕!居然早成美國間諜,被捕時叫囂我是美國人,被判5年監禁后驅離出境

大白聊IT
2025-06-14 22:40:59
楊瀚森第16順位被選中!NBA高管:這是我見過的最瘋狂的選秀

楊瀚森第16順位被選中!NBA高管:這是我見過的最瘋狂的選秀

雷速體育
2025-06-26 10:25:29
東風15C鉆透90米花崗巖!華夏神矛專破地堡,美軍鉆地彈甘拜下風

東風15C鉆透90米花崗巖!華夏神矛專破地堡,美軍鉆地彈甘拜下風

科學知識點秀
2025-06-26 07:00:13
Skip:當初馬威在湖人體檢未通過,實屬湖人管理層臨時變卦

Skip:當初馬威在湖人體檢未通過,實屬湖人管理層臨時變卦

雷速體育
2025-06-26 16:28:13
2025-06-26 17:07:00
ScienceAI incentive-icons
ScienceAI
關注人工智能與其他前沿技術
983文章數 214關注度
往期回顧 全部

科技要聞

奧特曼剛警告完 Meta就挖走OpenAI三名大將

頭條要聞

媒體:英國公布針對中國的審計報告 對華“既要又要”

頭條要聞

媒體:英國公布針對中國的審計報告 對華“既要又要”

體育要聞

蓄謀已久的開拓者,就是最適合楊瀚森的球隊

娛樂要聞

倪妮,怎么突然下桌了?

財經要聞

免除蘇寧易購5億債務的神秘人是誰?

汽車要聞

奇瑞最大轎車 風云A9L把VIP待遇和續航焦慮一起解決

態度原創

家居
本地
時尚
健康
公開課

家居要聞

木質簡約 空間極致利用

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

“淺口鞋”今年夏天爆火!這5雙怎么搭都好看

呼吸科專家破解呼吸道九大謠言!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 乌兰浩特市| 咸丰县| 天等县| 无锡市| 吉安市| 临夏县| 揭阳市| 旬阳县| 麻江县| 关岭| 乾安县| 高要市| 昆山市| 鹤山市| 萝北县| 开远市| 同心县| 淮南市| 清丰县| 黔西| 进贤县| 无棣县| 永新县| 怀化市| 乌苏市| 公主岭市| 易门县| 古蔺县| 苍梧县| 雷山县| 富锦市| 滨海县| 车险| 海门市| 泽州县| 沈丘县| 永城市| 胶南市| 定襄县| 武宣县| 繁峙县|