99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

讓大模型「懂」實驗,從理解協議開始!北大團隊發布 BioProBench

0
分享至



作者 | 劉宇陽

編輯 | ScienceAI

?如果說大語言模型正在改變人類與知識的交互方式,那么它是否也能改變科學實驗的執行流程?

在生命科學研究中,實驗協議(biological protocol)是最基本也是最關鍵的部分——每一條步驟、每一項參數都可能決定實驗的成敗。

然而,大多數大型語言模型(LLMs)雖能「生成文本」,卻難以真正理解實驗流程。從「生成合理的步驟」到「識別協議中的潛在錯誤」,它們常常陷入「看似懂了,其實沒懂」的尷尬境地。

為此,北京大學的研究團隊推出了BioProBench:首個面向生物實驗協議的大規模、多任務基準評測平臺,旨在系統評估并推動大模型在實驗協議理解、推理與生成方面的能力。



背后的挑戰:為什么需要BioProBench?

生物實驗協議看起來只是文字說明,實則蘊含豐富的隱性知識:

  • 術語專業:跨越細胞學、分子生物、化學等多個領域
  • 結構復雜:不僅是線性步驟,還包含條件分支、時間依賴
  • 容錯率低:任何理解偏差都可能導致實驗失敗甚至損壞設備

而目前主流大模型大多缺乏在真實實驗協議上的訓練與評估,沒有標準數據集,無法衡量能力上限,更難發現關鍵瓶頸。

BioProBench正是為了解決這些問題而生,它構建了一個覆蓋真實協議、設計科學任務、配套專業評測的完整平臺。

數據集規模:BioProBench有多大?



  • 27,000+真實實驗協議
  • 來自Bio?protocol、JOVE、Protocols.io、Nature Protocols等權威來源
  • 556,000+結構化任務樣本
  • 包括問答、排序、錯誤修正、協議生成與推理等多樣任務
  • ?覆蓋主流生物實驗類型:PCR、蛋白表達、細胞染色、轉染、電泳……

我們基于這些協議構建了五大核心任務:





模型測得如何?現實遠比想象更嚴峻!

為了系統驗證BioProBench的評測價值,我們對多個主流大語言模型進行了全面測試,涵蓋12個開源模型閉源API和生物領域模型

  • 在協議排序和錯誤糾正上,主流模型普遍準確率低于50%
  • 模型常常「遺漏關鍵步驟」,或「生成冗余流程」
  • 在專業術語處理、藥劑濃度與時間控制方面出錯率明顯偏高





對于實驗協議生成任務(GEN)上,更多考驗的是LLMs對于生物領域性知識的理解和推理能力,以及指令遵循的文本生成能力。該任務的挑戰性較高,如表格所示,通用的N-gram指標普遍較低:BLEU最高得分為10.23(Qwen2.5-72b-instruct),METEOR最高得分為24.78(Claude-3-7-sonnet),而ROUGE-L僅為20.70(GPT-4-turbo)。為此,我們提出了域特定的度量指標:基于關鍵詞的內容度量基于嵌入的結構化度量。其中基于嵌入的結構化度量包含:

1)步驟召回率(SR):該指標旨在確保完整性。它使用相似度閾值delta = 0.7來量化生成協議中語義上捕獲的必要參考步驟的比例。



2)步驟準確度(SP):該指標與SR互補,旨在衡量簡潔性和相關性。它使用相似度閾值delta = 0.7來量化生成步驟中與參考步驟在語義上對應的比例。SP越高,質量越好(生成過程中虛假或不相關的步驟越少)。



SR仍然低于0.43,這意味著超過一半的必要步驟被省略或錯誤呈現。SP得分介于0.20和0.32之間,表明生成步驟中經常包含不相關或無關的步驟,凸顯了生成步驟的低精度。

值得注意的是,在GEN任務中,使用CoT會導致大多數模型和指標的性能持續下降。Claude-3-7-sonnet的SR從0.4280下降到0.3918,其METEOR略有下降,而大多數模型在CoT下N-gram和關鍵詞得分下降幅度更大。這表明,未調優的推理框架可能會干擾連貫、結構化的協議文本的生成。為了解決這個問題,BioProBench提供了結構化的CoT樣本,這些樣本可作為微調模型的基礎,從而生成更流暢、邏輯更一致的程序。

這些結果表明:當前LLMs并不具備穩定可靠的實驗協議處理能力,在真正用于實驗室自動化前,還有很長的路要走。

團隊還提供了什么?

BioProBench不僅僅是一個數據集,它是一個完整的評測工具包和研究框架:

  • 統一數據接口:支持直接用于Hugging Face datasets
  • ??模型評估框架:開放可測評自定義代碼
  • 豐富基線對比:提供多個主流模型的結果參考,方便橫向比較
  • 文檔齊全:包括任務定義、評分指標、樣例分析等

應用前景廣闊:不止科研,還有更多可能

BioProBench的推出,希望推動AI與科研實驗場景的深度融合。

未來,它可廣泛應用于:

  • 實驗自動化平臺:在機器人執行前進行協議語義檢查
  • 智能實驗助理:幫助新手快速理解復雜實驗流程
  • AI+生物課程教學:訓練學生理解實驗邏輯、設計流程

歡迎訪問與參與!

BioProBench已全面開源,歡迎每一位對「AI+實驗」感興趣的研究者、工程師、同學加入我們!

項目鏈接:

Arxiv:https://arxiv.org/pdf/2505.07889

GitHub:https://github.com/YuyangSunshine/bioprotocolbench

Hugging Face:https://huggingface.co/datasets/BioProBench/BioProBench

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
俗稱“水米子”,30年前江里很多,上岸就死,至今無法規模化養殖

俗稱“水米子”,30年前江里很多,上岸就死,至今無法規模化養殖

貍貓之一的動物圈
2025-06-25 09:59:53
劉畊宏做客鐘麗緹北京豪宅,趕飯點吃六個菜,家里有倆保姆照顧她

劉畊宏做客鐘麗緹北京豪宅,趕飯點吃六個菜,家里有倆保姆照顧她

清游說娛
2025-06-18 11:14:39
楊瀚森:很喜歡20歲的生日禮物,沒辜負19歲的自己,你好NBA!

楊瀚森:很喜歡20歲的生日禮物,沒辜負19歲的自己,你好NBA!

林小湜體育頻道
2025-06-26 12:45:55
就在門頭溝!北京唯一國家一級重點保護野生植物,從2株擴繁至近500株

就在門頭溝!北京唯一國家一級重點保護野生植物,從2株擴繁至近500株

西山大喇叭
2025-06-26 12:29:48
人過80歲,只剩歸途,聰明的老人,會提前準備好這5件事

人過80歲,只剩歸途,聰明的老人,會提前準備好這5件事

小鬼頭體育
2025-06-26 09:51:38
中國女排比賽推遲!原因讓人無奈,唯一女教練帶隊,訓練可以暫停

中國女排比賽推遲!原因讓人無奈,唯一女教練帶隊,訓練可以暫停

跑者排球視角
2025-06-25 23:56:08
尼日爾暫緩 4 億美元款項并調整中企人員,我方早有預案妥善應對

尼日爾暫緩 4 億美元款項并調整中企人員,我方早有預案妥善應對

星宇共鳴
2025-05-21 17:58:05
警方通告!常州又一家公司暴雷!

警方通告!常州又一家公司暴雷!

常州大喇叭
2025-06-25 15:24:07
“老泄殘精,人窮壽盡”,提醒:60歲以后,牢記三不要

“老泄殘精,人窮壽盡”,提醒:60歲以后,牢記三不要

有故事的人
2025-06-25 06:32:14
2025高考狀元大洗牌:河南與湖南的傳統強校均顆粒無收,太意外!

2025高考狀元大洗牌:河南與湖南的傳統強校均顆粒無收,太意外!

涵豆說娛
2025-06-26 10:40:15
獲D評分遭看衰,為何開拓者敢16順位跳選楊瀚森?5大理由給出答案

獲D評分遭看衰,為何開拓者敢16順位跳選楊瀚森?5大理由給出答案

鍋子籃球
2025-06-26 11:41:52
開拓者GM羅寧:我們關注楊瀚森很久了,16號簽再不選后面可就不保險了!

開拓者GM羅寧:我們關注楊瀚森很久了,16號簽再不選后面可就不保險了!

雷速體育
2025-06-26 15:12:11
曝王政源已開始退贓款,母親出面,請求簽和解協議,受害者曬轉賬

曝王政源已開始退贓款,母親出面,請求簽和解協議,受害者曬轉賬

大笑江湖史
2025-06-26 11:28:00
戰火未歇經濟先崩:以色列超10萬家公司已倒閉

戰火未歇經濟先崩:以色列超10萬家公司已倒閉

敏睿縱覽
2025-06-23 16:10:02
亞足聯處罰中國足協!

亞足聯處罰中國足協!

FM93浙江交通之聲
2025-06-25 20:35:59
小楊哥倒臺竟是國家出手,三只羊迎來離職風波!內部紛紛爆料

小楊哥倒臺竟是國家出手,三只羊迎來離職風波!內部紛紛爆料

觀察鑒娛
2025-06-24 10:38:30
國家電力局長意外被捕!居然早成美國間諜,被捕時叫囂我是美國人,被判5年監禁后驅離出境

國家電力局長意外被捕!居然早成美國間諜,被捕時叫囂我是美國人,被判5年監禁后驅離出境

大白聊IT
2025-06-14 22:40:59
楊瀚森第16順位被選中!NBA高管:這是我見過的最瘋狂的選秀

楊瀚森第16順位被選中!NBA高管:這是我見過的最瘋狂的選秀

雷速體育
2025-06-26 10:25:29
東風15C鉆透90米花崗巖!華夏神矛專破地堡,美軍鉆地彈甘拜下風

東風15C鉆透90米花崗巖!華夏神矛專破地堡,美軍鉆地彈甘拜下風

科學知識點秀
2025-06-26 07:00:13
Skip:當初馬威在湖人體檢未通過,實屬湖人管理層臨時變卦

Skip:當初馬威在湖人體檢未通過,實屬湖人管理層臨時變卦

雷速體育
2025-06-26 16:28:13
2025-06-26 17:07:00
ScienceAI incentive-icons
ScienceAI
關注人工智能與其他前沿技術
983文章數 214關注度
往期回顧 全部

科技要聞

奧特曼剛警告完 Meta就挖走OpenAI三名大將

頭條要聞

媒體:英國公布針對中國的審計報告 對華“既要又要”

頭條要聞

媒體:英國公布針對中國的審計報告 對華“既要又要”

體育要聞

蓄謀已久的開拓者,就是最適合楊瀚森的球隊

娛樂要聞

倪妮,怎么突然下桌了?

財經要聞

免除蘇寧易購5億債務的神秘人是誰?

汽車要聞

奇瑞最大轎車 風云A9L把VIP待遇和續航焦慮一起解決

態度原創

旅游
數碼
游戲
親子
公開課

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

數碼要聞

田亮空降TCL奧運中國行重慶站:體驗眾多黑科技

CS2明星選手喜提保時捷911:車牌"幀數"很高很電競

親子要聞

用兒歌教孩子說“不”,開展性教育有趣比說教更管用|新京報快評

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 阳信县| 临夏县| 柳江县| 千阳县| 东乌| 广南县| 津南区| 南部县| 湖南省| 从江县| 富宁县| 当阳市| 汝州市| 长岛县| 南丰县| 南召县| 株洲县| 含山县| 上虞市| 方正县| 石门县| 泰顺县| 抚远县| 岢岚县| 乌苏市| 浑源县| 平谷区| 阜新| 新昌县| 五家渠市| 岳阳市| 溧水县| 微博| 扎囊县| 长垣县| 盐山县| 武定县| 饶阳县| 元朗区| 襄城县| 波密县|