網易首頁 > 網易號 > 正文申請入駐

讓大模型「懂」實驗，從理解協議開始！北大團隊發布 BioProBench

2025-05-29 14:41:24　來源: ScienceAI

天津舉報

分享至

作者 | 劉宇陽

編輯 | ScienceAI

?如果說大語言模型正在改變人類與知識的交互方式，那么它是否也能改變科學實驗的執行流程？

在生命科學研究中，實驗協議（biological protocol）是最基本也是最關鍵的部分——每一條步驟、每一項參數都可能決定實驗的成敗。

然而，大多數大型語言模型（LLMs）雖能「生成文本」，卻難以真正理解實驗流程。從「生成合理的步驟」到「識別協議中的潛在錯誤」，它們常常陷入「看似懂了，其實沒懂」的尷尬境地。

為此，北京大學的研究團隊推出了BioProBench：首個面向生物實驗協議的大規模、多任務基準評測平臺，旨在系統評估并推動大模型在實驗協議理解、推理與生成方面的能力。

背后的挑戰：為什么需要BioProBench？

生物實驗協議看起來只是文字說明，實則蘊含豐富的隱性知識：

術語專業：跨越細胞學、分子生物、化學等多個領域
結構復雜：不僅是線性步驟，還包含條件分支、時間依賴
容錯率低：任何理解偏差都可能導致實驗失敗甚至損壞設備

而目前主流大模型大多缺乏在真實實驗協議上的訓練與評估，沒有標準數據集，無法衡量能力上限，更難發現關鍵瓶頸。

BioProBench正是為了解決這些問題而生，它構建了一個覆蓋真實協議、設計科學任務、配套專業評測的完整平臺。

數據集規模：BioProBench有多大？

27,000+真實實驗協議
來自Bio?protocol、JOVE、Protocols.io、Nature Protocols等權威來源
556,000+結構化任務樣本
包括問答、排序、錯誤修正、協議生成與推理等多樣任務
?覆蓋主流生物實驗類型：PCR、蛋白表達、細胞染色、轉染、電泳……

我們基于這些協議構建了五大核心任務：

模型測得如何？現實遠比想象更嚴峻！

為了系統驗證BioProBench的評測價值，我們對多個主流大語言模型進行了全面測試，涵蓋12個開源模型，閉源API和生物領域模型：

在協議排序和錯誤糾正上，主流模型普遍準確率低于50%
模型常常「遺漏關鍵步驟」，或「生成冗余流程」
在專業術語處理、藥劑濃度與時間控制方面出錯率明顯偏高

對于實驗協議生成任務（GEN）上，更多考驗的是LLMs對于生物領域性知識的理解和推理能力，以及指令遵循的文本生成能力。該任務的挑戰性較高，如表格所示，通用的N-gram指標普遍較低：BLEU最高得分為10.23（Qwen2.5-72b-instruct），METEOR最高得分為24.78（Claude-3-7-sonnet），而ROUGE-L僅為20.70（GPT-4-turbo）。為此，我們提出了域特定的度量指標：基于關鍵詞的內容度量和基于嵌入的結構化度量。其中基于嵌入的結構化度量包含：

1）步驟召回率（SR）：該指標旨在確保完整性。它使用相似度閾值delta = 0.7來量化生成協議中語義上捕獲的必要參考步驟的比例。

2）步驟準確度（SP）：該指標與SR互補，旨在衡量簡潔性和相關性。它使用相似度閾值delta = 0.7來量化生成步驟中與參考步驟在語義上對應的比例。SP越高，質量越好（生成過程中虛假或不相關的步驟越少）。

SR仍然低于0.43，這意味著超過一半的必要步驟被省略或錯誤呈現。SP得分介于0.20和0.32之間，表明生成步驟中經常包含不相關或無關的步驟，凸顯了生成步驟的低精度。

值得注意的是，在GEN任務中，使用CoT會導致大多數模型和指標的性能持續下降。Claude-3-7-sonnet的SR從0.4280下降到0.3918，其METEOR略有下降，而大多數模型在CoT下N-gram和關鍵詞得分下降幅度更大。這表明，未調優的推理框架可能會干擾連貫、結構化的協議文本的生成。為了解決這個問題，BioProBench提供了結構化的CoT樣本，這些樣本可作為微調模型的基礎，從而生成更流暢、邏輯更一致的程序。

這些結果表明：當前LLMs并不具備穩定可靠的實驗協議處理能力，在真正用于實驗室自動化前，還有很長的路要走。

團隊還提供了什么？

BioProBench不僅僅是一個數據集，它是一個完整的評測工具包和研究框架：

統一數據接口：支持直接用于Hugging Face datasets
??模型評估框架：開放可測評自定義代碼
豐富基線對比：提供多個主流模型的結果參考，方便橫向比較
文檔齊全：包括任務定義、評分指標、樣例分析等

應用前景廣闊：不止科研，還有更多可能

BioProBench的推出，希望推動AI與科研實驗場景的深度融合。

未來，它可廣泛應用于：

實驗自動化平臺：在機器人執行前進行協議語義檢查
智能實驗助理：幫助新手快速理解復雜實驗流程
AI+生物課程教學：訓練學生理解實驗邏輯、設計流程

歡迎訪問與參與！

BioProBench已全面開源，歡迎每一位對「AI+實驗」感興趣的研究者、工程師、同學加入我們！

項目鏈接：

Arxiv:https://arxiv.org/pdf/2505.07889

GitHub：https://github.com/YuyangSunshine/bioprotocolbench

Hugging Face：https://huggingface.co/datasets/BioProBench/BioProBench

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.