作者 | 劉宇陽
編輯 | ScienceAI
?如果說大語言模型正在改變人類與知識的交互方式,那么它是否也能改變科學實驗的執行流程?
在生命科學研究中,實驗協議(biological protocol)是最基本也是最關鍵的部分——每一條步驟、每一項參數都可能決定實驗的成敗。
然而,大多數大型語言模型(LLMs)雖能「生成文本」,卻難以真正理解實驗流程。從「生成合理的步驟」到「識別協議中的潛在錯誤」,它們常常陷入「看似懂了,其實沒懂」的尷尬境地。
為此,北京大學的研究團隊推出了BioProBench:首個面向生物實驗協議的大規模、多任務基準評測平臺,旨在系統評估并推動大模型在實驗協議理解、推理與生成方面的能力。
背后的挑戰:為什么需要BioProBench?
生物實驗協議看起來只是文字說明,實則蘊含豐富的隱性知識:
- 術語專業:跨越細胞學、分子生物、化學等多個領域
- 結構復雜:不僅是線性步驟,還包含條件分支、時間依賴
- 容錯率低:任何理解偏差都可能導致實驗失敗甚至損壞設備
而目前主流大模型大多缺乏在真實實驗協議上的訓練與評估,沒有標準數據集,無法衡量能力上限,更難發現關鍵瓶頸。
BioProBench正是為了解決這些問題而生,它構建了一個覆蓋真實協議、設計科學任務、配套專業評測的完整平臺。
數據集規模:BioProBench有多大?
- 27,000+真實實驗協議
- 來自Bio?protocol、JOVE、Protocols.io、Nature Protocols等權威來源
- 556,000+結構化任務樣本
- 包括問答、排序、錯誤修正、協議生成與推理等多樣任務
- ?覆蓋主流生物實驗類型:PCR、蛋白表達、細胞染色、轉染、電泳……
我們基于這些協議構建了五大核心任務:
模型測得如何?現實遠比想象更嚴峻!
為了系統驗證BioProBench的評測價值,我們對多個主流大語言模型進行了全面測試,涵蓋12個開源模型,閉源API和生物領域模型:
- 在協議排序和錯誤糾正上,主流模型普遍準確率低于50%
- 模型常常「遺漏關鍵步驟」,或「生成冗余流程」
- 在專業術語處理、藥劑濃度與時間控制方面出錯率明顯偏高
對于實驗協議生成任務(GEN)上,更多考驗的是LLMs對于生物領域性知識的理解和推理能力,以及指令遵循的文本生成能力。該任務的挑戰性較高,如表格所示,通用的N-gram指標普遍較低:BLEU最高得分為10.23(Qwen2.5-72b-instruct),METEOR最高得分為24.78(Claude-3-7-sonnet),而ROUGE-L僅為20.70(GPT-4-turbo)。為此,我們提出了域特定的度量指標:基于關鍵詞的內容度量和基于嵌入的結構化度量。其中基于嵌入的結構化度量包含:
1)步驟召回率(SR):該指標旨在確保完整性。它使用相似度閾值delta = 0.7來量化生成協議中語義上捕獲的必要參考步驟的比例。
2)步驟準確度(SP):該指標與SR互補,旨在衡量簡潔性和相關性。它使用相似度閾值delta = 0.7來量化生成步驟中與參考步驟在語義上對應的比例。SP越高,質量越好(生成過程中虛假或不相關的步驟越少)。
SR仍然低于0.43,這意味著超過一半的必要步驟被省略或錯誤呈現。SP得分介于0.20和0.32之間,表明生成步驟中經常包含不相關或無關的步驟,凸顯了生成步驟的低精度。
值得注意的是,在GEN任務中,使用CoT會導致大多數模型和指標的性能持續下降。Claude-3-7-sonnet的SR從0.4280下降到0.3918,其METEOR略有下降,而大多數模型在CoT下N-gram和關鍵詞得分下降幅度更大。這表明,未調優的推理框架可能會干擾連貫、結構化的協議文本的生成。為了解決這個問題,BioProBench提供了結構化的CoT樣本,這些樣本可作為微調模型的基礎,從而生成更流暢、邏輯更一致的程序。
這些結果表明:當前LLMs并不具備穩定可靠的實驗協議處理能力,在真正用于實驗室自動化前,還有很長的路要走。
團隊還提供了什么?
BioProBench不僅僅是一個數據集,它是一個完整的評測工具包和研究框架:
- 統一數據接口:支持直接用于Hugging Face datasets
- ??模型評估框架:開放可測評自定義代碼
- 豐富基線對比:提供多個主流模型的結果參考,方便橫向比較
- 文檔齊全:包括任務定義、評分指標、樣例分析等
應用前景廣闊:不止科研,還有更多可能
BioProBench的推出,希望推動AI與科研實驗場景的深度融合。
未來,它可廣泛應用于:
- 實驗自動化平臺:在機器人執行前進行協議語義檢查
- 智能實驗助理:幫助新手快速理解復雜實驗流程
- AI+生物課程教學:訓練學生理解實驗邏輯、設計流程
歡迎訪問與參與!
BioProBench已全面開源,歡迎每一位對「AI+實驗」感興趣的研究者、工程師、同學加入我們!
項目鏈接:
Arxiv:https://arxiv.org/pdf/2505.07889
GitHub:https://github.com/YuyangSunshine/bioprotocolbench
Hugging Face:https://huggingface.co/datasets/BioProBench/BioProBench
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.