今天凌晨1點30,OpenAI開源了一個專門面向醫療大模型的測試評估集——HealthBench。
與以往測試集不同的是,該測試集的5000段核心測試對話,全部由來自60個國家/地區的26個專業262名醫生打造,極大增強了該測試集的難度、真實性以及豐富度。并且采用了多輪對話測試,而不是簡單的答題或選擇題模式。
根據測試數據顯示,大模型在醫療保健領域的表現有了顯著提升。例如,從之前的GPT-3.5Turbo的16%到GPT-4o的32%,再到o3的60%,整體性能有了顯著進步。尤其是小型模型的進步更為突出,GPT-4.1nano不僅在性能上超越了GPT-4o,而且成本降低了25倍。
開源地址:https://github.com/openai/simple-evals
HealthBench簡單介紹
據OpenAI透露,這262名醫生是從1021位醫生多輪測試中嚴格篩選出來的,在數據收集過程中,還會持續對醫生輸入的質量進行審查,依據自動化質量指標和對評分標準的審核,對醫生團隊進行輪換,確保數據的高質量。
HealthBench的示例被劃分為7個主題和5個軸。7個主題分別為緊急轉診、情境尋求、全球健康、健康數據任務、專業定制溝通、不確定性下的響應和響應深度,每個主題都聚焦于現實世界健康交互的重要方面,評估模型在相應場景下的表現。
5個軸包括準確性、完整性、溝通質量、情境感知和指令遵循,用于衡量模型行為的不同維度,使評估能夠更全面、細致地分析模型性能。
多數對話通過定制的大模型合成生成,由開發團隊與醫生合作,詳細列舉重要的醫療場景,例如,用戶逐步描述暗示醫療緊急情況、醫療專業人員要求總結臨床筆記、模糊查詢需要澄清等,然后將這些場景轉化為多輪對話。
此外,部分數據來自醫生對大語言模型在醫療場景中的紅隊測試,用于識別模型的弱點和不當響應;還有一部分數據源自Google發布的HealthSearchQA評估數據集,通過大語言模型將其中的查詢改寫為用戶與模型的對話。生成對話后,會使用o1-preview進行相關性過濾,確保對話真實、自洽、與身體健康相關且無不完整消息。
創建評分標準是HealthBench的關鍵環節。每個對話都有對應的由醫生編寫的評分標準。評分標準涵蓋了各種屬性,例如應包含的具體事實、清晰溝通的方面、對特定主題的常見誤解等,并且每個標準都有從 -10 到 10 的非零分值,用于獎勵或懲罰模型的響應。
評估時,基于模型的評分器會根據對話、模型響應和評分標準,獨立判斷每個標準是否被滿足。如果滿足,模型將獲得相應的全部分值;否則不得分。最終,通過對所有滿足標準的分值進行求和,并除以該示例的最大可能得分,得到單個示例的分數。
醫生參與構建流程
在醫生撰寫響應的實驗中,OpenAI邀請醫生針對HealthBench任務撰寫他們認為的理想響應。醫生被分為三組,第一組醫生在沒有任何AI輔助的情況下,僅根據HealthBench中的對話撰寫響應,他們可以使用互聯網但不能使用AI工具;
第二組醫生可以參考2024年8-9月的模型GPT-4o和o1-preview生成的四個響應,并在此基礎上進行改進;第三組醫生則參考2025年4月的模型GPT-4.1和o3的響應進行撰寫。
醫生在參考2024年模型響應的基礎上,能夠在一定程度上提高響應的性能,尤其在完整性和準確性方面有較為明顯的提升。
然而,當參考2025年性能更好的模型響應時,醫生并不能進一步提高響應質量。在比較醫生撰寫的響應與參考響應的得分時發現,對于2024年模型的參考響應,醫生撰寫的響應改進的比例高于惡化的比例56.2%vs39.8%;
而對于2025年模型的參考響應,醫生改進和惡化參考響應的可能性幾乎相同46.8%vs47.7%。此外,沒有參考模型響應的醫生撰寫的響應相對較短,這在一定程度上影響了其在HealthBench上的得分,因為HealthBench分數與響應長度存在一定的相關性。
大模型測試數據
在驗證評分器可靠性的元評估中,一共有34個預定義的共識評分標準。對于每個HealthBench Consensus示例,收集多個醫生對特定響應是否滿足標準的注釋,將這些注釋與基于模型的評分器的評分進行比較。采用宏觀F1分數來評估模型評分與醫生評分的一致性,宏觀F1分數是每個類別的F1分數的無加權平均值,能夠平衡對真陽性和假陽性的敏感度。
通過三種方法建立基線:典型醫生基線,通過計算每個醫生與其他醫生評分的 MF1 分數來估計人類專家之間的一致性;個體醫生基線,報告每個個體醫生的 MF1 分數;
隨機基線,以經驗陽性率返回 “met” 的弱基線,其 MF1 分數為 0.50。以 GPT-4.1 作為主要的基于模型的評分器進行評估,結果顯示,GPT-4.1 在所有主題上都超過了隨機基線,在7個主題中的5個主題上超過了平均醫生得分,在6個主題上位于醫生得分的上半部分,在所有主題上都高于醫生得分的下三分之一。
這表明GPT-4.1 作為模型評分器能夠與專家評分相匹配。此外,研究團隊還使用 OpenAI 的 2025年4月的其他模型作為評分器進行元評估,發現 GPT-4.1 的表現最佳,o4-mini 和 o3 稍次,GPT-4.1 mini 和 nano 則表現較差。
這可能與GPT-4.1 在提示調整過程中被使用有關。同時多次運行HealthBench評估不同模型,發現模型得分的標準差約為 0.002,表明評估結果的總體可變性較低,進一步證明了 HealthBench 評估的可靠性。
本文素材來源OpenAI,如有侵權請聯系刪除
報告下載
大 佬觀點分享
關于RPA、AI、企業數字化轉型
(點擊文字即可閱讀)
| |
| | |
| | |
| | |
| |
行業知識交流分享,結識擴展人脈圈層
公眾號后臺回復【RPA】或者【流程挖掘】
可受邀加入相關的交流群
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.