OpenAI推出 HealthBench開源基準測試:一項旨在更好地衡量 AI 系統在醫療健康領域能力的全新基準測試
HealthBench 由 262 位在 60 個國家/地區執業的醫生合作打造 ,包含 5,000 段真實的健康對話,與以前的狹窄基準不同,HealthBench 通過 48,562 個獨特的醫生編寫的評分標準進行有意義的開放式評估,涵蓋多個健康背景(例如,緊急情況、全球健康)和行為維度(例如,準確性、遵循指示、溝通)
blog:
https://openai.com/index/healthbench/
論文:
https://cdn.openai.com/pdf/bd7a39d5-9e9f-47b3-903c-8b847ca650c7/healthbench_paper.pdf
代碼:
https://github.com/openai/simple-evals
OpenAI自家模型評估表現如下:
o3綜合表現最佳,得分超過60%
這次評測就特別關注了“最壞情況下的表現”。結果發現,在HealthBench的16個樣本測試中,o3模型在應對這些‘最差情況’時取得的分數,是GPT-4o的兩倍以上, 這說明o3在極端或復雜情況下的表現更穩健,更能兜底
HealthBench家族還推出了兩個“硬骨頭”:
HealthBench Hard:顧名思義,難度爆表。目前最頂尖的o3模型,在這上面也只能拿到32%的分數
HealthBench Consensus:這個基準的特色是經過了專業醫生的驗證。確保模型得分高低,真的能反映臨床醫生的判斷水平
HealthBench評測靠譜嗎?數據說話!
這HealthBench的評分,到底能不能代表真實水平?
官方也給出了答案。他們在HealthBench Consensus上,把模型自動打分的結果和真人醫生的評分做了對比。發現在總共7個評估領域中,有6個領域,模型的打分結果和中位數水平醫生的判斷高度一致
AI vs 醫生:誰更強?
HealthBench還做了一項有意思的實驗:讓人類醫生來回答這些問題。
無AI輔助 vs AI:
在沒有AI參考的情況下,即便是專業醫生寫的回復,在HealthBench上的得分也相對較低(得分0.13),遠不如AI模型。當然,這可能和醫生不習慣這種評測形式、回復偏簡潔有關
有AI輔助:
當給醫生提供2024年9月水平的模型(GPT-40/o1-preview)的回復作為參考時,醫生能在其基礎上進行修改和提升(得分從0.28提升到0.31),尤其在完整性和準確性上
但當給醫生提供2025年4月水平的模型(GPT-4.1/o3)的回復時,醫生幾乎無法在其基礎上做出有效改進(得分都是0.49左右,醫生修改后甚至在某些方面略有下降)
頂尖AI模型在處理這類任務上的能力已經達到了相當高的水準,甚至超出了無輔助的人類專家,并且對于最新的模型,即使是專家也很難再“錦上添花”
以下是HealthBench論文詳細解讀:
大家都知道,AI尤其大語言模型(LLM)在醫療領域潛力巨大,從輔助診斷到健康咨詢,想象空間無限。但醫療是人命關天的領域,模型稍有差池,后果不堪設想
問題來了:我們怎么知道哪個模型更靠譜?
現有的評估方法,很多都差點意思,主要有三大痛點:
不夠“有意義” (Meaningful):很多評估還在用選擇題、填空題,跟醫生、患者真實交流的開放式、動態場景差太遠。分數高,不代表真能解決實際問題
不夠“可信” (Trustworthy):很多評估缺乏專業的醫生判斷作為“金標準”。模型說自己好,醫生認嗎?
不夠“有挑戰” (Unsaturated):有些老舊的基準測試,頂尖模型早就“考滿分”了,區分不出好壞,也無法激勵模型繼續進步
HealthBench:更真實、更專業、更有區分度
為了解決這些痛點,OpenAI聯合了來自全球60個國家、26個專業的262名醫生,耗時11個月,精心打造了HealthBench
它有啥不一樣?
真實場景對話:包含5000個真實的、多輪的醫患或醫醫對話場景。不再是簡單的問答,而是模擬真實互動
醫生定制“評分標準”:每個對話都有由醫生專門編寫的、極其細致的“評分細則”(Rubric)。總共包含了48,562條獨特的評分標準!這些標準非常具體,比如“是否提到了某個關鍵副作用”、“溝通是否清晰易懂”、“是否注意到了用戶的特殊情況”等等,有加分項也有減分項 (-10到+10分)
智能+專家驗證的評分:使用一個經過驗證的模型(GPT-4.1)作為“評分員”,對照醫生寫的評分細則,給模型的回復打分。這保證了大規模評估的可行性,同時信度也經過了與醫生評分的比對驗證(后面會細說)
覆蓋廣泛且深入:
七大主題 (Themes): 覆蓋了急診分流、全球健康、處理不確定性、專業溝通、上下文理解、醫療數據任務、回復深度等關鍵醫療交互場景
五大行為維度 (Axes): 從準確性 (Accuracy)、完整性 (Completeness)、溝通質量 (Communication quality)、上下文意識 (Context awareness)、指令遵循 (Instruction following) 五個角度全面考察模型行為
簡單說,HealthBench就是想用一套更接近真實世界醫療需求的“模擬考”,來檢驗AI模型的“醫術”和“醫德”HealthBench上的模型表現:進步神速,但挑戰仍在
OpenAI在HealthBench上評估了一系列自家和別家的模型,結果很有看點:
1.模型進步飛快:
從GPT-3.5 Turbo的16%得分,到GPT-40的32%,再到最新o3模型的60%!進步速度,尤其是近期的提升,非常顯著
看性能-成本前沿 ,新的模型(如o3, o4-mini, GPT-4.1)不僅性能更強,而且在不同成本檔位上都定義了新的標桿
特別亮眼的是小模型的崛起:GPT-4.1 nano的性能居然超過了2024年8月發布的GPT-40,而且便宜了整整25倍!這意味著高性能AI醫療輔助未來可能更加普惠
2.強項與軟肋并存 :
模型在“急診分流”、“專業溝通”這類主題上普遍得分較高
但在需要主動“尋求上下文信息” (Context seeking)、處理“醫療數據任務”和“全球健康”場景下,表現相對落后。這說明模型在信息不全時主動追問、處理結構化數據、適應不同地域醫療環境方面,還有很大提升空間
從行為維度看,“完整性” (Completeness) 和“上下文意識”是普遍的失分點,而準確性相對較好。
3.可靠性提升,但離“萬無一失”還遠 :
醫療場景不能只看平均分,一次“翻車”就可能造成嚴重后果。HealthBench引入了“最差情況下的表現”(worst-at-k)評估
結果顯示,新模型(如o3)的可靠性比老模型(如GPT-40)提升了一倍多
但即使是最好的o3模型,在重復測試16次的最差情況下,得分也會從60%掉到約40%,說明在某些難題上,模型表現仍不穩定,需要持續改進
4.模型變強,不只因為“話癆” :
有人擔心模型分高是不是純靠回復長、顯得全面?HealthBench做了對比
結果顯示,新模型得分高,確實部分因為回復更詳細周到,但更重要的是模型本身能力的提升。即使控制回復長度相近,強模型依然優勢明顯。
兩個特別版:聚焦關鍵問題和未來挑戰
HealthBench還推出了兩個特別版本:
HealthBench Consensus (共識版):只包含34個被多位醫生一致認為極其重要、且達成共識的關鍵評分標準(比如,在緊急情況下是否清晰建議立即就醫)。這部分錯誤率極低,更聚焦于模型的“底線安全”。數據顯示,模型在這方面的錯誤率已從GPT-3.5時代大幅降低了超過4倍 ,但像“尋求上下文”、“處理不確定性”等方面仍有改進空間
HealthBench Hard (困難版):精選了1000個對當前最強模型來說也極具挑戰性的難題。目前最強的o3模型在此得分僅為32% ,為下一代模型的突破留足了空間,堪稱“攻堅靶場”
評分模型靠譜嗎?元評估告訴你
用模型給模型打分,這個“裁判”自己公正嗎?HealthBench對此進行了“元評估”(Meta-evaluation),專門針對HealthBench Consensus中的標準進行
他們比較了模型評分員(GPT-4.1)的打分結果和多位醫生的打分結果的一致性(用Macro F1分數衡量)
結果顯示:
GPT-4.1評分員的表現,在7個主題中的5個超過了醫生的平均水平
在所有主題上,其表現都處于醫生群體中的中上游水平(超過了51.5%到88.2%的醫生)
整體評分的波動性很小(標準差約0.002),說明結果穩定
結論:精心選擇和調優后的模型評分員,其評分能力和一致性可以媲美人類專家,是可靠的
當然HealthBench也有局限,比如醫生間本身就存在觀點差異,評分細則無法做到對每個案例都100%完美覆蓋。
更多細節:
HealthBench的數據和代碼已經在GitHub上開源:
https://github.com/openai/simple-evals
?星標AI寒武紀,好內容不錯過?
用你的贊和在看告訴我~
求贊
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.