網易首頁 > 網易號 > 正文申請入駐

專業醫生遠不如AI模型？OpenAI推出醫療開源測試基準HealthBench，o3表現最強

2025-05-13 06:13:20　來源: AI寒武紀

江蘇舉報

分享至

OpenAI推出 HealthBench開源基準測試：一項旨在更好地衡量 AI 系統在醫療健康領域能力的全新基準測試

HealthBench 由 262 位在 60 個國家/地區執業的醫生合作打造，包含 5,000 段真實的健康對話，與以前的狹窄基準不同，HealthBench 通過 48,562 個獨特的醫生編寫的評分標準進行有意義的開放式評估，涵蓋多個健康背景（例如，緊急情況、全球健康）和行為維度（例如，準確性、遵循指示、溝通）

blog：

https://openai.com/index/healthbench/

論文：

https://cdn.openai.com/pdf/bd7a39d5-9e9f-47b3-903c-8b847ca650c7/healthbench_paper.pdf

代碼：

https://github.com/openai/simple-evals

OpenAI自家模型評估表現如下：

o3綜合表現最佳，得分超過60%

這次評測就特別關注了“最壞情況下的表現”。結果發現，在HealthBench的16個樣本測試中，o3模型在應對這些‘最差情況’時取得的分數，是GPT-4o的兩倍以上，這說明o3在極端或復雜情況下的表現更穩健，更能兜底

HealthBench家族還推出了兩個“硬骨頭”：

HealthBench Hard：顧名思義，難度爆表。目前最頂尖的o3模型，在這上面也只能拿到32%的分數

HealthBench Consensus：這個基準的特色是經過了專業醫生的驗證。確保模型得分高低，真的能反映臨床醫生的判斷水平

HealthBench評測靠譜嗎？數據說話！

這HealthBench的評分，到底能不能代表真實水平？

官方也給出了答案。他們在HealthBench Consensus上，把模型自動打分的結果和真人醫生的評分做了對比。發現在總共7個評估領域中，有6個領域，模型的打分結果和中位數水平醫生的判斷高度一致

AI vs 醫生：誰更強？

HealthBench還做了一項有意思的實驗：讓人類醫生來回答這些問題。

無AI輔助 vs AI：

在沒有AI參考的情況下，即便是專業醫生寫的回復，在HealthBench上的得分也相對較低（得分0.13），遠不如AI模型。當然，這可能和醫生不習慣這種評測形式、回復偏簡潔有關

有AI輔助：

當給醫生提供2024年9月水平的模型（GPT-40/o1-preview）的回復作為參考時，醫生能在其基礎上進行修改和提升（得分從0.28提升到0.31），尤其在完整性和準確性上

但當給醫生提供2025年4月水平的模型（GPT-4.1/o3）的回復時，醫生幾乎無法在其基礎上做出有效改進（得分都是0.49左右，醫生修改后甚至在某些方面略有下降）

頂尖AI模型在處理這類任務上的能力已經達到了相當高的水準，甚至超出了無輔助的人類專家，并且對于最新的模型，即使是專家也很難再“錦上添花”

以下是HealthBench論文詳細解讀：

大家都知道，AI尤其大語言模型（LLM）在醫療領域潛力巨大，從輔助診斷到健康咨詢，想象空間無限。但醫療是人命關天的領域，模型稍有差池，后果不堪設想

問題來了：我們怎么知道哪個模型更靠譜？

現有的評估方法，很多都差點意思，主要有三大痛點：

不夠“有意義” (Meaningful):很多評估還在用選擇題、填空題，跟醫生、患者真實交流的開放式、動態場景差太遠。分數高，不代表真能解決實際問題

不夠“可信” (Trustworthy):很多評估缺乏專業的醫生判斷作為“金標準”。模型說自己好，醫生認嗎？

不夠“有挑戰” (Unsaturated):有些老舊的基準測試，頂尖模型早就“考滿分”了，區分不出好壞，也無法激勵模型繼續進步

HealthBench：更真實、更專業、更有區分度

為了解決這些痛點，OpenAI聯合了來自全球60個國家、26個專業的262名醫生，耗時11個月，精心打造了HealthBench

它有啥不一樣？

真實場景對話：包含5000個真實的、多輪的醫患或醫醫對話場景。不再是簡單的問答，而是模擬真實互動

醫生定制“評分標準”：每個對話都有由醫生專門編寫的、極其細致的“評分細則”（Rubric）。總共包含了48,562條獨特的評分標準！這些標準非常具體，比如“是否提到了某個關鍵副作用”、“溝通是否清晰易懂”、“是否注意到了用戶的特殊情況”等等，有加分項也有減分項 (-10到+10分)

智能+專家驗證的評分：使用一個經過驗證的模型（GPT-4.1）作為“評分員”，對照醫生寫的評分細則，給模型的回復打分。這保證了大規模評估的可行性，同時信度也經過了與醫生評分的比對驗證（后面會細說）

覆蓋廣泛且深入：

七大主題 (Themes): 覆蓋了急診分流、全球健康、處理不確定性、專業溝通、上下文理解、醫療數據任務、回復深度等關鍵醫療交互場景

五大行為維度 (Axes): 從準確性 (Accuracy)、完整性 (Completeness)、溝通質量 (Communication quality)、上下文意識 (Context awareness)、指令遵循 (Instruction following) 五個角度全面考察模型行為

簡單說，HealthBench就是想用一套更接近真實世界醫療需求的“模擬考”，來檢驗AI模型的“醫術”和“醫德”

HealthBench上的模型表現：進步神速，但挑戰仍在

OpenAI在HealthBench上評估了一系列自家和別家的模型，結果很有看點：

1.模型進步飛快：

從GPT-3.5 Turbo的16%得分，到GPT-40的32%，再到最新o3模型的60%！進步速度，尤其是近期的提升，非常顯著

看性能-成本前沿，新的模型（如o3, o4-mini, GPT-4.1）不僅性能更強，而且在不同成本檔位上都定義了新的標桿

特別亮眼的是小模型的崛起：GPT-4.1 nano的性能居然超過了2024年8月發布的GPT-40，而且便宜了整整25倍！這意味著高性能AI醫療輔助未來可能更加普惠

2.強項與軟肋并存：

模型在“急診分流”、“專業溝通”這類主題上普遍得分較高

但在需要主動“尋求上下文信息” (Context seeking)、處理“醫療數據任務”和“全球健康”場景下，表現相對落后。這說明模型在信息不全時主動追問、處理結構化數據、適應不同地域醫療環境方面，還有很大提升空間

從行為維度看，“完整性” (Completeness) 和“上下文意識”是普遍的失分點，而準確性相對較好。

3.可靠性提升，但離“萬無一失”還遠：

醫療場景不能只看平均分，一次“翻車”就可能造成嚴重后果。HealthBench引入了“最差情況下的表現”(worst-at-k)評估

結果顯示，新模型（如o3）的可靠性比老模型（如GPT-40）提升了一倍多

但即使是最好的o3模型，在重復測試16次的最差情況下，得分也會從60%掉到約40%，說明在某些難題上，模型表現仍不穩定，需要持續改進

4.模型變強，不只因為“話癆” ：

有人擔心模型分高是不是純靠回復長、顯得全面？HealthBench做了對比

結果顯示，新模型得分高，確實部分因為回復更詳細周到，但更重要的是模型本身能力的提升。即使控制回復長度相近，強模型依然優勢明顯。

兩個特別版：聚焦關鍵問題和未來挑戰

HealthBench還推出了兩個特別版本：

HealthBench Consensus (共識版):只包含34個被多位醫生一致認為極其重要、且達成共識的關鍵評分標準（比如，在緊急情況下是否清晰建議立即就醫）。這部分錯誤率極低，更聚焦于模型的“底線安全”。數據顯示，模型在這方面的錯誤率已從GPT-3.5時代大幅降低了超過4倍，但像“尋求上下文”、“處理不確定性”等方面仍有改進空間

HealthBench Hard (困難版):精選了1000個對當前最強模型來說也極具挑戰性的難題。目前最強的o3模型在此得分僅為32% ，為下一代模型的突破留足了空間，堪稱“攻堅靶場”

評分模型靠譜嗎？元評估告訴你

用模型給模型打分，這個“裁判”自己公正嗎？HealthBench對此進行了“元評估”(Meta-evaluation)，專門針對HealthBench Consensus中的標準進行

他們比較了模型評分員（GPT-4.1）的打分結果和多位醫生的打分結果的一致性（用Macro F1分數衡量）

結果顯示：

GPT-4.1評分員的表現，在7個主題中的5個超過了醫生的平均水平

在所有主題上，其表現都處于醫生群體中的中上游水平（超過了51.5%到88.2%的醫生）

整體評分的波動性很小（標準差約0.002），說明結果穩定

結論：精心選擇和調優后的模型評分員，其評分能力和一致性可以媲美人類專家，是可靠的

當然HealthBench也有局限，比如醫生間本身就存在觀點差異，評分細則無法做到對每個案例都100%完美覆蓋。

更多細節：

HealthBench的數據和代碼已經在GitHub上開源：

https://github.com/openai/simple-evals

?星標AI寒武紀，好內容不錯過?

用你的贊和在看告訴我～

求贊

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.