新智元報道
編輯:桃子 KingHZ
【新智元導讀】OpenAI發布新基準HealthBench,聯手60個國家262名執業醫生,樹立新的「AGI標志性用例」。OpenAI o3碾壓Grok 3和Gemini 2.5 Pro,成功登頂。而最強AI幾乎達到了人類醫生最佳水平!
最強AI,已擊敗了人類醫生。
就在剛剛,全球60個國家,262名執業醫生共同上陣,聯手OpenAI打造出「最具AGI標志性」的AI健康系統評估標準——HealthBench。
這個基準包含了5,000個基于現實場景的健康對話,每個對話都有醫生定制的評分標準,來評估模型的響應。
論文地址:https://cdn.openai.com/pdf/bd7a39d5-9e9f-47b3-903c-8b847ca650c7/healthbench_paper.pdf
在參戰的所有頂尖模型中,o3拿下了最高分,Grok 3位列第二,Gemini 2.5 Pro位列第三。
值得一提的是,在AI輔助下,醫生的診斷準確率提升了近4倍。甚至,o3、GPT-4.1回答質量超越了醫生的水平。
人類免疫學家Derya Unutmaz高度評價道,「這個關鍵的評估基準,將為AI醫生鋪平道路。我們現在正處于一場改變醫學未來,拯救數百萬人生命的革命開端」。
AGI關鍵要素,
醫療AI「標尺」
OpenAI的Health AI團隊負責人Karan Singhal,在X上介紹了HealthBench的特點,并給予了極大的期待:
希望這項工作的發布,能為AI朝著改善人類健康的方向發展提供有力引導。
改善人類健康,將是通用人工智能(AGI)最具決定性的影響之一。
但要實現這一目標,必須確保模型既有用又安全。專業評估對理解模型在醫療場景中的表現至關重要。
盡管學術界和產業界已付出巨大努力,但現有評估體系仍存在三大局限:
未能還原真實醫療場景、
缺乏基于專家意見的嚴格驗證、
難以為前沿模型提供提升空間。
OpenAI團隊秉持AI在醫療領域評估的三大核心信念,由此設計出HealthBench:
有現實意義(Meaningful):評分應反映真實世界影響。突破傳統考試題的局限,精準捕捉患者與臨床工作者使用模型時的復雜現實場景和工作流程。
值得信賴(Trustworthy):評分須真實體現醫師判斷。評估標準必須符合醫療專業人員的核心訴求與行業規范,為AI系統優化提供嚴謹依據。
未飽和(Unsaturated):基準測試應推動進步。現有模型必須展現顯著改進空間,持續激勵開發者提升系統性能。
在過去一年中,OpenAI與來自26個醫學專業、在60個國家(如下所示)擁有執業經驗的262名醫師合作,共同構建了HealthBench評估體系。
HealthBench主要面向兩個群體:
1. AI研究社區:旨在推動形成統一的評估標準,激勵開發出真正有益于人類的模型
2. 醫療領域:提供高質量的證據,幫助更好地理解當前和未來AI在醫療中的應用場景與局限性
與以往那些評估維度較為單一的醫療基準不同,HealthBench支持更具實際意義的開放式評估。
新研究有很多有趣的發現,包括醫生評分基線研究等。
o3沖榜
媲美人類醫生
這項健康基準HealthBench提出的主要目的,便是為當前,甚至未來頂尖LLM提供性能可參考依據。
在研究中,OpenAI團隊評估了多個模型,包括o3、Grok 3、Claude 3.7 Sonnet等,重點考察其在性能、成本和可靠性方面的表現。
性能
根據現實世界健康場景的不同子集,即「主題」,以及體現模型行為的不同維度,即「軸」,所有模型進行PK。
整體來看,o3表現最佳,超越了Claude 3.7 Sonnet和Gemini 2.5 Pro(2025年3月)。
此外,在最近幾個月里,OpenAI前沿模型在HealthBench上的表現提高了28%。
這一提升,對模型的安全性和性能來說,比GPT-4o(2024年8月)和GPT-3.5 Turbo之間的提升更大。
成本
接下來,研究團隊還在模型大小和測試時計算scaling軸上,研究了模型的成本與性能。
可以看到,4月份OpenAI發布的模型(o3,o4-mini,GPT?4.1),刷新了性能成本SOTA。
研究還觀察到,小模型在最近幾個月里,得到了顯著的改進,
盡管成本僅為GPT-4o(2024年8月版)的1/25,GPT-4.1 nano的表現仍優于后者。
比較低、中、高推理水平下的o3、o4-mini和o1模型,結果顯示測試時計算能力有所提高。
其中,o3與GPT-4o之間的性能差距(0.28)甚至超過了GPT-4o與GPT-3.5 Turbo之間的差距(0.16)。
可靠性
在醫療領域,可靠性至關重要——一次錯誤回應可能抵消許多正確回答。
因此,OpenAI在HealthBench上評估了各模型在k個樣本下的最差表現(worst-of-n performance)。
也就是說,在給定示例的n個響應中,最差的得分是多少?
結果發現,o3模型在16個樣本時的最差分數超過GPT-4o的兩倍,展現出更強的穩健性和下限表現。
HealthBench系列
此外,OpenAI還推出了HealthBench系列的兩個新成員:HealthBench Hard和HealthBench Consensus。
· HealthBench Hard專為更高難度場景設計,問題更具挑戰性;
· HealthBench Consensus由多位醫生共同驗證,確保評估標準的專業性和一致性。
o3和GPT-4.1在HealthBench Consensus錯誤率,比GPT-4o顯著降低。
在HealthBench Hard上,表現最好的模型得分僅為32%,這表明它為下一代模型提供了一個有意義且具挑戰性的目標。
AI與醫生正面交鋒
那么,這些大模型能夠媲美,甚至超越人類醫生的專業判斷?
為此,OpenAI在研究還展開了一場人機對決測試。
262名專業醫生被分為了兩組:
· 一組醫生可以在不使用AI工具的情況下查閱網絡資源,撰寫最佳回答。
· 另一組醫生則可以參考OpenAI的模型生成回答,自由選擇直接修改或完全重寫,提供更高質量的回復。
隨后,研究團隊將這些醫生撰寫的回答與AI模型的回答進行評分對比,評估它們在準確性、專業性和實用性等方面的表現。
關鍵發現如下:
2024年9月模型
在測試o1-preview、4o時,他們發現僅依靠AI生成回答,優于沒有參考任何AI醫生的回答。
更令人振奮的是,當醫生參考AI回答并加以優化后,他們的回答質量顯著超越了AI模型本身。
這表明,人類醫生的專業判斷,在AI輔助下能產生最佳效果。
2025年4月模型
這次實驗中,研究人員讓醫生參考最新o3、GPT-4.1模型的回答,試圖進一步提升回答質量。
然而,結果令人意外:
醫生的優化回答與AI原始回答相比,質量上沒有顯著提升。
而當前,AI模型已足夠強大,其回答質量幾乎達到了人類醫生最佳水平。
GPT-4.1參評
遠超人類平均水平
為檢驗基于模型的評分器能否精準評判評分標準(rubric criteria),OpenAI邀請醫生對HealthBench Consensus中的模型回答予以審閱,以確定這些回答是否符合相應評分標準。
基于這些醫生的反饋,研究團隊構建了所謂的「元評估」(meta-evaluation),即評估模型評分與醫生判斷之間的一致性,重點衡量以下兩點:
1.模型評分器與醫生之間的一致性:模型在判斷一個評分標準是否被滿足時,是否與醫生達成一致;
2.醫生之間的一致性:多位醫生對同一模型回應的評分是否一致。
評估結果表明,模型評分器與醫生之間的配對一致性程度,和醫生之間的配對一致性程度相當。
這說明HealthBench使用的模型評分方法在很大程度上能夠代替專家評分,具有可信度和專業性。
基線模型
OpenAI將34條共識評分標準的數據按七大主題進行分組,評估模型評分器與醫生評分之間的一致性,并通過三種方式建立對照基線:
(1)典型醫生(Typical physician)
為了估計人類專家之間的評分一致性,需要對比每位醫生的評分與其他醫生的評分,并計算MF1分數。
也就是,用與模型相同的方式對醫生進行評分,僅統計該醫生參與評估的對話示例,且不使用該醫生自己的評分作為參考。
注釋:在分類任務中,宏平均F1分數(Macro F1,簡稱MF1)是對每個類別的F1分數進行不加權平均的結果。
MF1適用于類別不平衡的元評估(meta-evaluation)任務。
表5按主題報告了加權平均的醫生MF1分數,權重基于每位醫生參與的元示例數量。
(2)個體醫生(Individual physician)
OpenAI還在每個主題下報告了每位醫生的MF1分數。
圖12展示了這些醫生評分分數的分布情況。
(3)通過這些個體分數,模型評分器在每個主題下的MF1分數被表示為醫生分布中的百分位數,以更直觀地理解模型評分表現在「人類專家水平」中所處的位置。
這些基線設定讓我們能夠客觀評估模型評分系統的可靠性,驗證其是否達到了與醫生相當的專業判斷水平。
結果:GPT-4.1遠超普通醫生
如表5所示,在所有主題上,GPT-4.1作為評分模型的表現均明顯優于隨機基線。
更具體地說:
在7個主題中的5個中,GPT-4.1的評分表現超過了醫生平均水平;
在6個主題中,GPT-4.1的表現處于醫生評分分布的上半區間;
在所有主題中,GPT-4.1的評分能力都高于醫生群體的下三分之一(33百分位)。
這些結果說明,GPT-4.1作為基于模型的評分器,其表現已能與醫生專家的評估相媲美。
從圖12可以看到,不同醫生之間的評分表現差異顯著,說明醫生間本身也存在一定主觀性和評分風格的差異。
總的來說,只要滿足以下條件,基于模型的評分系統可以與專家評分一樣可靠:
基礎數據真實、多樣且注釋充分;
元評估設計合理;
評分提示(prompt)和評分模型經過精心挑選。
由于GPT-4.1在無需復雜推理模型帶來的高成本和延遲的情況下,就已達到了醫生級別的一致性表現,因此它被設置為HealthBench的默認評分模型。
模擬真實場景,多維度評估
結合模型合成生成與人工對抗測試方式,OpenAI創建了HealthBench,力求貼近真實場景,模擬真實世界中人們使用大模型的情況。
對話具有以下特點:
多輪交互,更符合自然對話流程
多語言支持,覆蓋不同語言背景
角色多樣,既包括普通用戶,也包括醫生
涵蓋多個醫學專業領域與場景
精心挑選,具有一定難度,避免模型輕松「答對」
這個基準的目標是推動更真實、更全面的AI健康對話能力評估,讓模型在實用性與安全性之間達到更好的平衡。
HealthBench使用「評分標準式評估」(rubric evaluation)方法:每個模型回答都會根據該對話特定的、由醫生撰寫的評分標準進行打分。
這些評分標準詳細說明了「完美回應」應包含哪些信息,或應避免哪些內容,比如:應提及某個醫學事實,或避免使用不必要的術語。
每一條評分標準都有對應的分值權重,根據醫生判斷該標準在整體回答中的重要性而設定。
整個HealthBench數據集中包含48,562條獨立評分標準。
HealthBench中的對話被劃分為七大主題,例如急診、應對不確定性、全球健康等。
每個主題下都包含多個相關示例,每個示例都配有對應的評分標準(rubric criteria)。
以下是一些數據集的示例。
左右滑動查看
每一條評分標準都對應一個評估維度(axis),用于界定該標準評估的是模型行為的哪個方面,例如:
準確性(accuracy)
溝通質量(communication quality)
信息查找與澄清能力(context seeking)
這種結構化的設計,讓HealthBench能夠細致、多角度地評估AI模型在不同醫療場景中的表現,反映在實際應用中的可靠性與實用性。
模型的回答由GPT-4.1擔任評分者,根據每項評分標準判斷是否達成,并根據滿足標準的總得分與滿分比值,給出整體評分。
HealthBench涵蓋了廣泛的醫學專科領域,包括:
麻醉學、皮膚病學、放射診斷學、急診醫學、家庭醫學、普通外科、內科、介入與放射診斷學、醫學遺傳與基因組學、神經外科、神經內科、核醫學、婦產科學、眼科學、骨科、耳鼻喉科、病理學、兒科學、物理醫學與康復、整形外科、精神病學、公共衛生與預防醫學、放射腫瘤學、胸外科、泌尿外科、血管外科。
這些專科的覆蓋確保了HealthBench在臨床廣度和專業深度上的嚴謹性。
整個HealthBench構建過程涵蓋了重點領域篩選、生成相關且具有挑戰性的案例樣本、案例標注以及各個環節的驗證工作。
參考資料:
https://openai.com/index/healthbench/
https://cdn.openai.com/pdf/bd7a39d5-9e9f-47b3-903c-8b847ca650c7/healthbench_paper.pdf
https://x.com/iScienceLuvr/status/1922013874687246756
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.