新智元報(bào)道
編輯:桃子 KingHZ
【新智元導(dǎo)讀】OpenAI發(fā)布新基準(zhǔn)HealthBench,聯(lián)手60個(gè)國家262名執(zhí)業(yè)醫(yī)生,樹立新的「AGI標(biāo)志性用例」。OpenAI o3碾壓Grok 3和Gemini 2.5 Pro,成功登頂。而最強(qiáng)AI幾乎達(dá)到了人類醫(yī)生最佳水平!
最強(qiáng)AI,已擊敗了人類醫(yī)生。
就在剛剛,全球60個(gè)國家,262名執(zhí)業(yè)醫(yī)生共同上陣,聯(lián)手OpenAI打造出「最具AGI標(biāo)志性」的AI健康系統(tǒng)評(píng)估標(biāo)準(zhǔn)——HealthBench。
這個(gè)基準(zhǔn)包含了5,000個(gè)基于現(xiàn)實(shí)場(chǎng)景的健康對(duì)話,每個(gè)對(duì)話都有醫(yī)生定制的評(píng)分標(biāo)準(zhǔn),來評(píng)估模型的響應(yīng)。
論文地址:https://cdn.openai.com/pdf/bd7a39d5-9e9f-47b3-903c-8b847ca650c7/healthbench_paper.pdf
在參戰(zhàn)的所有頂尖模型中,o3拿下了最高分,Grok 3位列第二,Gemini 2.5 Pro位列第三。
值得一提的是,在AI輔助下,醫(yī)生的診斷準(zhǔn)確率提升了近4倍。甚至,o3、GPT-4.1回答質(zhì)量超越了醫(yī)生的水平。
人類免疫學(xué)家Derya Unutmaz高度評(píng)價(jià)道,「這個(gè)關(guān)鍵的評(píng)估基準(zhǔn),將為AI醫(yī)生鋪平道路。我們現(xiàn)在正處于一場(chǎng)改變醫(yī)學(xué)未來,拯救數(shù)百萬人生命的革命開端」。
AGI關(guān)鍵要素,
醫(yī)療AI「標(biāo)尺」
OpenAI的Health AI團(tuán)隊(duì)負(fù)責(zé)人Karan Singhal,在X上介紹了HealthBench的特點(diǎn),并給予了極大的期待:
希望這項(xiàng)工作的發(fā)布,能為AI朝著改善人類健康的方向發(fā)展提供有力引導(dǎo)。
改善人類健康,將是通用人工智能(AGI)最具決定性的影響之一。
但要實(shí)現(xiàn)這一目標(biāo),必須確保模型既有用又安全。專業(yè)評(píng)估對(duì)理解模型在醫(yī)療場(chǎng)景中的表現(xiàn)至關(guān)重要。
盡管學(xué)術(shù)界和產(chǎn)業(yè)界已付出巨大努力,但現(xiàn)有評(píng)估體系仍存在三大局限:
未能還原真實(shí)醫(yī)療場(chǎng)景、
缺乏基于專家意見的嚴(yán)格驗(yàn)證、
難以為前沿模型提供提升空間。
OpenAI團(tuán)隊(duì)秉持AI在醫(yī)療領(lǐng)域評(píng)估的三大核心信念,由此設(shè)計(jì)出HealthBench:
有現(xiàn)實(shí)意義(Meaningful):評(píng)分應(yīng)反映真實(shí)世界影響。突破傳統(tǒng)考試題的局限,精準(zhǔn)捕捉患者與臨床工作者使用模型時(shí)的復(fù)雜現(xiàn)實(shí)場(chǎng)景和工作流程。
值得信賴(Trustworthy):評(píng)分須真實(shí)體現(xiàn)醫(yī)師判斷。評(píng)估標(biāo)準(zhǔn)必須符合醫(yī)療專業(yè)人員的核心訴求與行業(yè)規(guī)范,為AI系統(tǒng)優(yōu)化提供嚴(yán)謹(jǐn)依據(jù)。
未飽和(Unsaturated):基準(zhǔn)測(cè)試應(yīng)推動(dòng)進(jìn)步。現(xiàn)有模型必須展現(xiàn)顯著改進(jìn)空間,持續(xù)激勵(lì)開發(fā)者提升系統(tǒng)性能。
在過去一年中,OpenAI與來自26個(gè)醫(yī)學(xué)專業(yè)、在60個(gè)國家(如下所示)擁有執(zhí)業(yè)經(jīng)驗(yàn)的262名醫(yī)師合作,共同構(gòu)建了HealthBench評(píng)估體系。
HealthBench主要面向兩個(gè)群體:
1. AI研究社區(qū):旨在推動(dòng)形成統(tǒng)一的評(píng)估標(biāo)準(zhǔn),激勵(lì)開發(fā)出真正有益于人類的模型
2. 醫(yī)療領(lǐng)域:提供高質(zhì)量的證據(jù),幫助更好地理解當(dāng)前和未來AI在醫(yī)療中的應(yīng)用場(chǎng)景與局限性
與以往那些評(píng)估維度較為單一的醫(yī)療基準(zhǔn)不同,HealthBench支持更具實(shí)際意義的開放式評(píng)估。
新研究有很多有趣的發(fā)現(xiàn),包括醫(yī)生評(píng)分基線研究等。
o3沖榜
媲美人類醫(yī)生
這項(xiàng)健康基準(zhǔn)HealthBench提出的主要目的,便是為當(dāng)前,甚至未來頂尖LLM提供性能可參考依據(jù)。
在研究中,OpenAI團(tuán)隊(duì)評(píng)估了多個(gè)模型,包括o3、Grok 3、Claude 3.7 Sonnet等,重點(diǎn)考察其在性能、成本和可靠性方面的表現(xiàn)。
性能
根據(jù)現(xiàn)實(shí)世界健康場(chǎng)景的不同子集,即「主題」,以及體現(xiàn)模型行為的不同維度,即「軸」,所有模型進(jìn)行PK。
整體來看,o3表現(xiàn)最佳,超越了Claude 3.7 Sonnet和Gemini 2.5 Pro(2025年3月)。
此外,在最近幾個(gè)月里,OpenAI前沿模型在HealthBench上的表現(xiàn)提高了28%。
這一提升,對(duì)模型的安全性和性能來說,比GPT-4o(2024年8月)和GPT-3.5 Turbo之間的提升更大。
成本
接下來,研究團(tuán)隊(duì)還在模型大小和測(cè)試時(shí)計(jì)算scaling軸上,研究了模型的成本與性能。
可以看到,4月份OpenAI發(fā)布的模型(o3,o4-mini,GPT?4.1),刷新了性能成本SOTA。
研究還觀察到,小模型在最近幾個(gè)月里,得到了顯著的改進(jìn),
盡管成本僅為GPT-4o(2024年8月版)的1/25,GPT-4.1 nano的表現(xiàn)仍優(yōu)于后者。
比較低、中、高推理水平下的o3、o4-mini和o1模型,結(jié)果顯示測(cè)試時(shí)計(jì)算能力有所提高。
其中,o3與GPT-4o之間的性能差距(0.28)甚至超過了GPT-4o與GPT-3.5 Turbo之間的差距(0.16)。
可靠性
在醫(yī)療領(lǐng)域,可靠性至關(guān)重要——一次錯(cuò)誤回應(yīng)可能抵消許多正確回答。
因此,OpenAI在HealthBench上評(píng)估了各模型在k個(gè)樣本下的最差表現(xiàn)(worst-of-n performance)。
也就是說,在給定示例的n個(gè)響應(yīng)中,最差的得分是多少?
結(jié)果發(fā)現(xiàn),o3模型在16個(gè)樣本時(shí)的最差分?jǐn)?shù)超過GPT-4o的兩倍,展現(xiàn)出更強(qiáng)的穩(wěn)健性和下限表現(xiàn)。
HealthBench系列
此外,OpenAI還推出了HealthBench系列的兩個(gè)新成員:HealthBench Hard和HealthBench Consensus。
· HealthBench Hard專為更高難度場(chǎng)景設(shè)計(jì),問題更具挑戰(zhàn)性;
· HealthBench Consensus由多位醫(yī)生共同驗(yàn)證,確保評(píng)估標(biāo)準(zhǔn)的專業(yè)性和一致性。
o3和GPT-4.1在HealthBench Consensus錯(cuò)誤率,比GPT-4o顯著降低。
在HealthBench Hard上,表現(xiàn)最好的模型得分僅為32%,這表明它為下一代模型提供了一個(gè)有意義且具挑戰(zhàn)性的目標(biāo)。
AI與醫(yī)生正面交鋒
那么,這些大模型能夠媲美,甚至超越人類醫(yī)生的專業(yè)判斷?
為此,OpenAI在研究還展開了一場(chǎng)人機(jī)對(duì)決測(cè)試。
262名專業(yè)醫(yī)生被分為了兩組:
· 一組醫(yī)生可以在不使用AI工具的情況下查閱網(wǎng)絡(luò)資源,撰寫最佳回答。
· 另一組醫(yī)生則可以參考OpenAI的模型生成回答,自由選擇直接修改或完全重寫,提供更高質(zhì)量的回復(fù)。
隨后,研究團(tuán)隊(duì)將這些醫(yī)生撰寫的回答與AI模型的回答進(jìn)行評(píng)分對(duì)比,評(píng)估它們?cè)跍?zhǔn)確性、專業(yè)性和實(shí)用性等方面的表現(xiàn)。
關(guān)鍵發(fā)現(xiàn)如下:
2024年9月模型
在測(cè)試o1-preview、4o時(shí),他們發(fā)現(xiàn)僅依靠AI生成回答,優(yōu)于沒有參考任何AI醫(yī)生的回答。
更令人振奮的是,當(dāng)醫(yī)生參考AI回答并加以優(yōu)化后,他們的回答質(zhì)量顯著超越了AI模型本身。
這表明,人類醫(yī)生的專業(yè)判斷,在AI輔助下能產(chǎn)生最佳效果。
2025年4月模型
這次實(shí)驗(yàn)中,研究人員讓醫(yī)生參考最新o3、GPT-4.1模型的回答,試圖進(jìn)一步提升回答質(zhì)量。
然而,結(jié)果令人意外:
醫(yī)生的優(yōu)化回答與AI原始回答相比,質(zhì)量上沒有顯著提升。
而當(dāng)前,AI模型已足夠強(qiáng)大,其回答質(zhì)量幾乎達(dá)到了人類醫(yī)生最佳水平。
GPT-4.1參評(píng)
遠(yuǎn)超人類平均水平
為檢驗(yàn)基于模型的評(píng)分器能否精準(zhǔn)評(píng)判評(píng)分標(biāo)準(zhǔn)(rubric criteria),OpenAI邀請(qǐng)醫(yī)生對(duì)HealthBench Consensus中的模型回答予以審閱,以確定這些回答是否符合相應(yīng)評(píng)分標(biāo)準(zhǔn)。
基于這些醫(yī)生的反饋,研究團(tuán)隊(duì)構(gòu)建了所謂的「元評(píng)估」(meta-evaluation),即評(píng)估模型評(píng)分與醫(yī)生判斷之間的一致性,重點(diǎn)衡量以下兩點(diǎn):
1.模型評(píng)分器與醫(yī)生之間的一致性:模型在判斷一個(gè)評(píng)分標(biāo)準(zhǔn)是否被滿足時(shí),是否與醫(yī)生達(dá)成一致;
2.醫(yī)生之間的一致性:多位醫(yī)生對(duì)同一模型回應(yīng)的評(píng)分是否一致。
評(píng)估結(jié)果表明,模型評(píng)分器與醫(yī)生之間的配對(duì)一致性程度,和醫(yī)生之間的配對(duì)一致性程度相當(dāng)。
這說明HealthBench使用的模型評(píng)分方法在很大程度上能夠代替專家評(píng)分,具有可信度和專業(yè)性。
基線模型
OpenAI將34條共識(shí)評(píng)分標(biāo)準(zhǔn)的數(shù)據(jù)按七大主題進(jìn)行分組,評(píng)估模型評(píng)分器與醫(yī)生評(píng)分之間的一致性,并通過三種方式建立對(duì)照基線:
(1)典型醫(yī)生(Typical physician)
為了估計(jì)人類專家之間的評(píng)分一致性,需要對(duì)比每位醫(yī)生的評(píng)分與其他醫(yī)生的評(píng)分,并計(jì)算MF1分?jǐn)?shù)。
也就是,用與模型相同的方式對(duì)醫(yī)生進(jìn)行評(píng)分,僅統(tǒng)計(jì)該醫(yī)生參與評(píng)估的對(duì)話示例,且不使用該醫(yī)生自己的評(píng)分作為參考。
注釋:在分類任務(wù)中,宏平均F1分?jǐn)?shù)(Macro F1,簡(jiǎn)稱MF1)是對(duì)每個(gè)類別的F1分?jǐn)?shù)進(jìn)行不加權(quán)平均的結(jié)果。
MF1適用于類別不平衡的元評(píng)估(meta-evaluation)任務(wù)。
表5按主題報(bào)告了加權(quán)平均的醫(yī)生MF1分?jǐn)?shù),權(quán)重基于每位醫(yī)生參與的元示例數(shù)量。
(2)個(gè)體醫(yī)生(Individual physician)
OpenAI還在每個(gè)主題下報(bào)告了每位醫(yī)生的MF1分?jǐn)?shù)。
圖12展示了這些醫(yī)生評(píng)分分?jǐn)?shù)的分布情況。
(3)通過這些個(gè)體分?jǐn)?shù),模型評(píng)分器在每個(gè)主題下的MF1分?jǐn)?shù)被表示為醫(yī)生分布中的百分位數(shù),以更直觀地理解模型評(píng)分表現(xiàn)在「人類專家水平」中所處的位置。
這些基線設(shè)定讓我們能夠客觀評(píng)估模型評(píng)分系統(tǒng)的可靠性,驗(yàn)證其是否達(dá)到了與醫(yī)生相當(dāng)?shù)膶I(yè)判斷水平。
結(jié)果:GPT-4.1遠(yuǎn)超普通醫(yī)生
如表5所示,在所有主題上,GPT-4.1作為評(píng)分模型的表現(xiàn)均明顯優(yōu)于隨機(jī)基線。
更具體地說:
在7個(gè)主題中的5個(gè)中,GPT-4.1的評(píng)分表現(xiàn)超過了醫(yī)生平均水平;
在6個(gè)主題中,GPT-4.1的表現(xiàn)處于醫(yī)生評(píng)分分布的上半?yún)^(qū)間;
在所有主題中,GPT-4.1的評(píng)分能力都高于醫(yī)生群體的下三分之一(33百分位)。
這些結(jié)果說明,GPT-4.1作為基于模型的評(píng)分器,其表現(xiàn)已能與醫(yī)生專家的評(píng)估相媲美。
從圖12可以看到,不同醫(yī)生之間的評(píng)分表現(xiàn)差異顯著,說明醫(yī)生間本身也存在一定主觀性和評(píng)分風(fēng)格的差異。
總的來說,只要滿足以下條件,基于模型的評(píng)分系統(tǒng)可以與專家評(píng)分一樣可靠:
基礎(chǔ)數(shù)據(jù)真實(shí)、多樣且注釋充分;
元評(píng)估設(shè)計(jì)合理;
評(píng)分提示(prompt)和評(píng)分模型經(jīng)過精心挑選。
由于GPT-4.1在無需復(fù)雜推理模型帶來的高成本和延遲的情況下,就已達(dá)到了醫(yī)生級(jí)別的一致性表現(xiàn),因此它被設(shè)置為HealthBench的默認(rèn)評(píng)分模型。
模擬真實(shí)場(chǎng)景,多維度評(píng)估
結(jié)合模型合成生成與人工對(duì)抗測(cè)試方式,OpenAI創(chuàng)建了HealthBench,力求貼近真實(shí)場(chǎng)景,模擬真實(shí)世界中人們使用大模型的情況。
對(duì)話具有以下特點(diǎn):
多輪交互,更符合自然對(duì)話流程
多語言支持,覆蓋不同語言背景
角色多樣,既包括普通用戶,也包括醫(yī)生
涵蓋多個(gè)醫(yī)學(xué)專業(yè)領(lǐng)域與場(chǎng)景
精心挑選,具有一定難度,避免模型輕松「答對(duì)」
這個(gè)基準(zhǔn)的目標(biāo)是推動(dòng)更真實(shí)、更全面的AI健康對(duì)話能力評(píng)估,讓模型在實(shí)用性與安全性之間達(dá)到更好的平衡。
HealthBench使用「評(píng)分標(biāo)準(zhǔn)式評(píng)估」(rubric evaluation)方法:每個(gè)模型回答都會(huì)根據(jù)該對(duì)話特定的、由醫(yī)生撰寫的評(píng)分標(biāo)準(zhǔn)進(jìn)行打分。
這些評(píng)分標(biāo)準(zhǔn)詳細(xì)說明了「完美回應(yīng)」應(yīng)包含哪些信息,或應(yīng)避免哪些內(nèi)容,比如:應(yīng)提及某個(gè)醫(yī)學(xué)事實(shí),或避免使用不必要的術(shù)語。
每一條評(píng)分標(biāo)準(zhǔn)都有對(duì)應(yīng)的分值權(quán)重,根據(jù)醫(yī)生判斷該標(biāo)準(zhǔn)在整體回答中的重要性而設(shè)定。
整個(gè)HealthBench數(shù)據(jù)集中包含48,562條獨(dú)立評(píng)分標(biāo)準(zhǔn)。
HealthBench中的對(duì)話被劃分為七大主題,例如急診、應(yīng)對(duì)不確定性、全球健康等。
每個(gè)主題下都包含多個(gè)相關(guān)示例,每個(gè)示例都配有對(duì)應(yīng)的評(píng)分標(biāo)準(zhǔn)(rubric criteria)。
以下是一些數(shù)據(jù)集的示例。
左右滑動(dòng)查看
每一條評(píng)分標(biāo)準(zhǔn)都對(duì)應(yīng)一個(gè)評(píng)估維度(axis),用于界定該標(biāo)準(zhǔn)評(píng)估的是模型行為的哪個(gè)方面,例如:
準(zhǔn)確性(accuracy)
溝通質(zhì)量(communication quality)
信息查找與澄清能力(context seeking)
這種結(jié)構(gòu)化的設(shè)計(jì),讓HealthBench能夠細(xì)致、多角度地評(píng)估AI模型在不同醫(yī)療場(chǎng)景中的表現(xiàn),反映在實(shí)際應(yīng)用中的可靠性與實(shí)用性。
模型的回答由GPT-4.1擔(dān)任評(píng)分者,根據(jù)每項(xiàng)評(píng)分標(biāo)準(zhǔn)判斷是否達(dá)成,并根據(jù)滿足標(biāo)準(zhǔn)的總得分與滿分比值,給出整體評(píng)分。
HealthBench涵蓋了廣泛的醫(yī)學(xué)專科領(lǐng)域,包括:
麻醉學(xué)、皮膚病學(xué)、放射診斷學(xué)、急診醫(yī)學(xué)、家庭醫(yī)學(xué)、普通外科、內(nèi)科、介入與放射診斷學(xué)、醫(yī)學(xué)遺傳與基因組學(xué)、神經(jīng)外科、神經(jīng)內(nèi)科、核醫(yī)學(xué)、婦產(chǎn)科學(xué)、眼科學(xué)、骨科、耳鼻喉科、病理學(xué)、兒科學(xué)、物理醫(yī)學(xué)與康復(fù)、整形外科、精神病學(xué)、公共衛(wèi)生與預(yù)防醫(yī)學(xué)、放射腫瘤學(xué)、胸外科、泌尿外科、血管外科。
這些專科的覆蓋確保了HealthBench在臨床廣度和專業(yè)深度上的嚴(yán)謹(jǐn)性。
整個(gè)HealthBench構(gòu)建過程涵蓋了重點(diǎn)領(lǐng)域篩選、生成相關(guān)且具有挑戰(zhàn)性的案例樣本、案例標(biāo)注以及各個(gè)環(huán)節(jié)的驗(yàn)證工作。
參考資料:
https://openai.com/index/healthbench/
https://cdn.openai.com/pdf/bd7a39d5-9e9f-47b3-903c-8b847ca650c7/healthbench_paper.pdf
https://x.com/iScienceLuvr/status/1922013874687246756
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.