人類醫(yī)生要被AI拉爆了?
5月12日,OpenAI聯(lián)手全球60個國家,262名執(zhí)業(yè)醫(yī)生,打造出專為醫(yī)療大模型設(shè)計的AI醫(yī)療大模型標準——HealthBench。
根據(jù)測試,OpenAI最強推理模型GPT-o3,直接力壓Grok 3和Gemini 2.5 Pro,比人類醫(yī)生的回答率高出4倍。
與此前過時的數(shù)據(jù)集不同,該基準包含了5000個基于現(xiàn)實場景的健康對話,并且獲得了醫(yī)生評分反饋。
也就是說,該評分體系能夠衡量AI的可信度和臨床價值,而不是AI做題的能力和回答流暢度。
當該評價基準如同ImageNet推廣開后,一個AI醫(yī)療新時代,真的來了。
定義行業(yè)新標準
作為全球AI領(lǐng)頭羊,OpenAI來定義AI醫(yī)療新基準了。
一個好的AI測試集對于技術(shù)發(fā)展非常重要,例如ImageNet挑戰(zhàn)賽直接推動了深度學(xué)習革命。
但當前,以各種醫(yī)學(xué)問答、執(zhí)業(yè)醫(yī)生考試為主的醫(yī)學(xué)測試集過于僵化,不能代表醫(yī)生真實的臨床工作,導(dǎo)致AI應(yīng)用受限。
于是,OpenAI團隊基于以下原則打造出HealthBench:
有意義(Meaningful):即能夠突破考試問題的局限,捕捉復(fù)雜的真實場景和工作流程,反映了患者和臨床醫(yī)生與模型交互的方式
值得信賴(Trustworthy):評分能夠真實體現(xiàn)醫(yī)生判斷,反映醫(yī)護人員的行業(yè)標準和優(yōu)先事項,為改進 AI 模型提供嚴格的基礎(chǔ)。
未飽和(Unsaturated):基準測試將推動行業(yè)進步?,F(xiàn)有模型必須展現(xiàn)巨大的改進空間,持續(xù)激勵開發(fā)者持續(xù)改進AI性能
HealthBench耗時一年,由來自60個國家/地區(qū)的262位執(zhí)業(yè)醫(yī)生共同打造,支持包括英語、普通話在內(nèi)的49種語言,以及26個醫(yī)學(xué)專業(yè)。
它們被創(chuàng)建為逼真且類似于大型語言模型的實際使用:它們是多輪次和多語言的,捕獲一系列外行和醫(yī)療保健提供者角色,跨越一系列醫(yī)學(xué)專業(yè)和上下文,并根據(jù)難度進行選擇。
此外,HealthBench 對話分為七個主題,每個主題都包含相關(guān)示例,每個示例都有特定的評分量規(guī)標準。
與以前的狹窄基準不同,HealthBench涵蓋了多個維度,力求全面衡量模型性能。它們主要包括“場景”和“軸”兩類。
場景即7個真實世界的主題,包括全球健康、緊急轉(zhuǎn)診等,軸則著重測試模式的行為維度,包括準確性、遵循指示、溝通等。
模型性能
根據(jù)測試,GPT-o3 的表現(xiàn)優(yōu)于其他AI,得分明顯高出Claude 3.7 Sonnet 和 Gemini 2.5 Pro。(截至2025年3月)。
值得一提的是,OpenAI 的前沿模型在 HealthBench 上提高了28%。
與 GPT-4o(2024 年 8 月)和 GPT-3.5 Turbo 之間的相比,在模型安全性和性能上實現(xiàn)飛躍。
成本與準確性
除開性能外,OpenAI還根據(jù)模型大小和測試時計算指標,研究了成本與性能的關(guān)系。
結(jié)果發(fā)現(xiàn),小模型在最近幾個月,有了顯著改進。大模型也成本與性能也遵循摩爾定律。
例如,2025年4月發(fā)布的GPT-4.1 nano 的性能,優(yōu)于 2024 年 8 月的 GPT-4o 模型,并且成本僅有其1/25。
當下OpenAI的最強推理模型GPT-o3之間的差異,顯著打羽GPT-4o和GPT-3.5Turbo之間的差異。
由于行業(yè)的特殊性,醫(yī)療AI對于回答的錯誤容忍率非常低。
因此,OpenAI在HealthBench上評估了各模型在k個樣本下的最差表現(xiàn)(worst-of-n performance)。結(jié)果發(fā)現(xiàn),o3模型在16個樣本時的最差分數(shù)是GPT-4o的兩倍。
挑戰(zhàn)人類醫(yī)生
在真實對話的數(shù)據(jù)集測評中,AI有可能戰(zhàn)勝人類醫(yī)生嗎?
OpenAI對此也非常好奇,找來了262名醫(yī)生參與測試,以比較 AI 模型性能與專家臨床判斷。
OpenAI把參與測試的262位人類醫(yī)生分為兩組,并和AI回答進行比較。
1、第一組醫(yī)生可以使用互聯(lián)網(wǎng)進行回復(fù),但不能使用AI工具
2、第二組醫(yī)生能夠使用OpenAI的模型,醫(yī)生能夠?qū)ι傻拇鸢高M行改編,以及編寫新的答案
結(jié)果發(fā)現(xiàn)隨著時間的推移,AI模型性能進化迅速,人類醫(yī)生也甘拜下風。
2024年9月,OpenAI測試了GPT-o1-preview和GPT-4o。
結(jié)果發(fā)現(xiàn),AI輔助的醫(yī)生答案>AI的參考回答>沒有AI輔助的醫(yī)生答案。
也就是說人類醫(yī)生對進行編輯后,明顯提升了AI的回答質(zhì)量。
而到了2025年4月測試GPT-o3 和 GPT-4.1 ,情況有了巨大改變。
AI輔助的醫(yī)生答案=AI的參考回答>>沒有AI輔助的醫(yī)生答案。
這表明AI不僅比人類醫(yī)生強,還比使用相同AI工具的人類醫(yī)生強,人類甚至限制了AI的回答!
OpenAI的AGI野心
HealthBench基準數(shù)據(jù)集已在GitHub全面上傳。
除本體外,OpenAI還引入了HealthBench 的兩種變體——HealthBenchConsensus和HealthBenchHard。
HealthBench Consensus的回答經(jīng)過絕大多數(shù)醫(yī)生驗證,幾乎保證了答案的準確度。HealthBench Hard則優(yōu)選其中 1,000 高難度問題,即使是最好的模型在該標準中得分率也僅為32%,也是AI可以努力的重要方向。
可以說,HealthBench重新定義了AI在醫(yī)療領(lǐng)域的評估方式——轉(zhuǎn)向了以大模型為基礎(chǔ)的現(xiàn)實世界評估,這也是打造AGI的重要工具。
而隨著時間的推移,大型語言模型已經(jīng)有了顯著的改進,并且在編寫基準測試的答案已經(jīng)優(yōu)于人類專家。
不止于此,當前表現(xiàn)最優(yōu)的AI仍然有很大的改進空間。
而該評價體系的發(fā)布,有望幫助整個行業(yè)和學(xué)界打造出更好的醫(yī)療模型,改善人類健康。
—The End—
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.