人類醫生要被AI拉爆了?
5月12日,OpenAI聯手全球60個國家,262名執業醫生,打造出專為醫療大模型設計的AI醫療大模型標準——HealthBench。
根據測試,OpenAI最強推理模型GPT-o3,直接力壓Grok 3和Gemini 2.5 Pro,比人類醫生的回答率高出4倍。
與此前過時的數據集不同,該基準包含了5000個基于現實場景的健康對話,并且獲得了醫生評分反饋。
也就是說,該評分體系能夠衡量AI的可信度和臨床價值,而不是AI做題的能力和回答流暢度。
當該評價基準如同ImageNet推廣開后,一個AI醫療新時代,真的來了。
定義行業新標準
作為全球AI領頭羊,OpenAI來定義AI醫療新基準了。
一個好的AI測試集對于技術發展非常重要,例如ImageNet挑戰賽直接推動了深度學習革命。
但當前,以各種醫學問答、執業醫生考試為主的醫學測試集過于僵化,不能代表醫生真實的臨床工作,導致AI應用受限。
于是,OpenAI團隊基于以下原則打造出HealthBench:
有意義(Meaningful):即能夠突破考試問題的局限,捕捉復雜的真實場景和工作流程,反映了患者和臨床醫生與模型交互的方式
值得信賴(Trustworthy):評分能夠真實體現醫生判斷,反映醫護人員的行業標準和優先事項,為改進 AI 模型提供嚴格的基礎。
未飽和(Unsaturated):基準測試將推動行業進步。現有模型必須展現巨大的改進空間,持續激勵開發者持續改進AI性能
HealthBench耗時一年,由來自60個國家/地區的262位執業醫生共同打造,支持包括英語、普通話在內的49種語言,以及26個醫學專業。
它們被創建為逼真且類似于大型語言模型的實際使用:它們是多輪次和多語言的,捕獲一系列外行和醫療保健提供者角色,跨越一系列醫學專業和上下文,并根據難度進行選擇。
此外,HealthBench 對話分為七個主題,每個主題都包含相關示例,每個示例都有特定的評分量規標準。
與以前的狹窄基準不同,HealthBench涵蓋了多個維度,力求全面衡量模型性能。它們主要包括“場景”和“軸”兩類。
場景即7個真實世界的主題,包括全球健康、緊急轉診等,軸則著重測試模式的行為維度,包括準確性、遵循指示、溝通等。
模型性能
根據測試,GPT-o3 的表現優于其他AI,得分明顯高出Claude 3.7 Sonnet 和 Gemini 2.5 Pro。(截至2025年3月)。
值得一提的是,OpenAI 的前沿模型在 HealthBench 上提高了28%。
與 GPT-4o(2024 年 8 月)和 GPT-3.5 Turbo 之間的相比,在模型安全性和性能上實現飛躍。
成本與準確性
除開性能外,OpenAI還根據模型大小和測試時計算指標,研究了成本與性能的關系。
結果發現,小模型在最近幾個月,有了顯著改進。大模型也成本與性能也遵循摩爾定律。
例如,2025年4月發布的GPT-4.1 nano 的性能,優于 2024 年 8 月的 GPT-4o 模型,并且成本僅有其1/25。
當下OpenAI的最強推理模型GPT-o3之間的差異,顯著打羽GPT-4o和GPT-3.5Turbo之間的差異。
由于行業的特殊性,醫療AI對于回答的錯誤容忍率非常低。
因此,OpenAI在HealthBench上評估了各模型在k個樣本下的最差表現(worst-of-n performance)。結果發現,o3模型在16個樣本時的最差分數是GPT-4o的兩倍。
挑戰人類醫生
在真實對話的數據集測評中,AI有可能戰勝人類醫生嗎?
OpenAI對此也非常好奇,找來了262名醫生參與測試,以比較 AI 模型性能與專家臨床判斷。
OpenAI把參與測試的262位人類醫生分為兩組,并和AI回答進行比較。
1、第一組醫生可以使用互聯網進行回復,但不能使用AI工具
2、第二組醫生能夠使用OpenAI的模型,醫生能夠對生成的答案進行改編,以及編寫新的答案
結果發現隨著時間的推移,AI模型性能進化迅速,人類醫生也甘拜下風。
2024年9月,OpenAI測試了GPT-o1-preview和GPT-4o。
結果發現,AI輔助的醫生答案>AI的參考回答>沒有AI輔助的醫生答案。
也就是說人類醫生對進行編輯后,明顯提升了AI的回答質量。
而到了2025年4月測試GPT-o3 和 GPT-4.1 ,情況有了巨大改變。
AI輔助的醫生答案=AI的參考回答>>沒有AI輔助的醫生答案。
這表明AI不僅比人類醫生強,還比使用相同AI工具的人類醫生強,人類甚至限制了AI的回答!
OpenAI的AGI野心
HealthBench基準數據集已在GitHub全面上傳。
除本體外,OpenAI還引入了HealthBench 的兩種變體——HealthBenchConsensus和HealthBenchHard。
HealthBench Consensus的回答經過絕大多數醫生驗證,幾乎保證了答案的準確度。HealthBench Hard則優選其中 1,000 高難度問題,即使是最好的模型在該標準中得分率也僅為32%,也是AI可以努力的重要方向。
可以說,HealthBench重新定義了AI在醫療領域的評估方式——轉向了以大模型為基礎的現實世界評估,這也是打造AGI的重要工具。
而隨著時間的推移,大型語言模型已經有了顯著的改進,并且在編寫基準測試的答案已經優于人類專家。
不止于此,當前表現最優的AI仍然有很大的改進空間。
而該評價體系的發布,有望幫助整個行業和學界打造出更好的醫療模型,改善人類健康。
—The End—
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.