網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

性能登頂！GPT-o3碾壓人類醫(yī)生，OpenAI重新定義AI醫(yī)療行業(yè)新標準！

2025-05-14 19:26:49　來源: 智藥局

四川舉報

分享至

人類醫(yī)生要被AI拉爆了？

5月12日，OpenAI聯(lián)手全球60個國家，262名執(zhí)業(yè)醫(yī)生，打造出專為醫(yī)療大模型設(shè)計的AI醫(yī)療大模型標準——HealthBench。

根據(jù)測試，OpenAI最強推理模型GPT-o3，直接力壓Grok 3和Gemini 2.5 Pro，比人類醫(yī)生的回答率高出4倍。

與此前過時的數(shù)據(jù)集不同，該基準包含了5000個基于現(xiàn)實場景的健康對話，并且獲得了醫(yī)生評分反饋。

也就是說，該評分體系能夠衡量AI的可信度和臨床價值，而不是AI做題的能力和回答流暢度。

當該評價基準如同ImageNet推廣開后，一個AI醫(yī)療新時代，真的來了。

定義行業(yè)新標準

作為全球AI領(lǐng)頭羊，OpenAI來定義AI醫(yī)療新基準了。

一個好的AI測試集對于技術(shù)發(fā)展非常重要，例如ImageNet挑戰(zhàn)賽直接推動了深度學(xué)習革命。

但當前，以各種醫(yī)學(xué)問答、執(zhí)業(yè)醫(yī)生考試為主的醫(yī)學(xué)測試集過于僵化，不能代表醫(yī)生真實的臨床工作，導(dǎo)致AI應(yīng)用受限。

于是，OpenAI團隊基于以下原則打造出HealthBench：

有意義（Meaningful）：即能夠突破考試問題的局限，捕捉復(fù)雜的真實場景和工作流程，反映了患者和臨床醫(yī)生與模型交互的方式

值得信賴（Trustworthy）：評分能夠真實體現(xiàn)醫(yī)生判斷，反映醫(yī)護人員的行業(yè)標準和優(yōu)先事項，為改進 AI 模型提供嚴格的基礎(chǔ)。

未飽和（Unsaturated）：基準測試將推動行業(yè)進步?，F(xiàn)有模型必須展現(xiàn)巨大的改進空間，持續(xù)激勵開發(fā)者持續(xù)改進AI性能

HealthBench耗時一年，由來自60個國家/地區(qū)的262位執(zhí)業(yè)醫(yī)生共同打造，支持包括英語、普通話在內(nèi)的49種語言，以及26個醫(yī)學(xué)專業(yè)。

它們被創(chuàng)建為逼真且類似于大型語言模型的實際使用：它們是多輪次和多語言的，捕獲一系列外行和醫(yī)療保健提供者角色，跨越一系列醫(yī)學(xué)專業(yè)和上下文，并根據(jù)難度進行選擇。

此外，HealthBench 對話分為七個主題，每個主題都包含相關(guān)示例，每個示例都有特定的評分量規(guī)標準。

與以前的狹窄基準不同，HealthBench涵蓋了多個維度，力求全面衡量模型性能。它們主要包括“場景”和“軸”兩類。

場景即7個真實世界的主題，包括全球健康、緊急轉(zhuǎn)診等，軸則著重測試模式的行為維度，包括準確性、遵循指示、溝通等。

模型性能

根據(jù)測試，GPT-o3 的表現(xiàn)優(yōu)于其他AI，得分明顯高出Claude 3.7 Sonnet 和 Gemini 2.5 Pro。（截至2025年3月）。

值得一提的是，OpenAI 的前沿模型在 HealthBench 上提高了28%。

與 GPT-4o（2024 年 8 月）和 GPT-3.5 Turbo 之間的相比，在模型安全性和性能上實現(xiàn)飛躍。

成本與準確性

除開性能外，OpenAI還根據(jù)模型大小和測試時計算指標，研究了成本與性能的關(guān)系。

結(jié)果發(fā)現(xiàn)，小模型在最近幾個月，有了顯著改進。大模型也成本與性能也遵循摩爾定律。

例如，2025年4月發(fā)布的GPT-4.1 nano 的性能，優(yōu)于 2024 年 8 月的 GPT-4o 模型，并且成本僅有其1/25。

當下OpenAI的最強推理模型GPT-o3之間的差異，顯著打羽GPT-4o和GPT-3.5Turbo之間的差異。

由于行業(yè)的特殊性，醫(yī)療AI對于回答的錯誤容忍率非常低。

因此，OpenAI在HealthBench上評估了各模型在k個樣本下的最差表現(xiàn)（worst-of-n performance）。結(jié)果發(fā)現(xiàn)，o3模型在16個樣本時的最差分數(shù)是GPT-4o的兩倍。

挑戰(zhàn)人類醫(yī)生

在真實對話的數(shù)據(jù)集測評中，AI有可能戰(zhàn)勝人類醫(yī)生嗎？

OpenAI對此也非常好奇，找來了262名醫(yī)生參與測試，以比較 AI 模型性能與專家臨床判斷。

OpenAI把參與測試的262位人類醫(yī)生分為兩組，并和AI回答進行比較。

1、第一組醫(yī)生可以使用互聯(lián)網(wǎng)進行回復(fù)，但不能使用AI工具

2、第二組醫(yī)生能夠使用OpenAI的模型，醫(yī)生能夠?qū)ι傻拇鸢高M行改編，以及編寫新的答案

結(jié)果發(fā)現(xiàn)隨著時間的推移，AI模型性能進化迅速，人類醫(yī)生也甘拜下風。

2024年9月，OpenAI測試了GPT-o1-preview和GPT-4o。

結(jié)果發(fā)現(xiàn)，AI輔助的醫(yī)生答案>AI的參考回答>沒有AI輔助的醫(yī)生答案。

也就是說人類醫(yī)生對進行編輯后，明顯提升了AI的回答質(zhì)量。

而到了2025年4月測試GPT-o3 和 GPT-4.1 ，情況有了巨大改變。

AI輔助的醫(yī)生答案=AI的參考回答>>沒有AI輔助的醫(yī)生答案。

這表明AI不僅比人類醫(yī)生強，還比使用相同AI工具的人類醫(yī)生強，人類甚至限制了AI的回答！

OpenAI的AGI野心

HealthBench基準數(shù)據(jù)集已在GitHub全面上傳。

除本體外，OpenAI還引入了HealthBench 的兩種變體——HealthBenchConsensus和HealthBenchHard。

HealthBench Consensus的回答經(jīng)過絕大多數(shù)醫(yī)生驗證，幾乎保證了答案的準確度。HealthBench Hard則優(yōu)選其中 1,000 高難度問題，即使是最好的模型在該標準中得分率也僅為32%，也是AI可以努力的重要方向。

可以說，HealthBench重新定義了AI在醫(yī)療領(lǐng)域的評估方式——轉(zhuǎn)向了以大模型為基礎(chǔ)的現(xiàn)實世界評估，這也是打造AGI的重要工具。

而隨著時間的推移，大型語言模型已經(jīng)有了顯著的改進，并且在編寫基準測試的答案已經(jīng)優(yōu)于人類專家。

不止于此，當前表現(xiàn)最優(yōu)的AI仍然有很大的改進空間。

而該評價體系的發(fā)布，有望幫助整個行業(yè)和學(xué)界打造出更好的醫(yī)療模型，改善人類健康。

—The End—

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

“公益修路”博主專給馬路填坑，現(xiàn)身上海、浙江、山東等全國各地，多地市政：有專業(yè)養(yǎng)護公司，不建議私自修

封面新聞 2025-07-16 08:54:25
1777 跟貼 1777
新能源車斑馬線上后輪掉了網(wǎng)友：這車怎么老崴腳

薪火視點 2025-07-16 09:09:39
8588 跟貼 8588

俄羅斯真的不能失敗嗎？

憑闌聽史 2025-07-16 17:49:06
138 跟貼 138

楊瀚森15分三分6中3均創(chuàng)新高！開拓者險勝鵜鶘

網(wǎng)易體育 2025-07-16 12:57:56
3144 跟貼 3144
西班牙驚現(xiàn)46℃極端高溫！近兩個月，1180人因高溫死亡

每日經(jīng)濟新聞 2025-07-16 10:55:47
6968 跟貼 6968

35歲民政局副局長公示任鄉(xiāng)鎮(zhèn)長，21歲時咋以高中學(xué)歷聘為鎮(zhèn)勞動服務(wù)站站長？相關(guān)回應(yīng)：那時要求沒那么嚴格

大風新聞 2025-07-16 11:35:34
2210 跟貼 2210

前央視主持人李小萌發(fā)文，全網(wǎng)找曾跪在繼父墳前痛哭的農(nóng)村少年韋仁龍

極目新聞 2025-07-16 11:53:12
841 跟貼 841
大連工業(yè)大學(xué)事件升級！女學(xué)生李欣蒔載入百度百科，再度引發(fā)爭議

明月雜談 2025-07-16 08:44:44
1456 跟貼 1456

北上廣深，“電驢”圍城

中國經(jīng)營報 2025-07-16 10:15:09
1318 跟貼 1318
兒童平衡車比賽中一個小選手在騎行中兩次故意伸腿踢倒他人

星辰視頻 2025-07-16 15:19:30
3266 跟貼 3266
火車上多名乘客購買無座票，乘客坐在空余座位，被要求補票！

爆料視頻 2025-07-16 10:55:01
1295 跟貼 1295
連夜下架！山姆因“選品爭議”惹惱會員：花高價辦年卡不是為了買便利店的東西

封面新聞 2025-07-16 15:55:07
304 跟貼 304
哈梅內(nèi)伊：伊朗準備好應(yīng)對新軍事打擊

參考消息 2025-07-16 21:51:54
461 跟貼 461
廣州網(wǎng)友爆料：一覺醒來，公司沒有了

南北分界線 2025-07-16 22:22:57
958 跟貼 958
最新！各地最低工資標準出爐

環(huán)球網(wǎng)資訊 2025-07-16 19:33:06
349 跟貼 349
北京：朝陽公園拆除810米圍墻打造花園街

中工網(wǎng) 2025-07-16 08:52:26
491 跟貼 491
剛剛，沖上熱搜！特斯拉新車Model Y L官宣，預(yù)計售價約40萬元

極目新聞 2025-07-16 22:13:21
77 跟貼 77
俄回應(yīng)下次俄美元首何時通話：沒計劃但可很快安排

界面新聞 2025-07-16 17:14:50
335 跟貼 335
男子割草時意外看到短尾蝮蛇，本能反應(yīng)一刀砍下蛇頭：慶幸運氣好

星視頻 2025-07-16 16:04:56
444 跟貼 444
公共綠地不種花草種蔬菜，小區(qū)為何變成“農(nóng)家樂”？

大連房產(chǎn) 2025-07-17 07:45:53
3 跟貼 3
90多筆訂單一瞬間沒了！記者破譯“火星文”，當事人：店鋪已經(jīng)“死掉”了

瀟湘晨報 2025-07-17 07:53:50
0 跟貼 0
上海最貴？一碗面1588元，另收10%服務(wù)費，網(wǎng)友直呼：太瘋狂

環(huán)球網(wǎng)資訊 2025-07-16 09:10:08
0 跟貼 0
“-86℃冰杯”咖啡爆火，店長稱若打包跟普通拿鐵無異飲用會被凍傷嗎？醫(yī)生解讀

紅星新聞 2025-07-15 17:50:11
0 跟貼 0
江西一赤膊男子凌晨站路中攔車警方：正在尋人，將依法處理

板扎在線 2025-07-17 07:37:48
0 跟貼 0

辣媒專欄記錄

2025-07-16 11:30:03

大反轉(zhuǎn)，浙江人挺?。”┯?，10級雷雨大風！第6號臺風“韋帕”有新消息...

智藥局

我們更懂藥物創(chuàng)新

734文章數(shù) 133關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

親子

教育

房產(chǎn)

時尚

家居

手機 / 數(shù)碼

房產(chǎn) / 家居

性能登頂！GPT-o3碾壓人類醫(yī)生，OpenAI重新定義AI醫(yī)療行業(yè)新標準！

美團外賣大戰(zhàn)總指揮：不想卷 但不能不反擊

媒體:黃楊鈿甜"耳環(huán)"事件 一場質(zhì)疑與謠言茍合的鬧劇

媒體:黃楊鈿甜"耳環(huán)"事件 一場質(zhì)疑與謠言茍合的鬧劇

不給楊瀚森傳球，他有自己的理由

都美竹將參加綜藝，單身媽媽發(fā)文抵制

探究萬億市場的休閑零食

理想i8內(nèi)飾官圖公布 李想回應(yīng)"被打臉"

態(tài)度原創(chuàng)

強者從不抱怨環(huán)境 更不怨懟不理解自己的人

全等三角形動點問題，方法大總結(jié)！

三亞又有好地要賣，起拍樓面價飆到了1.6萬/㎡！

今年夏天流行的“多巴胺運動鞋”太時髦了，誰穿誰好看！

浪漫典雅 法式風格別墅

性能登頂！GPT-o3碾壓人類醫(yī)生，OpenAI重新定義AI醫(yī)療行業(yè)新標準！

美團外賣大戰(zhàn)總指揮：不想卷但不能不反擊

媒體:黃楊鈿甜"耳環(huán)"事件一場質(zhì)疑與謠言茍合的鬧劇

媒體:黃楊鈿甜"耳環(huán)"事件一場質(zhì)疑與謠言茍合的鬧劇

不給楊瀚森傳球，他有自己的理由

理想i8內(nèi)飾官圖公布李想回應(yīng)"被打臉"

強者從不抱怨環(huán)境更不怨懟不理解自己的人

全等三角形動點問題，方法大總結(jié)！

三亞又有好地要賣，起拍樓面價飆到了1.6萬/㎡！

今年夏天流行的“多巴胺運動鞋”太時髦了，誰穿誰好看！

浪漫典雅法式風格別墅