99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

性能登頂!GPT-o3碾壓人類醫生,OpenAI重新定義AI醫療行業新標準!

0
分享至

人類醫生要被AI拉爆了?

5月12日,OpenAI聯手全球60個國家,262名執業醫生,打造出專為醫療大模型設計的AI醫療大模型標準——HealthBench

根據測試,OpenAI最強推理模型GPT-o3,直接力壓Grok 3Gemini 2.5 Pro,比人類醫生的回答率高出4倍。

與此前過時的數據集不同,該基準包含了5000個基于現實場景的健康對話,并且獲得了醫生評分反饋。

也就是說,該評分體系能夠衡量AI的可信度和臨床價值,而不是AI做題的能力和回答流暢度。

當該評價基準如同ImageNet推廣開后,一個AI醫療新時代,真的來了。


定義行業新標準

作為全球AI領頭羊,OpenAI來定義AI醫療新基準了。

一個好的AI測試集對于技術發展非常重要,例如ImageNet挑戰賽直接推動了深度學習革命

但當前,以各種醫學問答、執業醫生考試為主的醫學測試集過于僵化,不能代表醫生真實的臨床工作,導致AI應用受限。

于是,OpenAI團隊基于以下原則打造出HealthBench:

有意義(Meaningful):即能夠突破考試問題的局限,捕捉復雜的真實場景和工作流程,反映了患者和臨床醫生與模型交互的方式

值得信賴(Trustworthy)評分能夠真實體現醫生判斷,反映醫護人員的行業標準和優先事項,為改進 AI 模型提供嚴格的基礎。

未飽和(Unsaturated)基準測試將推動行業進步。現有模型必須展現巨大的改進空間,持續激勵開發者持續改進AI性能

HealthBench耗時一年,由來自60個國家/地區262位執業醫生共同打造,支持包括英語、普通話在內的49種語言,以及26個醫學專業。


它們被創建為逼真且類似于大型語言模型的實際使用:它們是多輪次和多語言的,捕獲一系列外行和醫療保健提供者角色,跨越一系列醫學專業和上下文,并根據難度進行選擇。

此外,HealthBench 對話分為七個主題,每個主題都包含相關示例,每個示例都有特定的評分量規標準。


與以前的狹窄基準不同,HealthBench涵蓋了多個維度,力求全面衡量模型性能。它們主要包括“場景”和“軸”兩類。

場景即7個真實世界的主題,包括全球健康、緊急轉診等,軸則著重測試模式的行為維度,包括準確性、遵循指示、溝通等。


模型性能

根據測試,GPT-o3 的表現優于其他AI,得分明顯高出Claude 3.7 Sonnet 和 Gemini 2.5 Pro。(截至2025年3月)。



值得一提的是,OpenAI 的前沿模型在 HealthBench 上提高了28%

與 GPT-4o(2024 年 8 月)和 GPT-3.5 Turbo 之間的相比,在模型安全性和性能上實現飛躍。

成本與準確性

除開性能外,OpenAI還根據模型大小和測試時計算指標,研究了成本與性能的關系。

結果發現,小模型在最近幾個月,有了顯著改進。大模型也成本與性能也遵循摩爾定律。

例如,2025年4月發布的GPT-4.1 nano 的性能,優于 2024 年 8 月的 GPT-4o 模型,并且成本僅有其1/25。

當下OpenAI的最強推理模型GPT-o3之間的差異,顯著打羽GPT-4o和GPT-3.5Turbo之間的差異。


由于行業的特殊性,醫療AI對于回答的錯誤容忍率非常低。

因此,OpenAI在HealthBench上評估了各模型在k個樣本下的最差表現(worst-of-n performance)。結果發現,o3模型在16個樣本時的最差分數是GPT-4o的兩倍。



戰人類醫生

在真實對話的數據集測評中,AI有可能戰勝人類醫生嗎?

OpenAI對此也非常好奇,找來了262名醫生參與測試,以比較 AI 模型性能與專家臨床判斷。

OpenAI把參與測試的262位人類醫生分為兩組,并和AI回答進行比較。

1、第一組醫生可以使用互聯網進行回復,但不能使用AI工具

2、第二組醫生能夠使用OpenAI的模型,醫生能夠對生成的答案進行改編,以及編寫新的答案

結果發現隨著時間的推移,AI模型性能進化迅速,人類醫生也甘拜下風。


2024年9月,OpenAI測試了GPT-o1-preview和GPT-4o。

結果發現,AI輔助的醫生答案>AI的參考回答>沒有AI輔助的醫生答案。

也就是說人類醫生對進行編輯后,明顯提升了AI的回答質量。

而到了2025年4月測試GPT-o3 和 GPT-4.1 ,情況有了巨大改變。

AI輔助的醫生答案=AI的參考回答>>沒有AI輔助的醫生答案。

這表明AI不僅比人類醫生強,還比使用相同AI工具的人類醫生強,人類甚至限制了AI的回答!


OpenAIAGI野心

HealthBench基準數據集已在GitHub全面上傳。

除本體外,OpenAI還引入了HealthBench 的兩種變體——HealthBenchConsensusHealthBenchHard

HealthBench Consensus的回答經過絕大多數醫生驗證,幾乎保證了答案的準確度。HealthBench Hard則優選其中 1,000 高難度問題,即使是最好的模型在該標準中得分率也僅為32%,也是AI可以努力的重要方向。

可以說,HealthBench重新定義了AI在醫療領域的評估方式——轉向了以大模型為基礎的現實世界評估,這也是打造AGI的重要工具。

而隨著時間的推移,大型語言模型已經有了顯著的改進,并且在編寫基準測試的答案已經優于人類專家。

不止于此,當前表現最優的AI仍然有很大的改進空間。

而該評價體系的發布,有望幫助整個行業和學界打造出更好的醫療模型,改善人類健康。

—The End—


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
全球獨一無二:為了扶正受損驅逐艦,朝鮮清津船廠用上了熱氣球?

全球獨一無二:為了扶正受損驅逐艦,朝鮮清津船廠用上了熱氣球?

說天說地說實事
2025-05-29 20:52:17
美國法院竟能叫停特朗普的關稅政策?背后全依賴美國專業與公平的法律體系

美國法院竟能叫停特朗普的關稅政策?背后全依賴美國專業與公平的法律體系

爆角追蹤
2025-05-30 07:28:27
繼韓國越南之后,巴基斯坦也貼出中文標語,句句戳中國游客的心

繼韓國越南之后,巴基斯坦也貼出中文標語,句句戳中國游客的心

侃侃兒談
2025-05-05 09:49:14
難以置信!網傳一家長要幼師24小時在線,凌晨4點多瘋狂打去電話

難以置信!網傳一家長要幼師24小時在線,凌晨4點多瘋狂打去電話

火山詩話
2025-05-30 05:24:12
《色即是空》女主河智苑被偶遇,身材好到爆人又漂亮,46歲如少女

《色即是空》女主河智苑被偶遇,身材好到爆人又漂亮,46歲如少女

叨嘮
2025-05-28 19:42:24
連續18年發錢!澳門:永久居民每人發10000澳門元,非永久居民每人6000,但必須滿足這個條件→

連續18年發錢!澳門:永久居民每人發10000澳門元,非永久居民每人6000,但必須滿足這個條件→

每日經濟新聞
2025-05-29 13:15:19
國務院任免21名干部!剛卸任副省長的她進京履新,他“空降”江蘇后被免去公安部職務

國務院任免21名干部!剛卸任副省長的她進京履新,他“空降”江蘇后被免去公安部職務

上觀新聞
2025-05-29 18:06:09
致敬!38歲名將法網出局后含淚退役,生涯曾奪16冠+3進大滿貫4強

致敬!38歲名將法網出局后含淚退役,生涯曾奪16冠+3進大滿貫4強

我愛英超
2025-05-29 23:16:51
俄羅斯“瘋狂”威脅德國,同時從莫斯科撤離重要資產

俄羅斯“瘋狂”威脅德國,同時從莫斯科撤離重要資產

山河路口
2025-05-29 18:37:53
利雅得勝利證實C羅想走:多隊欲簽他 正全力挽留:開2年4億歐肥約

利雅得勝利證實C羅想走:多隊欲簽他 正全力挽留:開2年4億歐肥約

我愛英超
2025-05-29 20:28:13
太科幻!殲-50首張側面照曝光,單座無尾大雷達,非常適合上艦!

太科幻!殲-50首張側面照曝光,單座無尾大雷達,非常適合上艦!

說天說地說實事
2025-05-30 04:58:00
為啥現在沒心思再幫印尼延長雅萬高鐵了?

為啥現在沒心思再幫印尼延長雅萬高鐵了?

雲在青天兮水在瓶
2025-05-30 02:44:16
微軟把蘇州員工騙到西雅圖,不到一年瘋狂裁員,美國法:沒有補償

微軟把蘇州員工騙到西雅圖,不到一年瘋狂裁員,美國法:沒有補償

社會醬
2025-05-29 17:05:42
日媒報道田中佑美遺憾摘銀只字不提吳艷妮 亞洲一姐之爭戲劇收場

日媒報道田中佑美遺憾摘銀只字不提吳艷妮 亞洲一姐之爭戲劇收場

勁爆體壇
2025-05-29 22:17:12
黃楊鈿甜天價耳環是真的!被曝200萬替換演員,其父關聯人被雙開

黃楊鈿甜天價耳環是真的!被曝200萬替換演員,其父關聯人被雙開

吃瓜少女張小暖
2025-05-29 21:11:09
重大反轉,殲10不要了?東南亞大國敲定陣風大單,數量追加18架

重大反轉,殲10不要了?東南亞大國敲定陣風大單,數量追加18架

阿傖說事
2025-05-29 15:04:28
突發!東契奇給湖人下72小時通牒:不簽2018年狀元郎就申請交易!

突發!東契奇給湖人下72小時通牒:不簽2018年狀元郎就申請交易!

埃文凱爾
2025-05-30 00:19:17
外媒:美國政府暫停向中國出口部分關鍵技術

外媒:美國政府暫停向中國出口部分關鍵技術

國際在線
2025-05-29 17:28:08
王毅將在聯合國見證下簽字,把美國踢出局,宣告一個時代結束

王毅將在聯合國見證下簽字,把美國踢出局,宣告一個時代結束

說天說地說實事
2025-05-29 19:54:16
馬斯克為特朗普打工的128天:裁掉超10萬人,個人財富蒸發4000億

馬斯克為特朗普打工的128天:裁掉超10萬人,個人財富蒸發4000億

時代周報
2025-05-29 23:09:13
2025-05-30 09:03:00
智藥局 incentive-icons
智藥局
我們更懂藥物創新
680文章數 124關注度
往期回顧 全部

科技要聞

馬斯克改造美國政府失敗,120天后黯然離場

頭條要聞

牛彈琴:美國政府一日三變殺瘋了 全世界目瞪口呆

頭條要聞

牛彈琴:美國政府一日三變殺瘋了 全世界目瞪口呆

體育要聞

納達爾,法網,漫長告別

娛樂要聞

辛柏青沉默8天后,這些事還是發生了

財經要聞

美國政府殺瘋了,全世界目瞪口呆

汽車要聞

約合人民幣47.10萬元起 阿維塔11在香港上市

態度原創

旅游
房產
時尚
公開課
軍事航空

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

房產要聞

清盤倒計時!這個天河芯紅盤,贏的不止多一點!

和劉亦菲一起來場“時裝出逃”的旅行

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

以軍承認使用激光武器攔截無人機

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 财经| 乌海市| 龙山县| 江城| 保康县| 彭水| 乌审旗| 信阳市| 皋兰县| 普兰店市| 临泉县| 共和县| 阿拉善右旗| 清镇市| 印江| 扶风县| 嘉义市| 大厂| 山阴县| 黄山市| 延津县| 南雄市| 合江县| 五指山市| 钦州市| 贵定县| 达日县| 澄迈县| 微山县| 循化| 隆安县| 育儿| 阳泉市| 昔阳县| 岳池县| 文昌市| 静安区| 延吉市| 襄汾县| 成都市| 茂名市|