99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

性能登頂!GPT-o3碾壓人類醫(yī)生,OpenAI重新定義AI醫(yī)療行業(yè)新標準!

0
分享至

人類醫(yī)生要被AI拉爆了?

5月12日,OpenAI聯(lián)手全球60個國家,262名執(zhí)業(yè)醫(yī)生,打造出專為醫(yī)療大模型設(shè)計的AI醫(yī)療大模型標準——HealthBench。

根據(jù)測試,OpenAI最強推理模型GPT-o3,直接力壓Grok 3Gemini 2.5 Pro,比人類醫(yī)生的回答率高出4倍。

與此前過時的數(shù)據(jù)集不同,該基準包含了5000個基于現(xiàn)實場景的健康對話,并且獲得了醫(yī)生評分反饋。

也就是說,該評分體系能夠衡量AI的可信度和臨床價值,而不是AI做題的能力和回答流暢度。

當該評價基準如同ImageNet推廣開后,一個AI醫(yī)療新時代,真的來了。


定義行業(yè)新標準

作為全球AI領(lǐng)頭羊,OpenAI來定義AI醫(yī)療新基準了。

一個好的AI測試集對于技術(shù)發(fā)展非常重要,例如ImageNet挑戰(zhàn)賽直接推動了深度學(xué)習革命。

但當前,以各種醫(yī)學(xué)問答、執(zhí)業(yè)醫(yī)生考試為主的醫(yī)學(xué)測試集過于僵化,不能代表醫(yī)生真實的臨床工作,導(dǎo)致AI應(yīng)用受限。

于是,OpenAI團隊基于以下原則打造出HealthBench:

有意義(Meaningful):即能夠突破考試問題的局限,捕捉復(fù)雜的真實場景和工作流程,反映了患者和臨床醫(yī)生與模型交互的方式

值得信賴(Trustworthy)評分能夠真實體現(xiàn)醫(yī)生判斷,反映醫(yī)護人員的行業(yè)標準和優(yōu)先事項,為改進 AI 模型提供嚴格的基礎(chǔ)。

未飽和(Unsaturated)基準測試將推動行業(yè)進步?,F(xiàn)有模型必須展現(xiàn)巨大的改進空間,持續(xù)激勵開發(fā)者持續(xù)改進AI性能

HealthBench耗時一年,由來自60個國家/地區(qū)262位執(zhí)業(yè)醫(yī)生共同打造,支持包括英語、普通話在內(nèi)的49種語言,以及26個醫(yī)學(xué)專業(yè)。


它們被創(chuàng)建為逼真且類似于大型語言模型的實際使用:它們是多輪次和多語言的,捕獲一系列外行和醫(yī)療保健提供者角色,跨越一系列醫(yī)學(xué)專業(yè)和上下文,并根據(jù)難度進行選擇。

此外,HealthBench 對話分為七個主題,每個主題都包含相關(guān)示例,每個示例都有特定的評分量規(guī)標準。


與以前的狹窄基準不同,HealthBench涵蓋了多個維度,力求全面衡量模型性能。它們主要包括“場景”和“軸”兩類。

場景即7個真實世界的主題,包括全球健康、緊急轉(zhuǎn)診等,軸則著重測試模式的行為維度,包括準確性、遵循指示、溝通等。


模型性能

根據(jù)測試,GPT-o3 的表現(xiàn)優(yōu)于其他AI,得分明顯高出Claude 3.7 Sonnet 和 Gemini 2.5 Pro。(截至2025年3月)。



值得一提的是,OpenAI 的前沿模型在 HealthBench 上提高了28%。

與 GPT-4o(2024 年 8 月)和 GPT-3.5 Turbo 之間的相比,在模型安全性和性能上實現(xiàn)飛躍。

成本與準確性

除開性能外,OpenAI還根據(jù)模型大小和測試時計算指標,研究了成本與性能的關(guān)系。

結(jié)果發(fā)現(xiàn),小模型在最近幾個月,有了顯著改進。大模型也成本與性能也遵循摩爾定律。

例如,2025年4月發(fā)布的GPT-4.1 nano 的性能,優(yōu)于 2024 年 8 月的 GPT-4o 模型,并且成本僅有其1/25。

當下OpenAI的最強推理模型GPT-o3之間的差異,顯著打羽GPT-4o和GPT-3.5Turbo之間的差異。


由于行業(yè)的特殊性,醫(yī)療AI對于回答的錯誤容忍率非常低。

因此,OpenAI在HealthBench上評估了各模型在k個樣本下的最差表現(xiàn)(worst-of-n performance)。結(jié)果發(fā)現(xiàn),o3模型在16個樣本時的最差分數(shù)是GPT-4o的兩倍。



戰(zhàn)人類醫(yī)生

在真實對話的數(shù)據(jù)集測評中,AI有可能戰(zhàn)勝人類醫(yī)生嗎?

OpenAI對此也非常好奇,找來了262名醫(yī)生參與測試,以比較 AI 模型性能與專家臨床判斷。

OpenAI把參與測試的262位人類醫(yī)生分為兩組,并和AI回答進行比較。

1、第一組醫(yī)生可以使用互聯(lián)網(wǎng)進行回復(fù),但不能使用AI工具

2、第二組醫(yī)生能夠使用OpenAI的模型,醫(yī)生能夠?qū)ι傻拇鸢高M行改編,以及編寫新的答案

結(jié)果發(fā)現(xiàn)隨著時間的推移,AI模型性能進化迅速,人類醫(yī)生也甘拜下風。


2024年9月,OpenAI測試了GPT-o1-preview和GPT-4o。

結(jié)果發(fā)現(xiàn),AI輔助的醫(yī)生答案>AI的參考回答>沒有AI輔助的醫(yī)生答案。

也就是說人類醫(yī)生對進行編輯后,明顯提升了AI的回答質(zhì)量。

而到了2025年4月測試GPT-o3 和 GPT-4.1 ,情況有了巨大改變。

AI輔助的醫(yī)生答案=AI的參考回答>>沒有AI輔助的醫(yī)生答案。

這表明AI不僅比人類醫(yī)生強,還比使用相同AI工具的人類醫(yī)生強,人類甚至限制了AI的回答!


OpenAIAGI野心

HealthBench基準數(shù)據(jù)集已在GitHub全面上傳。

除本體外,OpenAI還引入了HealthBench 的兩種變體——HealthBenchConsensusHealthBenchHard。

HealthBench Consensus的回答經(jīng)過絕大多數(shù)醫(yī)生驗證,幾乎保證了答案的準確度。HealthBench Hard則優(yōu)選其中 1,000 高難度問題,即使是最好的模型在該標準中得分率也僅為32%,也是AI可以努力的重要方向。

可以說,HealthBench重新定義了AI在醫(yī)療領(lǐng)域的評估方式——轉(zhuǎn)向了以大模型為基礎(chǔ)的現(xiàn)實世界評估,這也是打造AGI的重要工具。

而隨著時間的推移,大型語言模型已經(jīng)有了顯著的改進,并且在編寫基準測試的答案已經(jīng)優(yōu)于人類專家。

不止于此,當前表現(xiàn)最優(yōu)的AI仍然有很大的改進空間。

而該評價體系的發(fā)布,有望幫助整個行業(yè)和學(xué)界打造出更好的醫(yī)療模型,改善人類健康。

—The End—


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
FIFA官方:北京國安、武漢三鎮(zhèn)已解除轉(zhuǎn)會禁令

FIFA官方:北京國安、武漢三鎮(zhèn)已解除轉(zhuǎn)會禁令

懂球帝
2025-07-17 07:31:42
亞馬爾在社媒上發(fā)了一張自己的10號球衣照片,不久便刪除

亞馬爾在社媒上發(fā)了一張自己的10號球衣照片,不久便刪除

懂球帝
2025-07-16 23:02:56
褲子那里鼓鼓的,當代都市麗人都被女裝做局了

褲子那里鼓鼓的,當代都市麗人都被女裝做局了

網(wǎng)易上流
2025-07-10 09:32:02
日本統(tǒng)計中國戰(zhàn)機數(shù)量,殲-20僅服役230架,年產(chǎn)量更是只有30架

日本統(tǒng)計中國戰(zhàn)機數(shù)量,殲-20僅服役230架,年產(chǎn)量更是只有30架

頭條爆料007
2025-07-16 20:12:21
14年前,那個倒貼3套房,嫁到河南農(nóng)村的港姐郭羨妮,如今怎樣了

14年前,那個倒貼3套房,嫁到河南農(nóng)村的港姐郭羨妮,如今怎樣了

每日一見
2025-06-15 12:15:15
中央第四指導(dǎo)組和工信部聯(lián)合調(diào)研組赴上海、江蘇調(diào)研重點問題整治情況

中央第四指導(dǎo)組和工信部聯(lián)合調(diào)研組赴上海、江蘇調(diào)研重點問題整治情況

界面新聞
2025-07-14 21:49:00
楊瀚森:教練讓我擋完拆下順,我實在不想動就拉出來投三分

楊瀚森:教練讓我擋完拆下順,我實在不想動就拉出來投三分

雷速體育
2025-07-16 15:05:34
不陪她玩兒了!這一次全世界都不再寬容“一條道走到黑”的趙露思

不陪她玩兒了!這一次全世界都不再寬容“一條道走到黑”的趙露思

大笑江湖史
2025-07-17 07:40:35
MPV市場變天了!1-6月銷量:賽那丟冠,別克GL8第5,理想MEGA第22

MPV市場變天了!1-6月銷量:賽那丟冠,別克GL8第5,理想MEGA第22

趣味萌寵的日常
2025-07-15 16:39:03
部級大佬被抓時攜女人叛逃海外,躲藏十年,傳言死于澳大利亞街頭

部級大佬被抓時攜女人叛逃海外,躲藏十年,傳言死于澳大利亞街頭

阿胡
2024-06-24 13:38:46
陳熠奪金失利僅過十小時,令人反感的一幕出現(xiàn),樊振東的言論正確

陳熠奪金失利僅過十小時,令人反感的一幕出現(xiàn),樊振東的言論正確

畫夕
2025-07-16 23:59:54
官方:C羅當選2024-25賽季沙特聯(lián)賽球迷票選最佳球員

官方:C羅當選2024-25賽季沙特聯(lián)賽球迷票選最佳球員

懂球帝
2025-07-16 19:27:34
男子和富婆相親,女方只找生理性搭子不結(jié)婚,網(wǎng)友:這誰頂?shù)米?>
    </a>
        <h3>
      <a href=辣媒專欄記錄
2025-07-16 11:30:03
大反轉(zhuǎn),浙江人挺?。”┯?,10級雷雨大風!第6號臺風“韋帕”有新消息...

大反轉(zhuǎn),浙江人挺住!暴雨,10級雷雨大風!第6號臺風“韋帕”有新消息...

浙江之聲
2025-07-16 19:11:07
一旦中國被拉入戰(zhàn)爭中,8個省份將成為堅強后盾,誰排第一?

一旦中國被拉入戰(zhàn)爭中,8個省份將成為堅強后盾,誰排第一?

時光琉影8
2025-06-21 13:26:32
我被撤銷市長的職務(wù)后,回到老家被人欺負,半年后我擔任市委書記

我被撤銷市長的職務(wù)后,回到老家被人欺負,半年后我擔任市委書記

喬生桂
2025-07-13 15:51:55
18歲黃多多正式官宣出道,內(nèi)娛小花們集體瑟瑟發(fā)抖!

18歲黃多多正式官宣出道,內(nèi)娛小花們集體瑟瑟發(fā)抖!

玥來玥好講故事
2025-05-19 21:20:33
公公70大壽20個人點15瓶五糧液,當眾喊我買單,我假裝付錢拿包就走

公公70大壽20個人點15瓶五糧液,當眾喊我買單,我假裝付錢拿包就走

今天說故事
2025-07-16 17:57:32
綜藝里稱兄道弟!現(xiàn)實中互踩互黑,這兩人早該撕破臉了!

綜藝里稱兄道弟!現(xiàn)實中互踩互黑,這兩人早該撕破臉了!

天行艦
2025-06-30 06:13:43
案例:湖南一寡婦打麻將時,無意看見9年前被丈夫殺害的人還活著

案例:湖南一寡婦打麻將時,無意看見9年前被丈夫殺害的人還活著

墨染塵香
2024-07-05 14:14:02
2025-07-17 08:28:49
智藥局 incentive-icons
智藥局
我們更懂藥物創(chuàng)新
734文章數(shù) 133關(guān)注度
往期回顧 全部

科技要聞

美團外賣大戰(zhàn)總指揮:不想卷 但不能不反擊

頭條要聞

媒體:黃楊鈿甜"耳環(huán)"事件 一場質(zhì)疑與謠言茍合的鬧劇

頭條要聞

媒體:黃楊鈿甜"耳環(huán)"事件 一場質(zhì)疑與謠言茍合的鬧劇

體育要聞

不給楊瀚森傳球,他有自己的理由

娛樂要聞

都美竹將參加綜藝,單身媽媽發(fā)文抵制

財經(jīng)要聞

探究萬億市場的休閑零食

汽車要聞

理想i8內(nèi)飾官圖公布 李想回應(yīng)"被打臉"

態(tài)度原創(chuàng)

親子
教育
房產(chǎn)
時尚
家居

親子要聞

強者從不抱怨環(huán)境 更不怨懟不理解自己的人

教育要聞

全等三角形動點問題,方法大總結(jié)!

房產(chǎn)要聞

三亞又有好地要賣,起拍樓面價飆到了1.6萬/㎡!

今年夏天流行的“多巴胺運動鞋”太時髦了,誰穿誰好看!

家居要聞

浪漫典雅 法式風格別墅

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 赣榆县| 漠河县| 马尔康县| 武城县| 章丘市| 扶绥县| 三河市| 寿光市| 墨竹工卡县| 昌都县| 阿城市| 平和县| 峨眉山市| 贵定县| 赤壁市| 江津市| 陇南市| 博野县| 曲阳县| 赤城县| SHOW| 张北县| 临城县| 澄迈县| 介休市| 辽宁省| 五莲县| 华池县| 贵阳市| 石门县| 运城市| 全州县| 长岭县| 城口县| 高邑县| 咸阳市| 六安市| 古浪县| 东明县| 洞头县| 镇沅|