99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

o3完爆人類醫生,OpenAI基準直擊AGI!

0
分享至


新智元報道

編輯:桃子 KingHZ

【新智元導讀】OpenAI發布新基準HealthBench,聯手60個國家262名執業醫生,樹立新的「AGI標志性用例」。OpenAI o3碾壓Grok 3和Gemini 2.5 Pro,成功登頂。而最強AI幾乎達到了人類醫生最佳水平!

最強AI,已擊敗了人類醫生。


就在剛剛,全球60個國家,262名執業醫生共同上陣,聯手OpenAI打造出「最具AGI標志性」的AI健康系統評估標準——HealthBench。

這個基準包含了5,000個基于現實場景的健康對話,每個對話都有醫生定制的評分標準,來評估模型的響應。


論文地址:https://cdn.openai.com/pdf/bd7a39d5-9e9f-47b3-903c-8b847ca650c7/healthbench_paper.pdf

在參戰的所有頂尖模型中,o3拿下了最高分,Grok 3位列第二,Gemini 2.5 Pro位列第三。

值得一提的是,在AI輔助下,醫生的診斷準確率提升了近4倍。甚至,o3、GPT-4.1回答質量超越了醫生的水平。


人類免疫學家Derya Unutmaz高度評價道,「這個關鍵的評估基準,將為AI醫生鋪平道路。我們現在正處于一場改變醫學未來,拯救數百萬人生命的革命開端」。


AGI關鍵要素,

醫療AI「標尺」

OpenAI的Health AI團隊負責人Karan Singhal,在X上介紹了HealthBench的特點,并給予了極大的期待:

希望這項工作的發布,能為AI朝著改善人類健康的方向發展提供有力引導。


改善人類健康,將是通用人工智能(AGI)最具決定性的影響之一

但要實現這一目標,必須確保模型既有用又安全。專業評估對理解模型在醫療場景中的表現至關重要。

盡管學術界和產業界已付出巨大努力,但現有評估體系仍存在三大局限:

未能還原真實醫療場景、

缺乏基于專家意見的嚴格驗證、

難以為前沿模型提供提升空間。

OpenAI團隊秉持AI在醫療領域評估的三大核心信念,由此設計出HealthBench:

  • 有現實意義(Meaningful):評分應反映真實世界影響。突破傳統考試題的局限,精準捕捉患者與臨床工作者使用模型時的復雜現實場景和工作流程。

  • 值得信賴(Trustworthy):評分須真實體現醫師判斷。評估標準必須符合醫療專業人員的核心訴求與行業規范,為AI系統優化提供嚴謹依據。

  • 未飽和(Unsaturated):基準測試應推動進步。現有模型必須展現顯著改進空間,持續激勵開發者提升系統性能。

在過去一年中,OpenAI與來自26個醫學專業、在60個國家(如下所示)擁有執業經驗的262名醫師合作,共同構建了HealthBench評估體系。


HealthBench主要面向兩個群體:

1. AI研究社區:旨在推動形成統一的評估標準,激勵開發出真正有益于人類的模型

2. 醫療領域:提供高質量的證據,幫助更好地理解當前和未來AI在醫療中的應用場景與局限性

與以往那些評估維度較為單一的醫療基準不同,HealthBench支持更具實際意義的開放式評估。

新研究有很多有趣的發現,包括醫生評分基線研究等。

o3沖榜

媲美人類醫生

這項健康基準HealthBench提出的主要目的,便是為當前,甚至未來頂尖LLM提供性能可參考依據。

在研究中,OpenAI團隊評估了多個模型,包括o3、Grok 3、Claude 3.7 Sonnet等,重點考察其在性能、成本和可靠性方面的表現。

性能

根據現實世界健康場景的不同子集,即「主題」,以及體現模型行為的不同維度,即「軸」,所有模型進行PK。

整體來看,o3表現最佳,超越了Claude 3.7 Sonnet和Gemini 2.5 Pro(2025年3月)。



此外,在最近幾個月里,OpenAI前沿模型在HealthBench上的表現提高了28%。

這一提升,對模型的安全性和性能來說,比GPT-4o(2024年8月)和GPT-3.5 Turbo之間的提升更大。

成本

接下來,研究團隊還在模型大小和測試時計算scaling軸上,研究了模型的成本與性能。

可以看到,4月份OpenAI發布的模型(o3,o4-mini,GPT?4.1),刷新了性能成本SOTA。

研究還觀察到,小模型在最近幾個月里,得到了顯著的改進,

盡管成本僅為GPT-4o(2024年8月版)的1/25,GPT-4.1 nano的表現仍優于后者。


比較低、中、高推理水平下的o3、o4-mini和o1模型,結果顯示測試時計算能力有所提高。

其中,o3與GPT-4o之間的性能差距(0.28)甚至超過了GPT-4o與GPT-3.5 Turbo之間的差距(0.16)。


可靠性

在醫療領域,可靠性至關重要——一次錯誤回應可能抵消許多正確回答。

因此,OpenAI在HealthBench上評估了各模型在k個樣本下的最差表現(worst-of-n performance)。

也就是說,在給定示例的n個響應中,最差的得分是多少?

結果發現,o3模型在16個樣本時的最差分數超過GPT-4o的兩倍,展現出更強的穩健性和下限表現。


HealthBench系列

此外,OpenAI還推出了HealthBench系列的兩個新成員:HealthBench Hard和HealthBench Consensus。

· HealthBench Hard專為更高難度場景設計,問題更具挑戰性;

· HealthBench Consensus由多位醫生共同驗證,確保評估標準的專業性和一致性

o3和GPT-4.1在HealthBench Consensus錯誤率,比GPT-4o顯著降低。


在HealthBench Hard上,表現最好的模型得分僅為32%,這表明它為下一代模型提供了一個有意義且具挑戰性的目標。


AI與醫生正面交鋒

那么,這些大模型能夠媲美,甚至超越人類醫生的專業判斷?

為此,OpenAI在研究還展開了一場人機對決測試。

262名專業醫生被分為了兩組:

· 一組醫生可以在不使用AI工具的情況下查閱網絡資源,撰寫最佳回答。

· 另一組醫生則可以參考OpenAI的模型生成回答,自由選擇直接修改或完全重寫,提供更高質量的回復。

隨后,研究團隊將這些醫生撰寫的回答與AI模型的回答進行評分對比,評估它們在準確性、專業性和實用性等方面的表現。

關鍵發現如下:

2024年9月模型

在測試o1-preview、4o時,他們發現僅依靠AI生成回答,優于沒有參考任何AI醫生的回答。

更令人振奮的是,當醫生參考AI回答并加以優化后,他們的回答質量顯著超越了AI模型本身。

這表明,人類醫生的專業判斷,在AI輔助下能產生最佳效果


2025年4月模型

這次實驗中,研究人員讓醫生參考最新o3、GPT-4.1模型的回答,試圖進一步提升回答質量。

然而,結果令人意外:

醫生的優化回答與AI原始回答相比,質量上沒有顯著提升。

而當前,AI模型已足夠強大,其回答質量幾乎達到了人類醫生最佳水平。

GPT-4.1參評

遠超人類平均水平

為檢驗基于模型的評分器能否精準評判評分標準(rubric criteria),OpenAI邀請醫生對HealthBench Consensus中的模型回答予以審閱,以確定這些回答是否符合相應評分標準。

基于這些醫生的反饋,研究團隊構建了所謂的「元評估」(meta-evaluation),即評估模型評分與醫生判斷之間的一致性,重點衡量以下兩點:

1.模型評分器與醫生之間的一致性:模型在判斷一個評分標準是否被滿足時,是否與醫生達成一致;

2.醫生之間的一致性:多位醫生對同一模型回應的評分是否一致。

評估結果表明,模型評分器與醫生之間的配對一致性程度,和醫生之間的配對一致性程度相當

這說明HealthBench使用的模型評分方法在很大程度上能夠代替專家評分,具有可信度和專業性


基線模型

OpenAI將34條共識評分標準的數據按七大主題進行分組,評估模型評分器與醫生評分之間的一致性,并通過三種方式建立對照基線:

(1)典型醫生(Typical physician)

為了估計人類專家之間的評分一致性,需要對比每位醫生的評分與其他醫生的評分,并計算MF1分數。

也就是,用與模型相同的方式對醫生進行評分,僅統計該醫生參與評估的對話示例,且不使用該醫生自己的評分作為參考。

注釋:在分類任務中,宏平均F1分數(Macro F1,簡稱MF1)是對每個類別的F1分數進行不加權平均的結果。

MF1適用于類別不平衡的元評估(meta-evaluation)任務。

表5按主題報告了加權平均的醫生MF1分數,權重基于每位醫生參與的元示例數量。


(2)個體醫生(Individual physician)

OpenAI還在每個主題下報告了每位醫生的MF1分數

圖12展示了這些醫生評分分數的分布情況。


(3)通過這些個體分數,模型評分器在每個主題下的MF1分數被表示為醫生分布中的百分位數,以更直觀地理解模型評分表現在「人類專家水平」中所處的位置。

這些基線設定讓我們能夠客觀評估模型評分系統的可靠性,驗證其是否達到了與醫生相當的專業判斷水平。

結果:GPT-4.1遠超普通醫生

如表5所示,在所有主題上,GPT-4.1作為評分模型的表現均明顯優于隨機基線

更具體地說:

  • 7個主題中的5個中,GPT-4.1的評分表現超過了醫生平均水平

  • 6個主題中,GPT-4.1的表現處于醫生評分分布的上半區間

  • 所有主題中,GPT-4.1的評分能力都高于醫生群體的下三分之一(33百分位)

這些結果說明,GPT-4.1作為基于模型的評分器,其表現已能與醫生專家的評估相媲美

從圖12可以看到,不同醫生之間的評分表現差異顯著,說明醫生間本身也存在一定主觀性和評分風格的差異。

總的來說,只要滿足以下條件,基于模型的評分系統可以與專家評分一樣可靠

基礎數據真實、多樣且注釋充分;

元評估設計合理;

評分提示(prompt)和評分模型經過精心挑選。

由于GPT-4.1在無需復雜推理模型帶來的高成本和延遲的情況下,就已達到了醫生級別的一致性表現,因此它被設置為HealthBench的默認評分模型

模擬真實場景,多維度評估

結合模型合成生成與人工對抗測試方式,OpenAI創建了HealthBench,力求貼近真實場景,模擬真實世界中人們使用大模型的情況。

對話具有以下特點:

  • 多輪交互,更符合自然對話流程

  • 多語言支持,覆蓋不同語言背景

  • 角色多樣,既包括普通用戶,也包括醫生

  • 涵蓋多個醫學專業領域與場景

  • 精心挑選,具有一定難度,避免模型輕松「答對」

這個基準的目標是推動更真實、更全面的AI健康對話能力評估,讓模型在實用性與安全性之間達到更好的平衡。

HealthBench使用「評分標準式評估」(rubric evaluation)方法:每個模型回答都會根據該對話特定的、由醫生撰寫的評分標準進行打分

這些評分標準詳細說明了「完美回應」應包含哪些信息,或應避免哪些內容,比如:應提及某個醫學事實,或避免使用不必要的術語。

每一條評分標準都有對應的分值權重,根據醫生判斷該標準在整體回答中的重要性而設定。

整個HealthBench數據集中包含48,562條獨立評分標準。

HealthBench中的對話被劃分為七大主題,例如急診應對不確定性全球健康等。

每個主題下都包含多個相關示例,每個示例都配有對應的評分標準(rubric criteria)

以下是一些數據集的示例。




左右滑動查看

每一條評分標準都對應一個評估維度(axis),用于界定該標準評估的是模型行為的哪個方面,例如:

  • 準確性(accuracy)

  • 溝通質量(communication quality)

  • 信息查找與澄清能力(context seeking)

這種結構化的設計,讓HealthBench能夠細致、多角度地評估AI模型在不同醫療場景中的表現,反映在實際應用中的可靠性與實用性

模型的回答由GPT-4.1擔任評分者,根據每項評分標準判斷是否達成,并根據滿足標準的總得分與滿分比值,給出整體評分。


HealthBench涵蓋了廣泛的醫學專科領域,包括:

麻醉學、皮膚病學、放射診斷學、急診醫學、家庭醫學、普通外科、內科、介入與放射診斷學、醫學遺傳與基因組學、神經外科、神經內科、核醫學、婦產科學、眼科學、骨科、耳鼻喉科、病理學、兒科學、物理醫學與康復、整形外科、精神病學、公共衛生與預防醫學、放射腫瘤學、胸外科、泌尿外科、血管外科。

這些專科的覆蓋確保了HealthBench在臨床廣度和專業深度上的嚴謹性。

整個HealthBench構建過程涵蓋了重點領域篩選、生成相關且具有挑戰性的案例樣本、案例標注以及各個環節的驗證工作。

參考資料:

https://openai.com/index/healthbench/

https://cdn.openai.com/pdf/bd7a39d5-9e9f-47b3-903c-8b847ca650c7/healthbench_paper.pdf

https://x.com/iScienceLuvr/status/1922013874687246756

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
重慶三峽學院花75萬買299元路由器,中標企業注冊地址是村民家

重慶三峽學院花75萬買299元路由器,中標企業注冊地址是村民家

界面新聞
2025-05-12 14:11:10
李月汝基本鎖定揭幕戰名單!WNBA風暴隊“連續裁員”陣容僅剩11人

李月汝基本鎖定揭幕戰名單!WNBA風暴隊“連續裁員”陣容僅剩11人

狼叔評論
2025-05-13 11:26:06
35歲光棍迎娶20歲非洲黑人,結果入洞房那晚床上被子隆起一個大包

35歲光棍迎娶20歲非洲黑人,結果入洞房那晚床上被子隆起一個大包

濤哥講堂
2025-03-25 10:24:33
那些被中考分流的孩子,都怎么樣了?東莞一段視頻,真相扎心

那些被中考分流的孩子,都怎么樣了?東莞一段視頻,真相扎心

趣文說娛
2025-05-13 10:03:00
驚天反轉!王思聰承認女兒存在,不用親子鑒定,閃閃可享千億繼承

驚天反轉!王思聰承認女兒存在,不用親子鑒定,閃閃可享千億繼承

八星人
2025-05-12 16:12:06
“三天是男人的極限”,女孩謊稱提前開學去見男友,網友直接舉報

“三天是男人的極限”,女孩謊稱提前開學去見男友,網友直接舉報

妍妍教育日記
2025-02-09 22:58:40
又一鄧文迪!90后東北女孩拿下80歲全球第二富豪,她怎么上位的?

又一鄧文迪!90后東北女孩拿下80歲全球第二富豪,她怎么上位的?

南南說娛
2025-04-28 16:59:56
最新海外銷量:零跑汽車位居2025年1月-4月新勢力出口冠軍

最新海外銷量:零跑汽車位居2025年1月-4月新勢力出口冠軍

金融界
2025-05-13 18:53:22
曝河海大學教授性騷擾女博士,大尺度聊天記錄流出,雙方照片曝光

曝河海大學教授性騷擾女博士,大尺度聊天記錄流出,雙方照片曝光

博士觀察
2025-05-12 23:37:59
福建8歲男童失蹤第十天,矛頭直指當地守山村民,或已被收留?

福建8歲男童失蹤第十天,矛頭直指當地守山村民,或已被收留?

曉風說
2025-05-13 14:16:24
聯盟懲罰?戰績倒數第一的球隊已連續三年抽到最差的第五順位

聯盟懲罰?戰績倒數第一的球隊已連續三年抽到最差的第五順位

直播吧
2025-05-13 08:04:11
扎哈羅娃:西方國家支持烏30天停火呼吁旨在助其重整軍備

扎哈羅娃:西方國家支持烏30天停火呼吁旨在助其重整軍備

財聯社
2025-05-13 04:06:19
在岸人民幣兌美元北京時間16:30官方收報7.2012,較上一交易日官方收盤價漲120點

在岸人民幣兌美元北京時間16:30官方收報7.2012,較上一交易日官方收盤價漲120點

每日經濟新聞
2025-05-13 16:41:37
美的集團收購喜德瑞中國現有業務 八喜、伯爵等品牌在列

美的集團收購喜德瑞中國現有業務 八喜、伯爵等品牌在列

新京報
2025-05-13 09:22:11
賴清德,恐成為新中國歷史上,唯一在任上出事的臺灣地區領導人

賴清德,恐成為新中國歷史上,唯一在任上出事的臺灣地區領導人

紅色鑒史官
2025-05-12 19:05:03
阿里巴巴全球總部1:1復刻“湖畔小屋”,馬云現身揭幕

阿里巴巴全球總部1:1復刻“湖畔小屋”,馬云現身揭幕

GA環球建筑
2025-05-12 19:45:39
小米這個大瓜,終于有后續了

小米這個大瓜,終于有后續了

鋒潮評測
2025-05-13 16:00:04
芯片法案被叫停,特朗普不想買賬

芯片法案被叫停,特朗普不想買賬

南風窗
2025-05-13 12:01:48
各國航天局失眠:中國黑科技如何讓98.7%的報廢衛星“起死回生”

各國航天局失眠:中國黑科技如何讓98.7%的報廢衛星“起死回生”

李砍柴
2025-05-12 00:00:16
俄軍師長確認陣亡,澤連斯基親授戰旗,父子“烏克蘭英雄”

俄軍師長確認陣亡,澤連斯基親授戰旗,父子“烏克蘭英雄”

鷹眼Defence
2025-05-10 18:03:44
2025-05-13 19:48:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12694文章數 66033關注度
往期回顧 全部

科技要聞

京東Q1營收3011億同比增15.8% 凈利109億

頭條要聞

特朗普稱中美談判成果有利于"統一與和平" 臺當局急了

頭條要聞

特朗普稱中美談判成果有利于"統一與和平" 臺當局急了

體育要聞

離開曼聯,他在馬拉多納的城市成為明星

娛樂要聞

張柏芝母親節上熱搜!3個兒子引熱議

財經要聞

匯源澄清破產傳聞背后:債臺高筑對賭承壓

汽車要聞

或2027年發布 全新寶馬1系假想圖曝光

態度原創

藝術
本地
健康
數碼
公開課

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

春色滿城關不住|溪水浣青苔 鐘乳洞藏多少光陰

唇皰疹和口腔潰瘍是"同伙"嗎?

數碼要聞

LG OLED B5 系列電視開售:120Hz OLED 屏,補貼后 5999 元起

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 古田县| 舒兰市| 鹤庆县| 灵台县| 大关县| 柘荣县| 贡觉县| 武安市| 洛隆县| 武夷山市| 上蔡县| 沙湾县| 虞城县| 乐清市| 肥乡县| 南安市| 明溪县| 常德市| 庄浪县| 秭归县| 宝坻区| 东阳市| 当雄县| 蒙自县| 乾安县| 丹阳市| 威远县| 金乡县| 探索| 阳西县| 顺义区| 江口县| 岳阳市| 景洪市| 墨脱县| 东港市| 肃南| 定远县| 惠来县| 东源县| 安塞县|