99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

專業醫生遠不如AI模型?OpenAI推出醫療開源測試基準HealthBench,o3表現最強

0
分享至


OpenAI推出 HealthBench開源基準測試:一項旨在更好地衡量 AI 系統在醫療健康領域能力的全新基準測試


HealthBench 由 262 位在 60 個國家/地區執業的醫生合作打造 ,包含 5,000 段真實的健康對話,與以前的狹窄基準不同,HealthBench 通過 48,562 個獨特的醫生編寫的評分標準進行有意義的開放式評估,涵蓋多個健康背景(例如,緊急情況、全球健康)和行為維度(例如,準確性、遵循指示、溝通)


blog:

https://openai.com/index/healthbench/

論文:

https://cdn.openai.com/pdf/bd7a39d5-9e9f-47b3-903c-8b847ca650c7/healthbench_paper.pdf

代碼:

https://github.com/openai/simple-evals

OpenAI自家模型評估表現如下:

o3綜合表現最佳,得分超過60%



這次評測就特別關注了“最壞情況下的表現”。結果發現,在HealthBench的16個樣本測試中,o3模型在應對這些‘最差情況’時取得的分數,是GPT-4o的兩倍以上, 這說明o3在極端或復雜情況下的表現更穩健,更能兜底


HealthBench家族還推出了兩個“硬骨頭”:

HealthBench Hard:顧名思義,難度爆表。目前最頂尖的o3模型,在這上面也只能拿到32%的分數


HealthBench Consensus:這個基準的特色是經過了專業醫生的驗證。確保模型得分高低,真的能反映臨床醫生的判斷水平

HealthBench評測靠譜嗎?數據說話!

這HealthBench的評分,到底能不能代表真實水平?

官方也給出了答案。他們在HealthBench Consensus上,把模型自動打分的結果和真人醫生的評分做了對比。發現在總共7個評估領域中,有6個領域,模型的打分結果和中位數水平醫生的判斷高度一致



AI vs 醫生:誰更強?

HealthBench還做了一項有意思的實驗:讓人類醫生來回答這些問題。

無AI輔助 vs AI:

在沒有AI參考的情況下,即便是專業醫生寫的回復,在HealthBench上的得分也相對較低(得分0.13),遠不如AI模型。當然,這可能和醫生不習慣這種評測形式、回復偏簡潔有關

有AI輔助:

當給醫生提供2024年9月水平的模型(GPT-40/o1-preview)的回復作為參考時,醫生能在其基礎上進行修改和提升(得分從0.28提升到0.31),尤其在完整性和準確性上

但當給醫生提供2025年4月水平的模型(GPT-4.1/o3)的回復時,醫生幾乎無法在其基礎上做出有效改進(得分都是0.49左右,醫生修改后甚至在某些方面略有下降)


頂尖AI模型在處理這類任務上的能力已經達到了相當高的水準,甚至超出了無輔助的人類專家,并且對于最新的模型,即使是專家也很難再“錦上添花”

以下是HealthBench論文詳細解讀:


大家都知道,AI尤其大語言模型(LLM)在醫療領域潛力巨大,從輔助診斷到健康咨詢,想象空間無限。但醫療是人命關天的領域,模型稍有差池,后果不堪設想

問題來了:我們怎么知道哪個模型更靠譜?

現有的評估方法,很多都差點意思,主要有三大痛點:

不夠“有意義” (Meaningful):很多評估還在用選擇題、填空題,跟醫生、患者真實交流的開放式、動態場景差太遠。分數高,不代表真能解決實際問題

不夠“可信” (Trustworthy):很多評估缺乏專業的醫生判斷作為“金標準”。模型說自己好,醫生認嗎?

不夠“有挑戰” (Unsaturated):有些老舊的基準測試,頂尖模型早就“考滿分”了,區分不出好壞,也無法激勵模型繼續進步

HealthBench:更真實、更專業、更有區分度

為了解決這些痛點,OpenAI聯合了來自全球60個國家、26個專業的262名醫生,耗時11個月,精心打造了HealthBench

它有啥不一樣?

真實場景對話:包含5000個真實的、多輪的醫患或醫醫對話場景。不再是簡單的問答,而是模擬真實互動

醫生定制“評分標準”:每個對話都有由醫生專門編寫的、極其細致的“評分細則”(Rubric)。總共包含了48,562條獨特的評分標準!這些標準非常具體,比如“是否提到了某個關鍵副作用”、“溝通是否清晰易懂”、“是否注意到了用戶的特殊情況”等等,有加分項也有減分項 (-10到+10分)

智能+專家驗證的評分:使用一個經過驗證的模型(GPT-4.1)作為“評分員”,對照醫生寫的評分細則,給模型的回復打分。這保證了大規模評估的可行性,同時信度也經過了與醫生評分的比對驗證(后面會細說)

覆蓋廣泛且深入:

七大主題 (Themes): 覆蓋了急診分流、全球健康、處理不確定性、專業溝通、上下文理解、醫療數據任務、回復深度等關鍵醫療交互場景

五大行為維度 (Axes): 從準確性 (Accuracy)、完整性 (Completeness)、溝通質量 (Communication quality)、上下文意識 (Context awareness)、指令遵循 (Instruction following) 五個角度全面考察模型行為

簡單說,HealthBench就是想用一套更接近真實世界醫療需求的“模擬考”,來檢驗AI模型的“醫術”和“醫德”
HealthBench上的模型表現:進步神速,但挑戰仍在

OpenAI在HealthBench上評估了一系列自家和別家的模型,結果很有看點:

1.模型進步飛快:

從GPT-3.5 Turbo的16%得分,到GPT-40的32%,再到最新o3模型的60%!進步速度,尤其是近期的提升,非常顯著

看性能-成本前沿 ,新的模型(如o3, o4-mini, GPT-4.1)不僅性能更強,而且在不同成本檔位上都定義了新的標桿

特別亮眼的是小模型的崛起:GPT-4.1 nano的性能居然超過了2024年8月發布的GPT-40,而且便宜了整整25倍!這意味著高性能AI醫療輔助未來可能更加普惠

2.強項與軟肋并存 :

模型在“急診分流”、“專業溝通”這類主題上普遍得分較高

但在需要主動“尋求上下文信息” (Context seeking)、處理“醫療數據任務”和“全球健康”場景下,表現相對落后。這說明模型在信息不全時主動追問、處理結構化數據、適應不同地域醫療環境方面,還有很大提升空間

從行為維度看,“完整性” (Completeness) 和“上下文意識”是普遍的失分點,而準確性相對較好。

3.可靠性提升,但離“萬無一失”還遠 :

醫療場景不能只看平均分,一次“翻車”就可能造成嚴重后果。HealthBench引入了“最差情況下的表現”(worst-at-k)評估

結果顯示,新模型(如o3)的可靠性比老模型(如GPT-40)提升了一倍多

但即使是最好的o3模型,在重復測試16次的最差情況下,得分也會從60%掉到約40%,說明在某些難題上,模型表現仍不穩定,需要持續改進

4.模型變強,不只因為“話癆” :

有人擔心模型分高是不是純靠回復長、顯得全面?HealthBench做了對比

結果顯示,新模型得分高,確實部分因為回復更詳細周到,但更重要的是模型本身能力的提升。即使控制回復長度相近,強模型依然優勢明顯。

兩個特別版:聚焦關鍵問題和未來挑戰

HealthBench還推出了兩個特別版本:

HealthBench Consensus (共識版):只包含34個被多位醫生一致認為極其重要、且達成共識的關鍵評分標準(比如,在緊急情況下是否清晰建議立即就醫)。這部分錯誤率極低,更聚焦于模型的“底線安全”。數據顯示,模型在這方面的錯誤率已從GPT-3.5時代大幅降低了超過4倍 ,但像“尋求上下文”、“處理不確定性”等方面仍有改進空間

HealthBench Hard (困難版):精選了1000個對當前最強模型來說也極具挑戰性的難題。目前最強的o3模型在此得分僅為32% ,為下一代模型的突破留足了空間,堪稱“攻堅靶場”

評分模型靠譜嗎?元評估告訴你

用模型給模型打分,這個“裁判”自己公正嗎?HealthBench對此進行了“元評估”(Meta-evaluation),專門針對HealthBench Consensus中的標準進行

他們比較了模型評分員(GPT-4.1)的打分結果和多位醫生的打分結果的一致性(用Macro F1分數衡量)


結果顯示:

GPT-4.1評分員的表現,在7個主題中的5個超過了醫生的平均水平

在所有主題上,其表現都處于醫生群體中的中上游水平(超過了51.5%到88.2%的醫生)


整體評分的波動性很小(標準差約0.002),說明結果穩定

結論:精心選擇和調優后的模型評分員,其評分能力和一致性可以媲美人類專家,是可靠的

當然HealthBench也有局限,比如醫生間本身就存在觀點差異,評分細則無法做到對每個案例都100%完美覆蓋。

更多細節:

HealthBench的數據和代碼已經在GitHub上開源:

https://github.com/openai/simple-evals

?星標AI寒武紀,好內容不錯過?

用你的在看告訴我~

求贊

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
百萬充電寶集體爆雷?罪魁禍首可能還是它

百萬充電寶集體爆雷?罪魁禍首可能還是它

機智貓
2025-06-23 17:44:29
看了45歲秦嵐的穿搭,我悟了:灰色不配亮色、白色,才更時髦減齡

看了45歲秦嵐的穿搭,我悟了:灰色不配亮色、白色,才更時髦減齡

蓓小西
2025-06-24 11:11:03
中國工程界最大烏龍!研究沙漠種小麥技術,卻意外解開1世界難題

中國工程界最大烏龍!研究沙漠種小麥技術,卻意外解開1世界難題

紅豆講堂
2024-09-07 09:56:30
2.8萬轉運費后續!唐先生要求患者網友刪質疑視頻,想降低影響…

2.8萬轉運費后續!唐先生要求患者網友刪質疑視頻,想降低影響…

火山詩話
2025-06-23 05:54:15
面相變了!看紅毯上“盡顯東方女人魅力”的劉詩詩,劉濤真說對了

面相變了!看紅毯上“盡顯東方女人魅力”的劉詩詩,劉濤真說對了

史書無明
2025-06-24 13:04:39
中國女排傳來三大喜訊!張籽萱入選最佳二傳,吳夢潔恢復上場

中國女排傳來三大喜訊!張籽萱入選最佳二傳,吳夢潔恢復上場

啊噠體育
2025-06-24 01:22:19
俄羅斯真理報:中國在中東危機中創下石油儲備紀錄

俄羅斯真理報:中國在中東危機中創下石油儲備紀錄

現代春秋
2025-06-23 20:15:55
關注!美國務院提醒全球美國公民及綠卡持有人

關注!美國務院提醒全球美國公民及綠卡持有人

華人生活網
2025-06-24 05:04:55
特朗普高興早了,伊以停火后,伊朗國內,出現兩大“新情況”

特朗普高興早了,伊以停火后,伊朗國內,出現兩大“新情況”

二月侃事
2025-06-24 12:57:58
世俱杯16強已出爐8席!剩余13支球隊爭奪最后8個席位

世俱杯16強已出爐8席!剩余13支球隊爭奪最后8個席位

直播吧
2025-06-24 11:20:21
為什么中國不學外國直接給老百姓發錢,而是喜歡搞各種“國補”?

為什么中國不學外國直接給老百姓發錢,而是喜歡搞各種“國補”?

李昕言溫度空間
2025-06-23 11:27:12
海南17歲漂亮高一女學生失聯最新消息:萬泉河發現女尸,在做DNA

海南17歲漂亮高一女學生失聯最新消息:萬泉河發現女尸,在做DNA

小人物看盡人間百態
2025-06-23 22:07:35
王偉、宋佳低調結婚,地域文化增默契,隱婚狀態引多方關注

王偉、宋佳低調結婚,地域文化增默契,隱婚狀態引多方關注

很哥
2025-06-23 19:42:45
眾星回應唐佳跳樓自殺,黃宗澤以父子相稱,曝生前患病為雪妮殉情

眾星回應唐佳跳樓自殺,黃宗澤以父子相稱,曝生前患病為雪妮殉情

農村教育光哥
2025-06-24 09:43:27
穿瑜伽褲怎么避免三角區尷尬?女菩薩紛紛曬圖結果評論區都被看透了哈哈

穿瑜伽褲怎么避免三角區尷尬?女菩薩紛紛曬圖結果評論區都被看透了哈哈

經典段子
2025-06-23 23:26:05
你遇到過超級主動的女生是啥樣?網友:為什么沒有女人主動接近我

你遇到過超級主動的女生是啥樣?網友:為什么沒有女人主動接近我

娛樂圈人物大賞
2025-04-10 00:30:23
島內民調顯示:94%網友將投“不同意罷免”

島內民調顯示:94%網友將投“不同意罷免”

參考消息
2025-06-23 11:45:25
中央督察組再點名山東:多市大氣污染防治工作存在短板

中央督察組再點名山東:多市大氣污染防治工作存在短板

觀察者網
2025-06-23 10:52:05
藏了40年的爸爸竟是陳道明!不拼爹不炒作,怪不得她這么優秀

藏了40年的爸爸竟是陳道明!不拼爹不炒作,怪不得她這么優秀

卷史
2025-06-14 18:48:15
暴雪宣布:《魔獸世界》重磅亮相2025科隆游戲展!

暴雪宣布:《魔獸世界》重磅亮相2025科隆游戲展!

3DM游戲
2025-06-24 11:03:46
2025-06-24 14:31:01
AI寒武紀 incentive-icons
AI寒武紀
專注于人工智能,科技領域
731文章數 320關注度
往期回顧 全部

科技要聞

特斯拉股價飆漲8%,但Robotaxi小違章不斷

頭條要聞

媒體:以伊"12天戰爭"迅速走向停火 不符合以總理利益

頭條要聞

媒體:以伊"12天戰爭"迅速走向停火 不符合以總理利益

體育要聞

如果你喜歡籃球,你沒理由不喜歡步行者

娛樂要聞

名校不是護身符,李雪琴更多黑料被扒

財經要聞

以色列和伊朗同意全面停火!

汽車要聞

7.98萬起 firefly螢火蟲推出電池租用購車方案

態度原創

健康
教育
時尚
房產
軍事航空

呼吸科專家破解呼吸道九大謠言!

教育要聞

高考志愿填報重要參考數據:2025各地高考一分一段表匯總

土到爆的“奶奶涼鞋”又火了!這幾雙好穿又好搭!

房產要聞

猛增23所學校,4w+學位!海口的雞娃家長們,可以松口氣了!

軍事要聞

特朗普:以伊完全同意全面停火

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 商水县| 西华县| 乌鲁木齐市| 黄浦区| 昭平县| 南靖县| 荥阳市| 客服| 鄂托克旗| 兴城市| 东兴市| 湄潭县| 赤峰市| 龙门县| 淅川县| 澎湖县| 礼泉县| 贵南县| 平昌县| 四会市| 岑溪市| 如东县| 济源市| 灵石县| 巍山| 林芝县| 东源县| 五莲县| 西乌珠穆沁旗| 三台县| 于都县| 山西省| 中江县| 杭锦旗| 英德市| 阳原县| 尉氏县| 宜宾市| 宁河县| 舞钢市| 永靖县|