99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

斯坦福臨床醫療AI橫評,DeepSeek把谷歌OpenAI都秒了

0
分享至

西風 發自 凹非寺
量子位 | 公眾號 QbitAI

斯坦福最新大模型醫療任務全面評測,DeepSeek R1以66%勝率拿下第一

歪國網友紛紛被驚艷住了,原因在于該評測重點聚焦臨床醫生的日常工作場景,而非僅局限于傳統醫療執照考試題。



要評測就要全 方 位。

團隊構建了含35個基準測試的綜合評估框架,覆蓋22個子類別醫療任務。

整個評測的分類體系還經過了臨床醫生驗證,由29名來自14個醫學??频膱虡I醫師共同參與開發

光作者名單就老長,斯坦福大學醫學院、斯坦福醫療中心、斯坦福大學基礎模型研究中心(CRFM)、微軟的研究人員均在列。



31頁論文最終得出,DeepSeek R1、o3-mini、Claude 3.7 Sonnet等在內的9個前沿大模型,DeepSeek R1以66%勝率、0.75宏觀平均分領先。

為當前的基準測試結果,團隊還打造了一個可公開訪問的排行榜。



除DeepSeek R1領先外,o3-mini緊隨其后,以64%勝率及最高0.77宏觀平均分緊追;Claude 3.5和3.7 Sonnet則達到了63%、64%的勝率。

看了具體研究,網友表示這些評估很有幫助。



下面來看更多細節。

大模型臨床醫療任務大考

此綜合評估框架名為MedHELM,受到了之前斯坦福HELM項目標準化跨領域評估思路的啟發。



研究核心貢獻之一是構建了一個經過臨床醫生驗證的分類體系。

該體系模擬了臨床醫生日常工作邏輯,包含三個層級:

  • 類別:醫療活動的廣泛領域(如“臨床決策支持”);
  • 子類別:類別下的相關任務組(如“支持診斷決策”);
  • 任務:醫療服務中的離散操作(如“生成鑒別診斷”)。

在初步擬定分類體系時,一名臨床醫生基于《美國醫學會雜志》(JAMA)綜述中梳理的任務,將這些任務重組為反映真實醫療活動的功能主題,形成了一個含5個類別、21個子類別、98項任務的框架。

然后團隊對這個初始分類體系進行驗證。

來自14個醫學??频?9名執業臨床醫生參與問卷調研,從分類邏輯和覆蓋全面性兩方面評估體系合理性。

根據反饋,體系最終擴展為5 個類別、22 個子類別、121 項任務,全面覆蓋臨床決策支持、臨床病例生成、患者溝通與教育、醫學研究輔助、管理與工作流程等醫療實踐的各個方面,且26位臨床醫生對子類別分類達成96.7%的一致性



核心貢獻二,在分類體系基礎上,團隊構建了一個含35個基準測試的綜合評估套件,包括:

  • 17個現有基準測試
  • 5個基于現有數據集重新構建的基準測試
  • 13個全新開發的基準測試

值得一提的是,13個全新開發的基準測試中有12個基于真實的電子健康記錄數據,有效彌補了現有評估中真實醫療數據使用不足的問題。

最終這整套基準測試,完全覆蓋了分類體系中的所有22個子類別,同時根據數據的敏感性和訪問限制,這些基準測試被劃分為14個公開、7個需要審批和14個私有的不同訪問級別。



考試題準備就緒后,研究團隊對9個前沿大語言模型進行了系統性評估。

評測結果如何?

評估顯示,模型表現存在顯著差異。

DeepSeek R1表現最佳,在兩兩對比中以66%的勝率領先,宏觀平均分為0.75,且勝率標準差較低(0.10)

其中勝率指模型在全部35個基準測試的兩兩對比中表現更優的比例。勝率標準差(SD)衡量模型獲勝的穩定性(值越低=穩定性越高)。宏觀平均分是所有35個基準測試的平均性能得分。標準差(SD)反映模型在不同基準測試中的性能波動(值越低=跨基準一致性越高)

o3-mini緊隨其后,在臨床決策支持類別基準中表現較優,以64%的勝率和最高宏觀平均分0.77位居第二。

Claude 3.7 Sonnet、3.5 Sonnet勝率分別為64%、63%,宏觀平均分均為0.73;GPT-4o勝率為57%;Gemini 2.0 Flash和GPT-4o mini勝率較低,分別為42%、39%。

另外,開源模型Llama 3.3 Instruct勝率為30%;Gemini 1.5 Pro以24%的勝率排名末位,但其勝率標準差最低(0.08),顯示出最穩定的競爭表現。



團隊還以熱圖形式展示了每個模型在35個基準測試中的標準化得分,深綠色表示性能更高,深紅色表示低性能。



結果顯示,模型在以下基準測試中表現較差:

  • MedCalc-Bench(從患者病歷中計算醫學值)
  • EHRSQL(根據自然語言指令生成用于臨床研究的SQL查詢——原設計為代碼生成數據集)
  • MIMIC-IV Billing Code(為臨床病例分配ICD-10代碼)

在NoteExtract基準測試(從臨床病歷中提取特定信息)中表現最佳。

更深入的分析顯示,不同類別的任務中模型表現呈現明顯的層次性差異。

在臨床病例生成任務中,大多數模型達到了0.74-0.85的高分表現;在患者溝通教育任務中表現同樣出色,得分在0.76-0.89之間;在醫學研究輔助(0.65-0.75)和臨床決策支持(0.61-0.76)類別中表現中等,而在管理與工作流程(0.53-0.63)類別中的得分普遍較低。

這種差異反映了自由文本生成任務(如臨床病例生成、患者溝通)更適合發揮大語言模型的自然語言優勢,而結構化推理任務則需要更強的領域特定知識整合和邏輯推理能力



對于13個開放式基準測試,團隊采用了大語言模型評審團(LLM-jury)評估方法。

為評估該方法的有效性,團隊收集了臨床醫生對部分模型輸出的獨立評分。其中,從ACI-Bench中選取了31個實例,從MEDIQA-QA中選取了25個實例,以比較臨床醫生給出的分數與評審團的綜合評分。



結果顯示,LLM陪審團方法與臨床醫生評分的一致性達到0.47的組內相關系數,不僅超過了臨床醫生之間的平均一致性(ICC=0.43),也明顯優于傳統的自動化評估指標如ROUGE-L(0.36)和BERTScore-F1(0.44)

團隊由此認為,大語言模型評審團比標準詞匯指標更能反映臨床醫生的判斷,證明了其作為臨床醫生評分替代方法的有效性。

成本效益分析是該研究的另一個創新,基于2025年5月12日的公開定價,團隊結合基準測試運行和大語言模型評審團評估過程中消耗的輸入總token數和最大輸出token數,估算了每個模型所需的成本。



正如預期,非推理模型GPT-4o mini(805美元)和Gemini 2.0 Flash(815美元)成本更低,勝率分別為0.39和0.42。

推理模型成本較高,DeepSeek R1(1806美元)和o3-mini(1722美元)的勝率分別為0.66和0.64。

綜合來看,Claude 3.5 Sonnet(1571美元)和Claude 3.7 Sonnet(1537美元)在性價比上表現良好,以較低成本實現了約0.63的勝率。



更多詳情感興趣的童鞋可查看原論文。

論文鏈接:https://arxiv.org/pdf/2505.23802
Blog鏈接:https://hai.stanford.edu/news/holistic-evaluation-of-large-language-models-for-medical-applications
排行榜鏈接:https://crfm.stanford.edu/helm/medhelm/latest/#/leaderboard

參考鏈接:https://x.com/iScienceLuvr/status/1929388406032810046

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
15分+18分+14分,鎖定3.7億超級頂薪!NBA新王登基,但聯盟失策了

15分+18分+14分,鎖定3.7億超級頂薪!NBA新王登基,但聯盟失策了

老梁體育漫談
2025-06-10 00:33:27
徐杰勁敵出世,天賦后衛駕到,新疆要騰飛

徐杰勁敵出世,天賦后衛駕到,新疆要騰飛

體育籃球弟
2025-06-09 01:40:03
資源不斷演啥毀啥,《長安的荔枝》全員演技過關,一人拉胯整部劇

資源不斷演啥毀啥,《長安的荔枝》全員演技過關,一人拉胯整部劇

小舟談歷史
2025-06-07 20:57:56
10個億換不來10分鐘?億萬身家命難留,上午簽單下午就突然離世

10個億換不來10分鐘?億萬身家命難留,上午簽單下午就突然離世

小故事娛樂
2025-05-25 09:40:02
150萬撿漏金童候選人!利物浦今夏第二簽,20歲匈牙利新星加盟

150萬撿漏金童候選人!利物浦今夏第二簽,20歲匈牙利新星加盟

夜白侃球
2025-06-09 23:08:43
浙江:女子2天沒錢吃飯,餓得躺地上無法起身,女子:找不到工作

浙江:女子2天沒錢吃飯,餓得躺地上無法起身,女子:找不到工作

說說史事
2025-06-09 09:24:29
許敏今天很開心,說她這輩子最應該感謝的就是閆所長

許敏今天很開心,說她這輩子最應該感謝的就是閆所長

史行途
2025-06-09 23:15:44
從稀缺到拋售!北京紫金書院遭遇業主信任危機

從稀缺到拋售!北京紫金書院遭遇業主信任危機

中國房地產報官方號
2025-06-09 16:28:20
人活多久看頭發就能知道?提醒:壽命長的人,頭發或有4個特征!

人活多久看頭發就能知道?提醒:壽命長的人,頭發或有4個特征!

犀利辣椒
2025-06-09 06:12:06
馬斯克紅著眼快哭了:不在乎與特朗普翻臉賠錢,反正都虧一千億了

馬斯克紅著眼快哭了:不在乎與特朗普翻臉賠錢,反正都虧一千億了

桑未落
2025-06-08 10:22:49
上海明早降水將再度明顯!今年第1號臺風或于周三前后生成,本周后期降水時間強度或調整

上海明早降水將再度明顯!今年第1號臺風或于周三前后生成,本周后期降水時間強度或調整

東方網
2025-06-09 19:33:39
特朗普解除加州州長兵權,美國各州擁兵數十萬,終有一日釀大禍?

特朗普解除加州州長兵權,美國各州擁兵數十萬,終有一日釀大禍?

蔣福偉
2025-06-09 15:48:47
阿爾茨海默病“神藥”已停產,多地“斷貨”

阿爾茨海默病“神藥”已停產,多地“斷貨”

21新健康
2025-06-09 20:13:10
器官移植的前提條件是公開器官來源的身份,這是基本的道德底線!

器官移植的前提條件是公開器官來源的身份,這是基本的道德底線!

逍遙論經
2025-06-08 09:30:22
烈日暴曬之后的特斯拉為什么幾乎無異味?

烈日暴曬之后的特斯拉為什么幾乎無異味?

特斯拉
2025-06-09 16:22:13
中國專家建議中印以恒河為界!高志凱線橫空出世,印度人破了大防

中國專家建議中印以恒河為界!高志凱線橫空出世,印度人破了大防

大又元
2025-06-09 09:38:16
淮安隊門將比賽前查到自己被大學錄取:當天比賽狀態特別好

淮安隊門將比賽前查到自己被大學錄?。寒斕毂荣悹顟B特別好

直播吧
2025-06-09 14:45:16
兒子高考229分,父母很生氣,兒子卻哈哈大笑:清華北大搶著要我

兒子高考229分,父母很生氣,兒子卻哈哈大笑:清華北大搶著要我

戶外阿毽
2025-06-08 17:41:57
局勢急轉直下!中方凌晨發出最嚴厲警告普京一番話“終結”談判!

局勢急轉直下!中方凌晨發出最嚴厲警告普京一番話“終結”談判!

男女那點事兒兒
2025-06-09 10:28:29
酥胸半露蕾絲繞,玉頸纖柔鎖骨明

酥胸半露蕾絲繞,玉頸纖柔鎖骨明

情感大頭說說
2025-06-09 14:03:27
2025-06-10 01:23:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10620文章數 176166關注度
往期回顧 全部

科技要聞

中國汽車行業告別"內卷",從"重慶論壇"開始?

頭條要聞

媒體:和紐森正面攤牌 這是特朗普渴望已久的一場戰斗

頭條要聞

媒體:和紐森正面攤牌 這是特朗普渴望已久的一場戰斗

體育要聞

雷霆55號秀,NBA第一“概念神”

娛樂要聞

劉品言閃婚閃孕官宣 崴腳時被照顧打動

財經要聞

重磅級民生文件公布 如何改變你我生活?

汽車要聞

首次搭載奧特能2.0平臺 新別克E5即將煥新上市

態度原創

親子
時尚
本地
家居
公開課

親子要聞

喜馬拉雅兒童1.2億條聲音,陪伴中國兒童成長

今年夏天最流行的裙子,配這4雙鞋才好看!

本地新聞

非遺里的河南 | 黃河泥變身千年墨寶,寫字都帶仙氣兒~

家居要聞

簡約輕奢 現代實用私宅

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 赤城县| 霍林郭勒市| 牙克石市| 嘉荫县| 南岸区| 临夏县| 郁南县| 鄯善县| 瑞金市| 高唐县| 禹城市| 田东县| 信宜市| 浦县| 四川省| 迁安市| 曲麻莱县| 阿巴嘎旗| 刚察县| 锦屏县| 临澧县| 贵州省| 雅江县| 澄城县| 宝丰县| 涞源县| 五大连池市| 湘阴县| 新宾| 理塘县| 城口县| 罗定市| 若尔盖县| 芜湖市| 岗巴县| 法库县| 文山县| 清苑县| 平罗县| 南京市| 山阳县|