99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

斯坦福臨床醫療AI橫評,DeepSeek把谷歌OpenAI都秒了

0
分享至

西風 發自 凹非寺
量子位 | 公眾號 QbitAI

斯坦福最新大模型醫療任務全面評測,DeepSeek R1以66%勝率拿下第一

歪國網友紛紛被驚艷住了,原因在于該評測重點聚焦臨床醫生的日常工作場景,而非僅局限于傳統醫療執照考試題。



要評測就要全 方 位。

團隊構建了含35個基準測試的綜合評估框架,覆蓋22個子類別醫療任務。

整個評測的分類體系還經過了臨床醫生驗證,由29名來自14個醫學專科的執業醫師共同參與開發

光作者名單就老長,斯坦福大學醫學院、斯坦福醫療中心、斯坦福大學基礎模型研究中心(CRFM)、微軟的研究人員均在列。



31頁論文最終得出,DeepSeek R1、o3-mini、Claude 3.7 Sonnet等在內的9個前沿大模型,DeepSeek R1以66%勝率、0.75宏觀平均分領先。

為當前的基準測試結果,團隊還打造了一個可公開訪問的排行榜。



除DeepSeek R1領先外,o3-mini緊隨其后,以64%勝率及最高0.77宏觀平均分緊追;Claude 3.5和3.7 Sonnet則達到了63%、64%的勝率。

看了具體研究,網友表示這些評估很有幫助。



下面來看更多細節。

大模型臨床醫療任務大考

此綜合評估框架名為MedHELM,受到了之前斯坦福HELM項目標準化跨領域評估思路的啟發。



研究核心貢獻之一是構建了一個經過臨床醫生驗證的分類體系。

該體系模擬了臨床醫生日常工作邏輯,包含三個層級:

  • 類別:醫療活動的廣泛領域(如“臨床決策支持”);
  • 子類別:類別下的相關任務組(如“支持診斷決策”);
  • 任務:醫療服務中的離散操作(如“生成鑒別診斷”)。

在初步擬定分類體系時,一名臨床醫生基于《美國醫學會雜志》(JAMA)綜述中梳理的任務,將這些任務重組為反映真實醫療活動的功能主題,形成了一個含5個類別、21個子類別、98項任務的框架。

然后團隊對這個初始分類體系進行驗證。

來自14個醫學專科的29名執業臨床醫生參與問卷調研,從分類邏輯和覆蓋全面性兩方面評估體系合理性。

根據反饋,體系最終擴展為5 個類別、22 個子類別、121 項任務,全面覆蓋臨床決策支持、臨床病例生成、患者溝通與教育、醫學研究輔助、管理與工作流程等醫療實踐的各個方面,且26位臨床醫生對子類別分類達成96.7%的一致性



核心貢獻二,在分類體系基礎上,團隊構建了一個含35個基準測試的綜合評估套件,包括:

  • 17個現有基準測試
  • 5個基于現有數據集重新構建的基準測試
  • 13個全新開發的基準測試

值得一提的是,13個全新開發的基準測試中有12個基于真實的電子健康記錄數據,有效彌補了現有評估中真實醫療數據使用不足的問題。

最終這整套基準測試,完全覆蓋了分類體系中的所有22個子類別,同時根據數據的敏感性和訪問限制,這些基準測試被劃分為14個公開、7個需要審批和14個私有的不同訪問級別。



考試題準備就緒后,研究團隊對9個前沿大語言模型進行了系統性評估。

評測結果如何?

評估顯示,模型表現存在顯著差異。

DeepSeek R1表現最佳,在兩兩對比中以66%的勝率領先,宏觀平均分為0.75,且勝率標準差較低(0.10)

其中勝率指模型在全部35個基準測試的兩兩對比中表現更優的比例。勝率標準差(SD)衡量模型獲勝的穩定性(值越低=穩定性越高)。宏觀平均分是所有35個基準測試的平均性能得分。標準差(SD)反映模型在不同基準測試中的性能波動(值越低=跨基準一致性越高)

o3-mini緊隨其后,在臨床決策支持類別基準中表現較優,以64%的勝率和最高宏觀平均分0.77位居第二。

Claude 3.7 Sonnet、3.5 Sonnet勝率分別為64%、63%,宏觀平均分均為0.73;GPT-4o勝率為57%;Gemini 2.0 Flash和GPT-4o mini勝率較低,分別為42%、39%。

另外,開源模型Llama 3.3 Instruct勝率為30%;Gemini 1.5 Pro以24%的勝率排名末位,但其勝率標準差最低(0.08),顯示出最穩定的競爭表現。



團隊還以熱圖形式展示了每個模型在35個基準測試中的標準化得分,深綠色表示性能更高,深紅色表示低性能。



結果顯示,模型在以下基準測試中表現較差:

  • MedCalc-Bench(從患者病歷中計算醫學值)
  • EHRSQL(根據自然語言指令生成用于臨床研究的SQL查詢——原設計為代碼生成數據集)
  • MIMIC-IV Billing Code(為臨床病例分配ICD-10代碼)

在NoteExtract基準測試(從臨床病歷中提取特定信息)中表現最佳。

更深入的分析顯示,不同類別的任務中模型表現呈現明顯的層次性差異。

在臨床病例生成任務中,大多數模型達到了0.74-0.85的高分表現;在患者溝通教育任務中表現同樣出色,得分在0.76-0.89之間;在醫學研究輔助(0.65-0.75)和臨床決策支持(0.61-0.76)類別中表現中等,而在管理與工作流程(0.53-0.63)類別中的得分普遍較低。

這種差異反映了自由文本生成任務(如臨床病例生成、患者溝通)更適合發揮大語言模型的自然語言優勢,而結構化推理任務則需要更強的領域特定知識整合和邏輯推理能力



對于13個開放式基準測試,團隊采用了大語言模型評審團(LLM-jury)評估方法。

為評估該方法的有效性,團隊收集了臨床醫生對部分模型輸出的獨立評分。其中,從ACI-Bench中選取了31個實例,從MEDIQA-QA中選取了25個實例,以比較臨床醫生給出的分數與評審團的綜合評分。



結果顯示,LLM陪審團方法與臨床醫生評分的一致性達到0.47的組內相關系數,不僅超過了臨床醫生之間的平均一致性(ICC=0.43),也明顯優于傳統的自動化評估指標如ROUGE-L(0.36)和BERTScore-F1(0.44)

團隊由此認為,大語言模型評審團比標準詞匯指標更能反映臨床醫生的判斷,證明了其作為臨床醫生評分替代方法的有效性。

成本效益分析是該研究的另一個創新,基于2025年5月12日的公開定價,團隊結合基準測試運行和大語言模型評審團評估過程中消耗的輸入總token數和最大輸出token數,估算了每個模型所需的成本。



正如預期,非推理模型GPT-4o mini(805美元)和Gemini 2.0 Flash(815美元)成本更低,勝率分別為0.39和0.42。

推理模型成本較高,DeepSeek R1(1806美元)和o3-mini(1722美元)的勝率分別為0.66和0.64。

綜合來看,Claude 3.5 Sonnet(1571美元)和Claude 3.7 Sonnet(1537美元)在性價比上表現良好,以較低成本實現了約0.63的勝率。



更多詳情感興趣的童鞋可查看原論文。

論文鏈接:https://arxiv.org/pdf/2505.23802
Blog鏈接:https://hai.stanford.edu/news/holistic-evaluation-of-large-language-models-for-medical-applications
排行榜鏈接:https://crfm.stanford.edu/helm/medhelm/latest/#/leaderboard

參考鏈接:https://x.com/iScienceLuvr/status/1929388406032810046

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
陜西寶雞警方:一女子因個人糾紛駕車故意撞人被刑拘,2名路人受傷

陜西寶雞警方:一女子因個人糾紛駕車故意撞人被刑拘,2名路人受傷

界面新聞
2025-06-05 07:58:25
20個不常見卻實用的冷知識,看看你知道幾個?

20個不常見卻實用的冷知識,看看你知道幾個?

平祥生活日志
2025-06-05 02:28:09
20米內2個星級廁所?上海居民疑惑:有必要嗎

20米內2個星級廁所?上海居民疑惑:有必要嗎

看看新聞Knews
2025-06-04 20:31:24
陜西省高校排名大洗牌:西電第3,西北大學第5,西郵第22

陜西省高校排名大洗牌:西電第3,西北大學第5,西郵第22

戶外阿毽
2025-06-05 05:54:56
岳父分拆遷款沒我份,我默默離開,第二天一看手機幾十條未接來電

岳父分拆遷款沒我份,我默默離開,第二天一看手機幾十條未接來電

白云故事
2025-05-27 12:20:05
人到60歲,想安安穩穩再活二十年,記住“四個不要”,非常重要!

人到60歲,想安安穩穩再活二十年,記住“四個不要”,非常重要!

娛樂洞察點點
2025-06-04 05:41:26
宋世雄,一切都結束了

宋世雄,一切都結束了

混沌錄
2025-05-22 22:40:12
美媒披露殲-36正面照!稱設計風格與蘇-34類似:不符合六代機標準

美媒披露殲-36正面照!稱設計風格與蘇-34類似:不符合六代機標準

近史博覽
2025-06-03 15:55:11
山東官宣“住院不用陪床” 避免“一人生病全家受累”

山東官宣“住院不用陪床” 避免“一人生病全家受累”

閃電新聞
2025-06-04 15:06:04
普京終于等到了,中國激光武器現身烏克蘭戰場?讓子彈飛一會兒

普京終于等到了,中國激光武器現身烏克蘭戰場?讓子彈飛一會兒

Ck的蜜糖
2025-06-03 16:26:08
“兩岸統一”突破點可能在賴清德,不在馬英九,不在國民黨。

“兩岸統一”突破點可能在賴清德,不在馬英九,不在國民黨。

小嵩
2025-06-04 15:27:50
鹽城各大醫院門口疑似有人擺攤騙錢,請引起重視!

鹽城各大醫院門口疑似有人擺攤騙錢,請引起重視!

鹽城市民網
2025-06-05 12:00:34
曝湖人有意亞當斯!火箭希望留住海王成阻礙 湖媒列余下3引援目標

曝湖人有意亞當斯!火箭希望留住海王成阻礙 湖媒列余下3引援目標

顏小白的籃球夢
2025-06-05 12:07:03
刻赤橋“內傷”嚴重,紹將軍“河塘”搬兵,烏考慮允許私人軍隊

刻赤橋“內傷”嚴重,紹將軍“河塘”搬兵,烏考慮允許私人軍隊

近距離
2025-06-05 10:09:47
我國著名主持人赴瑞士安樂死,兒子講述其死前慘狀:我非常后悔

我國著名主持人赴瑞士安樂死,兒子講述其死前慘狀:我非常后悔

深度知局
2025-06-04 17:50:25
爺爺把5套拆遷房全給了叔叔,我爸沒鬧,爺爺70大壽時眾人愣住了

爺爺把5套拆遷房全給了叔叔,我爸沒鬧,爺爺70大壽時眾人愣住了

七分瘦三分肥
2025-05-12 13:43:25
后續!三亞被蛇咬死的27歲女孩,是漂亮幼師,獨生女,準備考研

后續!三亞被蛇咬死的27歲女孩,是漂亮幼師,獨生女,準備考研

水晶的視界
2025-06-04 05:37:53
社保斷繳、沒繳滿15年或20年,2025年新規下,全都這樣處理

社保斷繳、沒繳滿15年或20年,2025年新規下,全都這樣處理

山丘樓評
2025-02-13 11:16:34
馬斯克為何如此憤怒?美媒披露四大原因,特朗普有錯在先不敢吭聲

馬斯克為何如此憤怒?美媒披露四大原因,特朗普有錯在先不敢吭聲

娛樂督察中
2025-06-04 16:51:10
明晨7點,安切洛蒂執教巴西首秀!贏球=殺進前3,首發曝光

明晨7點,安切洛蒂執教巴西首秀!贏球=殺進前3,首發曝光

葉青足球世界
2025-06-05 09:11:56
2025-06-05 13:28:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10613文章數 176162關注度
往期回顧 全部

科技要聞

人形機器人千億投入 年產量不如勞力士一周

頭條要聞

美媒:德法領導人或訪問中國 帶空客簽數百架飛機大單

頭條要聞

美媒:德法領導人或訪問中國 帶空客簽數百架飛機大單

體育要聞

從次輪末到樂透邊緣 楊瀚森的試訓有什么玄機?

娛樂要聞

陳學冬消失2年首曬照 車禍后遺癥嚴重?

財經要聞

多半袋方便面"多半"是商標 白象致歉

汽車要聞

長安汽車升級為獨立央企 東風長安重組按下暫停鍵

態度原創

房產
教育
健康
本地
家居

房產要聞

再奪荔灣銷冠!誰是主城改善標準制定者,終于有了答案!

教育要聞

德育潤心田,石榴籽抱團 鑄牢中華民族共同體意識的“天山實踐”

減重專家破解減肥九大謠言!

本地新聞

《中國匠人——錦繡中國》即日上線:解讀千年絲線的東方美學密碼

家居要聞

潔白奶油 簡約舒適之家

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 资溪县| 定安县| 茂名市| 克东县| 三亚市| 津南区| 遂川县| 泸定县| 晋州市| 特克斯县| 汕尾市| 临夏县| 怀远县| 恩平市| 长垣县| 澄江县| 泸水县| 陇西县| 乌鲁木齐市| 大埔区| 班玛县| 白沙| 西藏| 房产| 隆林| 武胜县| 德保县| 安顺市| 北海市| 奉节县| 卫辉市| 健康| 紫金县| 抚顺市| 隆尧县| 海晏县| 潼南县| 固安县| 吴堡县| 沅江市| 图木舒克市|