99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

大模型能否讀懂真實病歷?哈佛醫學院發布BRIDGE大規模多語言評測基準

0
分享至


來源:ScienceAI

作者:Jiageng

編輯ScienceAI

由哈佛大學醫學院與附屬 BWH 醫院 YLab 團隊領銜,聯合 UIUC、MIT、斯坦福、梅奧診所等多個團隊,共同發布了 BRIDGE —全球首個專注真實臨床文本的多語言大語言模型評測!

該測評構建了 87 個真實世界的電子病歷任務,覆蓋 9 種語言,并且評估了 65 種當前最先進的大語言模型,是當前最全面、規模最大的 LLM 在醫學應用的評測之一。

論文鏈接:

https://arxiv.org/pdf/2504.19467

臨床實戰 —— 大語言模型在醫療的下一個戰場

自兩年前 GPT-4 和 Med-PaLM-1/2 刷榜美國醫考 USMLE,輕松拿下「專家級」高分,驗證了大語言模型(LLM)在醫療任務中的潛力,LLM 已被廣泛應用于醫療領域。

但伴隨著 LLM 在醫療領域的深入探索,越來越多研究與實踐經驗表明:考場高分 ≠ 臨床實踐。真實世界的臨床文本和任務與文本規范的醫考選擇題截然不同:

  • 語言風格不同,文本形態靈活

電子病歷中大量縮寫和臨床慣用表達,患者表述中的不規范文本、錯別字等;

模板+自由輸入混雜,結構松散不一、噪聲極高。

  • 任務維度更廣,涉及更多考量

不只是選擇題,更多臨床關心的任務亟待探索:表型提取、ICD-10 編碼等;

不同語言、不同任務類型、不同臨床專業等評估都是剛需。

同時,當前 LLM 發展迅猛,各家大模型「百花齊放」且更新頻繁,越來越需要一個全面的真實臨床文本評測構建起 LLM 開發與臨床實踐之間的「橋梁」!

因此,BRIDGE(Benchmarking Large Language Models for Understanding Real-world Clinical Practice Text)就是要把大模型拉到真實的臨床文本和任務面前「實戰」,希望給大家帶來新的參考:

  • 醫生

快速查看適合自己語言、科室、任務的最優模型,安心選型;

  • LLM 開發者

全面考察模型,精準發現短板,進一步提升模型的適應性;

  • 醫院 / 監管

系統性地分析性能差異,權衡使用方式/部署資源,制定相關標準。

BRIDGE概要

依托于團隊前期發表于《NEJM AI》的全球臨床文本數據集系統性綜述[1],收集整理了大量開源的臨床文本數據集,并進一步加以改造適應于 LLM 執行,從而構建了目前規模最大、覆蓋最全的多語言真實世界臨床文本(電子病歷和在線問診)數據大語言模型評測。

目前,已全面評估了 65 個當前最先進的LLM的性能,包括 DeepSeek-R1, Google Gemini, GPT-4o, Qwen3, Llama 4,MedGemma, Baichua-M1 等開源、閉源、醫學專用 LLM,結合提出的系統性分類框架,從語言、專業科室、任務類型等多維度提供全面的性能分析,相關結果已上線實時排行榜

https://huggingface.co/spaces/YLab-Open/BRIDGE-Medical-Leaderboard





結果速覽

  • 開源模型發展迅猛,DeepSee-R1領跑

三種推理策略下的綜合排名:

  • 零樣本(Zero-shot) — 直接輸出目標答案 DeepSeek-R1(44.2),GPT-4o(44.2),Gemini-1.5-Pro(43.8);

  • 思維鏈(Chain-of-thought) — 輸出推理過程與答案,增強解釋性 DeepSeek-R1(42.2),Gemini-2.0-Flash(43.8),GPT-4o(40.7);

  • 少樣本(Few-shot) — 提供5個隨機的樣本,包含完整輸入和輸出Gemini-1.5-Pro(55.5),Gemini-2.0-Flash(53.3),GPT-4o(52.6)。

在最新一輪排行榜中,DeepSeek-R1 已超越 GPT-4o、Gemini 等商業化閉源模型,在零樣本和 CoT 設置下都占據榜首。隨著時間推移,開源模型和商業化模型的差距在逐漸縮小。

Mistral、Qwen、Gemma、Llama 等一系列開源模型迭代發展、持續發力,直至 DeepSeek-R1 帶來突破。

其中,最新的 MedGemma 和 Qwen3 表現亮眼:MedGemma-27B 在少樣本設置下排名第 4,甚至超過 DeepSeek-R1,Qwen3-235B-A22B-Thinking 在零樣本和思維鏈設置下分別排名第 7 和第 5,而 Llama-4 卻表現不佳,甚至不如 Llama3。


少樣本是最高效的性能提升途徑,思維鏈可能損害性能

給 LLM 提供 5 條隨機示例,能夠使大多數模型性能顯著增長,不僅領先的 LLM 進一步突破,如 DeepSeek-R1(44.2 到 51.4,+16.3%),較小的 LLM 更是「脫胎換骨」,如 Llama-3.2-1B(從 12.7到 24.4, +92.1%。相比之下,思維鏈雖然能夠提高模型解釋性,促進與醫生患者的交互,但導致了大多數模型的性能下降。


  • Scaling Law在醫療領域依舊明顯

縱向比對同一模型家族的不同參數版本,整體而言模型越大表現越好,驗證了在臨床文本任務上的 Scaling Law。業界常用的~70B 模型整體性能較優,排在第二梯隊,而在小型 LLM(≤30B)中,MedGemma 和Baichuan-M1-14B 兩個專門的醫學領域模型表現亮眼,為資源受限的部署場景提供了輕量化選項。


  • 醫學LLM潛力巨大,但還需全面加強

MedGemma 和 Baichuan-M1-14B 等最新的醫學LLM性能強勁,甚至超過了許多 70B 的模型,但其他醫學 LLM 則表現不佳,甚至未跑贏同代的通用 LLM。

同時,這些醫學 LLM 往往在少樣本設置下漲點明顯,可能表明其指令跟隨能力較弱。整體結果暴露出部分醫學 LLM 的基座模型版本偏老,預訓練數據、監督訓練任務與真實臨床文本脫節等潛在問題。


  • 不同任務表現差異較大:

文本分類、自然語言推理等標簽明確的分類任務表現較優,而 NER 與事件提取任務則需要少樣本的加持提升性能,表明這些任務更需要示例來澄清詳細的標簽定義和標準。

與此同時,需要與標準化醫療編碼系統(如 ICD-10)保持一致的規范化和編碼任務仍然特別具有挑戰性,因為許多 LLM 缺乏對這些代碼的內置映射。

盡管少樣本學習帶來適度的改進,但這些編碼任務的性能仍然相對較低(約 15%)。QA 和摘要在內的文本生成任務的平均性能較低約為 20%,表明 LLM 在臨床文本生成方面面臨著挑戰。


  • 更多:多語言、多臨床場景、多專科驗證

不同語言、不同??频陌袷赘饔袣w屬:DeepSeek-R1 在中文、西班牙語、德語、俄語中獨占鰲頭,Gemini 對英文表現突出。而不同的臨床場景和專業科室也表現不同,體現出需要進一步結合具體任務選擇合適的模型。


結語

  • 開源模型持續發力,整體性能不遜商業化模型;

  • 少樣本推理策略目前是成本最低、收益最穩的 LLM 提升途徑;

  • 70 B 仍是效果與資源平衡的主流選項,而高質量的小模型正在加速發展;

  • 醫學專業模型需要更新基座、擁抱更廣泛的真實臨床文本與任務;

  • 沒有一款模型可以跨所有語言與專科「通吃」,針對性評測與配置仍是落地關鍵。

要想將 LLM 在臨床領域進一步落地,還需要更多的「BRIDGE」來全面評估 LLM 在真實世界臨床文本與任務中的表現,研發出更加可靠和全面的 LLM!

研究助理/博士后機會:

哈佛大學醫學院和布萊根婦女醫院 Jie Yang 課題組和 Josh Lin 課題組聯合招聘博士后或者科研助理一名,研究方向為 Clinical natural language processing, LLM in healthcare。

  • 跨學科團隊:與 Harvard、MIT、Mayo 的 AI 研究員、臨床醫生合作

  • 數據資源豐富:近 2 億份 EHR 電子病例數據,覆蓋 180 萬患者,連接保險理賠數據;同時可以申請 MGB 十余家合作醫院的病歷數據。

  • 計算資源:8xH100 等高性能 GPU,高性能計算集群以及 Azure 云計算資源研究

  • 前沿:LLM in EHR、醫療文本理解與推理

  • 環境開放靈活,適合科研成長與職業發展

詳情請前往招聘頁面:https://ylab.top/opportunities/

參考文獻:

1.Wu, J., Liu, X., Li, M., Li, W., Su, Z., Lin, S., Garay, L., Zhang, Z., Zhang, Y., Zeng, Q. and Shen, J., 2024. Clinical text datasets for medical artificial intelligence and large language models—a systematic review. NEJM AI, 1(6), p.AIra2400012.

2.Wu, J., Gu, B., Zhou, R., Xie, K., Snyder, D., Jiang, Y., Carducci, V., Wyss, R., Desai, R.J., Alsentzer, E. and Celi, L.A., 2025. BRIDGE: Benchmarking Large Language Models for Understanding Real-world Clinical Practice Text. arXiv preprint arXiv:2504.19467.

閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”

https://wx.zsxq.com/group/454854145828


未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

截止到3月31日 ”未來知識庫”精選的百部前沿科技趨勢報告

(加入未來知識庫,全部資料免費閱讀和下載)

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
東北大學遇難學生家屬發聲,其中一位學生姐姐透露弟弟去世后模樣

東北大學遇難學生家屬發聲,其中一位學生姐姐透露弟弟去世后模樣

振華觀史
2025-07-25 16:34:19
汪蘇瀧不忍了!旺仔小喬四年前一句話,張碧晨痛失《年輪》演唱權

汪蘇瀧不忍了!旺仔小喬四年前一句話,張碧晨痛失《年輪》演唱權

云間娛樂
2025-07-25 15:34:44
陜西這件事,每個字都寫滿了諷刺

陜西這件事,每個字都寫滿了諷刺

清書先生
2025-07-25 18:11:26
中南大學職工花5000元嫖娼:完成交易,拿女方床照威脅,索要嫖資

中南大學職工花5000元嫖娼:完成交易,拿女方床照威脅,索要嫖資

娜烏和西卡
2025-07-25 10:26:46
九連勝無壓力!樊振東橫掃李天陽,全場完美壓制,太輕松了!

九連勝無壓力!樊振東橫掃李天陽,全場完美壓制,太輕松了!

籃球資訊達人
2025-07-25 19:24:20
DeepSeek月均下載量暴跌72.2%!周鴻祎:梁文鋒不屑于做APP,他把技術全都開源免費【附大模型行業市場分析】

DeepSeek月均下載量暴跌72.2%!周鴻祎:梁文鋒不屑于做APP,他把技術全都開源免費【附大模型行業市場分析】

前瞻網
2025-07-25 09:17:51
細節披露:6名大學生溺亡事故獲救老師照片公布,重傷截肢消息不實

細節披露:6名大學生溺亡事故獲救老師照片公布,重傷截肢消息不實

上觀新聞
2025-07-25 10:02:38
觸目驚心!境外論壇偷拍大量中國女性!妻子女兒母親全成意淫對象

觸目驚心!境外論壇偷拍大量中國女性!妻子女兒母親全成意淫對象

派大星紀錄片
2025-07-25 10:26:14
中國銀行業協會原黨委委員、秘書長黃潤中被開除黨籍

中國銀行業協會原黨委委員、秘書長黃潤中被開除黨籍

澎湃新聞
2025-07-25 19:34:26
女子面試被打后續:多處骨折,更多受害者發聲,打人只是冰山一角

女子面試被打后續:多處骨折,更多受害者發聲,打人只是冰山一角

削桐作琴
2025-07-25 12:48:07
面試被打后續:警方出手,更多受害者站出來,老板身份越扒越可怕

面試被打后續:警方出手,更多受害者站出來,老板身份越扒越可怕

通鑒史智
2025-07-25 18:29:27
澤連斯基做出讓步,烏克蘭人值得擁有最好的

澤連斯基做出讓步,烏克蘭人值得擁有最好的

山河路口
2025-07-25 12:56:51
2年2820萬!侮辱性報價!場均24+3+3就給這點?籃網欺負人

2年2820萬!侮辱性報價!場均24+3+3就給這點?籃網欺負人

鬼魅突破上籃
2025-07-26 01:20:00
PPT戰神集體翻車,智駕測試憑什么特斯拉拿第一

PPT戰神集體翻車,智駕測試憑什么特斯拉拿第一

汽扯扒談
2025-07-25 11:52:18
懂車帝測試各方反應:有人曬,有人不想說話,有人沉默是今晚的康橋

懂車帝測試各方反應:有人曬,有人不想說話,有人沉默是今晚的康橋

三言科技
2025-07-25 19:01:41
偷雞不成蝕把米!這一次,張碧晨被汪蘇瀧光速打臉,體面碎了一地

偷雞不成蝕把米!這一次,張碧晨被汪蘇瀧光速打臉,體面碎了一地

林輕吟
2025-07-25 19:47:47
請給北京日報帶個話,死了的學生情緒更穩定

請給北京日報帶個話,死了的學生情緒更穩定

李宇琛
2025-07-25 20:50:23
洪森司令部暴露秘密,大批柬軍陣亡:多種中美制坦克火箭炮大混戰

洪森司令部暴露秘密,大批柬軍陣亡:多種中美制坦克火箭炮大混戰

南宮一二
2025-07-25 16:50:07
女子稱在深圳一公司面試時遭毆打致腰椎骨折,警方:已對涉案人員采取強制措施

女子稱在深圳一公司面試時遭毆打致腰椎骨折,警方:已對涉案人員采取強制措施

極目新聞
2025-07-25 16:46:56
獨女身份坐實,宗馥莉王炸證據公開!

獨女身份坐實,宗馥莉王炸證據公開!

品牌頭版
2025-07-25 17:55:51
2025-07-26 01:55:00
人工智能學家 incentive-icons
人工智能學家
人工智能領域權威媒體
4046文章數 37239關注度
往期回顧 全部

科技要聞

36款熱門車高危智駕場景測試,“團滅”!

頭條要聞

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

頭條要聞

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

體育要聞

3年過去了,她還是歐洲杯上最酷的姐

娛樂要聞

汪蘇瀧不忍了 !張碧晨痛失《年輪》演唱權

財經要聞

劉煜輝:當下重要不是找確定性而是轉折點

汽車要聞

李斌一口氣講了近3個小時樂道L90 原因是為啥?

態度原創

家居
數碼
教育
藝術
手機

家居要聞

環繞設計 空間動線合理

數碼要聞

谷歌Pixel Watch 4智能手表曝光:充電口更改,配色更多

教育要聞

再獲國際物理奧賽金牌,南師附中學子勇登世界之巔!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

手機要聞

真把天璣 9400+ 裝在「充電寶」上了?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 长寿区| 鸡东县| 嘉峪关市| 乐亭县| 淅川县| 邵阳县| 独山县| 大方县| 临海市| 永州市| 垫江县| 丰台区| 安泽县| 鄯善县| 山西省| 收藏| 永安市| 永嘉县| 邢台市| 西乌| 克拉玛依市| 永州市| 沛县| 张家口市| 和静县| 和平县| 德庆县| 罗山县| 九台市| 洛川县| 九寨沟县| 沅江市| 贞丰县| 哈尔滨市| 奉化市| 鹤庆县| 新丰县| 麻阳| 佛坪县| 南雄市| 武强县|