來源:ScienceAI
作者:Jiageng
編輯:ScienceAI
由哈佛大學醫學院與附屬 BWH 醫院 YLab 團隊領銜,聯合 UIUC、MIT、斯坦福、梅奧診所等多個團隊,共同發布了 BRIDGE —全球首個專注真實臨床文本的多語言大語言模型評測!
該測評構建了 87 個真實世界的電子病歷任務,覆蓋 9 種語言,并且評估了 65 種當前最先進的大語言模型,是當前最全面、規模最大的 LLM 在醫學應用的評測之一。
論文鏈接:
https://arxiv.org/pdf/2504.19467
臨床實戰 —— 大語言模型在醫療的下一個戰場
自兩年前 GPT-4 和 Med-PaLM-1/2 刷榜美國醫考 USMLE,輕松拿下「專家級」高分,驗證了大語言模型(LLM)在醫療任務中的潛力,LLM 已被廣泛應用于醫療領域。
但伴隨著 LLM 在醫療領域的深入探索,越來越多研究與實踐經驗表明:考場高分 ≠ 臨床實踐。真實世界的臨床文本和任務與文本規范的醫考選擇題截然不同:
語言風格不同,文本形態靈活
電子病歷中大量縮寫和臨床慣用表達,患者表述中的不規范文本、錯別字等;
模板+自由輸入混雜,結構松散不一、噪聲極高。
任務維度更廣,涉及更多考量
不只是選擇題,更多臨床關心的任務亟待探索:表型提取、ICD-10 編碼等;
不同語言、不同任務類型、不同臨床專業等評估都是剛需。
同時,當前 LLM 發展迅猛,各家大模型「百花齊放」且更新頻繁,越來越需要一個全面的真實臨床文本評測構建起 LLM 開發與臨床實踐之間的「橋梁」!
因此,BRIDGE(Benchmarking Large Language Models for Understanding Real-world Clinical Practice Text)就是要把大模型拉到真實的臨床文本和任務面前「實戰」,希望給大家帶來新的參考:
醫生
快速查看適合自己語言、科室、任務的最優模型,安心選型;
LLM 開發者
全面考察模型,精準發現短板,進一步提升模型的適應性;
醫院 / 監管
系統性地分析性能差異,權衡使用方式/部署資源,制定相關標準。
BRIDGE概要
依托于團隊前期發表于《NEJM AI》的全球臨床文本數據集系統性綜述[1],收集整理了大量開源的臨床文本數據集,并進一步加以改造適應于 LLM 執行,從而構建了目前規模最大、覆蓋最全的多語言真實世界臨床文本(電子病歷和在線問診)數據大語言模型評測。
目前,已全面評估了 65 個當前最先進的LLM的性能,包括 DeepSeek-R1, Google Gemini, GPT-4o, Qwen3, Llama 4,MedGemma, Baichua-M1 等開源、閉源、醫學專用 LLM,結合提出的系統性分類框架,從語言、專業科室、任務類型等多維度提供全面的性能分析,相關結果已上線實時排行榜
https://huggingface.co/spaces/YLab-Open/BRIDGE-Medical-Leaderboard
結果速覽
開源模型發展迅猛,DeepSee-R1領跑
三種推理策略下的綜合排名:
零樣本(Zero-shot) — 直接輸出目標答案 DeepSeek-R1(44.2),GPT-4o(44.2),Gemini-1.5-Pro(43.8);
思維鏈(Chain-of-thought) — 輸出推理過程與答案,增強解釋性 DeepSeek-R1(42.2),Gemini-2.0-Flash(43.8),GPT-4o(40.7);
少樣本(Few-shot) — 提供5個隨機的樣本,包含完整輸入和輸出Gemini-1.5-Pro(55.5),Gemini-2.0-Flash(53.3),GPT-4o(52.6)。
在最新一輪排行榜中,DeepSeek-R1 已超越 GPT-4o、Gemini 等商業化閉源模型,在零樣本和 CoT 設置下都占據榜首。隨著時間推移,開源模型和商業化模型的差距在逐漸縮小。
Mistral、Qwen、Gemma、Llama 等一系列開源模型迭代發展、持續發力,直至 DeepSeek-R1 帶來突破。
其中,最新的 MedGemma 和 Qwen3 表現亮眼:MedGemma-27B 在少樣本設置下排名第 4,甚至超過 DeepSeek-R1,Qwen3-235B-A22B-Thinking 在零樣本和思維鏈設置下分別排名第 7 和第 5,而 Llama-4 卻表現不佳,甚至不如 Llama3。
少樣本是最高效的性能提升途徑,思維鏈可能損害性能
給 LLM 提供 5 條隨機示例,能夠使大多數模型性能顯著增長,不僅領先的 LLM 進一步突破,如 DeepSeek-R1(44.2 到 51.4,+16.3%),較小的 LLM 更是「脫胎換骨」,如 Llama-3.2-1B(從 12.7到 24.4, +92.1%。相比之下,思維鏈雖然能夠提高模型解釋性,促進與醫生患者的交互,但導致了大多數模型的性能下降。
Scaling Law在醫療領域依舊明顯
縱向比對同一模型家族的不同參數版本,整體而言模型越大表現越好,驗證了在臨床文本任務上的 Scaling Law。業界常用的~70B 模型整體性能較優,排在第二梯隊,而在小型 LLM(≤30B)中,MedGemma 和Baichuan-M1-14B 兩個專門的醫學領域模型表現亮眼,為資源受限的部署場景提供了輕量化選項。
醫學LLM潛力巨大,但還需全面加強
MedGemma 和 Baichuan-M1-14B 等最新的醫學LLM性能強勁,甚至超過了許多 70B 的模型,但其他醫學 LLM 則表現不佳,甚至未跑贏同代的通用 LLM。
同時,這些醫學 LLM 往往在少樣本設置下漲點明顯,可能表明其指令跟隨能力較弱。整體結果暴露出部分醫學 LLM 的基座模型版本偏老,預訓練數據、監督訓練任務與真實臨床文本脫節等潛在問題。
不同任務表現差異較大:
文本分類、自然語言推理等標簽明確的分類任務表現較優,而 NER 與事件提取任務則需要少樣本的加持提升性能,表明這些任務更需要示例來澄清詳細的標簽定義和標準。
與此同時,需要與標準化醫療編碼系統(如 ICD-10)保持一致的規范化和編碼任務仍然特別具有挑戰性,因為許多 LLM 缺乏對這些代碼的內置映射。
盡管少樣本學習帶來適度的改進,但這些編碼任務的性能仍然相對較低(約 15%)。QA 和摘要在內的文本生成任務的平均性能較低約為 20%,表明 LLM 在臨床文本生成方面面臨著挑戰。
更多:多語言、多臨床場景、多專科驗證
不同語言、不同??频陌袷赘饔袣w屬:DeepSeek-R1 在中文、西班牙語、德語、俄語中獨占鰲頭,Gemini 對英文表現突出。而不同的臨床場景和專業科室也表現不同,體現出需要進一步結合具體任務選擇合適的模型。
結語
開源模型持續發力,整體性能不遜商業化模型;
少樣本推理策略目前是成本最低、收益最穩的 LLM 提升途徑;
70 B 仍是效果與資源平衡的主流選項,而高質量的小模型正在加速發展;
醫學專業模型需要更新基座、擁抱更廣泛的真實臨床文本與任務;
沒有一款模型可以跨所有語言與專科「通吃」,針對性評測與配置仍是落地關鍵。
要想將 LLM 在臨床領域進一步落地,還需要更多的「BRIDGE」來全面評估 LLM 在真實世界臨床文本與任務中的表現,研發出更加可靠和全面的 LLM!
研究助理/博士后機會:
哈佛大學醫學院和布萊根婦女醫院 Jie Yang 課題組和 Josh Lin 課題組聯合招聘博士后或者科研助理一名,研究方向為 Clinical natural language processing, LLM in healthcare。
跨學科團隊:與 Harvard、MIT、Mayo 的 AI 研究員、臨床醫生合作
數據資源豐富:近 2 億份 EHR 電子病例數據,覆蓋 180 萬患者,連接保險理賠數據;同時可以申請 MGB 十余家合作醫院的病歷數據。
計算資源:8xH100 等高性能 GPU,高性能計算集群以及 Azure 云計算資源研究
前沿:LLM in EHR、醫療文本理解與推理
環境開放靈活,適合科研成長與職業發展
詳情請前往招聘頁面:https://ylab.top/opportunities/
參考文獻:
1.Wu, J., Liu, X., Li, M., Li, W., Su, Z., Lin, S., Garay, L., Zhang, Z., Zhang, Y., Zeng, Q. and Shen, J., 2024. Clinical text datasets for medical artificial intelligence and large language models—a systematic review. NEJM AI, 1(6), p.AIra2400012.
2.Wu, J., Gu, B., Zhou, R., Xie, K., Snyder, D., Jiang, Y., Carducci, V., Wyss, R., Desai, R.J., Alsentzer, E. and Celi, L.A., 2025. BRIDGE: Benchmarking Large Language Models for Understanding Real-world Clinical Practice Text. arXiv preprint arXiv:2504.19467.
閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”
https://wx.zsxq.com/group/454854145828
未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。
截止到3月31日 ”未來知識庫”精選的百部前沿科技趨勢報告
(加入未來知識庫,全部資料免費閱讀和下載)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.