網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

清華、上海AI Lab提出專家級醫(yī)學(xué)基準(zhǔn)MedXpertQA，看o3、R1哪家強

2025-07-08 17:06:25　來源: 機器之心Pro

河北舉報

分享至

本文作者來自于清華大學(xué)和上海 AI Lab，通訊作者為清華大學(xué)丁寧助理教授和清華大學(xué)講席教授、上海 AI Lab 主任周伯文教授。

論文標(biāo)題：MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding
論文：https://arxiv.org/abs/2501.18362
代碼： https://github.com/TsinghuaC3I/MedXpertQA
榜單：https://medxpertqa.github.io

論文已被 ICML 2025 接收，并且被 DeepMind MedGemma 采用為評估基準(zhǔn)。

基準(zhǔn)地址：https://deepmind.google/models/gemma/medgemma/

為什么我們需要一個新的醫(yī)學(xué)基準(zhǔn)？

前沿的 AI 模型距離應(yīng)用于真實世界的醫(yī)療場景還有多遠(yuǎn)？

1. 現(xiàn)有基準(zhǔn)難度不足：前沿人工智能模型能力的提升，通常依賴于高難度且能夠合理評估模型表現(xiàn)的基準(zhǔn)的引導(dǎo)與推動。然而，即使是最具代表性的高難度醫(yī)學(xué)基準(zhǔn)MedQA也正在快速飽和（o1 已經(jīng) 96 分）-> 現(xiàn)有醫(yī)學(xué)基準(zhǔn)已難以有效評估和驅(qū)動前沿模型的進一步發(fā)展。

2. 現(xiàn)有基準(zhǔn)臨床相關(guān)性不足：醫(yī)學(xué)人工智能的一個核心要求是能夠適應(yīng)真實世界的臨床診斷場景。然而，現(xiàn)有的文本醫(yī)學(xué)基準(zhǔn)普遍缺乏對真實臨床環(huán)境的充分覆蓋，而以往的多模態(tài)醫(yī)學(xué)基準(zhǔn)則還停留在自動生成的簡單問答對，臨床相關(guān)性嚴(yán)重不足。

因此，我們提出了 MedXpertQA，包括涵蓋 17 個專業(yè)和 11 個身體系統(tǒng)的 4,460 個問題。它包括了兩個子集，分別是用于文本醫(yī)學(xué)評估的MedXpertQA Text 和用于多模態(tài)醫(yī)學(xué)評估的MedXpertQA MM。

為什么選 MedXpertQA？

怎么實現(xiàn)高難度和高臨床相關(guān)性？另外，對于一個醫(yī)學(xué)基準(zhǔn)僅有這兩點還不夠。問題的多樣性如何？質(zhì)量如何？

MedXpertQA 面向上述挑戰(zhàn)做出了重大改進：

極具挑戰(zhàn)性，有效區(qū)分前沿模型：

MedXpertQA 引入了高難度醫(yī)學(xué)考試題目，并進行了嚴(yán)格的篩選和增強，有效解決了現(xiàn)有基準(zhǔn)如 MedQA 難度不足的問題；
MedXpertQA 是目前最具挑戰(zhàn)性的醫(yī)學(xué)多選題（MCQA）評測基準(zhǔn) [1]，甚至超越 Human's Last Exam (Medical) [2, 3]。下圖展示了前沿模型在各個基準(zhǔn)上的表現(xiàn)：

高臨床相關(guān)性，真實診斷場景：

權(quán)威且廣泛的數(shù)據(jù)來源：收集了累計超過 20 個美國醫(yī)學(xué)執(zhí)照考試的問題，問題均由高水平專家設(shè)計，首次引入專科委員會問題，以提高臨床相關(guān)性和全面性。

2 個美國醫(yī)師執(zhí)照考試：USMLE 和 COMLEX
17/25 個美國醫(yī)學(xué)專科委員會下屬專科的執(zhí)照考試
多個考察圖像理解的科目考試（歐洲放射學(xué)委員會等）
初始收集了 37543 個問題，為 MedQA-USMLE 的 3 倍左右

下一代多模態(tài)醫(yī)學(xué)評估：

MedXpertQA 使用真實場景的、專家設(shè)計的高難度問題構(gòu)建多模態(tài)（MM）子集，相較傳統(tǒng)的多模態(tài)醫(yī)學(xué)評估基準(zhǔn)做出重大改進；
包括多樣化的圖像和豐富的真實臨床信息，考察專家級知識和高級推理能力。而傳統(tǒng)醫(yī)學(xué)多模態(tài)基準(zhǔn)為由圖像標(biāo)題自動生成的簡單問答對，下圖展示了一個對比：

「全面的」多樣性：

醫(yī)學(xué)屬性：覆蓋了超過 17 個醫(yī)學(xué)?？?，覆蓋了權(quán)威醫(yī)學(xué)教科書中定義的所有身體系統(tǒng)（11 種）；
模態(tài)：除了放射學(xué)，生命體征等醫(yī)學(xué)影像，還引入了醫(yī)生診斷過程中可能需要的文檔，表格等模態(tài)信息，完全貼近真實世界的臨床場景；
任務(wù)：覆蓋了真實診斷場景中的大量診斷任務(wù)。

極低數(shù)據(jù)泄露：

我們進行數(shù)據(jù)合成以減輕數(shù)據(jù)泄露風(fēng)險，并開展多輪專家評審以確保準(zhǔn)確性和可靠性；
我們進行了數(shù)據(jù)污染分析，發(fā)現(xiàn)經(jīng)過數(shù)據(jù)合成后數(shù)據(jù)泄露的風(fēng)險進一步降低；
MedXpertQA 是目前數(shù)據(jù)污染程度最低的醫(yī)學(xué)評估基準(zhǔn) [1]，可以極大程度上實現(xiàn)模型能力客觀和準(zhǔn)確的評估。

面向 o1 類模型的醫(yī)學(xué)推理能力評估：

MedXpertQA 中的大量題目不僅考察醫(yī)學(xué)知識記憶，更要求模型進行復(fù)雜推理。例如，部分題目需要模型整合文本與圖像中的多重信息線索，排除干擾，形成完整邏輯鏈以正確解答；
為此，我們根據(jù)題目考察的核心能力（Reasoning 或 Understanding），對每個問題進行了標(biāo)注。大部分題目歸屬 Reasoning 子集，難點在于醫(yī)學(xué)場景下的復(fù)雜推理，尤其適合評估模型的醫(yī)學(xué)推理能力。

MedXpertQA 是怎么構(gòu)建的？

在數(shù)據(jù)收集階段，我們以多樣性和臨床相關(guān)性為核心考量。而在后續(xù)的構(gòu)建階段，我們主要考慮四大核心原則：挑戰(zhàn)性、魯棒性、未見性、準(zhǔn)確性。

數(shù)據(jù)收集之后，MedXpertQA 的構(gòu)建經(jīng)過了過濾、增強和專家審查四個步驟：

挑戰(zhàn)性：

三重過濾機制問題篩選：

人類作答分布：利用真實用戶回答的對錯分布，計算 Brier score 等指標(biāo)分析問題的難易程度；
專家標(biāo)注難度：醫(yī)學(xué)專家對問題難度進行分級；
AI 模型測試結(jié)果：選取 8 個領(lǐng)先的 AI 模型，完成 14 次獨立實驗，識別高難度問題。

選項擴充：額外生成干擾的錯誤項，文本（Text）子集擴充至 10 個選項，多模態(tài)（MM）子集擴充至 5 個選項。

魯棒性：

相似問題過濾：從文本編輯距離和語義層面識別并移除高度相似的問題，降低模型識別 shortcut 進而 hacking 的風(fēng)險。

未見性：

問題改寫：為了降低數(shù)據(jù)泄漏風(fēng)險，客觀評測模型能力，我們對每道題的表述進行了徹底的改寫。改寫后的句子內(nèi)容保持信息完整，但形式上有明顯差異，有助于客觀評估模型的能力；

準(zhǔn)確性：

多輪專家審查：

持有醫(yī)學(xué)執(zhí)照的專家組成審查組，對完整題庫進行了多輪審查，修正數(shù)據(jù)增強過程中引入的錯誤或原始數(shù)據(jù)錯誤，檢查并修復(fù)信息缺失、不一致、敘述混亂等問題；
發(fā)現(xiàn)并修改近千個問題，專家對問題進行了細(xì)致的統(tǒng)計，錯誤歸類與人工糾錯，保證最終基準(zhǔn)的準(zhǔn)確性。

經(jīng)過嚴(yán)格篩選與審查，MedXpertQA 最終保留了原始題庫約 12% 的題目，共計 4,460 題，體現(xiàn)了對質(zhì)量而非數(shù)量的優(yōu)先考量。下表展示了和現(xiàn)存基準(zhǔn)的對比，可以看到 MedXpertQA 展現(xiàn)出了巨大的優(yōu)勢：

前沿模型表現(xiàn)如何？

我們在 MedXpertQA 上評測了領(lǐng)先的多模態(tài)及純文本模型，包括 o3、DeepSeek-R1 等推理模型，更多分?jǐn)?shù)細(xì)節(jié)可以參考 Leaderboard：https://medxpertqa.github.io。

模型表現(xiàn)差距顯著：多模態(tài)模型中，o1 得分最高，但在兩個子集上的總體準(zhǔn)確率未超過 50%，表明前沿模型在醫(yī)學(xué)領(lǐng)域仍有較大提升空間。在 Text 子集上，DeepSeek-R1 是最優(yōu)開源模型，但與 o1 存在一定差距；
人類性能基線：我們根據(jù)構(gòu)建基準(zhǔn)時收集的每個問題的作答數(shù)據(jù)計算了人類醫(yī)學(xué)生在原始試題上的準(zhǔn)確率，進而構(gòu)建了一個人類性能的極限，其中每個問題的作答數(shù)量最高達(dá)到 23 萬個，因此具有高度代表性；
推理增強模型在 Reasoning 子集優(yōu)勢明顯：對比三組基座模型及其推理模型版本得知，增強模型在 Reasoning 子集上展現(xiàn)出顯著且穩(wěn)定的性能提升，而在 Understanding 子集上則沒有這一趨勢，這表明 Reasoning 子集尤其適合 o1 類模型評估；

錯誤分析揭示推理密集特性：我們利用 LLM 對 GPT-4o 的完整回復(fù)進行了錯誤類型標(biāo)注，發(fā)現(xiàn)推理過程錯誤和圖像理解錯誤最為常見，純粹的醫(yī)學(xué)知識性錯誤則相對較少。

以上結(jié)果從多角度印證了 MedXpertQA 的價值，尤其凸顯了 Reasoning 子集的必要性。

總結(jié)

MedXpertQA，一個高難度的、高臨床相關(guān)性的、全面的醫(yī)學(xué)基準(zhǔn)、面向?qū)＜壹夅t(yī)學(xué)知識和高級推理能力的評估。當(dāng)前研究已廣泛體現(xiàn)出推理能力對醫(yī)學(xué) AI 模型的重要性。

我們進一步提出：醫(yī)學(xué)作為一個復(fù)雜、豐富且至關(guān)重要的領(lǐng)域，有潛力成為評估模型推理能力的新場景，從而拓寬當(dāng)前以數(shù)學(xué)和編程為主的評測范式。我們期待 MedXpertQA 能成為推動專業(yè)醫(yī)學(xué)模型與通用推理模型共同發(fā)展的重要資源。

參考文獻

[1] Tang, Xiangru, et al. "Medagentsbench: Benchmarking thinking models and agent frameworks for complex medical reasoning." arXiv preprint arXiv:2503.07459 (2025).

[2] Wu, Juncheng, et al. "Medreason: Eliciting factual medical reasoning steps in llms via knowledge graphs." arXiv preprint arXiv:2504.00993 (2025).

[3] Phan, Long, et al. "Humanity's last exam." arXiv preprint arXiv:2501.14249 (2025).

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.