本文作者來自于清華大學(xué)和上海 AI Lab,通訊作者為清華大學(xué)丁寧助理教授和清華大學(xué)講席教授、上海 AI Lab 主任周伯文教授。
- 論文標(biāo)題:MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding
- 論文:https://arxiv.org/abs/2501.18362
- 代碼: https://github.com/TsinghuaC3I/MedXpertQA
- 榜單:https://medxpertqa.github.io
論文已被 ICML 2025 接收,并且被 DeepMind MedGemma 采用為評估基準(zhǔn)。
基準(zhǔn)地址:https://deepmind.google/models/gemma/medgemma/
為什么我們需要一個新的醫(yī)學(xué)基準(zhǔn)?
前沿的 AI 模型距離應(yīng)用于真實世界的醫(yī)療場景還有多遠(yuǎn)?
1. 現(xiàn)有基準(zhǔn)難度不足:前沿人工智能模型能力的提升,通常依賴于高難度且能夠合理評估模型表現(xiàn)的基準(zhǔn)的引導(dǎo)與推動。然而,即使是最具代表性的高難度醫(yī)學(xué)基準(zhǔn)MedQA也正在快速飽和(o1 已經(jīng) 96 分)-> 現(xiàn)有醫(yī)學(xué)基準(zhǔn)已難以有效評估和驅(qū)動前沿模型的進一步發(fā)展。
2. 現(xiàn)有基準(zhǔn)臨床相關(guān)性不足:醫(yī)學(xué)人工智能的一個核心要求是能夠適應(yīng)真實世界的臨床診斷場景。然而,現(xiàn)有的文本醫(yī)學(xué)基準(zhǔn)普遍缺乏對真實臨床環(huán)境的充分覆蓋,而以往的多模態(tài)醫(yī)學(xué)基準(zhǔn)則還停留在自動生成的簡單問答對,臨床相關(guān)性嚴(yán)重不足。
因此,我們提出了 MedXpertQA,包括涵蓋 17 個專業(yè)和 11 個身體系統(tǒng)的 4,460 個問題。它包括了兩個子集,分別是用于文本醫(yī)學(xué)評估的MedXpertQA Text 和用于多模態(tài)醫(yī)學(xué)評估的MedXpertQA MM。
為什么選 MedXpertQA?
怎么實現(xiàn)高難度和高臨床相關(guān)性?另外,對于一個醫(yī)學(xué)基準(zhǔn)僅有這兩點還不夠。問題的多樣性如何?質(zhì)量如何?
MedXpertQA 面向上述挑戰(zhàn)做出了重大改進:
- 極具挑戰(zhàn)性,有效區(qū)分前沿模型:
- MedXpertQA 引入了高難度醫(yī)學(xué)考試題目,并進行了嚴(yán)格的篩選和增強,有效解決了現(xiàn)有基準(zhǔn)如 MedQA 難度不足的問題;
- MedXpertQA 是目前最具挑戰(zhàn)性的醫(yī)學(xué)多選題(MCQA)評測基準(zhǔn) [1],甚至超越 Human's Last Exam (Medical) [2, 3]。下圖展示了前沿模型在各個基準(zhǔn)上的表現(xiàn):
- 高臨床相關(guān)性,真實診斷場景:
- 權(quán)威且廣泛的數(shù)據(jù)來源:收集了累計超過 20 個美國醫(yī)學(xué)執(zhí)照考試的問題,問題均由高水平專家設(shè)計,首次引入專科委員會問題,以提高臨床相關(guān)性和全面性。
- 2 個美國醫(yī)師執(zhí)照考試:USMLE 和 COMLEX
- 17/25 個美國醫(yī)學(xué)專科委員會下屬專科的執(zhí)照考試
- 多個考察圖像理解的科目考試(歐洲放射學(xué)委員會等)
- 初始收集了 37543 個問題,為 MedQA-USMLE 的 3 倍左右
- 下一代多模態(tài)醫(yī)學(xué)評估:
- MedXpertQA 使用真實場景的、專家設(shè)計的高難度問題構(gòu)建多模態(tài)(MM)子集,相較傳統(tǒng)的多模態(tài)醫(yī)學(xué)評估基準(zhǔn)做出重大改進;
- 包括多樣化的圖像和豐富的真實臨床信息,考察專家級知識和高級推理能力。而傳統(tǒng)醫(yī)學(xué)多模態(tài)基準(zhǔn)為由圖像標(biāo)題自動生成的簡單問答對,下圖展示了一個對比:
- 「全面的」多樣性:
- 醫(yī)學(xué)屬性:覆蓋了超過 17 個醫(yī)學(xué)???,覆蓋了權(quán)威醫(yī)學(xué)教科書中定義的所有身體系統(tǒng)(11 種);
- 模態(tài):除了放射學(xué),生命體征等醫(yī)學(xué)影像,還引入了醫(yī)生診斷過程中可能需要的文檔,表格等模態(tài)信息,完全貼近真實世界的臨床場景;
- 任務(wù):覆蓋了真實診斷場景中的大量診斷任務(wù)。
- 極低數(shù)據(jù)泄露:
- 我們進行數(shù)據(jù)合成以減輕數(shù)據(jù)泄露風(fēng)險,并開展多輪專家評審以確保準(zhǔn)確性和可靠性;
- 我們進行了數(shù)據(jù)污染分析,發(fā)現(xiàn)經(jīng)過數(shù)據(jù)合成后數(shù)據(jù)泄露的風(fēng)險進一步降低;
- MedXpertQA 是目前數(shù)據(jù)污染程度最低的醫(yī)學(xué)評估基準(zhǔn) [1],可以極大程度上實現(xiàn)模型能力客觀和準(zhǔn)確的評估。
- 面向 o1 類模型的醫(yī)學(xué)推理能力評估:
- MedXpertQA 中的大量題目不僅考察醫(yī)學(xué)知識記憶,更要求模型進行復(fù)雜推理。例如,部分題目需要模型整合文本與圖像中的多重信息線索,排除干擾,形成完整邏輯鏈以正確解答;
- 為此,我們根據(jù)題目考察的核心能力(Reasoning 或 Understanding),對每個問題進行了標(biāo)注。大部分題目歸屬 Reasoning 子集,難點在于醫(yī)學(xué)場景下的復(fù)雜推理,尤其適合評估模型的醫(yī)學(xué)推理能力。
MedXpertQA 是怎么構(gòu)建的?
在數(shù)據(jù)收集階段,我們以多樣性和臨床相關(guān)性為核心考量。而在后續(xù)的構(gòu)建階段,我們主要考慮四大核心原則:挑戰(zhàn)性、魯棒性、未見性、準(zhǔn)確性。
數(shù)據(jù)收集之后,MedXpertQA 的構(gòu)建經(jīng)過了過濾、增強和專家審查四個步驟:
- 挑戰(zhàn)性:
- 三重過濾機制問題篩選:
- 人類作答分布:利用真實用戶回答的對錯分布,計算 Brier score 等指標(biāo)分析問題的難易程度;
- 專家標(biāo)注難度:醫(yī)學(xué)專家對問題難度進行分級;
- AI 模型測試結(jié)果:選取 8 個領(lǐng)先的 AI 模型,完成 14 次獨立實驗,識別高難度問題。
- 選項擴充:額外生成干擾的錯誤項,文本(Text)子集擴充至 10 個選項,多模態(tài)(MM)子集擴充至 5 個選項。
- 魯棒性:
- 相似問題過濾:從文本編輯距離和語義層面識別并移除高度相似的問題,降低模型識別 shortcut 進而 hacking 的風(fēng)險。
- 未見性:
- 問題改寫:為了降低數(shù)據(jù)泄漏風(fēng)險,客觀評測模型能力,我們對每道題的表述進行了徹底的改寫。改寫后的句子內(nèi)容保持信息完整,但形式上有明顯差異,有助于客觀評估模型的能力;
- 準(zhǔn)確性:
- 多輪專家審查:
- 持有醫(yī)學(xué)執(zhí)照的專家組成審查組,對完整題庫進行了多輪審查,修正數(shù)據(jù)增強過程中引入的錯誤或原始數(shù)據(jù)錯誤,檢查并修復(fù)信息缺失、不一致、敘述混亂等問題;
- 發(fā)現(xiàn)并修改近千個問題,專家對問題進行了細(xì)致的統(tǒng)計,錯誤歸類與人工糾錯,保證最終基準(zhǔn)的準(zhǔn)確性。
經(jīng)過嚴(yán)格篩選與審查,MedXpertQA 最終保留了原始題庫約 12% 的題目,共計 4,460 題,體現(xiàn)了對質(zhì)量而非數(shù)量的優(yōu)先考量。下表展示了和現(xiàn)存基準(zhǔn)的對比,可以看到 MedXpertQA 展現(xiàn)出了巨大的優(yōu)勢:
前沿模型表現(xiàn)如何?
我們在 MedXpertQA 上評測了領(lǐng)先的多模態(tài)及純文本模型,包括 o3、DeepSeek-R1 等推理模型,更多分?jǐn)?shù)細(xì)節(jié)可以參考 Leaderboard:https://medxpertqa.github.io。
- 模型表現(xiàn)差距顯著: 多模態(tài)模型中,o1 得分最高,但在兩個子集上的總體準(zhǔn)確率未超過 50%,表明前沿模型在醫(yī)學(xué)領(lǐng)域仍有較大提升空間。在 Text 子集上,DeepSeek-R1 是最優(yōu)開源模型,但與 o1 存在一定差距;
- 人類性能基線:我們根據(jù)構(gòu)建基準(zhǔn)時收集的每個問題的作答數(shù)據(jù)計算了人類醫(yī)學(xué)生在原始試題上的準(zhǔn)確率,進而構(gòu)建了一個人類性能的極限,其中每個問題的作答數(shù)量最高達(dá)到 23 萬個,因此具有高度代表性;
- 推理增強模型在 Reasoning 子集優(yōu)勢明顯: 對比三組基座模型及其推理模型版本得知,增強模型在 Reasoning 子集上展現(xiàn)出顯著且穩(wěn)定的性能提升,而在 Understanding 子集上則沒有這一趨勢,這表明 Reasoning 子集尤其適合 o1 類模型評估;
- 錯誤分析揭示推理密集特性: 我們利用 LLM 對 GPT-4o 的完整回復(fù)進行了錯誤類型標(biāo)注,發(fā)現(xiàn)推理過程錯誤和圖像理解錯誤最為常見,純粹的醫(yī)學(xué)知識性錯誤則相對較少。
以上結(jié)果從多角度印證了 MedXpertQA 的價值,尤其凸顯了 Reasoning 子集的必要性。
總結(jié)
MedXpertQA,一個高難度的、高臨床相關(guān)性的、全面的醫(yī)學(xué)基準(zhǔn)、面向?qū)<壹夅t(yī)學(xué)知識和高級推理能力的評估。當(dāng)前研究已廣泛體現(xiàn)出推理能力對醫(yī)學(xué) AI 模型的重要性。
我們進一步提出:醫(yī)學(xué)作為一個復(fù)雜、豐富且至關(guān)重要的領(lǐng)域,有潛力成為評估模型推理能力的新場景,從而拓寬當(dāng)前以數(shù)學(xué)和編程為主的評測范式。我們期待 MedXpertQA 能成為推動專業(yè)醫(yī)學(xué)模型與通用推理模型共同發(fā)展的重要資源。
參考文獻
[1] Tang, Xiangru, et al. "Medagentsbench: Benchmarking thinking models and agent frameworks for complex medical reasoning." arXiv preprint arXiv:2503.07459 (2025).
[2] Wu, Juncheng, et al. "Medreason: Eliciting factual medical reasoning steps in llms via knowledge graphs." arXiv preprint arXiv:2504.00993 (2025).
[3] Phan, Long, et al. "Humanity's last exam." arXiv preprint arXiv:2501.14249 (2025).
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.