99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

清華、上海AI Lab提出專家級醫(yī)學(xué)基準(zhǔn)MedXpertQA,看o3、R1哪家強

0
分享至



本文作者來自于清華大學(xué)和上海 AI Lab,通訊作者為清華大學(xué)丁寧助理教授和清華大學(xué)講席教授、上海 AI Lab 主任周伯文教授。



  • 論文標(biāo)題:MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding
  • 論文:https://arxiv.org/abs/2501.18362
  • 代碼: https://github.com/TsinghuaC3I/MedXpertQA
  • 榜單:https://medxpertqa.github.io

論文已被 ICML 2025 接收,并且被 DeepMind MedGemma 采用為評估基準(zhǔn)。



基準(zhǔn)地址:https://deepmind.google/models/gemma/medgemma/

為什么我們需要一個新的醫(yī)學(xué)基準(zhǔn)?

前沿的 AI 模型距離應(yīng)用于真實世界的醫(yī)療場景還有多遠(yuǎn)?

1. 現(xiàn)有基準(zhǔn)難度不足:前沿人工智能模型能力的提升,通常依賴于高難度且能夠合理評估模型表現(xiàn)的基準(zhǔn)的引導(dǎo)與推動。然而,即使是最具代表性的高難度醫(yī)學(xué)基準(zhǔn)MedQA也正在快速飽和(o1 已經(jīng) 96 分)-> 現(xiàn)有醫(yī)學(xué)基準(zhǔn)已難以有效評估和驅(qū)動前沿模型的進一步發(fā)展。

2. 現(xiàn)有基準(zhǔn)臨床相關(guān)性不足:醫(yī)學(xué)人工智能的一個核心要求是能夠適應(yīng)真實世界的臨床診斷場景。然而,現(xiàn)有的文本醫(yī)學(xué)基準(zhǔn)普遍缺乏對真實臨床環(huán)境的充分覆蓋,而以往的多模態(tài)醫(yī)學(xué)基準(zhǔn)則還停留在自動生成的簡單問答對,臨床相關(guān)性嚴(yán)重不足。



因此,我們提出了 MedXpertQA,包括涵蓋 17 個專業(yè)和 11 個身體系統(tǒng)的 4,460 個問題。它包括了兩個子集,分別是用于文本醫(yī)學(xué)評估的MedXpertQA Text 和用于多模態(tài)醫(yī)學(xué)評估的MedXpertQA MM。

為什么選 MedXpertQA?

怎么實現(xiàn)高難度和高臨床相關(guān)性?另外,對于一個醫(yī)學(xué)基準(zhǔn)僅有這兩點還不夠。問題的多樣性如何?質(zhì)量如何?

MedXpertQA 面向上述挑戰(zhàn)做出了重大改進:

  • 極具挑戰(zhàn)性,有效區(qū)分前沿模型:

  • MedXpertQA 引入了高難度醫(yī)學(xué)考試題目,并進行了嚴(yán)格的篩選和增強,有效解決了現(xiàn)有基準(zhǔn)如 MedQA 難度不足的問題;
  • MedXpertQA 是目前最具挑戰(zhàn)性的醫(yī)學(xué)多選題(MCQA)評測基準(zhǔn) [1],甚至超越 Human's Last Exam (Medical) [2, 3]。下圖展示了前沿模型在各個基準(zhǔn)上的表現(xiàn):



  • 高臨床相關(guān)性,真實診斷場景:

  • 權(quán)威且廣泛的數(shù)據(jù)來源:收集了累計超過 20 個美國醫(yī)學(xué)執(zhí)照考試的問題,問題均由高水平專家設(shè)計,首次引入專科委員會問題,以提高臨床相關(guān)性和全面性。

  • 2 個美國醫(yī)師執(zhí)照考試:USMLE 和 COMLEX
  • 17/25 個美國醫(yī)學(xué)專科委員會下屬專科的執(zhí)照考試
  • 多個考察圖像理解的科目考試(歐洲放射學(xué)委員會等)
  • 初始收集了 37543 個問題,為 MedQA-USMLE 的 3 倍左右



  • 下一代多模態(tài)醫(yī)學(xué)評估:

  • MedXpertQA 使用真實場景的、專家設(shè)計的高難度問題構(gòu)建多模態(tài)(MM)子集,相較傳統(tǒng)的多模態(tài)醫(yī)學(xué)評估基準(zhǔn)做出重大改進;
  • 包括多樣化的圖像和豐富的真實臨床信息,考察專家級知識和高級推理能力。而傳統(tǒng)醫(yī)學(xué)多模態(tài)基準(zhǔn)為由圖像標(biāo)題自動生成的簡單問答對,下圖展示了一個對比:



  • 「全面的」多樣性:

  • 醫(yī)學(xué)屬性:覆蓋了超過 17 個醫(yī)學(xué)???,覆蓋了權(quán)威醫(yī)學(xué)教科書中定義的所有身體系統(tǒng)(11 種);
  • 模態(tài):除了放射學(xué),生命體征等醫(yī)學(xué)影像,還引入了醫(yī)生診斷過程中可能需要的文檔,表格等模態(tài)信息,完全貼近真實世界的臨床場景;
  • 任務(wù):覆蓋了真實診斷場景中的大量診斷任務(wù)。



  • 極低數(shù)據(jù)泄露:

  • 我們進行數(shù)據(jù)合成以減輕數(shù)據(jù)泄露風(fēng)險,并開展多輪專家評審以確保準(zhǔn)確性和可靠性;
  • 我們進行了數(shù)據(jù)污染分析,發(fā)現(xiàn)經(jīng)過數(shù)據(jù)合成后數(shù)據(jù)泄露的風(fēng)險進一步降低;
  • MedXpertQA 是目前數(shù)據(jù)污染程度最低的醫(yī)學(xué)評估基準(zhǔn) [1],可以極大程度上實現(xiàn)模型能力客觀和準(zhǔn)確的評估。

  • 面向 o1 類模型的醫(yī)學(xué)推理能力評估:

  • MedXpertQA 中的大量題目不僅考察醫(yī)學(xué)知識記憶,更要求模型進行復(fù)雜推理。例如,部分題目需要模型整合文本與圖像中的多重信息線索,排除干擾,形成完整邏輯鏈以正確解答;
  • 為此,我們根據(jù)題目考察的核心能力(Reasoning 或 Understanding),對每個問題進行了標(biāo)注。大部分題目歸屬 Reasoning 子集,難點在于醫(yī)學(xué)場景下的復(fù)雜推理,尤其適合評估模型的醫(yī)學(xué)推理能力。

MedXpertQA 是怎么構(gòu)建的?

在數(shù)據(jù)收集階段,我們以多樣性和臨床相關(guān)性為核心考量。而在后續(xù)的構(gòu)建階段,我們主要考慮四大核心原則:挑戰(zhàn)性、魯棒性、未見性、準(zhǔn)確性。

數(shù)據(jù)收集之后,MedXpertQA 的構(gòu)建經(jīng)過了過濾、增強和專家審查四個步驟:

  • 挑戰(zhàn)性:

  • 三重過濾機制問題篩選:

  1. 人類作答分布:利用真實用戶回答的對錯分布,計算 Brier score 等指標(biāo)分析問題的難易程度;
  2. 專家標(biāo)注難度:醫(yī)學(xué)專家對問題難度進行分級;
  3. AI 模型測試結(jié)果:選取 8 個領(lǐng)先的 AI 模型,完成 14 次獨立實驗,識別高難度問題。

  • 選項擴充:額外生成干擾的錯誤項,文本(Text)子集擴充至 10 個選項,多模態(tài)(MM)子集擴充至 5 個選項。

  • 魯棒性:

  • 相似問題過濾:從文本編輯距離和語義層面識別并移除高度相似的問題,降低模型識別 shortcut 進而 hacking 的風(fēng)險。

  • 未見性:

  • 問題改寫:為了降低數(shù)據(jù)泄漏風(fēng)險,客觀評測模型能力,我們對每道題的表述進行了徹底的改寫。改寫后的句子內(nèi)容保持信息完整,但形式上有明顯差異,有助于客觀評估模型的能力;

  • 準(zhǔn)確性:

  • 多輪專家審查:

  • 持有醫(yī)學(xué)執(zhí)照的專家組成審查組,對完整題庫進行了多輪審查,修正數(shù)據(jù)增強過程中引入的錯誤或原始數(shù)據(jù)錯誤,檢查并修復(fù)信息缺失、不一致、敘述混亂等問題;
  • 發(fā)現(xiàn)并修改近千個問題,專家對問題進行了細(xì)致的統(tǒng)計,錯誤歸類與人工糾錯,保證最終基準(zhǔn)的準(zhǔn)確性。

經(jīng)過嚴(yán)格篩選與審查,MedXpertQA 最終保留了原始題庫約 12% 的題目,共計 4,460 題,體現(xiàn)了對質(zhì)量而非數(shù)量的優(yōu)先考量。下表展示了和現(xiàn)存基準(zhǔn)的對比,可以看到 MedXpertQA 展現(xiàn)出了巨大的優(yōu)勢:





前沿模型表現(xiàn)如何?

我們在 MedXpertQA 上評測了領(lǐng)先的多模態(tài)及純文本模型,包括 o3、DeepSeek-R1 等推理模型,更多分?jǐn)?shù)細(xì)節(jié)可以參考 Leaderboard:https://medxpertqa.github.io。



  • 模型表現(xiàn)差距顯著: 多模態(tài)模型中,o1 得分最高,但在兩個子集上的總體準(zhǔn)確率未超過 50%,表明前沿模型在醫(yī)學(xué)領(lǐng)域仍有較大提升空間。在 Text 子集上,DeepSeek-R1 是最優(yōu)開源模型,但與 o1 存在一定差距;
  • 人類性能基線:我們根據(jù)構(gòu)建基準(zhǔn)時收集的每個問題的作答數(shù)據(jù)計算了人類醫(yī)學(xué)生在原始試題上的準(zhǔn)確率,進而構(gòu)建了一個人類性能的極限,其中每個問題的作答數(shù)量最高達(dá)到 23 萬個,因此具有高度代表性;
  • 推理增強模型在 Reasoning 子集優(yōu)勢明顯: 對比三組基座模型及其推理模型版本得知,增強模型在 Reasoning 子集上展現(xiàn)出顯著且穩(wěn)定的性能提升,而在 Understanding 子集上則沒有這一趨勢,這表明 Reasoning 子集尤其適合 o1 類模型評估;



  • 錯誤分析揭示推理密集特性: 我們利用 LLM 對 GPT-4o 的完整回復(fù)進行了錯誤類型標(biāo)注,發(fā)現(xiàn)推理過程錯誤和圖像理解錯誤最為常見,純粹的醫(yī)學(xué)知識性錯誤則相對較少。

以上結(jié)果從多角度印證了 MedXpertQA 的價值,尤其凸顯了 Reasoning 子集的必要性。

總結(jié)

MedXpertQA,一個高難度的、高臨床相關(guān)性的、全面的醫(yī)學(xué)基準(zhǔn)、面向?qū)<壹夅t(yī)學(xué)知識和高級推理能力的評估。當(dāng)前研究已廣泛體現(xiàn)出推理能力對醫(yī)學(xué) AI 模型的重要性。

我們進一步提出:醫(yī)學(xué)作為一個復(fù)雜、豐富且至關(guān)重要的領(lǐng)域,有潛力成為評估模型推理能力的新場景,從而拓寬當(dāng)前以數(shù)學(xué)和編程為主的評測范式。我們期待 MedXpertQA 能成為推動專業(yè)醫(yī)學(xué)模型與通用推理模型共同發(fā)展的重要資源。

參考文獻

[1] Tang, Xiangru, et al. "Medagentsbench: Benchmarking thinking models and agent frameworks for complex medical reasoning." arXiv preprint arXiv:2503.07459 (2025).

[2] Wu, Juncheng, et al. "Medreason: Eliciting factual medical reasoning steps in llms via knowledge graphs." arXiv preprint arXiv:2504.00993 (2025).

[3] Phan, Long, et al. "Humanity's last exam." arXiv preprint arXiv:2501.14249 (2025).

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
咖啡抗癌再立功!南方醫(yī)科大最新:咖啡因能激活T細(xì)胞,顯著增強抗癌免疫反應(yīng)

咖啡抗癌再立功!南方醫(yī)科大最新:咖啡因能激活T細(xì)胞,顯著增強抗癌免疫反應(yīng)

醫(yī)諾維
2025-07-08 17:15:20
王晶又曝大瓜:古天樂偷偷在美國結(jié)婚,你都不知道,那隨時能離婚

王晶又曝大瓜:古天樂偷偷在美國結(jié)婚,你都不知道,那隨時能離婚

冷紫葉
2025-07-08 16:19:28
以色列下達(dá)最后通牒,不許售賣殲10?三國大量采購中式武器

以色列下達(dá)最后通牒,不許售賣殲10?三國大量采購中式武器

科技有趣事
2025-07-08 09:40:42
養(yǎng)老金補發(fā)倒計時!2025漲幅3.6%落地,六類人多拿三倍錢!

養(yǎng)老金補發(fā)倒計時!2025漲幅3.6%落地,六類人多拿三倍錢!

記錄生活日常阿蜴
2025-07-08 03:52:17
重慶中心城區(qū)這場雨為什么來得又快又猛?專家釋疑

重慶中心城區(qū)這場雨為什么來得又快又猛?專家釋疑

上游新聞
2025-07-08 19:47:30
網(wǎng)傳川西墜河車輛80萬,開了9年!司機是大姐在色達(dá)朋友的孩子?

網(wǎng)傳川西墜河車輛80萬,開了9年!司機是大姐在色達(dá)朋友的孩子?

二月侃事
2025-07-08 13:46:22
已確認(rèn)!是著名演員馮鞏

已確認(rèn)!是著名演員馮鞏

CD潮生活
2025-07-07 17:40:53
衡水少年張錫峰,“豬拱白菜”之后

衡水少年張錫峰,“豬拱白菜”之后

南風(fēng)窗
2025-07-07 14:56:15
急轉(zhuǎn)彎,臺風(fēng)路徑又變了!直逼浙江,停航停運!上海雷電+大風(fēng)預(yù)警高掛

急轉(zhuǎn)彎,臺風(fēng)路徑又變了!直逼浙江,停航停運!上海雷電+大風(fēng)預(yù)警高掛

魯中晨報
2025-07-08 15:00:15
幼兒鉛中毒持續(xù)升級!畢業(yè)一年仍超標(biāo),內(nèi)幕曝光,血鉛是冰山一角

幼兒鉛中毒持續(xù)升級!畢業(yè)一年仍超標(biāo),內(nèi)幕曝光,血鉛是冰山一角

趣文說娛
2025-07-08 10:17:18
容祖兒回應(yīng)英皇欠債166億傳聞:老板私下說問題不大,無需去跑數(shù)

容祖兒回應(yīng)英皇欠債166億傳聞:老板私下說問題不大,無需去跑數(shù)

開開森森
2025-07-07 21:59:42
伊以大戰(zhàn)損失慘重,伊前軍官痛心:我9年前就要去中國買100架殲10

伊以大戰(zhàn)損失慘重,伊前軍官痛心:我9年前就要去中國買100架殲10

戰(zhàn)旗紅
2025-07-05 23:49:19
血鉛事件真相大白!官方公布后廚加顏料視頻,網(wǎng)友提出3大疑點!

血鉛事件真相大白!官方公布后廚加顏料視頻,網(wǎng)友提出3大疑點!

古希臘掌管松餅的神
2025-07-08 13:19:32
鹿晗關(guān)曉彤和好!關(guān)曉彤最近態(tài)度大變,穿情侶款,發(fā)新作示愛鹿晗

鹿晗關(guān)曉彤和好!關(guān)曉彤最近態(tài)度大變,穿情侶款,發(fā)新作示愛鹿晗

檸檬有娛樂
2025-07-07 09:03:42
先贏后輸!中國U16男足3比4不敵韓國,和平杯排名第三

先贏后輸!中國U16男足3比4不敵韓國,和平杯排名第三

澎湃新聞
2025-07-08 21:34:41
兔死狗烹!利雅得新月在世俱杯上取得成功后,將清洗多位大牌外援

兔死狗烹!利雅得新月在世俱杯上取得成功后,將清洗多位大牌外援

星耀國際足壇
2025-07-08 20:03:16
新加坡前總理李顯龍給學(xué)生建議:不要把你所有的時間都花在學(xué)習(xí)上

新加坡前總理李顯龍給學(xué)生建議:不要把你所有的時間都花在學(xué)習(xí)上

尚曦讀史
2025-07-08 04:12:23
7旬大爺網(wǎng)貸40萬不還,催收公司上門,看到證件后擺手:這賬收不了

7旬大爺網(wǎng)貸40萬不還,催收公司上門,看到證件后擺手:這賬收不了

五元講堂
2025-07-07 15:08:38
上海2025年養(yǎng)老金調(diào)整在即,工齡30年養(yǎng)老金5000,能補發(fā)1500嗎?

上海2025年養(yǎng)老金調(diào)整在即,工齡30年養(yǎng)老金5000,能補發(fā)1500嗎?

社保大看臺
2025-07-07 19:10:38
央視曝光,如今卷土重來!58600元一瓶的聽花酒,到底什么人在喝

央視曝光,如今卷土重來!58600元一瓶的聽花酒,到底什么人在喝

興史興談
2025-07-08 17:54:03
2025-07-08 23:20:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
10810文章數(shù) 142356關(guān)注度
往期回顧 全部

科技要聞

"失去新鮮感",中國車主為何不再追捧特斯拉

頭條要聞

廣汽菲克破產(chǎn) 一句"不是所有吉普都叫Jeep"曾廣為人知

頭條要聞

廣汽菲克破產(chǎn) 一句"不是所有吉普都叫Jeep"曾廣為人知

體育要聞

17歲的朱正很好,但他救不了中國男籃

娛樂要聞

麻煩大了,鳳凰傳奇再次遭受“重創(chuàng)”

財經(jīng)要聞

新消費浪潮下的資本敘事能持續(xù)嗎?

汽車要聞

遵循“極簡主義” 北京現(xiàn)代ELEXIO發(fā)布內(nèi)飾官圖

態(tài)度原創(chuàng)

健康
房產(chǎn)
旅游
藝術(shù)
手機

呼吸科專家破解呼吸道九大謠言!

房產(chǎn)要聞

突然爆發(fā)!巨頭瘋?cè)牒?谖骱0叮?/h3>

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

手機要聞

vivo X200 Ultra已推送OriginOS 15.0.15.5:變化大,你升級了嗎

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 丹凤县| 南康市| 洪雅县| 沂源县| 永昌县| 海安县| 临清市| 金堂县| 沾益县| 东乌珠穆沁旗| 大宁县| 福州市| 安乡县| 尼勒克县| 根河市| 阿拉尔市| 鄂尔多斯市| 弋阳县| 茶陵县| 治县。| 沾益县| 岗巴县| 临高县| 富源县| 响水县| 大安市| 稷山县| 奉新县| 兴城市| 唐海县| 察哈| 措勤县| 永泰县| 镇巴县| 阳江市| 兴国县| 黄龙县| 巴塘县| 武陟县| 池州市| 东光县|