本文工作由清華大學(xué)電子系醫(yī)工交叉平臺(tái)吳及教授和劉喜恩助理研究員所領(lǐng)導(dǎo)的醫(yī)學(xué)自然語(yǔ)言處理團(tuán)隊(duì),聯(lián)合北郵、科大訊飛、無(wú)問(wèn)芯穹等單位共同完成。第一作者周宇軒為清華大學(xué)電子工程系博士生,其研究方向聚焦于大模型的醫(yī)療垂類能力評(píng)估與優(yōu)化,此前已提出 MultifacetEval(IJCAI 2024)與 PretexEval(ICLR 2025)等醫(yī)學(xué)知識(shí)掌握的多面動(dòng)態(tài)評(píng)估框架體系。吳及教授和劉喜恩助理研究員所領(lǐng)導(dǎo)的醫(yī)學(xué)自然語(yǔ)言處理團(tuán)隊(duì)長(zhǎng)期致力于面向真實(shí)需求驅(qū)動(dòng)的醫(yī)工交叉前沿技術(shù)研究與產(chǎn)業(yè)變革,曾在 2017 年聯(lián)合科大訊飛研發(fā)了首個(gè)以 456 分高分通過(guò)國(guó)家臨床執(zhí)業(yè)醫(yī)師資格考試綜合筆試測(cè)試 AI 引擎 Med3R(Nature Communications 2018)并在全國(guó) 400 多個(gè)區(qū)縣服務(wù)于基層醫(yī)療;2021 年聯(lián)合惠及智醫(yī)研發(fā)了首個(gè)基于全病歷內(nèi)容分析的智慧醫(yī)保 AI 審核引擎,獲得國(guó)家醫(yī)保局智慧醫(yī)保大賽一等獎(jiǎng),并在全國(guó)多個(gè)省市進(jìn)行示范應(yīng)用。
大語(yǔ)言模型(Large Language Models,LLMs)技術(shù)的迅猛發(fā)展,正在深刻重塑醫(yī)療行業(yè)。醫(yī)療領(lǐng)域正成為這一前沿技術(shù)的 “新戰(zhàn)場(chǎng)” 之一。大模型具備強(qiáng)大的文本理解與生成能力,能夠快速讀取醫(yī)學(xué)文獻(xiàn)、解讀病歷記錄,甚至基于患者表述生成初步診斷建議,有效輔助醫(yī)生提升診斷的準(zhǔn)確性與效率。
該技術(shù)有望在緩解醫(yī)生工作負(fù)擔(dān)、提升就診效率、優(yōu)化醫(yī)療管理水平等多個(gè)方面發(fā)揮重要作用。
雖然當(dāng)前主流大語(yǔ)言模型在 MedQA 等醫(yī)療問(wèn)答基準(zhǔn)數(shù)據(jù)集上已取得 90% 以上的準(zhǔn)確率,顯示出強(qiáng)大的語(yǔ)言理解與推理能力,但臨床一線的實(shí)際反饋表明,其在真實(shí)醫(yī)療場(chǎng)景中的應(yīng)用效果仍不理想,普遍存在 “高分低能” 的問(wèn)題。
在當(dāng)前大語(yǔ)言模型不斷取得評(píng)測(cè)突破的背景下,一個(gè)關(guān)鍵問(wèn)題亟需回答:為何其在真實(shí)臨床問(wèn)題中仍難以發(fā)揮預(yù)期效能?
究其根本,是由于醫(yī)學(xué)知識(shí)覆蓋尚不充分,還是因缺乏有效的臨床應(yīng)用能力?亦或是在面對(duì)復(fù)雜、動(dòng)態(tài)的真實(shí)場(chǎng)景時(shí),模型在臨床推理與決策層面存在顯著短板?抑或三者皆為限制其實(shí)際落地的關(guān)鍵因素?
近日,清華大學(xué)電子系醫(yī)工交叉平臺(tái)劉喜恩助理研究員領(lǐng)銜的醫(yī)學(xué)自然語(yǔ)言處理團(tuán)隊(duì),聯(lián)合多家單位在 ICML 2025 會(huì)議上發(fā)布最新研究成果,首次提出從醫(yī)學(xué)知識(shí)掌握到臨床問(wèn)題解決的 “全周期” 大語(yǔ)言模型醫(yī)學(xué)能力評(píng)測(cè)框架 ——MultiCogEval
該框架覆蓋大模型在不同認(rèn)知層次下的醫(yī)學(xué)能力評(píng)測(cè),為全面理解大語(yǔ)言模型在醫(yī)療領(lǐng)域的能力邊界并洞察其在真實(shí)臨床場(chǎng)景中面臨的核心短板,提供了全新視角與分析工具。
- 論文標(biāo)題:Evaluating LLMs Across Multi-Cognitive Levels: From Medical Knowledge Mastery to Scenario-Based Problem Solving
- 論文鏈接:https://openreview.net/pdf?id=sgrJs7dbWC
- 項(xiàng)目主頁(yè):https://github.com/THUMLP/MultiCogEval
如何構(gòu)建一個(gè) “全周期” 醫(yī)學(xué)評(píng)測(cè)框架?
在大多數(shù)國(guó)家,醫(yī)學(xué)生通常需依次完成基礎(chǔ)醫(yī)學(xué)知識(shí)學(xué)習(xí)、臨床見(jiàn)習(xí)以及住院醫(yī)師規(guī)范化培訓(xùn),方可成為一名合格醫(yī)生。這一培養(yǎng)路徑契合人類認(rèn)知能力的發(fā)展規(guī)律:先通過(guò)記憶與理解掌握基礎(chǔ)醫(yī)學(xué)知識(shí),繼而在典型病例中運(yùn)用所學(xué)進(jìn)行具體分析,最終具備在真實(shí)臨床場(chǎng)景中進(jìn)行規(guī)劃與問(wèn)題求解的能力。與此相對(duì)應(yīng),針對(duì)臨床能力的評(píng)估體系也呈現(xiàn)出分層遞進(jìn)的結(jié)構(gòu):從基礎(chǔ)課程考試,到臨床技能測(cè)評(píng),再到住培階段的綜合結(jié)業(yè)考核,逐步覆蓋不同認(rèn)知層次。
然而,現(xiàn)有醫(yī)學(xué)大模型評(píng)測(cè)集的任務(wù)設(shè)計(jì)多聚焦于單一類型(如問(wèn)答、診斷等),盡管這類評(píng)估有助于比較不同模型間的性能差異,但通常僅覆蓋某一特定認(rèn)知層次,難以全面反映大模型在醫(yī)學(xué)應(yīng)用中所需的多層次、全流程能力。部分評(píng)測(cè)工作嘗試通過(guò)引入多種任務(wù)來(lái)覆蓋不同認(rèn)知層次,但仍存在兩方面問(wèn)題:其一,不同任務(wù)與認(rèn)知層次之間缺乏明確對(duì)應(yīng)關(guān)系;其二,各任務(wù)所涉及醫(yī)學(xué)知識(shí)點(diǎn)的覆蓋范圍、評(píng)測(cè)指標(biāo)差異較大,導(dǎo)致跨任務(wù)的評(píng)估結(jié)果缺乏可比性與解釋力。
為應(yīng)對(duì)上述挑戰(zhàn),研究人員提出了多認(rèn)知層次醫(yī)學(xué)評(píng)測(cè)框架 MultiCogEval。該框架設(shè)計(jì)了一系列覆蓋醫(yī)學(xué)生培養(yǎng)全流程、對(duì)應(yīng)不同認(rèn)知層次的醫(yī)學(xué)任務(wù),并結(jié)合醫(yī)學(xué)知識(shí)點(diǎn)對(duì)齊與評(píng)測(cè)指標(biāo)統(tǒng)一等方法,實(shí)現(xiàn)了跨認(rèn)知層次的評(píng)估可比性與結(jié)果可解釋性,為大模型醫(yī)學(xué)能力的系統(tǒng)性評(píng)估提供了有效支撐。
(圖 1):人類醫(yī)師醫(yī)學(xué)認(rèn)知能力發(fā)展流程與大模型醫(yī)學(xué)能力評(píng)測(cè)的對(duì)應(yīng)關(guān)系
MultiCogEval:多認(rèn)知層次醫(yī)學(xué)評(píng)測(cè)框架
受現(xiàn)有醫(yī)師培養(yǎng)流程啟發(fā),MultiCogEval 從三個(gè)認(rèn)知層次考察大語(yǔ)言模型的臨床能力:
- 基礎(chǔ)知識(shí)掌握:評(píng)測(cè)模型對(duì)基礎(chǔ)醫(yī)學(xué)知識(shí)的記憶與理解程度。在這一層次上,MultiCogEval 采用現(xiàn)有 LLM Benchmarks 中最常用的多項(xiàng)選擇題(Multiple-choice Questions)進(jìn)行評(píng)測(cè);
- 綜合知識(shí)應(yīng)用:評(píng)測(cè)模型綜合運(yùn)用所學(xué)知識(shí)解決臨床任務(wù)的能力。與多項(xiàng)選擇題相比,真實(shí)臨床場(chǎng)景往往可用信息更少、決策空間更大,同時(shí)依賴多步推理才能得到結(jié)果。為了進(jìn)一步逼近這些真實(shí)臨床場(chǎng)景的應(yīng)用需求,MultiCogEval 從這三個(gè)維度出發(fā),分別設(shè)計(jì)了三種任務(wù)進(jìn)行評(píng)測(cè);
- 場(chǎng)景問(wèn)題求解:評(píng)測(cè)模型在真實(shí)臨床場(chǎng)景中主動(dòng)規(guī)劃求解的能力。盡管現(xiàn)有的一些醫(yī)學(xué)評(píng)測(cè)集(如 MedQA)涉及對(duì)醫(yī)學(xué)案例的分析與診斷,但這些評(píng)測(cè)集往往是將所有診斷信息一次性通過(guò)題干的形式提供的。與之相比,真實(shí)臨床場(chǎng)景則依賴醫(yī)師基于已有的診斷信息進(jìn)行主動(dòng)決策,通過(guò)查體、實(shí)驗(yàn)室檢查、影像學(xué)等方式收集診斷信息,最終綜合已有的診斷信息做出診斷。在這一層次上,MultiCogEval 采用一種模擬診斷任務(wù),考察大模型在信息不足條件下主動(dòng)規(guī)劃?rùn)z查檢驗(yàn),并完成診斷的能力。
(圖 2):多認(rèn)知層次醫(yī)學(xué)評(píng)測(cè)框架 MultiCogEval
實(shí)驗(yàn)結(jié)果:當(dāng)前大模型的臨床場(chǎng)景問(wèn)題求解能力仍待加強(qiáng)
基于該評(píng)測(cè)框架,研究人員對(duì)一系列知名大模型進(jìn)行了系統(tǒng)的評(píng)測(cè),觀察到多種 SOTA 大語(yǔ)言模型(如 GPT-4o、DeepSeek-V3 和 Llama3-70B)在低階任務(wù)(基礎(chǔ)知識(shí)掌握)上表現(xiàn)出色,準(zhǔn)確率超過(guò)了 60%。然而,當(dāng)在中階任務(wù)(綜合知識(shí)應(yīng)用)上進(jìn)行評(píng)估時(shí),這些模型的性能均出現(xiàn)了顯著下降(約 20%)。此外,在高階任務(wù)(場(chǎng)景問(wèn)題求解)中,所有模型的表現(xiàn)進(jìn)一步下滑,其中表現(xiàn)最好的 DeepSeek-V3 的全鏈條診斷準(zhǔn)確率也僅為 19.4%。這表明,盡管當(dāng)前的大語(yǔ)言模型在基礎(chǔ)醫(yī)學(xué)知識(shí)方面已經(jīng)具備較強(qiáng)的掌握能力,但在更高認(rèn)知層級(jí)上,尤其是在應(yīng)對(duì)真實(shí)醫(yī)療場(chǎng)景中的復(fù)雜問(wèn)題時(shí),仍面臨巨大挑戰(zhàn)。
(表 1):來(lái)自多個(gè)系列的通用大模型在 MultiCogEval 不同層次上的評(píng)測(cè)表現(xiàn)
為研究醫(yī)學(xué)領(lǐng)域 SFT 對(duì)大語(yǔ)言模型在不同認(rèn)知層級(jí)上的影響,研究人員進(jìn)一步對(duì)比了醫(yī)學(xué)大模型與對(duì)應(yīng)基座模型,發(fā)現(xiàn)醫(yī)學(xué)領(lǐng)域 SFT 可以有效提升大模型的低階(基礎(chǔ)知識(shí)掌握)與中階(綜合知識(shí)應(yīng)用)臨床能力(最高可達(dá) 15%)。然而,在高階任務(wù)(場(chǎng)景問(wèn)題求解)上,它們未能取得顯著進(jìn)步,有些甚至表現(xiàn)不如基座模型。
(圖 3):多個(gè)醫(yī)學(xué)專用大模型在 MultiCogEval 不同層次上的評(píng)測(cè)表現(xiàn)
最后,研究人員進(jìn)一步研究了推理時(shí)擴(kuò)展(inference-time scaling)在提升大語(yǔ)言模型醫(yī)學(xué)能力方面的效果。如表 2 所示,推理增強(qiáng)模型在所有認(rèn)知層級(jí)上均優(yōu)于對(duì)應(yīng)的指令微調(diào)模型,且在中階任務(wù)上的提升更為顯著(例如 DeepSeek-R1 在中階任務(wù)上提升了 23.1%,而在低階任務(wù)上僅提升了 9.8%)。然而,當(dāng)前的推理增強(qiáng)模型仍然沒(méi)有完全解決高階任務(wù),說(shuō)明現(xiàn)有的模型在真實(shí)臨床場(chǎng)景中主動(dòng)規(guī)劃、獲取決策信息進(jìn)行推理的能力仍然有待進(jìn)一步提升。
(表 2):推理增強(qiáng)模型與指令微調(diào)模型在不同層次任務(wù)上的性能對(duì)比
結(jié)語(yǔ)
本研究首次提出了多認(rèn)知層次醫(yī)學(xué)能力評(píng)測(cè)框架 MultiCogEval,系統(tǒng)性地對(duì)大語(yǔ)言模型在基礎(chǔ)知識(shí)掌握、綜合知識(shí)應(yīng)用和場(chǎng)景問(wèn)題求解三大認(rèn)知層級(jí)上的醫(yī)學(xué)能力進(jìn)行評(píng)估。通過(guò)構(gòu)建面向全流程醫(yī)學(xué)任務(wù)的評(píng)測(cè)體系,并在多個(gè)主流通用大模型與醫(yī)學(xué)專用模型上進(jìn)行評(píng)測(cè)與分析,研究團(tuán)隊(duì)發(fā)現(xiàn):
- 當(dāng)前大模型在低層級(jí)醫(yī)學(xué)任務(wù)表現(xiàn)較為出色,具備較強(qiáng)的醫(yī)學(xué)知識(shí)記憶與理解能力。但隨著任務(wù)認(rèn)知復(fù)雜度的提升,模型在中高層級(jí)任務(wù)上的能力出現(xiàn)明顯下降,尤其是在高階臨床場(chǎng)景下的主動(dòng)信息獲取與推理決策能力仍顯不足;
- 醫(yī)學(xué)領(lǐng)域微調(diào)在提升基礎(chǔ)與中階能力方面效果顯著,但對(duì)高階任務(wù)性能提升有限;
- 推理時(shí)擴(kuò)展方法能夠顯著增強(qiáng)模型在各個(gè)層次醫(yī)學(xué)任務(wù)上的表現(xiàn),特別是在復(fù)雜任務(wù)中,但仍不足以完全彌補(bǔ)模型在高階能力方面的短板。
MultiCogEval 的發(fā)布為后續(xù)的醫(yī)學(xué)大模型研發(fā)與評(píng)測(cè)奠定了堅(jiān)實(shí)基礎(chǔ)。我們期待該框架能促進(jìn)大模型在醫(yī)學(xué)領(lǐng)域的更加穩(wěn)健、可信、實(shí)用的落地,真正助力構(gòu)建 “可信賴的 AI 醫(yī)生”。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.