99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

GPT-4o醫學知識覆蓋率僅55%?大模型醫療能力“體檢報告”來了

0
分享至

MedKGEval團隊 投稿
量子位 | 公眾號 QbitAI

醫療大模型知識覆蓋度首次被精準量化!

在醫療領域,大語言模型(LLM)的潛力令人振奮,但其知識儲備是否足夠可靠?騰訊優圖實驗室天衍研究中心的最新研究給出了答案。

他們提出的MedKGEval框架,首次通過醫療知識圖譜(KG)的多層級評估,系統揭示了GPT-4o等主流模型的醫學知識覆蓋度。

該研究已被WWW 2025會議Web4Good Track錄用為口頭報告(oral)。目前,WWW 2025正在悉尼舉行,會議時間從4月28日持續至5月2日。



背景

大語言模型(LLM)在醫療領域的快速發展凸顯了其知識存儲與處理的潛力,但其臨床部署前的可靠性驗證亟需更系統化的評估框架。

當前主流的Prompt-CBLUE、Medbench和MedJourney等評估體系雖通過醫學問答基準測試LLM的任務執行能力,卻存在三個明顯的局限:

1)其長尾數據分布導致罕見病癥覆蓋不足,評測結果存在偏差;

2)任務導向的設計聚焦疾病預測、用藥咨詢等單一場景,難以量化模型內在醫學知識儲量;

3)傳統問答形式局限于表面對錯判斷,無法捕捉醫學概念間的復雜拓撲關聯。

為解決這些問題,本文提出基于醫療知識圖譜(KG)的多層級評估框架MedKGEval。

醫療KG通過結構化存儲復雜實體關系網絡,為評估提供天然基準??蚣軇撔滦缘卦O計三級評估體系:實體層評估醫學概念理解,關系層檢驗醫學關聯區分能力,子圖層驗證結構化推理水平。

通過真偽判斷和多選題形式,同時實現任務導向(task-oriented)的粗粒度性能評估與知識導向(knowledge-oriented)的細粒度三重覆蓋度測量(實體/關系/知識三元組)。

醫療知識覆蓋度評估框架MedKGEval

在MedKGEval中研究團隊設計了多層級的任務體系,其中包含3個層級的9項核心任務,通過真偽判斷(TFQ)與多選題(MCQ)任務形式,實現任務導向與知識導向的雙重評測。

具體評估流程框架見下圖。



任務架構設計

基于醫療知識圖譜的實體、關系、三元組結構,構建三級評估體系:

實體層面(3項任務):驗證醫學概念理解

  • 實體類型標注(ET):通過多選題識別“糖尿病”等實體的分類標簽(如疾病/癥狀)
  • 實體聚類(EC):從5個實體中辨識類型異常項(如混入癥狀類別的藥物實體)
  • 實體消歧(ED):判斷兩個實體是否等價,比如“阿司匹林”與“乙酰水楊酸”是否為等價實體

關系層面(3項任務):檢驗醫學關聯認知

  • 關系類型標注(RT):選擇“并發癥”關系可連接的實體類型對(如疾病→疾病)
  • 事實核驗(FC):判斷三元組的真偽,比如“布洛芬-治療-偏頭痛”
  • 關系預測(RP):補全實體之間缺失的關系,比如“冠狀動脈硬化→(?)→心肌梗死”

子圖層面(3項任務):評估結構化推理

  • 錯誤識別(ER):從5個三元組中檢測異常項(如錯誤藥物禁忌關系)
  • 子圖推理1(R1):基于多跳關系推理,比如基于“高血壓→并發癥→腦出血→影像檢查→CT”路徑,推斷“高血壓→影像檢查→CT”是否成立
  • 子圖推理2(R2):在相同推理鏈中,從候選關系中選擇正確關聯



隨著利用的KG信息增多,任務難度也在逐漸升高,這樣階梯式、多層級的評估更有利用全面了解LLMs的性能。

任務導向和知識導向的評估機制

在每項任務中均配備評估核心實體/關系映射(如上圖 core E and R),實現細粒度知識覆蓋分析:

任務導向評估:計算準確率指標

知識導向評估:

  • 實體覆蓋率:實體正確率均值(CovAvg-E)、引入節點中心度加權(CovDeg-E)
  • 關系覆蓋率:關系正確率均值(CovAvg-R)、按關系出現頻次加權(CovDeg-R)
  • 三元組覆蓋率Cov-T:反映知識單元整體掌握度
實驗及評估結果

MedKGEval選用中文醫療領域主流知識圖譜CPubMedKG和CMeKG作為基準,經下采樣構建實驗數據集。

評估模型涵蓋三大類:1)開源通用模型;2)醫療垂類模型;3)閉源模型。

下表展示了11個LLM的任務導向評估結果,可以看到:GPT-4o以70.65%平均準確率領先;同架構LLM參數量翻倍帶來3-5%準確率提升;大多LLM在實體層面任務上表現優于關系和子圖層面;通用模型性能超越醫療垂類模型(歸因分析:垂類模型微調數據側重具體任務(如用藥咨詢、醫患對話摘要),導致醫學知識廣度受限)。



下表展示了11個LLM的知識導向評估結果,可以看到:GPT-4o在CPubMedKG (small)上覆蓋了65.66%的實體、55.60%的關系、62.31%的三元組;更大的參數量通常會帶來更高的知識覆蓋度;CovAvg 和 CovDeg 的對比體現出了LLM對高關聯度實體(如糖尿病)和高頻關系(如鑒別診斷)的偏好性:CovAvg < CovDeg 說明 LLM 在高關聯度實體的上表現更好、反之說明 LLM 在低關聯度實體上表現更好。



接下來,研究團隊使用MedKGEval評估框架對四個示例LLM在關聯度最高的15個實體和最高頻的15個關系上的知識覆蓋情況進行分析。

以常用臨床實體“超聲”為例,可以看到GPT-4o以94.16%正確率領先,Qwen2-7B(88.83%)、WiNGPT2(85.41%)次之。



在醫學關系覆蓋度上,4個LLM也表現出了類似的特點。



分析結果表明,MedKGEval能有效定位LLM在特定醫學知識領域的認知缺陷。

這些發現對模型優化具有重要指導價值:如上圖所示,WiNGPT在“肺結核”實體相關問答中表現欠佳、Baichuan2-13B在“相關(轉換)”關系中存在明顯短板。

因此,在下輪微調中建議針對性補充結核病診療指南和病理轉化機制相關數據,通過基于知識缺陷診斷的定向增強策略,可顯著提升醫療領域LLM的整體性能。

總結

本文提出的MedKGEval框架通過醫療KG視角,構建了評估LLM醫學知識覆蓋度的多維度體系。

該框架在實體、關系和子圖三個層級展開評估,系統揭示了當前大語言模型在醫學知識存儲與推理能力方面的優勢與局限。

研究團隊提出的的任務導向與知識導向雙軌評估機制,不僅能夠精準定位模型的知識薄弱環節,更為提升醫療領域LLM的可靠性和臨床應用價值提供了量化依據。


論文地址:https://dl.acm.org/doi/10.1145/3696410.3714535
代碼地址:https://github.com/ZihengZZH/MedKGEval

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
今天凌晨鹽鐵塘路一小區起火 數輛非機動車燒毀

今天凌晨鹽鐵塘路一小區起火 數輛非機動車燒毀

上觀新聞
2025-05-02 19:36:03
金龜子一家8口五一青島團聚,王寧父母見到曾孫,激動的熱淚盈眶

金龜子一家8口五一青島團聚,王寧父母見到曾孫,激動的熱淚盈眶

柒佰娛
2025-05-02 10:36:50
男生18cm有啥壞處?妹子現場演示長短對比太生動,看完動圖秒懂哈哈

男生18cm有啥壞處?妹子現場演示長短對比太生動,看完動圖秒懂哈哈

經典段子
2025-04-14 23:34:48
微軟專家示警:個人 PC 最大安全隱患在于日常使用管理員賬戶

微軟專家示警:個人 PC 最大安全隱患在于日常使用管理員賬戶

IT之家
2025-05-02 10:37:07
工齡35年8個月,個人賬戶242708.1元,且看上海某女醫生退休金。

工齡35年8個月,個人賬戶242708.1元,且看上海某女醫生退休金。

智慧生活筆記
2025-05-01 14:52:29
全紅嬋頒獎典禮結束接受采訪:謝謝大家 請以后多多關照中國跳水隊

全紅嬋頒獎典禮結束接受采訪:謝謝大家 請以后多多關照中國跳水隊

東方不敗然多多
2025-05-03 02:51:07
桑巴中國隊?巴西隊世界杯紅色客場球衣諜照泄露,遭球迷強烈抗議

桑巴中國隊?巴西隊世界杯紅色客場球衣諜照泄露,遭球迷強烈抗議

雷速體育
2025-05-02 16:58:13
央視《絕密較量》口碑大爆,本是沖著高圓圓去的,卻被女二驚艷

央視《絕密較量》口碑大爆,本是沖著高圓圓去的,卻被女二驚艷

同知
2025-05-01 21:08:07
廣東醞釀換帥,遼寧試訓2米11中鋒,山東報價程帥澎,陳林堅續約

廣東醞釀換帥,遼寧試訓2米11中鋒,山東報價程帥澎,陳林堅續約

懂球社
2025-05-03 05:55:10
曼晚:或上演首秀,曼聯或在對陣布倫特福德比賽中派上卡馬森

曼晚:或上演首秀,曼聯或在對陣布倫特福德比賽中派上卡馬森

懂球帝
2025-05-03 00:34:10
為啥有些孩子會突然就抑郁了?網友:我曾經被家人逼的抑郁自殺過

為啥有些孩子會突然就抑郁了?網友:我曾經被家人逼的抑郁自殺過

娛樂圈人物大賞
2025-04-24 00:15:06
事情過于蹊蹺,西班牙宣布國家進入緊急狀態,是意外還是人禍?

事情過于蹊蹺,西班牙宣布國家進入緊急狀態,是意外還是人禍?

靚仔情感
2025-05-02 07:30:46
形勢危急!36小時內可能開戰,世界大國博弈轉移到新戰場

形勢危急!36小時內可能開戰,世界大國博弈轉移到新戰場

荷蘭豆愛健康
2025-05-01 00:09:04
每體:巴薩本輪西甲對巴拉多利德將大輪換,特爾施特根&法蒂首發

每體:巴薩本輪西甲對巴拉多利德將大輪換,特爾施特根&法蒂首發

直播吧
2025-05-02 08:40:15
楊威曝婚變后回應:15年婚姻艱難,三觀不同溝通困難,工資全上交

楊威曝婚變后回應:15年婚姻艱難,三觀不同溝通困難,工資全上交

毒舌扒姨太
2023-07-18 22:02:27
重磅!再見了,波波維奇!

重磅!再見了,波波維奇!

技巧君侃球
2025-05-03 04:00:49
迪亞洛右腳踝超90度扭曲!短暫回更衣室后回替補席:仍是一瘸一拐

迪亞洛右腳踝超90度扭曲!短暫回更衣室后回替補席:仍是一瘸一拐

顏小白的籃球夢
2025-05-02 20:29:45
莫言:人生最忌諱的就是圓滿,有的人婚姻不好,但子女很好...

莫言:人生最忌諱的就是圓滿,有的人婚姻不好,但子女很好...

詩詞中國
2025-05-02 16:12:19
澤連斯基在最高統帥部會議上下令:盡快加速烏克蘭彈道導彈的研制

澤連斯基在最高統帥部會議上下令:盡快加速烏克蘭彈道導彈的研制

仗劍看世界
2025-05-03 03:21:05
蘇迪曼杯:陳雨菲霸氣橫掃,國羽3-0馬來西亞,半決賽靜待日本!

蘇迪曼杯:陳雨菲霸氣橫掃,國羽3-0馬來西亞,半決賽靜待日本!

釘釘陌上花開
2025-05-02 12:06:54
2025-05-03 08:00:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10420文章數 176128關注度
往期回顧 全部

科技要聞

微軟CEO和奧特曼失了和,OpenAI被“斷糧”

頭條要聞

外媒:特朗普決定美伊直接談判 讓內塔尼亞胡措手不及

頭條要聞

外媒:特朗普決定美伊直接談判 讓內塔尼亞胡措手不及

體育要聞

盧的調整,雖遲但到

娛樂要聞

趙又廷節目中高調撒糖 大贊高圓圓超好

財經要聞

黃仁勛在美國又穿西裝表態,怎么看?

汽車要聞

全路況 大格局 前路山海皆坦途

態度原創

家居
本地
健康
藝術
數碼

家居要聞

意式輕奢 低飽和質感美學

本地新聞

春色滿城關不住 | 花漾千陽!塬上秘境藏幾重詩意?

唇皰疹和口腔潰瘍是"同伙"嗎?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

數碼要聞

小米平板 7 Max 有望更名 Ultra:已通過藍牙認證,120W 快充

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 蓬莱市| 松溪县| 马鞍山市| 金阳县| 清丰县| 手机| 盖州市| 黄冈市| 永川市| 西安市| 玛曲县| 密云县| 霍林郭勒市| 银川市| 屏边| 兴海县| 庆阳市| 馆陶县| 霍林郭勒市| 澎湖县| 黔西| 昌吉市| 通渭县| 安化县| 沂源县| 宝山区| 定州市| 德阳市| 洛宁县| 绥化市| 循化| 咸宁市| 双鸭山市| 屏边| 湘阴县| 颍上县| 邹平县| 邳州市| 祁连县| 南陵县| 五家渠市|