99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

<del id="hntys"></del>

<sub id="hntys"><p id="hntys"></p></sub>

<legend id="hntys"><track id="hntys"><menuitem id="hntys"></menuitem></track></legend>

<ruby id="hntys"><button id="hntys"><mark id="hntys"></mark></button></ruby>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

GPT-4o醫學知識覆蓋率僅55%？大模型醫療能力“體檢報告”來了

2025-04-30 13:44:14　來源: 量子位

美國,猶他州舉報

0

分享至

MedKGEval團隊投稿
量子位 | 公眾號 QbitAI

醫療大模型知識覆蓋度首次被精準量化！

在醫療領域，大語言模型（LLM）的潛力令人振奮，但其知識儲備是否足夠可靠？騰訊優圖實驗室天衍研究中心的最新研究給出了答案。

他們提出的MedKGEval框架，首次通過醫療知識圖譜（KG）的多層級評估，系統揭示了GPT-4o等主流模型的醫學知識覆蓋度。

該研究已被WWW 2025會議Web4Good Track錄用為口頭報告（oral）。目前，WWW 2025正在悉尼舉行，會議時間從4月28日持續至5月2日。

背景

大語言模型（LLM）在醫療領域的快速發展凸顯了其知識存儲與處理的潛力，但其臨床部署前的可靠性驗證亟需更系統化的評估框架。

當前主流的Prompt-CBLUE、Medbench和MedJourney等評估體系雖通過醫學問答基準測試LLM的任務執行能力，卻存在三個明顯的局限：

1）其長尾數據分布導致罕見病癥覆蓋不足，評測結果存在偏差；

2）任務導向的設計聚焦疾病預測、用藥咨詢等單一場景，難以量化模型內在醫學知識儲量；

3）傳統問答形式局限于表面對錯判斷，無法捕捉醫學概念間的復雜拓撲關聯。

為解決這些問題，本文提出基于醫療知識圖譜（KG）的多層級評估框架MedKGEval。

醫療KG通過結構化存儲復雜實體關系網絡，為評估提供天然基準?？蚣軇撔滦缘卦O計三級評估體系：實體層評估醫學概念理解，關系層檢驗醫學關聯區分能力，子圖層驗證結構化推理水平。

通過真偽判斷和多選題形式，同時實現任務導向（task-oriented）的粗粒度性能評估與知識導向（knowledge-oriented）的細粒度三重覆蓋度測量（實體/關系/知識三元組）。

醫療知識覆蓋度評估框架MedKGEval

在MedKGEval中研究團隊設計了多層級的任務體系，其中包含3個層級的9項核心任務，通過真偽判斷（TFQ）與多選題（MCQ）任務形式，實現任務導向與知識導向的雙重評測。

具體評估流程框架見下圖。

任務架構設計

基于醫療知識圖譜的實體、關系、三元組結構，構建三級評估體系：

實體層面（3項任務）：驗證醫學概念理解

實體類型標注（ET）：通過多選題識別“糖尿病”等實體的分類標簽（如疾病/癥狀）
實體聚類（EC）：從5個實體中辨識類型異常項（如混入癥狀類別的藥物實體）
實體消歧（ED）：判斷兩個實體是否等價，比如“阿司匹林”與“乙酰水楊酸”是否為等價實體

關系層面（3項任務）：檢驗醫學關聯認知

關系類型標注（RT）：選擇“并發癥”關系可連接的實體類型對（如疾病→疾病）
事實核驗（FC）：判斷三元組的真偽，比如“布洛芬-治療-偏頭痛”
關系預測（RP）：補全實體之間缺失的關系，比如“冠狀動脈硬化→(?)→心肌梗死”

子圖層面（3項任務）：評估結構化推理

錯誤識別（ER）：從5個三元組中檢測異常項（如錯誤藥物禁忌關系）
子圖推理1（R1）：基于多跳關系推理，比如基于“高血壓→并發癥→腦出血→影像檢查→CT”路徑，推斷“高血壓→影像檢查→CT”是否成立
子圖推理2（R2）：在相同推理鏈中，從候選關系中選擇正確關聯

隨著利用的KG信息增多，任務難度也在逐漸升高，這樣階梯式、多層級的評估更有利用全面了解LLMs的性能。

任務導向和知識導向的評估機制

在每項任務中均配備評估核心實體/關系映射（如上圖 core E and R），實現細粒度知識覆蓋分析：

任務導向評估：計算準確率指標

知識導向評估：

實體覆蓋率：實體正確率均值（CovAvg-E）、引入節點中心度加權（CovDeg-E）
關系覆蓋率：關系正確率均值（CovAvg-R）、按關系出現頻次加權（CovDeg-R）
三元組覆蓋率Cov-T：反映知識單元整體掌握度

實驗及評估結果

MedKGEval選用中文醫療領域主流知識圖譜CPubMedKG和CMeKG作為基準，經下采樣構建實驗數據集。

評估模型涵蓋三大類：1）開源通用模型；2）醫療垂類模型；3）閉源模型。

下表展示了11個LLM的任務導向評估結果，可以看到：GPT-4o以70.65%平均準確率領先；同架構LLM參數量翻倍帶來3-5%準確率提升；大多LLM在實體層面任務上表現優于關系和子圖層面；通用模型性能超越醫療垂類模型（歸因分析：垂類模型微調數據側重具體任務（如用藥咨詢、醫患對話摘要），導致醫學知識廣度受限）。

下表展示了11個LLM的知識導向評估結果，可以看到：GPT-4o在CPubMedKG (small)上覆蓋了65.66%的實體、55.60%的關系、62.31%的三元組；更大的參數量通常會帶來更高的知識覆蓋度；CovAvg 和 CovDeg 的對比體現出了LLM對高關聯度實體（如糖尿病）和高頻關系（如鑒別診斷）的偏好性：CovAvg < CovDeg 說明 LLM 在高關聯度實體的上表現更好、反之說明 LLM 在低關聯度實體上表現更好。

接下來，研究團隊使用MedKGEval評估框架對四個示例LLM在關聯度最高的15個實體和最高頻的15個關系上的知識覆蓋情況進行分析。

以常用臨床實體“超聲”為例，可以看到GPT-4o以94.16%正確率領先，Qwen2-7B（88.83%）、WiNGPT2（85.41%）次之。

在醫學關系覆蓋度上，4個LLM也表現出了類似的特點。

分析結果表明，MedKGEval能有效定位LLM在特定醫學知識領域的認知缺陷。

這些發現對模型優化具有重要指導價值：如上圖所示，WiNGPT在“肺結核”實體相關問答中表現欠佳、Baichuan2-13B在“相關（轉換）”關系中存在明顯短板。

因此，在下輪微調中建議針對性補充結核病診療指南和病理轉化機制相關數據，通過基于知識缺陷診斷的定向增強策略，可顯著提升醫療領域LLM的整體性能。

總結

本文提出的MedKGEval框架通過醫療KG視角，構建了評估LLM醫學知識覆蓋度的多維度體系。

該框架在實體、關系和子圖三個層級展開評估，系統揭示了當前大語言模型在醫學知識存儲與推理能力方面的優勢與局限。

研究團隊提出的的任務導向與知識導向雙軌評估機制，不僅能夠精準定位模型的知識薄弱環節，更為提升醫療領域LLM的可靠性和臨床應用價值提供了量化依據。

論文地址：https://dl.acm.org/doi/10.1145/3696410.3714535
代碼地址：https://github.com/ZihengZZH/MedKGEval

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

Cell：我國學者揭示大腦“排污網絡”的發育和神經調控密碼，為阿爾茨海默病等大腦疾病的治療開辟新方向

生物世界 2025-05-02 10:33:17
4 跟貼 4
南方科技大學發表最新Science論文

生物世界 2025-05-02 15:03:14
1 跟貼 1

這屆出題太難了！新基準讓多模態模型集體自閉，GPT-4o都是零分

機器之心Pro 2025-02-18 14:02:59
0 跟貼 0

GPT-4o驚現自我意識！自主激活「后門」，告訴人類自己在寫危險代碼

新智元 2025-02-02 12:33:58
83 跟貼 83
GPT-4o過于諂媚，“賽博舔狗”惹爭議

虎嗅APP 2025-05-02 01:42:10
1 跟貼 1

如果GPT-4還只是阿米巴原蟲，未來的霸王龍會是什么樣？

量子位 2025-02-28 13:32:13
0 跟貼 0

有錢人體驗三分熟牛排，吃過的才知道，肉不是生而是嫩

兩面包夾芋頭 2025-05-01 09:39:28
897 跟貼 897
俄朝圖們江公路大橋開建，我國圖們江出?？谟衷黾右坏馈凹湘i”

科普大世界 2025-05-02 09:55:10
8554 跟貼 8554

男人帶著一個布加迪汽車模型，來到當鋪就要賣500萬美刀，紀錄片

新鮮尋寶 2025-05-02 20:02:53
16 跟貼 16
冠脈造影痛不痛

上海市一心內劉北醫生 2025-04-28 23:05:07
0 跟貼 0
湖南480分能托人上臨床，張雪峰：你要不是湖南人，我以為你姓董

娛樂叔說事 2025-05-01 02:45:56
877 跟貼 877
人生最后10年不生??？美國醫學專家提醒：盡早改掉這5個生活習慣

舊城失詞 2025-05-03 03:42:04
1 跟貼 1
體檢意外發現早期胃癌，積極治療該多好

消化科尤醫生 2025-05-02 08:07:01
0 跟貼 0
體檢差五厘米敢身高造假，張雪峰厭蠢癥犯了，全程太精彩了！

新農人老王 2025-05-02 11:27:37
0 跟貼 0
萌娃知識分享！

鹽城一家人啊 2025-05-01 18:24:49
0 跟貼 0
越來越多人有冠心病，元兇是這個，醫學專家勸誡一定少吃它

小卡辣米 2025-04-30 03:12:51
1 跟貼 1
阿司匹林不要亂吃！這幾個嚴重的后果你一定要知道

中醫沈洋博士 2025-04-28 14:09:21
0 跟貼 0
網傳長沙一樓盤打響房價保衛戰！建議大戶2.6萬起掛，小戶3萬以上

火山詩話 2025-05-02 05:53:27
5455 跟貼 5455
蘇筱建立分包商評估體系，利潤提升五個點，老總秒變臉

小板凳劇院V 2025-05-02 15:31:48
1 跟貼 1
夏洛特打牢布全局解說，每一波動機決策體現知識絲滑入腦的感覺

可樂吃了睡 2025-05-02 06:27:18
3 跟貼 3
中老年人腿腳沒勁，多吃4種高鉀食物，別再只吃稀飯饅頭了

澤哥說動漫 2025-05-01 09:10:41
0 跟貼 0
年過40肩膀疼，記好一個實用藥

中醫沈洋博士 2025-04-29 19:28:18
0 跟貼 0
這真是個醫學奇跡

搞笑影視吧 2025-05-02 08:32:14
1 跟貼 1
這兩種藥不能長期使用，容易吃出肝衰竭！

心開動漫 2025-05-02 08:52:13
1 跟貼 1
對比最近的醫學博士事件，再看張雪峰講學醫，真是句句都是大實話

柒號樞密院 2025-05-01 07:42:19
61 跟貼 61
瑤瑤欲墜的漂浮指，堅決不切，我們要5根手指

協和手足外科陳江海 2025-05-01 14:04:00
0 跟貼 0
張寧晚年回憶林家選妃細節，經歷“羞恥體檢”，憑借容貌嫁入帥府

千年古墓記 2025-05-02 09:00:00
0 跟貼 0
為什么中國人對4+4醫學捷徑零容忍？聽聽志新老師怎么說的

風吹天涯路 2025-05-03 03:47:16
0 跟貼 0
媽媽擔心寶寶的手不會再生長，多做力量刺激還會再長

協和手足外科陳江海 2025-05-02 09:01:00
0 跟貼 0
西湖風景區回應農藥噴進游客嘴里

現代快報 2025-05-02 17:33:41
5332 跟貼 5332
殲16南海攔截美菲編隊，展示中國空軍體系化作戰優勢

烽火三月佳人三千 2025-05-02 02:21:51
0 跟貼 0
檢查結果很好，感受當下的力量

葉檀財經 2025-04-17 15:36:49
0 跟貼 0
人工真皮會一輩子留在手上？醫生：不會，寶媽放心

協和手足外科陳江海 2025-05-01 09:00:00
0 跟貼 0
五大關鍵技巧，讓你的標書脫穎而出

生物學霸 2025-01-03 16:58:38
0 跟貼 0
中國民企研發出全球首款能潛水的無人艇，有沒有軍事應用價值？

矚望云霄 2025-05-02 09:40:00
0 跟貼 0
鼻炎的病因病理是什么？2分鐘詳細告訴你，找準病根不再復發

張樂平大夫 2025-05-02 19:01:52
5 跟貼 5
張雪峰，體育生學臨床？你以為你姓董！真是一個敢問一個敢答

解憂愁動漫 2025-05-02 10:13:51
186 跟貼 186
饒毅教授再次發文談協和“4+4”模式：醫學培養的時間和醫生收入

風云觀察者 2025-05-03 03:59:25
12 跟貼 12
甲狀腺結節4b類伴鈣化必須手術？三甲專家：這些情況暫緩手術

趙萍說 2025-04-30 10:42:41
4 跟貼 4
都是醫學博士，憑什么你學4年，我學12年？

旅行筆記簿 2025-05-03 04:20:48
13 跟貼 13

今天凌晨鹽鐵塘路一小區起火數輛非機動車燒毀

今天凌晨鹽鐵塘路一小區起火數輛非機動車燒毀

上觀新聞

2025-05-02 19:36:03

金龜子一家8口五一青島團聚，王寧父母見到曾孫，激動的熱淚盈眶

金龜子一家8口五一青島團聚，王寧父母見到曾孫，激動的熱淚盈眶

柒佰娛

2025-05-02 10:36:50

男生18cm有啥壞處？妹子現場演示長短對比太生動，看完動圖秒懂哈哈

男生18cm有啥壞處？妹子現場演示長短對比太生動，看完動圖秒懂哈哈

經典段子

2025-04-14 23:34:48

微軟專家示警：個人 PC 最大安全隱患在于日常使用管理員賬戶

微軟專家示警：個人 PC 最大安全隱患在于日常使用管理員賬戶

IT之家

2025-05-02 10:37:07

工齡35年8個月，個人賬戶242708.1元，且看上海某女醫生退休金。

工齡35年8個月，個人賬戶242708.1元，且看上海某女醫生退休金。

智慧生活筆記

2025-05-01 14:52:29

全紅嬋頒獎典禮結束接受采訪：謝謝大家請以后多多關照中國跳水隊

全紅嬋頒獎典禮結束接受采訪：謝謝大家請以后多多關照中國跳水隊

東方不敗然多多

2025-05-03 02:51:07

桑巴中國隊？巴西隊世界杯紅色客場球衣諜照泄露，遭球迷強烈抗議

桑巴中國隊？巴西隊世界杯紅色客場球衣諜照泄露，遭球迷強烈抗議

雷速體育

2025-05-02 16:58:13

央視《絕密較量》口碑大爆，本是沖著高圓圓去的，卻被女二驚艷

央視《絕密較量》口碑大爆，本是沖著高圓圓去的，卻被女二驚艷

同知

2025-05-01 21:08:07

廣東醞釀換帥，遼寧試訓2米11中鋒，山東報價程帥澎，陳林堅續約

廣東醞釀換帥，遼寧試訓2米11中鋒，山東報價程帥澎，陳林堅續約

懂球社

2025-05-03 05:55:10

曼晚：或上演首秀，曼聯或在對陣布倫特福德比賽中派上卡馬森

曼晚：或上演首秀，曼聯或在對陣布倫特福德比賽中派上卡馬森

懂球帝

2025-05-03 00:34:10

為啥有些孩子會突然就抑郁了？網友：我曾經被家人逼的抑郁自殺過

為啥有些孩子會突然就抑郁了？網友：我曾經被家人逼的抑郁自殺過

娛樂圈人物大賞

2025-04-24 00:15:06

事情過于蹊蹺，西班牙宣布國家進入緊急狀態，是意外還是人禍？

事情過于蹊蹺，西班牙宣布國家進入緊急狀態，是意外還是人禍？

靚仔情感

2025-05-02 07:30:46

形勢危急！36小時內可能開戰，世界大國博弈轉移到新戰場

形勢危急！36小時內可能開戰，世界大國博弈轉移到新戰場

荷蘭豆愛健康

2025-05-01 00:09:04

每體：巴薩本輪西甲對巴拉多利德將大輪換，特爾施特根&法蒂首發

每體：巴薩本輪西甲對巴拉多利德將大輪換，特爾施特根&法蒂首發

直播吧

2025-05-02 08:40:15

楊威曝婚變后回應：15年婚姻艱難，三觀不同溝通困難，工資全上交

楊威曝婚變后回應：15年婚姻艱難，三觀不同溝通困難，工資全上交

毒舌扒姨太

2023-07-18 22:02:27

重磅！再見了，波波維奇！

技巧君侃球

2025-05-03 04:00:49

迪亞洛右腳踝超90度扭曲！短暫回更衣室后回替補席：仍是一瘸一拐

迪亞洛右腳踝超90度扭曲！短暫回更衣室后回替補席：仍是一瘸一拐

顏小白的籃球夢

2025-05-02 20:29:45

莫言：人生最忌諱的就是圓滿，有的人婚姻不好，但子女很好...

莫言：人生最忌諱的就是圓滿，有的人婚姻不好，但子女很好...

詩詞中國

2025-05-02 16:12:19

澤連斯基在最高統帥部會議上下令：盡快加速烏克蘭彈道導彈的研制

澤連斯基在最高統帥部會議上下令：盡快加速烏克蘭彈道導彈的研制

仗劍看世界

2025-05-03 03:21:05

蘇迪曼杯：陳雨菲霸氣橫掃，國羽3-0馬來西亞，半決賽靜待日本！

蘇迪曼杯：陳雨菲霸氣橫掃，國羽3-0馬來西亞，半決賽靜待日本！

釘釘陌上花開

2025-05-02 12:06:54

追蹤人工智能動態

10420文章數 176128關注度

往期回顧全部

科技要聞

微軟CEO和奧特曼失了和，OpenAI被“斷糧”

頭條要聞

外媒：特朗普決定美伊直接談判讓內塔尼亞胡措手不及

頭條要聞

外媒：特朗普決定美伊直接談判讓內塔尼亞胡措手不及

體育要聞

盧的調整，雖遲但到

娛樂要聞

趙又廷節目中高調撒糖大贊高圓圓超好

財經要聞

黃仁勛在美國又穿西裝表態，怎么看？

汽車要聞

全路況大格局前路山海皆坦途

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

本地

健康

藝術

數碼

家居要聞

意式輕奢低飽和質感美學

輕奢婚房自由隨性生活
雅奢氛圍營造品質生活
慢度設計溫暖與沉靜的體驗

本地新聞

春色滿城關不住 | 花漾千陽！塬上秘境藏幾重詩意？

唇皰疹和口腔潰瘍是"同伙"嗎？

藝術要聞

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

數碼要聞

小米平板 7 Max 有望更名 Ultra：已通過藍牙認證，120W 快充

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：蓬莱市| 松溪县| 马鞍山市| 金阳县| 清丰县| 手机| 盖州市| 黄冈市| 永川市| 西安市| 玛曲县| 密云县| 霍林郭勒市| 银川市| 屏边| 兴海县| 庆阳市| 馆陶县| 霍林郭勒市| 澎湖县| 黔西| 昌吉市| 通渭县| 安化县| 沂源县| 宝山区| 定州市| 德阳市| 洛宁县| 绥化市| 循化| 咸宁市| 双鸭山市| 屏边| 湘阴县| 颍上县| 邹平县| 邳州市| 祁连县| 南陵县| 五家渠市|

<abbr id="ezp5r"></abbr>

<tfoot id="ezp5r"><source id="ezp5r"><wbr id="ezp5r"></wbr></source></tfoot>