99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

MedVLM-R1:借力DeepSeek強化學習賦能醫療視覺語言模型的推理能力

0
分享至

本文提出了 MedVLM-R1,這是一種集成 DeepSeek GRPO 強化學習的醫學 VLM,旨在彌合放射學 VQA 中的準確性、可解釋性和穩健性差距。模型通過顯式推理提升透明度和可信度,這在高風險臨床環境中至關重要。結果顯示,強化學習比純 SFT 方法在 OOD 設置下泛化能力更強。盡管醫學 VLM 仍處于早期且面臨挑戰,研究人員認為其在提供更安全透明的醫療解決方案方面具有潛力,并應得到行業重視與鼓勵。

射學影像是現代醫療診斷的關鍵,每年全球約有 80 億次影像檢查。隨著 AI 技術的快速發展,醫學視覺語言模型 (VLM) 在放射學任務中顯示出良好的前景,但大多數現有的 VLM 僅產生最終答案而不展示底層推理。

醫學推理在臨床應用中扮演著至關重要的角色。一方面,醫生對于 AI 診斷結果的「可理解、可追溯」有著強烈需求;另一方面,監管部門也往往更關注模型輸出的透明度,以確保臨床安全性和合規性。

當前大多數醫學視覺語言模型往往只輸出最終答案或「偽解釋」,缺少完整推理鏈條,難以獲得信任。因此,如何既保持高準確率,又能為醫生和監管部門提供透明可信的推理過程,一直是擺在醫療 AI 面前的重大挑戰。

為了彌補這一差距,慕尼黑工業大學(Technische Universit?t München,TUM)、牛津大學(University of Oxford)、帝國理工學院(Imperial College London)、麻省總醫院(Massachusetts General Hospital)、謝菲爾德大學(University of Sheffield)的合作團隊推出了 MedVLM-R1,一款在關注提供高準確率的同時,具備明確自然語言推理能力的醫學視覺語言模型。

通過采用 DeepSeek 的強化學習框架,激勵模型在不使用任何推理參考的情況下發現人類可解釋的推理路徑。它在僅有 600 個視覺問答(VQA)樣本、2B參數規模的輕量級條件下,在 MRI、CT 和 X 射線基準測試中的準確率從 55.11% 提高到了 78.22% 準確率,遠超在大規模數據上訓練的同類大模型,為可解釋的醫學影像分析開辟了新思路。

通過將醫學圖像分析與顯式推理相結合,MedVLM-R1 標志著邁向臨床實踐中值得信賴和可解釋的 AI 的關鍵一步。


論文標題: MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement Learning 論文鏈接: https://arxiv.org/abs/2502.19634 模型開源地址: https://huggingface.co/JZPeterPan/MedVLM-R1

放射學影像在現代醫療中至關重要,每年會進行超過 80 億次掃描。隨著診斷需求增長,AI 驅動的影像解讀需求日益迫切。

醫學視覺語言模型(VLMs)在 MRI、CT 和 X 射線影像的視覺問答(VQA)中展現出潛力,可輔助醫生和患者,但現有模型多依賴監督微調(SFT),存在過擬合、捷徑學習以及對分布外數據(OOD)表現不佳的問題,且僅提供最終答案或「偽解釋」,缺乏逐步推理能力,難以滿足臨床對可解釋性和可信度的需求。

強化學習(RL)通過獎勵模型自主發現邏輯步驟,顯示出優于 SFT 的泛化能力,但傳統RL依賴神經獎勵模型,資源消耗大。近日,DeepSeek推出的群體相對策略優化(GRPO)通過規則化策略減少計算需求,在資源有限的醫療領域具有潛力,但尚未得到充分探索和應用。在最新的研究中,研究人員提出了 MedVLM-R1,這是第一個能夠通過使用DeepSeek GRPO 技術進行訓練來生成具有明確推理的答案的醫學視覺語言模型,可用于放射學 VQA 任務。主要貢獻如下:

  • 具有明確推理的醫學 VLM:他們推出了 MedVLM-R1,這是第一個輕量級醫學 VLM,能夠在最終答案的同時生成明確推理,而不僅僅是提供最終答案。

  • 無需明確監督的新興推理:與需要具有復雜推理步驟的數據的傳統 SFT 方法不同,MedVLM R1 使用 GRPO 和僅包含最終答案的數據集進行訓練,展示了無需明確監督的新興推理能力。

  • 卓越的泛化能力和效率:MedVLM-R1 實現了對分布外數據(例如 MRI → CT/X 射線)的穩健泛化,并且盡管是一個僅在 600 個樣本上訓練的緊湊型 2B 參數模型,但它的表現優于 Qwen2VL-72B 和 Huatuo-GPT-Vision-7B 等更大的模型。


圖示:團隊使用的提示的模板,模型響應和獎勵標準的一個例子。(來源:論文)
一、總體表現

下表總結了各種 VLM 的域內 (ID) 和域外(OOD)性能。ID/OOD 專門指在 MRI 數據上微調的模型。


比較結果顯示,使用 GRPO 和 SFT 微調的 VLM 在域內任務上的表現明顯優于零樣本通用 VLM。團隊的 GRPO 訓練模型表現出非常強大的 OOD 性能,與 SFT 同類模型相比,CT 圖像提高了 16%,X 射線圖像提高了 35%,凸顯了 GRPO 卓越的通用性。

此外,盡管 MedVLM-R1 是一個僅使用 600 個樣本進行訓練的緊湊型 2B 參數模型,但它的表現優于 Qwen2-VL-72B 和 HuatuoGPT-Vision-7B 等大型模型,后者專門針對大規模醫療數據進行訓練。這凸顯了基于 RL 的訓練方法在高效且可擴展的醫療 VLM 開發方面的巨大潛力。

二、推理能力和可解釋性

除了強大的泛化能力之外,MedVLM-R1 的核心優勢在于它能夠產生明確的推理能力——這是所有基線所不具備的能力。如下圖所示,MedVLM-R1 在標簽內呈現了一個邏輯思維過程,最終決策包含在標簽中。


圖示:MedVLM-R1 在 X 射線(1、2)、MRI(3)和 CT(4)上的醫學 VQA 示例。(來源:論文)

值得注意的是,對于相對較簡單的問題(問題 1 和 2),推理似乎很有說服力,并且與醫學知識相符。然而,更復雜的查詢有時會顯示啟發式或只是部分推理。

例如,在第三個樣本中,模型通過排除法而不是詳細的醫學分析得出了正確答案,這表明它利用了基于線索的推理,而不是領域專業知識。

同樣,在某些情況下(例如問題 4),推理和結論之間的因果關系仍然不清楚,這引發了一個問題:模型是否只是在預測正確答案后編造了相對應的解釋。盡管存在這些缺陷,但 MedVLM-R1 代表了放射學決策可解釋性方面邁出的顯著一步。

三、局限性

盡管 MedVLM-R1 在 MRI、CT 和 X 射線數據集中表現出色,但仍存在一些局限性:

  1. 模式差距:在其他醫學模式(例如病理學或 OCT 圖像)上進行測試時,該模型無法收斂。研究人員假設這是由于基礎模型在預訓練期間對這些模式的接觸不足造成的。

  2. 封閉集依賴性:當前方法適用于多項選擇(封閉集)VQA。在沒有提供預定義選項的開放式問題設置中,模型的性能會大幅下降。這也是許多 VLM 面臨的共同挑戰。

  3. 膚淺/幻覺推理:在難度較大的任務推理任務中,MedVLM-R1有時仍能 提供正確答案,但僅僅會提供膚淺的推理過程(例如,“思考:讓我們來看一下這張核磁共振圖片。答案:A。”)。此外在這些難度較大的任務中,模型推理得出的結論可能會與最終給出的答案自相矛盾。這種現象說明,即使是為可解釋性而設計的模型有時也會出現膚淺/幻覺的論證,凸顯了在生成始終透明且合乎邏輯的合理性方面仍然存在挑戰。

關于所有這些問題,團隊認為他們基礎模型的當前 2B 參數規模構成了潛在的瓶頸,接下來計劃在更大的 VLM 主干上評估 MedVLM-R1 以解決這些問題。

四、結語

總之,團隊提出了 MedVLM-R1,一種集成了基于DeepSeek GRPO 的強化學習的醫學 VLM,用于彌合放射學 VQA 中準確性、可解釋性和穩健性能之間的差距。通過專注于顯式推理,該模型提高了透明度和可信度——這些能力在高風險臨床環境中必不可少。

他們的結果表明,基于 強化學習的方法比純 SFT 方法具有更好的泛化能力,尤其是在 OOD 設置下。雖然基于 視覺語言模型 的醫學推理仍處于起步階段并面臨相當大的挑戰,但研究人員相信,它在提供更安全、更透明的醫療解決方案的潛力會受到行業的重視并應受行業的到鼓勵。


來源: 公眾號【ScienceAI】

llustration From IconScout By IconScout Store

-The End-

掃碼觀看!

本周上新!

“AI技術流”原創投稿計劃

TechBeat是由將門創投建立的AI學習社區(

www.techbeat.net
) 。 社區上線600+期talk視頻,3000+篇技術干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平臺,希望為AI人才打造更專業的服務和體驗,加速并陪伴其成長。

投稿內容

// 最新技術解讀/系統性知識分享 //

// 前沿資訊解說/心得經歷講述 //

投稿須知

稿件需要為原創文章,并標明作者信息。

我們會選擇部分在深度技術解析及科研心得方向,對用戶啟發更大的文章,做原創性內容獎勵

投稿方式

發送郵件到

melodybai@thejiangmen.com

或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關注“將門創投”公眾號,后臺回復“投稿”二字,獲得投稿說明。

關于我“門”

將門是一家以專注于數智核心科技領域新型創投機構,也是北京市標桿型孵化器。 公司致力于通過連接技術與商業,發掘和培育具有全球影響力的科技創新企業,推動企業創新發展與產業升級。

將門成立于2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投后服務,歡迎發送或者推薦項目給我“門”:

bp@thejiangmen.com


點擊右上角,把文章分享到朋友圈

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
真相大白?張柏芝隱瞞8年的三胎兒子,身份疑似曝光,謝霆鋒贏了

真相大白?張柏芝隱瞞8年的三胎兒子,身份疑似曝光,謝霆鋒贏了

銀河史記
2025-06-25 15:00:03
阿里大變動,蔣凡離接班人又近了一步?

阿里大變動,蔣凡離接班人又近了一步?

新10億商業參考
2025-06-25 18:51:08
你見過最無知的人是什么樣?網友:尊重他人命運,這種人該被淘汰

你見過最無知的人是什么樣?網友:尊重他人命運,這種人該被淘汰

解讀熱點事件
2025-06-25 00:05:08
這一次,戴蛤蟆頭套賣不出貨的小楊哥,把人走茶涼體現得淋漓盡致

這一次,戴蛤蟆頭套賣不出貨的小楊哥,把人走茶涼體現得淋漓盡致

查爾菲的筆記
2025-06-24 21:15:53
大瓜!唐嫣羅晉也離了?模范夫妻男方長期不回家,休息也不在上海

大瓜!唐嫣羅晉也離了?模范夫妻男方長期不回家,休息也不在上海

扒星人
2025-06-24 15:00:04
央視曝光!又一款陳年老酒暴雷,酒精勾兌、年份造假,溢價超40倍

央視曝光!又一款陳年老酒暴雷,酒精勾兌、年份造假,溢價超40倍

寒士之言本尊
2025-06-24 16:08:29
傾家蕩產也不能治愈?提醒:這6種病根本無法根治,別白花冤枉錢

傾家蕩產也不能治愈?提醒:這6種病根本無法根治,別白花冤枉錢

39健康網
2025-06-24 20:02:57
這瓶“沒貼標簽”的水,出自山姆和農夫山泉的聯手

這瓶“沒貼標簽”的水,出自山姆和農夫山泉的聯手

中國商報
2025-06-25 13:58:08
真慘!河南高考新鮮出爐:本科達線人數不到44萬,達線率不足33%

真慘!河南高考新鮮出爐:本科達線人數不到44萬,達線率不足33%

二月侃事
2025-06-25 16:47:23
李夢宣布不再參加比賽,女籃主帥宮魯鳴回應歡迎其回歸!

李夢宣布不再參加比賽,女籃主帥宮魯鳴回應歡迎其回歸!

杜蘭特
2025-06-25 10:36:04
白玉蘭“視帝”投票排名,靳東僅排第4,于和偉第3,第一憑什么?

白玉蘭“視帝”投票排名,靳東僅排第4,于和偉第3,第一憑什么?

頭號劇委會
2025-06-24 18:38:56
爆!掘金總裁罕見攤牌:頂薪能給,但你也能走人!2.12億頂薪或成“最后談判”

爆!掘金總裁罕見攤牌:頂薪能給,但你也能走人!2.12億頂薪或成“最后談判”

煙潯渺渺
2025-06-25 11:39:47
東北龍鳳胎兄妹高考,妹妹710,哥哥680,媽媽教育方式值得學習

東北龍鳳胎兄妹高考,妹妹710,哥哥680,媽媽教育方式值得學習

星光看娛樂
2025-06-25 13:20:52
匈牙利總理:澤連斯基不會以任何形式出席北約峰會

匈牙利總理:澤連斯基不會以任何形式出席北約峰會

參考消息
2025-06-25 14:51:23
新華社消息|以軍稱對伊朗西部軍事目標發動新一輪打擊

新華社消息|以軍稱對伊朗西部軍事目標發動新一輪打擊

新華社
2025-06-22 15:33:30
俄空軍司令科貝拉乘直升機視察前線被烏軍擊落,當場喪生

俄空軍司令科貝拉乘直升機視察前線被烏軍擊落,當場喪生

環球熱點快評
2025-06-24 09:03:00
還有更猛的交易要來!Shams告訴主持人今晚千萬別睡覺

還有更猛的交易要來!Shams告訴主持人今晚千萬別睡覺

雷速體育
2025-06-25 20:36:29
伊朗總統:12天戰爭結束 重建工作開啟

伊朗總統:12天戰爭結束 重建工作開啟

新華社
2025-06-25 04:00:03
反腐神話:投資七千萬的紅旗渠工程,十年七萬人,零貪腐零瀆職!

反腐神話:投資七千萬的紅旗渠工程,十年七萬人,零貪腐零瀆職!

百科密碼
2025-06-25 15:39:35
“300元路由器中標三峽學院85萬元防火墻項目”:調查已超30個工作日,尚在走處理程序

“300元路由器中標三峽學院85萬元防火墻項目”:調查已超30個工作日,尚在走處理程序

大風新聞
2025-06-24 17:56:03
2025-06-25 21:16:49
將門創投 incentive-icons
將門創投
加速及投資技術驅動型初創企業
2156文章數 591關注度
往期回顧 全部

科技要聞

小米YU7已下線500輛展車 26日前運往全國

頭條要聞

與汪峰節目牽手引猜測 寧靜談擇偶標準:他不是我的菜

頭條要聞

與汪峰節目牽手引猜測 寧靜談擇偶標準:他不是我的菜

體育要聞

山西太原大媽,在NBA闖出一片天

娛樂要聞

向佐接機郭碧婷,全程無交流像陌生人

財經要聞

免除蘇寧易購5億債務的神秘人是誰?

汽車要聞

售14.99萬/限量200臺 別克昂科威S新增丹霞紅內飾

態度原創

教育
時尚
手機
游戲
數碼

教育要聞

暑假趕緊讓孩子讀這些范文

挑對耳環=開掛!這15款巨in巨高級,太顯臉小了!

手機要聞

首銷價 299 元,vivo X Fold5 折疊屏手機行業首發單內屏寶

《死亡擱淺2》引擎封神?玩家盛贊開放世界表現!

數碼要聞

打開京東搜“小米新品0626” 有機會搶先體驗小米AI眼鏡

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 车致| 龙井市| 平阳县| 南城县| 灵寿县| 陵川县| 建德市| 中西区| 陈巴尔虎旗| 松溪县| 朝阳市| 镇康县| 安塞县| 盈江县| 都匀市| 宜川县| 阳东县| 都江堰市| 西畴县| 宝丰县| 巢湖市| 福建省| 藁城市| 甘肃省| 冷水江市| 定陶县| 苏尼特左旗| 英德市| 锡林浩特市| 三江| 泸水县| 江都市| 宝坻区| 瑞丽市| 兴和县| 盐池县| 郑州市| 庆阳市| 泌阳县| 申扎县| 安国市|