網易首頁 > 網易號 > 正文申請入駐

MedVLM-R1：借力DeepSeek強化學習賦能醫療視覺語言模型的推理能力

2025-03-26 08:24:21　來源: 將門創投

北京舉報

分享至

本文提出了 MedVLM-R1，這是一種集成 DeepSeek GRPO 強化學習的醫學 VLM，旨在彌合放射學 VQA 中的準確性、可解釋性和穩健性差距。模型通過顯式推理提升透明度和可信度，這在高風險臨床環境中至關重要。結果顯示，強化學習比純 SFT 方法在 OOD 設置下泛化能力更強。盡管醫學 VLM 仍處于早期且面臨挑戰，研究人員認為其在提供更安全透明的醫療解決方案方面具有潛力，并應得到行業重視與鼓勵。

射學影像是現代醫療診斷的關鍵，每年全球約有 80 億次影像檢查。隨著 AI 技術的快速發展，醫學視覺語言模型 (VLM) 在放射學任務中顯示出良好的前景，但大多數現有的 VLM 僅產生最終答案而不展示底層推理。

醫學推理在臨床應用中扮演著至關重要的角色。一方面，醫生對于 AI 診斷結果的「可理解、可追溯」有著強烈需求；另一方面，監管部門也往往更關注模型輸出的透明度，以確保臨床安全性和合規性。

當前大多數醫學視覺語言模型往往只輸出最終答案或「偽解釋」，缺少完整推理鏈條，難以獲得信任。因此，如何既保持高準確率，又能為醫生和監管部門提供透明可信的推理過程，一直是擺在醫療 AI 面前的重大挑戰。

為了彌補這一差距，慕尼黑工業大學（Technische Universit?t München，TUM）、牛津大學（University of Oxford）、帝國理工學院（Imperial College London）、麻省總醫院（Massachusetts General Hospital）、謝菲爾德大學（University of Sheffield）的合作團隊推出了 MedVLM-R1，一款在關注提供高準確率的同時，具備明確自然語言推理能力的醫學視覺語言模型。

通過采用 DeepSeek 的強化學習框架，激勵模型在不使用任何推理參考的情況下發現人類可解釋的推理路徑。它在僅有 600 個視覺問答（VQA）樣本、2B參數規模的輕量級條件下，在 MRI、CT 和 X 射線基準測試中的準確率從 55.11% 提高到了 78.22% 準確率，遠超在大規模數據上訓練的同類大模型，為可解釋的醫學影像分析開辟了新思路。

通過將醫學圖像分析與顯式推理相結合，MedVLM-R1 標志著邁向臨床實踐中值得信賴和可解釋的 AI 的關鍵一步。

論文標題： MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement Learning 論文鏈接： https://arxiv.org/abs/2502.19634 模型開源地址： https://huggingface.co/JZPeterPan/MedVLM-R1

放射學影像在現代醫療中至關重要，每年會進行超過 80 億次掃描。隨著診斷需求增長，AI 驅動的影像解讀需求日益迫切。

醫學視覺語言模型（VLMs）在 MRI、CT 和 X 射線影像的視覺問答（VQA）中展現出潛力，可輔助醫生和患者，但現有模型多依賴監督微調（SFT），存在過擬合、捷徑學習以及對分布外數據（OOD）表現不佳的問題，且僅提供最終答案或「偽解釋」，缺乏逐步推理能力，難以滿足臨床對可解釋性和可信度的需求。

強化學習（RL）通過獎勵模型自主發現邏輯步驟，顯示出優于 SFT 的泛化能力，但傳統RL依賴神經獎勵模型，資源消耗大。近日，DeepSeek推出的群體相對策略優化（GRPO）通過規則化策略減少計算需求，在資源有限的醫療領域具有潛力，但尚未得到充分探索和應用。在最新的研究中，研究人員提出了 MedVLM-R1，這是第一個能夠通過使用DeepSeek GRPO 技術進行訓練來生成具有明確推理的答案的醫學視覺語言模型，可用于放射學 VQA 任務。主要貢獻如下：

具有明確推理的醫學 VLM：他們推出了 MedVLM-R1，這是第一個輕量級醫學 VLM，能夠在最終答案的同時生成明確推理，而不僅僅是提供最終答案。
無需明確監督的新興推理：與需要具有復雜推理步驟的數據的傳統 SFT 方法不同，MedVLM R1 使用 GRPO 和僅包含最終答案的數據集進行訓練，展示了無需明確監督的新興推理能力。
卓越的泛化能力和效率：MedVLM-R1 實現了對分布外數據（例如 MRI → CT/X 射線）的穩健泛化，并且盡管是一個僅在 600 個樣本上訓練的緊湊型 2B 參數模型，但它的表現優于 Qwen2VL-72B 和 Huatuo-GPT-Vision-7B 等更大的模型。

圖示：團隊使用的提示的模板，模型響應和獎勵標準的一個例子。（來源：論文）
一、總體表現

下表總結了各種 VLM 的域內 (ID) 和域外（OOD）性能。ID/OOD 專門指在 MRI 數據上微調的模型。

比較結果顯示，使用 GRPO 和 SFT 微調的 VLM 在域內任務上的表現明顯優于零樣本通用 VLM。團隊的 GRPO 訓練模型表現出非常強大的 OOD 性能，與 SFT 同類模型相比，CT 圖像提高了 16%，X 射線圖像提高了 35%，凸顯了 GRPO 卓越的通用性。

此外，盡管 MedVLM-R1 是一個僅使用 600 個樣本進行訓練的緊湊型 2B 參數模型，但它的表現優于 Qwen2-VL-72B 和 HuatuoGPT-Vision-7B 等大型模型，后者專門針對大規模醫療數據進行訓練。這凸顯了基于 RL 的訓練方法在高效且可擴展的醫療 VLM 開發方面的巨大潛力。

二、推理能力和可解釋性

除了強大的泛化能力之外，MedVLM-R1 的核心優勢在于它能夠產生明確的推理能力——這是所有基線所不具備的能力。如下圖所示，MedVLM-R1 在標簽內呈現了一個邏輯思維過程，最終決策包含在標簽中。

圖示：MedVLM-R1 在 X 射線（1、2）、MRI（3）和 CT（4）上的醫學 VQA 示例。（來源：論文）

值得注意的是，對于相對較簡單的問題（問題 1 和 2），推理似乎很有說服力，并且與醫學知識相符。然而，更復雜的查詢有時會顯示啟發式或只是部分推理。

例如，在第三個樣本中，模型通過排除法而不是詳細的醫學分析得出了正確答案，這表明它利用了基于線索的推理，而不是領域專業知識。

同樣，在某些情況下（例如問題 4），推理和結論之間的因果關系仍然不清楚，這引發了一個問題：模型是否只是在預測正確答案后編造了相對應的解釋。盡管存在這些缺陷，但 MedVLM-R1 代表了放射學決策可解釋性方面邁出的顯著一步。

三、局限性

盡管 MedVLM-R1 在 MRI、CT 和 X 射線數據集中表現出色，但仍存在一些局限性：

模式差距：在其他醫學模式（例如病理學或 OCT 圖像）上進行測試時，該模型無法收斂。研究人員假設這是由于基礎模型在預訓練期間對這些模式的接觸不足造成的。
封閉集依賴性：當前方法適用于多項選擇（封閉集）VQA。在沒有提供預定義選項的開放式問題設置中，模型的性能會大幅下降。這也是許多 VLM 面臨的共同挑戰。
膚淺/幻覺推理：在難度較大的任務推理任務中，MedVLM-R1有時仍能提供正確答案，但僅僅會提供膚淺的推理過程（例如，“思考：讓我們來看一下這張核磁共振圖片。答案：A。”）。此外在這些難度較大的任務中，模型推理得出的結論可能會與最終給出的答案自相矛盾。這種現象說明，即使是為可解釋性而設計的模型有時也會出現膚淺/幻覺的論證，凸顯了在生成始終透明且合乎邏輯的合理性方面仍然存在挑戰。

關于所有這些問題，團隊認為他們基礎模型的當前 2B 參數規模構成了潛在的瓶頸，接下來計劃在更大的 VLM 主干上評估 MedVLM-R1 以解決這些問題。

四、結語

總之，團隊提出了 MedVLM-R1，一種集成了基于DeepSeek GRPO 的強化學習的醫學 VLM，用于彌合放射學 VQA 中準確性、可解釋性和穩健性能之間的差距。通過專注于顯式推理，該模型提高了透明度和可信度——這些能力在高風險臨床環境中必不可少。

他們的結果表明，基于強化學習的方法比純 SFT 方法具有更好的泛化能力，尤其是在 OOD 設置下。雖然基于視覺語言模型的醫學推理仍處于起步階段并面臨相當大的挑戰，但研究人員相信，它在提供更安全、更透明的醫療解決方案的潛力會受到行業的重視并應受行業的到鼓勵。

來源：公眾號【ScienceAI】

llustration From IconScout By IconScout Store

-The End-

掃碼觀看！

本周上新！

“AI技術流”原創投稿計劃

TechBeat是由將門創投建立的AI學習社區（

www.techbeat.net

）。社區上線600+期talk視頻，3000+篇技術干貨文章，方向覆蓋CV/NLP/ML/Robotis等；每月定期舉辦頂會及其他線上交流活動，不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平臺，希望為AI人才打造更專業的服務和體驗，加速并陪伴其成長。

投稿內容

// 最新技術解讀/系統性知識分享 //

// 前沿資訊解說/心得經歷講述 //

投稿須知

稿件需要為原創文章，并標明作者信息。

我們會選擇部分在深度技術解析及科研心得方向，對用戶啟發更大的文章，做原創性內容獎勵

投稿方式

發送郵件到

melodybai@thejiangmen.com

或添加工作人員微信（yellowsubbj）投稿，溝通投稿詳情；還可以關注“將門創投”公眾號，后臺回復“投稿”二字，獲得投稿說明。

關于我“門”

將門是一家以專注于數智核心科技領域的新型創投機構，也是北京市標桿型孵化器。公司致力于通過連接技術與商業，發掘和培育具有全球影響力的科技創新企業，推動企業創新發展與產業升級。

將門成立于2015年底，創始團隊由微軟創投在中國的創始團隊原班人馬構建而成，曾為微軟優選和深度孵化了126家創新的技術型創業公司。

如果您是技術領域的初創企業，不僅想獲得投資，還希望獲得一系列持續性、有價值的投后服務，歡迎發送或者推薦項目給我“門”:

bp@thejiangmen.com

點擊右上角，把文章分享到朋友圈

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.