網易首頁 > 網易號 > 正文申請入駐

科學家構建醫療視覺大模型，實現多模態理解與生成任務最優結果

2025-06-11 14:50:25　來源: DeepTech深科技

北京舉報

分享至

在醫療領域，傳統大模型的應用往往面臨“顧此失彼”的技術瓶頸，這一挑戰主要體現在理解和生成能力的失衡上。

具體而言，當模型引入涵蓋醫學影像理解和生成任務的混合數據時，兩種任務的性能都顯著弱于使用單一數據訓練的模型。這種性能失衡現象源于兩個核心問題：

首先，多模態醫療訓練語料缺乏類似通用領域的高質量和大規模數據，難以保證理解與生成數據的完備性。以 DeepSeek 的統一模型 Janus 為例，其訓練需要海量數據支持，而醫療數據的稀缺性成為主要制約因素。

其次，更深層次的技術矛盾在于，理解任務和生成任務在空間表征模式上存在本質性沖突。傳統模型架構由于缺乏有效的任務協調機制，往往將兩種任務表征強行混合到同一維度，難以同時滿足“雙向需求”，最終導致性能失衡。

為解決上述問題，浙江大學聯合阿里巴巴、新加坡國立大學、香港科技大學、電子科技大學等團隊，創新性地提出了基于異構知識適應的醫療大型視覺語言模型 HealthGPT。該模型首次實現了醫療多模態在統一理解與生成任務上的協同優化。

研究團隊通過兩大技術創新突破了傳統局限：一是提出視覺感知的層級分配方法，二是開發了任務層面的特征解耦技術。

這些創新構建了獨特的“雙通道”智能處理機制：一方面，通過分層感知實現多尺度特征提取，另一方面，通過特征解耦為不同任務配備獨立的影像分析和生成模塊，從而動態調取不同任務模式需要的知識。

其不僅能夠統一處理醫療視覺理解與生成任務——既能精準解讀醫學影像，也能生成專業級的醫學影像，還顯著提升了多模態任務的性能和效率，最終實現 CT 到核磁共振成像的模態轉換或從癥狀到 X 光影像生成等多種模態任務。

這種方法通過創新的高效參數微調、與之適配的層級視覺感知以及多階段訓練策略，實現了“四兩撥千斤”的效果——只需少量參數和數據，就能讓預訓練語言模型在醫療場景中逐步掌握影像解讀與生成能力，且盡可能忽略數據配比等傳統架構面臨的關鍵瓶頸。

該論文通訊作者、浙江大學張文橋研究員對 DeepTech 解釋說道：“這相當于在原有醫療 AI 體系架構之外，用輕量方式構建了一個完整的輔助空間，為智慧醫療的創新發展開辟了更多可能性。”

圖丨張文橋（來源：張文橋）

相關論文以《HealthGPT：一種通過異構知識適應實現理解與生成統一的醫學大型視覺語言模型》（HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation）為題發表在預印本網站arXiv上 [1]。目前，論文已被國際人工智能頂級會議 ICML 2025（Spotlight）接受。

浙江大學博士生林天衛是第一作者，浙江大學百人計劃研究員張文橋擔任通訊作者。

圖丨相關論文（來源：arXiv）

HealthGPT 在 7 種模態均取得最佳性能，且參數規模相對較小，最小版本僅為 38 億參數量。此外，在 OmniMedVQA 基準測試中，更大參數版本如 HealthGPT-L14 的平均準確率達到了 74.4%，顯著超越其他模型。

其中，38 億參數的較小版本以 68.5 分的準確率超越此前 70 億參數的醫療專業模型（50 分），并優于通用領域的統一理解生成模型；而 140 億參數的更大版本進一步提升至 74.4 分，較此前最優模型提升近 1.5 倍，充分驗證了其在理解任務上的強大能力。

表丨OmniMedVQA 基準性能比較（來源：arXiv）

在醫療視覺生成任務（如模態轉化）上，HealthGPT 相比傳統方法也大幅提升。張文橋指出，該模型最關鍵的突破在于統一理解與生成能力——即便在兩者任務目標相悖的情況下，模型性能仍優于傳統模型。

優越性能的背后，是研究團隊不斷地探索和試錯。在研究初期，他們嘗試類似 Unified-IO 和 Janus 的思路，通過收集大量數據進行“暴力”統一訓練，但效果并不理想。

隨后，他們轉向高效參數微調，將理解與生成任務的知識通過創新的異質 LoRA（Low-Rank Adaptation）形式存儲在獨立插件中，避免傳統架構在理解與生成任務間的沖突。

與傳統 LoRA（僅凍結原模型參數并訓練旁路模塊）不同，異質 LoRA 為理解和生成任務分別分配兩組專家模塊，每組專注于單一任務類型，從而避免不同表征模式沖突。

（來源：arXiv）

此外，針對同類任務（如不同理解任務），該團隊引入混合專家機制（MoE，Mixture of Experts），讓多個專家共享知識以提升性能，生成任務同理。

但將單一 LoRA 視為專家的 MOE-LoRA 架構存在訓練成本高和推理延遲的問題，因此他們從矩陣乘法可逆性出發，在架構上優化 H-LoRA，大幅提升了訓練和推理速度。H-LoRA 不僅適用于醫療領域，也可用于通用多模態架構，在顯著減少訓練延遲的基礎上進一步提升性能。

數據收集同樣是關鍵挑戰。研究團隊在避免依賴海量數據的前提下，需確保理解和生成任務內各模態數據及指令類型的平衡，以維持知識多樣性和指令跟隨能力。張文橋強調：“醫療生成任務數據尤為稀缺，我們需在線搜集資源并依賴醫生標注，因此在數據處理上投入了大量精力。”

分層視覺感知機制在適應醫療場景復雜任務中發揮了核心作用。該機制基于前人研究——淺層網絡特征更具體，深層特征更抽象。因此，團隊設計理解任務側重高層語義（抽象特征），而生成任務保留底層細節（具象特征），從而針對性保留醫學影像的特征粒度。

不過，現有機制雖有效，團隊仍希望探索抽象與具象特征的互補性，而非完全割裂。例如，嘗試用抽象特征輔助生成，或利用具象特征增強理解。未來他們還計劃引入特征融合機制，結合兩者以進一步提升任務性能。

（來源：arXiv）

HealthGPT 模型在高效訓練與迭代、輕量化部署和多模態醫療影像等場景具有應用潛力。一方面，HealthGPT 模型支持高效訓練（H-LoRA），醫院數據持續更新時，基于模型的參數規模小，可快速迭代模型；另一方面，基于模型輕量級（參數規模小）特性，可部署在端側設備（如手機）。

在多模態醫療影像支持方面，醫生端可用于輔助診斷、查詢知識；患者端則能夠進行基礎疾病咨詢，減少就醫成本。據介紹，目前該團隊已與浙江大學醫學院附屬第二醫院、浙江大學邵逸夫醫院洽談合作，計劃在醫生端和患者端部署模型，實現實際醫療應用。

此外，由于該模型具備多模態理解與生成能力，研究團隊目前希望先應用于醫療影像領域（如 CT 和核磁共振成像），協助醫生閱片。與此同時，他們也正在探索該模型是否可擴展至罕見病診斷，并與浙江大學醫學院附屬第二醫院等機構合作，開展初步嘗試。

在未來的研究中，該團隊計劃在以下兩方面繼續探索：

第一，開發更大規模的 HealthGPT 模型。現有模型參數為 38 億和 140 億，他們打算繼續探索更強大的統一架構和參數擴展方法，以提升模型性能。

第二，研究醫療 Agent 系統，推動大小模型協同。正如 OpenAI 的 CEO 山姆奧特曼所說，模型協作是未來趨勢。實際上，許多疾病無需大模型即可解決，也就是說模型間能夠互補。

張文橋表示：“我們計劃將單一模型升級為 Health Agent，由不同角色（如醫生、患者）參與數據更新和參數優化，構建更完善的智能體級別的模型，這有望幫助醫療人員和患者提供更高質量的醫療服務。”

參考資料：

1.https://arxiv.org/pdf/2502.09838

2.https://github.com/DCDmllm/HealthGPT

運營/排版：何晨龍

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.