99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

科學家構建醫療視覺大模型,實現多模態理解與生成任務最優結果

0
分享至

在醫療領域,傳統大模型的應用往往面臨“顧此失彼”的技術瓶頸,這一挑戰主要體現在理解和生成能力的失衡上。

具體而言,當模型引入涵蓋醫學影像理解和生成任務的混合數據時,兩種任務的性能都顯著弱于使用單一數據訓練的模型。這種性能失衡現象源于兩個核心問題:

首先,多模態醫療訓練語料缺乏類似通用領域的高質量和大規模數據,難以保證理解與生成數據的完備性。以 DeepSeek 的統一模型 Janus 為例,其訓練需要海量數據支持,而醫療數據的稀缺性成為主要制約因素。

其次,更深層次的技術矛盾在于,理解任務和生成任務在空間表征模式上存在本質性沖突。傳統模型架構由于缺乏有效的任務協調機制,往往將兩種任務表征強行混合到同一維度,難以同時滿足“雙向需求”,最終導致性能失衡。

為解決上述問題,浙江大學聯合阿里巴巴、新加坡國立大學、香港科技大學、電子科技大學等團隊,創新性地提出了基于異構知識適應的醫療大型視覺語言模型 HealthGPT。該模型首次實現了醫療多模態在統一理解與生成任務上的協同優化。

研究團隊通過兩大技術創新突破了傳統局限:一是提出視覺感知的層級分配方法,二是開發了任務層面的特征解耦技術。

這些創新構建了獨特的“雙通道”智能處理機制:一方面,通過分層感知實現多尺度特征提取,另一方面,通過特征解耦為不同任務配備獨立的影像分析和生成模塊,從而動態調取不同任務模式需要的知識。

其不僅能夠統一處理醫療視覺理解與生成任務——既能精準解讀醫學影像,也能生成專業級的醫學影像,還顯著提升了多模態任務的性能和效率,最終實現 CT 到核磁共振成像的模態轉換或從癥狀到 X 光影像生成等多種模態任務。

這種方法通過創新的高效參數微調、與之適配的層級視覺感知以及多階段訓練策略,實現了“四兩撥千斤”的效果——只需少量參數和數據,就能讓預訓練語言模型在醫療場景中逐步掌握影像解讀與生成能力,且盡可能忽略數據配比等傳統架構面臨的關鍵瓶頸。

該論文通訊作者、浙江大學張文橋研究員對 DeepTech 解釋說道:“這相當于在原有醫療 AI 體系架構之外,用輕量方式構建了一個完整的輔助空間,為智慧醫療的創新發展開辟了更多可能性。”


圖丨張文橋(來源:張文橋)

相關論文以《HealthGPT:一種通過異構知識適應實現理解與生成統一的醫學大型視覺語言模型》(HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation)為題發表在預印本網站arXiv上 [1]。目前,論文已被國際人工智能頂級會議 ICML 2025(Spotlight)接受。

浙江大學博士生林天衛是第一作者,浙江大學百人計劃研究員張文橋擔任通訊作者。


圖丨相關論文(來源:arXiv)

HealthGPT 在 7 種模態均取得最佳性能,且參數規模相對較小,最小版本僅為 38 億參數量。此外,在 OmniMedVQA 基準測試中,更大參數版本如 HealthGPT-L14 的平均準確率達到了 74.4%,顯著超越其他模型。

其中,38 億參數的較小版本以 68.5 分的準確率超越此前 70 億參數的醫療專業模型(50 分),并優于通用領域的統一理解生成模型;而 140 億參數的更大版本進一步提升至 74.4 分,較此前最優模型提升近 1.5 倍,充分驗證了其在理解任務上的強大能力。


表丨OmniMedVQA 基準性能比較(來源:arXiv)

在醫療視覺生成任務(如模態轉化)上,HealthGPT 相比傳統方法也大幅提升。張文橋指出,該模型最關鍵的突破在于統一理解與生成能力——即便在兩者任務目標相悖的情況下,模型性能仍優于傳統模型。

優越性能的背后,是研究團隊不斷地探索和試錯。在研究初期,他們嘗試類似 Unified-IO 和 Janus 的思路,通過收集大量數據進行“暴力”統一訓練,但效果并不理想。

隨后,他們轉向高效參數微調,將理解與生成任務的知識通過創新的異質 LoRA(Low-Rank Adaptation)形式存儲在獨立插件中,避免傳統架構在理解與生成任務間的沖突。

與傳統 LoRA(僅凍結原模型參數并訓練旁路模塊)不同,異質 LoRA 為理解和生成任務分別分配兩組專家模塊,每組專注于單一任務類型,從而避免不同表征模式沖突。


(來源:arXiv)

此外,針對同類任務(如不同理解任務),該團隊引入混合專家機制(MoE,Mixture of Experts),讓多個專家共享知識以提升性能,生成任務同理。

但將單一 LoRA 視為專家的 MOE-LoRA 架構存在訓練成本高和推理延遲的問題,因此他們從矩陣乘法可逆性出發,在架構上優化 H-LoRA,大幅提升了訓練和推理速度。H-LoRA 不僅適用于醫療領域,也可用于通用多模態架構,在顯著減少訓練延遲的基礎上進一步提升性能。

數據收集同樣是關鍵挑戰。研究團隊在避免依賴海量數據的前提下,需確保理解和生成任務內各模態數據及指令類型的平衡,以維持知識多樣性和指令跟隨能力。張文橋強調:“醫療生成任務數據尤為稀缺,我們需在線搜集資源并依賴醫生標注,因此在數據處理上投入了大量精力。”

分層視覺感知機制在適應醫療場景復雜任務中發揮了核心作用。該機制基于前人研究——淺層網絡特征更具體,深層特征更抽象。因此,團隊設計理解任務側重高層語義(抽象特征),而生成任務保留底層細節(具象特征),從而針對性保留醫學影像的特征粒度。

不過,現有機制雖有效,團隊仍希望探索抽象與具象特征的互補性,而非完全割裂。例如,嘗試用抽象特征輔助生成,或利用具象特征增強理解。未來他們還計劃引入特征融合機制,結合兩者以進一步提升任務性能。


(來源:arXiv)

HealthGPT 模型在高效訓練與迭代、輕量化部署和多模態醫療影像等場景具有應用潛力。一方面,HealthGPT 模型支持高效訓練(H-LoRA),醫院數據持續更新時,基于模型的參數規模小,可快速迭代模型;另一方面,基于模型輕量級(參數規模小)特性,可部署在端側設備(如手機)。

在多模態醫療影像支持方面,醫生端可用于輔助診斷、查詢知識;患者端則能夠進行基礎疾病咨詢,減少就醫成本。據介紹,目前該團隊已與浙江大學醫學院附屬第二醫院、浙江大學邵逸夫醫院洽談合作,計劃在醫生端和患者端部署模型,實現實際醫療應用。

此外,由于該模型具備多模態理解與生成能力,研究團隊目前希望先應用于醫療影像領域(如 CT 和核磁共振成像),協助醫生閱片。與此同時,他們也正在探索該模型是否可擴展至罕見病診斷,并與浙江大學醫學院附屬第二醫院等機構合作,開展初步嘗試。

在未來的研究中,該團隊計劃在以下兩方面繼續探索:

第一,開發更大規模的 HealthGPT 模型。現有模型參數為 38 億和 140 億,他們打算繼續探索更強大的統一架構和參數擴展方法,以提升模型性能。

第二,研究醫療 Agent 系統,推動大小模型協同。正如 OpenAI 的 CEO 山姆奧特曼所說,模型協作是未來趨勢。實際上,許多疾病無需大模型即可解決,也就是說模型間能夠互補。

張文橋表示:“我們計劃將單一模型升級為 Health Agent,由不同角色(如醫生、患者)參與數據更新和參數優化,構建更完善的智能體級別的模型,這有望幫助醫療人員和患者提供更高質量的醫療服務。”

參考資料:

1.https://arxiv.org/pdf/2502.09838

2.https://github.com/DCDmllm/HealthGPT

運營/排版:何晨龍

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
最令人擔心的事發生了:狂風暴雨中大樹傾倒,廣東一路人被砸

最令人擔心的事發生了:狂風暴雨中大樹傾倒,廣東一路人被砸

珠江時報
2025-06-12 12:35:53
剛剛,全線爆發!美國,重大發布!

剛剛,全線爆發!美國,重大發布!

券商中國
2025-06-11 21:20:24
“臺灣永遠都不會是中國的一部分”,說這話的人,正在被全網唾罵

“臺灣永遠都不會是中國的一部分”,說這話的人,正在被全網唾罵

小lu侃侃而談
2025-06-11 20:10:24
小別勝新婚是什么體驗?網友:成年人的世界好污啊

小別勝新婚是什么體驗?網友:成年人的世界好污啊

解讀熱點事件
2025-06-05 00:10:03
國臺辦:馬英九等超7000名臺灣各界人士將受邀參加第十七屆海峽論壇

國臺辦:馬英九等超7000名臺灣各界人士將受邀參加第十七屆海峽論壇

新華社
2025-06-11 20:04:51
資深藝人患黑色素癌晚期,全身血管只剩3條,勇敢坦然面對死亡

資深藝人患黑色素癌晚期,全身血管只剩3條,勇敢坦然面對死亡

素素娛樂
2025-06-11 08:26:26
僅剩45米!日本偵察機跟蹤山東艦被殲15強硬驅逐,差點機毀人亡

僅剩45米!日本偵察機跟蹤山東艦被殲15強硬驅逐,差點機毀人亡

大道無形我有型
2025-06-12 12:19:00
中國正在瘋狂加碼理工科,但普通人要警惕下一個“土木工程”

中國正在瘋狂加碼理工科,但普通人要警惕下一個“土木工程”

智谷趨勢
2025-06-11 17:19:53
詹俊:2026世界杯英格蘭巴西難奪冠,阿根廷西班牙法國有機會

詹俊:2026世界杯英格蘭巴西難奪冠,阿根廷西班牙法國有機會

直播吧
2025-06-12 19:20:28
曾經過度吹捧,現在淪為笑柄的幾樣東西,你買了幾樣?

曾經過度吹捧,現在淪為笑柄的幾樣東西,你買了幾樣?

跳跳歷史
2025-06-12 14:12:24
哈佛大學公布咖啡與癌癥的關系!

哈佛大學公布咖啡與癌癥的關系!

尚曦讀史
2025-06-12 10:53:40
男孩一個危險動作,讓廣州地鐵8號線上的人全遲到:全勤獎沒了!

男孩一個危險動作,讓廣州地鐵8號線上的人全遲到:全勤獎沒了!

小南看城市
2025-06-12 14:45:17
魔術師:杜蘭特能幫你奪得冠軍 他對尼火熱刺都能帶來幫助

魔術師:杜蘭特能幫你奪得冠軍 他對尼火熱刺都能帶來幫助

直播吧
2025-06-12 23:16:08
殲35加入編隊,海軍下代艦載機已成規模

殲35加入編隊,海軍下代艦載機已成規模

三叔的裝備空間
2025-06-12 16:34:45
女跑者真實經歷分享:天熱跑步謹慎走光,小心“春光乍泄”

女跑者真實經歷分享:天熱跑步謹慎走光,小心“春光乍泄”

馬拉松跑步健身
2025-05-29 13:53:35
鐵兜:胡老師真實身份首曝光,鐵兜確實高攀了,公婆態度說明一切

鐵兜:胡老師真實身份首曝光,鐵兜確實高攀了,公婆態度說明一切

草莓解說體育
2025-06-12 13:32:18
美國務院:美國支持向烏克蘭提供防空設備

美國務院:美國支持向烏克蘭提供防空設備

仗劍看世界
2025-06-12 23:39:46
中日空中交鋒,日方稱日本沒有人員傷亡,并裝可憐向中方提要求

中日空中交鋒,日方稱日本沒有人員傷亡,并裝可憐向中方提要求

大道無形我有型
2025-06-12 12:25:33
成本15賣1000!年銷30萬坑害全國,央視最新曝光,趕緊告訴家里人

成本15賣1000!年銷30萬坑害全國,央視最新曝光,趕緊告訴家里人

任紀煙
2025-06-11 19:16:08
中美徹底變天了?中方正式向全世界宣布,禁止美軍該項合作

中美徹底變天了?中方正式向全世界宣布,禁止美軍該項合作

青途歷史
2025-06-10 23:18:42
2025-06-13 00:32:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15285文章數 513775關注度
往期回顧 全部

科技要聞

一鏡雙目捅破天,華為最快明年Q2超越蘋果

頭條要聞

男子給兩孩子灌農藥致死 孩子小姨:女孩眼睛都沒閉上

頭條要聞

男子給兩孩子灌農藥致死 孩子小姨:女孩眼睛都沒閉上

體育要聞

沒有人會不喜歡TJ-麥康奈爾

娛樂要聞

鄧紫棋自爆因官司6年沒收到版稅, 重錄舊作反擊

財經要聞

787客機首起空難 波音飛機事故頻發引質疑

汽車要聞

方程豹最大SUV比豹8便宜?鈦7搭華為智駕

態度原創

數碼
藝術
游戲
時尚
軍事航空

數碼要聞

PCI-SIG數據庫新增配備PCIe 5.0 x16接口的英特爾 Arc Battlemage GPU

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

國產武俠發售一周年!誠意十足的大更新即將上線

黃圣依自曝初戀是賈乃亮!20年前北電校園戀情曝光

軍事要聞

日方:山東艦艦載機"異常接近"日本軍機

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 道孚县| 罗甸县| 东宁县| 黔江区| 栾川县| 紫阳县| 关岭| 溧水县| 凤山县| 日喀则市| 吉木萨尔县| 宁安市| 沈阳市| 盘锦市| 长泰县| 封丘县| 皮山县| 南投市| 三河市| 宜君县| 沈阳市| 望谟县| 武乡县| 河津市| 涞水县| 鹰潭市| 红安县| 临漳县| 宁津县| 永靖县| 西峡县| 大英县| 大冶市| 当阳市| 聂荣县| 休宁县| 丰顺县| 乐山市| 剑河县| 田阳县| 清镇市|