醫學影像分析系統在近年取得了長足進步,深度學習模型已能在特定環境下達到媲美專業醫師的診斷水平。然而,這些看似強大的AI系統卻面臨著一個隱匿而致命的缺陷——當它們離開原始訓練環境,面對新醫院、新設備或新成像協議時,性能往往會出現顯著下滑。這一現象被稱為"分布偏移",如同讓一位只在特定環境中練習的醫生突然面對全新的設備和工作環境。域泛化技術旨在解決這一挑戰,使AI系統能夠適應未知的數據分布,保持穩定的診斷性能。本文將揭示這一技術難題的本質,并探索從數據層面到分析層面的全方位解決路徑。
跨域的難題
醫學影像分析中的人工智能應用正經歷高速發展,在肺部結節檢測、乳腺癌診斷、腦部腫瘤分割等多個領域表現出色。2023年發表的數據顯示,一些先進的深度學習模型已可在特定數據集上達到95%以上的診斷準確率,甚至超過了一些有經驗的放射科醫生。這些成果讓許多醫療機構對AI輔助診斷系統的應用充滿期待。
但醫療領域的實際應用卻遭遇了嚴峻挑戰。當這些訓練好的AI系統被部署到新的醫院或使用不同的設備時,性能常常大幅下降。在一項橫跨五家醫院的研究中,同一個乳腺癌檢測算法在不同醫院的準確率相差高達15%。更令人擔憂的是,這種性能下降往往沒有明顯警示,導致臨床上的誤診風險。
這種現象被稱為"分布偏移"或"域偏移"問題。簡單來說,就是訓練數據和測試數據來自不同的分布。在醫學影像領域,這種偏移普遍存在且特別嚴重,主要源于醫學影像數據的多種變異性:
醫療設備差異:不同廠商的CT、MRI或超聲設備在成像原理相同的情況下,因硬件設計和圖像處理算法不同,產生的圖像存在明顯差異。例如,GE和西門子的MRI設備產生的同一部位圖像在亮度、對比度和噪聲特征上就有顯著不同。
成像協議變化:即使是同一臺設備,不同的成像參數設置(如MRI的TR/TE值、CT的輻射劑量、超聲的增益設置)也會導致圖像外觀差異顯著。實際調查表明,同一個醫院的不同技師設置的參數也常有不小差異。
患者群體特征:各醫院服務的患者群體在年齡、性別、種族和疾病嚴重程度上差異明顯,這些都會反映在影像特征上。有研究發現,亞洲人群和西方人群的腦部MRI在某些區域的信號強度有系統性差異。
圖像質量不一:醫學影像常受到各種人為因素影響,如患者移動、技師操作不當或設備老化等,這些都會產生不可預測的圖像質量變化。
面對這些挑戰,域泛化技術應運而生。與傳統的域適應不同,域泛化不需要訪問目標域數據,它致力于構建一個能夠在任何未見過的新域上表現良好的模型。
域泛化與幾個相關技術有明顯區別:與遷移學習不同,域泛化無法在測試前接觸到目標域數據;與零樣本學習不同,域泛化關注的是相同語義任務在不同域上的魯棒性;與域適應不同,域泛化必須在沒有目標域數據的情況下提前做好準備。
在實際醫學場景中,域泛化面臨三種主要挑戰:
跨設備泛化:最常見的情形,要求算法能夠適應不同醫療機構的不同設備。例如,一個在三甲醫院高端MRI設備上訓練的模型,需要在基層醫院的普通MRI上同樣有效。
跨序列泛化:醫學影像常包含多種序列類型,如MRI的T1加權、T2加權和FLAIR序列,或同一區域在不同時間點拍攝的序列。模型需要能夠跨這些序列保持性能。
跨模態泛化:不同成像模態(如CT、MRI、超聲等)捕捉的是身體組織的不同物理特性,信息各異但又相互補充。能夠在MRI上訓練而在CT上良好表現的算法具有巨大臨床價值。
2022年,一家腦部MRI分析系統的開發團隊在五家醫院進行了真實環境測試,發現其模型在原訓練醫院的準確率為92%,而在其他四家醫院則分別為88%、79%、81%和74%。這種性能差異嚴重影響了算法的臨床可靠性,也是當前醫學AI落地的最大障礙之一。
數據特征雙管齊下
面對域泛化的挑戰,研究者們提出了從數據到模型的多層次解決方案。其中,數據層面和特征層面的方法構成了第一道防線。
數據層面的突破
在數據層面,研究者們通過三種主要途徑增強模型的泛化能力:圖像處理、代理方法和數據增強。
圖像處理方法直接對輸入醫學影像進行變換,消除或減弱域特定的視覺特征。強度歸一化技術就是一個典型例子,它通過調整像素值的統計分布,使不同設備獲取的圖像在亮度、對比度上更加一致。于2022年提出的自適應歸一化網絡(SAN-Net)使用U-Net架構學習設備無關的表示,能有效消除不同醫院MRI設備的成像差異,在腦卒中病灶分割任務中將跨醫院性能提升了8%。
直方圖匹配是另一種有效方法,通過調整圖像像素強度分布使其匹配參考圖像的直方圖。李團隊2022年的基準測試表明,在房顫分割任務中,直方圖匹配相比多種復雜域泛化方法取得了更高性能。這種方法的優勢在于計算簡單、易于實現,且不需要重新訓練模型。
對于病理學圖像,顏色標準化方法尤為重要。由于染色過程的差異,來自不同實驗室的組織切片圖像常常呈現不同的顏色風格。近年來,康多團隊提出的染色分離方法能將組織圖像分解為染色密度圖和顏色基礎矩陣,在保留結構信息的同時消除色彩變異,使得腫瘤檢測算法在跨醫院測試中的準確率提升了12%。
代理方法則是用替代表示代替原始輸入,繞過域差異。基于頻率的域泛化方法利用傅立葉變換將圖像分解為幅度(代表風格)和相位(代表內容)組件。2023年趙團隊的研究表明,在白質高信號區分割任務中,通過校準源域與目標域的幅度差異,可以在完全未見過的數據上提高分割性能15%以上。
另一種有趣的代理方法是直接使用原始信號而非重建圖像。例如,對于MRI可使用k空間數據,對CT可使用正弦圖數據。李團隊2022年的研究顯示,基于正弦圖空間的CNN比基于圖像空間的CNN在身體部位識別任務上高出約3%的準確率,原因是原始數據中域特定的變異更少。
數據增強技術則通過創造新樣本來擴展訓練數據的多樣性。除了傳統的翻轉、旋轉和縮放,研究者們開發了更復雜的域泛化增強策略。對抗性增強通過生成對當前模型具有挑戰性的樣本來提高魯棒性。托馬爾團隊2023年提出的技術能在不確定區域生成樣本,使模型更好地應對未見過的域。
生成模型,特別是風格遷移技術,也為醫學影像域泛化提供了有力工具。山下團隊的STRAP方法將非醫學圖像的風格遷移到病理圖像上,改變紋理和顏色而保留語義內容,在腫瘤分類任務上顯著提高了跨實驗室的泛化性能。
針對特定問題的數據層面方法也得到了發展。跨模態生成模型利用生成對抗網絡創建合成數據或橋接不同模態間的表示。塔勒布團隊2023年提出的多模態拼圖自監督學習方法,將來自不同成像模態的圖像塊組合成拼圖,迫使模型學習跨模態共享特征。蘇團隊的顯著性平衡定位尺度增強(SLAug)則通過特定的數據增強技術并動態調整權重,有效解決了跨模態和跨序列醫學圖像分割的難題。
對于病理學圖像,染色標準化技術尤為重要。徐團隊2023年提出的方法在測試階段混合目標和源域圖像的染色顏色,生成多個變換后的測試圖像,大幅提高了細胞檢測的泛化性能。
特征層面的智能
在特征層面,研究重點是從輸入圖像中提取域不變特征,主要通過兩類方法:特征對齊和特征解耦。
特征對齊的核心思想是使不同域的特征分布更加接近。特征歸一化是最簡單也最有效的方法之一,通過統計轉換使特征具有相似的分布特性。周團隊2022年提出的每域批歸一化方法會在測試時從存儲的多個域統計信息中選擇最適合目標域的一組,有效處理了醫學圖像分割中的域偏移。李團隊2023年提出的頻譜-空間歸一化(SS-Norm)則結合了頻域和空間規范化,在視網膜血管分割任務上取得了顯著提升。
基于相異度的對齊方法試圖通過最小化不同域特征分布間的差異來實現泛化。斯塔克團隊2021年對比了不同相異度指標在跨站點病理圖像腫瘤分類中的表現,發現基于Wasserstein距離的指標能更好地捕捉域偏移。呂團隊2023年則將Sinkhorn距離用于衡量不同增強域之間的差異,指導視網膜圖像分割任務的泛化。
特征解耦方法則嘗試將輸入樣本分解為域特定和任務特定的特征向量。隱式解耦方法利用信息論、對比學習或變分推斷技術實現這一目標。孟團隊2022年提出的MIDNet通過最小化解剖特征和域特征之間的互信息來區分域不變和域特定特征,在胎兒超聲分類任務上表現出色。比團隊的MI-SegNet則使用兩個編碼器分別提取解剖和域特征,有效提高了超聲圖像分割的泛化能力。
對比解耦技術通過使相似實例的表示更相似,不同實例的表示更不同來實現解耦。李團隊2023年將多風格和多視圖對比學習結合用于乳腺癌檢測,通過GAN合成正樣本對,利用乳房不同視角作為多視圖樣本,有效提高了跨醫院檢測性能。
變分解耦利用變分自編碼器學習解耦表示。伊爾斯團隊2021年提出的域不變變分自編碼器(DIVA)將潛在空間分為域標簽、類別標簽和殘差變化三個獨立子空間,在瘧原蟲細胞圖像分類中展現出強大的泛化能力。王團隊2022年的變分解耦網絡(VDN)通過估計信息增益和最大化后驗概率來區分域不變和域特定特征,顯著提高了乳腺癌轉移分類的泛化性能。
顯式解耦方法則通過明確的機制將任務相關特征與域特定特征分離。條件表示學習通過引入條件變量影響輸入數據的表示學習。劉團隊2022年為糖尿病視網膜病變和先天性心臟病診斷提出的遞歸條件高斯先驗,利用類標簽的序關系來構建類相關潛在空間,使模型能學習對診斷任務敏感而對其他方面不變的表示。
特征正則化方法通過在學習目標中加入正則項來引導模型提取有意義且可泛化的特征。伊斯蘭和格洛克爾2022年提出的頻率丟棄法為心臟圖像分割任務提供了隨機特征圖過濾機制,通過應用隨機濾波器防止神經網絡學習頻率特定的圖像特征,提高了模型的魯棒性和泛化能力。
這些數據層面和特征層面的方法往往可以組合使用,形成更強大的域泛化解決方案。例如,將圖像處理技術與特征對齊方法結合,或者數據增強與特征解耦方法聯用,已在多項醫學影像任務上取得了超越單一方法的性能提升。
模型算法新思路
在解決醫學影像AI的域泛化問題上,模型層面的方法提供了另一條技術路徑。這些方法不直接操作數據或特征,而是通過改進學習過程、模型結構或優化技術來增強模型在未見域上的表現能力。
學習策略是模型層面域泛化的重要分支,包括幾種主流技術:集成學習、元學習、自監督學習和對抗學習。集成學習通過組合多個基礎模型的預測來提高整體系統性能。2023年,卡姆拉烏伊團隊提出的校準網絡混合模型(MCN)就利用了不同基礎模型的互補性,在腦腫瘤分割任務中取得了突破。MCN組合了多個具有不同校準特性的基礎模型預測,提供了更精確的腫瘤邊界定義和更準確的分割結果。
菲利普團隊在2022年為手術器械定位開發的動態CNN能夠融合圖像和光流模態,確保最可靠的信息對預測有最大貢獻。實驗證明,這種融合方法在器械定位準確率上比單一模型提高了7個百分點。斯卡爾伯特團隊基于多域圖像到圖像轉換的集成策略,通過將目標圖像投影到源域然后整合這些投影圖像的模型預測,在組織學圖像分類任務上顯著提升了性能。
元學習技術旨在學習最優初始化或更新規則,使模型能快速適應未見過的數據域。杜團隊在2021年提出的模型無關語義特征學習(MASF)方法,結合了類關系的全局對齊和類特定樣本特征的局部聚類,實現了更有效、更穩健的語義特征表示學習。在元訓練階段,模型參數更新以提高源域上的任務準確性,而元測試步驟則通過全局類對齊和局部樣本聚類來強化語義相關屬性的學習。MASF的元學習算法旨在優化特征空間的語義結構,使其對特定訓練域不敏感,從而實現更好的域泛化。
劉團隊2022年提出的形狀感知元學習(SAML)方法針對前列腺MRI分割任務引入了兩個專門設計的損失函數,用于在域偏移存在的情況下改善分割的緊湊性和平滑度。緊湊性損失函數鼓勵分割保留前列腺的完整形狀,而平滑度損失函數通過促進不同域間與輪廓相關和背景相關嵌入之間的類內聚合和類間分離,增強了邊界描繪。
自監督學習作為一種新型學習范式,模型被訓練來解決一個預設任務,從無標簽的大規模數據中學習有用的特征表示。自監督學習的核心理念是設計一個代理任務,讓模型在自我監督下學習表示。這種方法可以緩解醫學影像數據標注稀缺的問題,并通過學習通用有用特征改善域泛化能力。
谷團隊在2023年提出的對比域解耦與風格增強方法是自監督學習的典型代表。該方法通過域風格對比學習將圖像適當分解為域不變表示和域特定模態表示(即風格碼),而風格增強策略則通過將隨機生成的風格碼與給定解剖表示結合來重建新風格圖像,增強了泛化能力。
對抗性學習被廣泛用于學習域不變特征。其核心思想是在訓練過程中引入對抗樣本,使模型對潛在攻擊或意外輸入更加魯棒。這些對抗樣本通常是通過對原始輸入數據應用微小擾動生成的,目的是欺騙模型做出錯誤預測。通過納入此類對抗樣本,模型能更好地處理可能遇到未見域的真實場景。
貝科奇團隊2021年提出的對抗重建損失迫使編碼器在提取有用分類特征時"忘記"風格信息,用于髖關節MRI地標檢測。這種方法旨在生成域不變、類別信息豐富的表示,從而增強模型跨不同域的泛化能力。陳團隊2022年引入了一種現實對抗強度變換模型,用于MRI數據增強,模擬強度不均勻性這一MR成像中常見的偽影。這種基于對抗訓練的簡單有效框架學習對抗變換并規范化網絡以增強分割魯棒性,可作為通用分割網絡的插件模塊。
分布魯棒優化(DRO)是另一種模型層面的域泛化方法,旨在優化模型在指定不確定集合內最壞情況分布上的性能。換句話說,DRO不是基于單一訓練數據分布優化模型性能,而是嘗試確保模型在一系列可能的數據分布上表現良好。
比索托團隊2022年在皮膚病變分類模型中利用了群體分布魯棒優化(GDRO)。GDRO通過考慮數據分布中的群體或"環境"擴展了DRO框架。他們根據各種偽影(如毛發、尺度標記和暗角)的存在將訓練數據分為不同環境,然后在GDRO框架下訓練模型。戈爾團隊2023年通過進一步將風險最小化細化到子群體,改進了GDRO。他們提出了用于皮膚病變分類任務的類條件子群體DRO(SGDRO)。SGDRO不僅考慮數據分布中的群體或"環境",還根據特定類條件特征將這些環境進一步劃分為子群體。SGDRO最小化每個環境中子群體的最大風險,防范每個子群體的最壞情況場景,使模型對分布偏移更具韌性。
其他模型層面的域泛化方法包括幾何學習和分布式學習技術。幾何學習利用數據的內在幾何結構,通常存在于非歐幾里得空間中。應用于醫學影像的幾何學習通常使用圖結構建模,每個節點代表圖像中的特定區域,邊表示不同區域之間的空間關系。桑蒂拉塞卡拉姆團隊2022年提出的層次拓撲保持方法通過向量量化學習的基礎組件字典約束深度學習模型的潛在空間,并使用持續同調將拓撲先驗納入采樣過程,確保了拓撲準確的分割圖。
分布式學習技術如聯邦學習和隱私保護是醫學領域域泛化的重要組成部分。醫學數據的敏感性使得直接共享原始數據變得困難,分布式學習允許模型從不同機構的多樣數據中學習,同時保護數據隱私。劉團隊2023年提出的面向邊界的情景學習方案允許在不暴露任何個體客戶數據或損害隱私的情況下聚合來自多個客戶的模型更新。陳團隊2023年設計了跨客戶風格轉移,使用風格向量在保護隱私的聯邦學習中提高域泛化性能。這些方法確保了敏感患者信息的監控和安全,同時使多樣化數據集納入學習過程成為可能,促進了模型泛化。
分析層面的域泛化方法旨在幫助用戶理解、解釋和詮釋機器學習模型的決策過程。可解釋AI和因果推理是這一層面的兩大主要技術方向。可解釋AI通常通過可視化模型決策(如熱圖顯示神經網絡的梯度或激活)提供洞察。董團隊2023年為肺部病變分類提出的基于顯著圖的方法使用包含合成因果干預的對比學習方案,通過加權反向傳播生成顯著圖,可視化并突出數據中與因果相關的區域,從而增進對模型決策過程的理解。
卡里姆團隊2022年提出的DeepKneeExplainer是一種基于CAM的可解釋AI方法,用于多模態膝關節骨關節炎診斷。DeepKneeExplainer使用可解釋神經集成方法通過隱式減少泛化誤差來提高性能,并使用CAM可視化模型決策。但一個域中提供可解釋性的方法可能無法很好地遷移到其他域,因為不同的醫學影像數據和任務可能需要不同的可解釋性方法,確保可解釋性方法可以跨多樣化域有效應用是具有挑戰性的。袁團隊2023年提出了一種使用文本提示增強組織病理學圖像的方法,通過利用文本到圖像(T2I)生成器作為實現可解釋干預以獲得健壯表示的手段來解決可遷移性挑戰。
因果推理在域泛化中的應用則聚焦于理解導致源域和目標域之間差異的潛在因果機制,識別跨不同域不變的因果因素。馬哈詹團隊2023年為使用胸部X光圖像進行肺炎檢測提出了一種因果意識域泛化方法,使用因果貝葉斯網絡建模域、圖像特征和類標簽之間的關系。王團隊2023年使用基于因果圖的方法進行阿爾茨海默病診斷,使用結構因果模型(SCM)建模成像站點、性別、年齡和成像特征之間的因果關系。通過對模型執行反事實推理,他們可以生成協調數據,模擬成像數據仿佛來自同一站點,有效去除了站點特定的混雜因素,提高了跨不同站點訓練模型的泛化能力。歐陽團隊2023年為CT圖像分割的單源域泛化提出了一個因果學習框架,引入了SCM來表示輸入數據、域偏移變量和任務特定輸出之間的因果關系,使識別共享跨不同域的不變因果因素成為可能。
未來展望和挑戰
隨著醫學影像分析中域泛化技術的蓬勃發展,幾個關鍵方向值得未來深入探索。單源域泛化、應對概念偏移的方法、重新審視數據和分析層面技術以及建立標準化基準數據集,這些都是推動域泛化技術在醫學影像中更廣泛應用的重要課題。
單源域泛化代表了一個特別具有挑戰性的研究方向。現有的域泛化方法主要關注多源場景,而單源域泛化要求模型即使只有單一源域可用于訓練,也能在未見過的域上良好泛化。這種場景在醫學影像中經常出現,因為數據收集可能資源密集,且隱私問題可能限制對多個源的訪問。2023年的研究表明,單源域泛化在MRI圖像的跨站點分割任務中的準確率比多源方法低15-20%。未來研究應探索能夠有效解決單源域泛化挑戰的新方法,如抗噪和離群值的健壯性,同時保持高性能和泛化能力。
概念偏移是域泛化中的另一個重要挑戰。概念偏移指的是輸入特征和輸出標簽之間的關系在源域和目標域之間發生變化。傳統域泛化方法主要解決域間的協變量偏移,而概念偏移泛化方法則進一步通過顯式建模和解決底層概念的偏移。當同樣的癥狀在不同人群中預示不同疾病時,或當不同成像設備顯示相同解剖結構的方式不同時,就會出現概念偏移。
2022年的一項研究表明,在乳腺癌篩查中,相同的鈣化模式在亞洲和西方人群中可能表示不同的癌癥風險。未來研究應關注開發創新方法來彌合域泛化和OOD泛化之間的差距,以及探索零樣本學習(ZSL)技術以泛化到未見過的概念。這方面的挑戰在于缺乏標準化的數據集來量化和比較不同算法的表現。
在醫學影像分析的技術層面上,數據層面和分析層面的技術需要重新審視。雖然特征層面和模型層面的泛化技術在域泛化背景下已被廣泛探索,但數據層面和分析層面的技術隨著深度學習技術的發展自然受到較少關注。像配準、重建和直方圖匹配這樣的傳統數據層面技術仍然與醫學影像工作流程相關且基礎。它們的貢獻對于提高圖像質量、實現更準確可靠的診斷至關重要。
值得注意的是,醫學影像分析仍然涉及大量可追溯到幾十年前的前處理和后處理技術以及分析方法。隨著醫學影像變得更加復雜和高維,對更復雜和適應性更強的數據層面和分析層面技術的需求日益增加。例如,李團隊2023年的研究顯示,結合傳統圖像處理和最新深度學習技術的混合方法在大型異構數據集上的表現優于純深度學習方法。因此,未來研究應開發專門針對醫學影像獨特挑戰的新型數據層面技術和分析層面方法。
在評估域泛化方法方面,當前缺乏標準化的基準數據集是一個明顯的問題。目前,域泛化領域主要依賴三個基準數據集:Camelyon17-WILDS、M&;Ms挑戰賽數據集和MIDOG挑戰賽數據集。Camelyon17-WILDS來源于Camelyon17挑戰賽,專注于淋巴結病理圖像中的轉移檢測,包含了來自兩個不同機構的100張全幻燈片圖像。M&;Ms挑戰賽數據集是一個多中心、多廠商、多疾病的心臟磁共振(CMR)數據集,來自五個不同站點和五種掃描儀,包含五種不同病理的患者。MIDOG挑戰賽數據集則集中于病理圖像中有絲分裂圖像的檢測,包含來自五家不同醫院的圖像。
除了這些數據集,研究者們通常使用私有數據集或通過組合公開可用的數據集創建定制數據集,缺乏統一標準。因此,亟需建立能夠反映現實世界醫學影像場景多樣性和挑戰的標準化基準數據集。這些基準數據集應涵蓋各種成像模態、患者人群和成像協議,以便公平嚴格地評估域泛化方法。
此外,針對域泛化的不同設置(即多源、單源、跨站點、跨序列、跨模態、協變量偏移和概念偏移)開發基準數據集,將使不同技術的全面評估和比較成為可能。一個有希望的數據集是腦腫瘤分割(BRATS)挑戰賽數據集,特別是自2022年挑戰賽以來,該數據集已包括來自兒科和非洲人群的額外隊列,顯著增加了數據集的多樣性,這使其成為域泛化研究的理想資源。另一個新興的基準數據集是視網膜OCT液體挑戰賽(RETOUCH),這是一個包含來自3個站點的70個OCT卷的跨站點數據集。
隨著醫學影像分析技術的不斷進步和醫療數據的持續增長,域泛化方法將在實現醫療AI系統的廣泛臨床應用中發揮關鍵作用。通過持續研究和創新,我們有望看到醫學影像AI系統在未來幾年內實現真正的"訓練一次,處處應用"的愿景,為全球醫療保健帶來積極影響。
參考資料
Yoon, J. S., Oh, K., Shin, Y., Mazurowski, M. A., &; Suk, H. I. (2023). Domain Generalization for Medical Image Analysis: A Survey. arXiv:2310.08598v1
Li, X., Jiang, Y., Zhu, M., Wang, L., Liu, Y., &; Marculescu, R. (2023). Domain Generalization in Medical Imaging with Cyclic Adversarial Domain Augmentation. arXiv preprint arXiv:2304.07487.
Liu, Q., Yu, L., Luo, L., Dou, Q., &; Heng, P. A. (2021). Semi-supervised medical image classification with relation-driven self-ensembling model. IEEE Transactions on Medical Imaging, 40(1), 425-436.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.