深度學習基礎模型將顛覆醫療診斷,但質疑聲猶存。
——戴安娜·權
只要你做過活檢,那么你(至少是你的組織樣本)就一定經受過病理學家的診斷。正如加拿大多倫多大學的計算機科學家王博(Bo Wang)所說,“病理學是當代醫學診斷的基石,在癌癥診斷方面尤其如此。”
而病理學家們的境況卻并不樂觀。一方面,全球范圍內病理學人才短缺,病理診斷的需求遠超過出供給。而另一方面,工作要求也愈發嚴苛。他們不僅要完成組織切片、染色、顯微鏡觀察等常規任務,還要掌握如基因檢測和其他分子標記物分析等需要額外工具和專業知識的復雜檢測。對于王博和他的同行來說,解決這個日益嚴重問題的突破口,可能就在于人工智能(AI)。
AI工具,可以幫助病理學家做很多事情,例如標注組織中的可疑區域、標準化診斷結果以及揭示人眼難以覺察的規律。王博認為,“這些工具具備提升診斷準確性、可復現性以及效率的潛力,同時還能為挖掘大規模病理學與分子數據開辟新的研究方向。”
在過去幾十年里,病理切片日益數字化,病理學家能夠在屏幕上而非顯微鏡下觀察樣本——盡管許多人仍偏愛顯微鏡。這些完整的數字化切片圖像,讓計算機科學家和生物醫學工程師有機會開發出基于AI的輔助工具。尤其是,隨著ChatGPT和DeepSeek等AI聊天機器人的橫空出世,更是激發了研究者將類似技術應用于病理學領域的信心。王博表示,“這個研究領域非?;钴S,每天都有大量令人振奮的新鮮事物涌現?!?/p>
目前,科學家們已設計出能執行疾病分類、治療結果預測和疾病生物學標記物識別等任務的AI模型,其中一些甚至具備聊天機器人功能,可協助醫生和研究者解析隱藏在染色組織切片中的數據。馬薩諸塞州波士頓哈佛醫學院的計算機科學家費薩爾·馬哈茂德(Faisal Mahmood)指出,此類模型“能完整模擬病理學全流程”,從分析切片、要求檢測到撰寫報告均可實現,“當今技術已經能實現這一切?!?/p>
但也有一些研究者對此持謹慎態度。他們認為AI模型尚未得到充分驗證,且某些模型的不透明特性給臨床應用帶來了挑戰?!睔w根結底,這些工具想要進入醫院場景、直接用于患者,就必須提供可靠、準確且穩健的結果,“明尼蘇達州羅切斯特市梅奧診所的計算機科學家哈米德·提祖什(Hamid Tizhoosh)表示,“我們仍在翹首期待這樣的工具的真正到來?!?/p>
基礎模型從何而來?
早期的病理學AI工具主要用于執行明確的任務,比如乳腺癌活檢中檢測組織樣本中的癌細胞。但隨著“基礎模型”的(foundation models)出現,這類能夠適應各種未經專門訓練的應用場景的模型,為病理領域帶來了全新的解決途徑。
其中最著名的基礎模型,便是驅動ChatGPT之類生成式AI工具的大型語言模型(LLM)。然而,ChatGPT的訓練依賴于互聯網上的海量文本數據,病理學家卻缺乏類似規模的大數據資源來訓練自己的軟件。
這個問題直到2023年才浮現出對應的解決方案——科技巨頭Meta的研究人員發布了專為圖像分類等視覺任務設計的基礎模型DINOv2[1]。馬哈茂德指出,這項研究帶來了一個關鍵洞察:訓練數據集的多樣性比其規模更重要。
?UNI 模型. 圖源:github
基于這一原則,馬哈茂德團隊于2024年3月發布了他們稱為病理學通用模型(UNI)[2]。他們從10萬張載玻片中收集了包含患病與健康器官組織的超過1億張圖像數據集,然后采用自監督學習算法(一種能在海量數據中自動識別規律的機器學習模型)對該數據集進行了訓練。該團隊報告顯示,UNI在數十項分類任務中,包括乳腺癌轉移灶檢測和腦部多種腫瘤亞型識別,超越了現有最先進的病理計算模型。當前版本UNI 2的訓練數據集進一步擴展,涵蓋了超過2億張圖像、35萬張載玻片(參見go.nature.com/3h5qkwb)。
?CONCH 模型. 圖源:github
延續多樣化數據集理念,同時整合病理切片圖像和來自PubMed等醫學數據庫的文本數據,該團隊還設計了第二個基礎模型——組織病理學圖文對比學習模型(CONCH)多模態模型[3]。研究人員發現,與UNI類似,CONCH在執行癌癥分型等分類任務時表現優于其他模型。例如,它能以超過90%的準確率區分攜帶BRCA基因突變的癌癥亞型,而其他模型的表現大多僅達到隨機水平。該模型還能對圖像進行分類與描述,實現文本-圖像的雙向檢索,并生成特定癌癥病理模式的圖示(不過其表現精度略低于其分類能力)。在直接比較評估中,即使下游模型訓練數據點極少,CONCH始終優于基線方法。
UNI模型與CONCH模型,現已在模型共享平臺Hugging Face公開發布(參見go.nature.com/44g24w2)。研究者已將其應用于多種場景,包括對神經母細胞瘤進行分級分型、治療效果預測,以及特定疾病相關基因生物標志物的識別。兩款模型下載量突破150萬次,引用達數百次。馬哈茂德表示,“人們的使用方式完全超出了我的預期,我從未意識到竟有這么多人對計算病理學感興趣?!?/p>
?圖源:Hugging Face. 截圖時間2025年6月4日
其他研究團隊也在開發各自的病理學基礎模型。例如,微軟的GigaPath,基于美國28家癌癥中心提供的超過17萬張切片進行訓練,用于執行癌癥分型等任務[4];香港科技大學計算機科學家陳浩團隊設計的mSTAR(多模態自監督預訓練模型),整合了基因表達圖譜、圖像與文本數據,專用于轉移癌檢測、癌癥分型及其他任務,該模型同樣發布于Hugging Face平臺(詳見go.nature.com/3ylmauf)[5]。
?mSTAR模型. 圖源:https://huggingface.co/
如今,馬哈茂德與陳浩的團隊還在發力構建各自的“智能輔助系統”(Copilots)。馬哈茂德團隊于2024年6月發布了通用型AI助手PathChat[6],他們將UNI與大型語言模型相結合,通過近百萬條取自PubMed文獻和病例報告等來源的問答數據進行微調,使其可以支持病理學家就上傳圖像展開“對話“并生成報告。目前這款聊天機器人已授權給馬薩諸塞州波士頓生物醫療公司Modella AI,并于今年初獲得了美國食品藥品監督管理局(FDA)的突破性器械認定。類似地,陳浩團隊也開發了一款聊天機器人SmartPath。據陳浩介紹,表示該工具目前正在中國多家醫院接受測試,病理學家正對其在乳腺癌、肺癌和結直腸癌診斷中的能力進行全面評估。
?PathChat 產品demo. 來源:Modella AI
除分類任務外,PathChat與SmartPath均具備類似智能體的能力,能夠自主規劃、決策和執行操作。據馬哈茂德介紹,PathChat可優化病理學家工作流程,例如自動標出特定疾病疑似病例、開單安排輔助檢測項目以及撰寫病理報告。
德國德累斯頓理工大學腫瘤學家雅各布·卡瑟(Jakob Kather)指出,基礎模型代表著病理學領域“真正變革性的技術進步”——盡管它們尚未獲得監管機構批準。“我認為這些工具成為廣泛可用的經臨床驗證產品還需兩三年左右時間,“他補充說。
AI真能掀起一場病理行業的大變革嗎?
并非所有人都相信“基礎模型會帶來醫學領域的突破性變革”——至少短期內不會。
喬治亞州亞特蘭大埃默里大學生物醫學工程師阿南特·馬達布希(Anant Madabhushi)指出,基礎模型面臨一個關鍵問題“準確性”,尤其是如何量化準確性。由于數據相對匱乏,大多數病理學AI研究采用“交叉驗證”方法:將數據集的一部分用于訓練,另一部分用于測試。然而,這種方法可能導致過擬合等問題,即算法在與模型先前接觸過的相似數據上表現良好,但在差異較大的數據上表現不佳。
“交叉驗證的問題在于它往往提供過于樂觀的結果?!?/strong>馬達布希解釋道,“驗證模型最嚴謹的方法是采用獨立的外部驗證,外部測試集必須與訓練集完全分離,且理想情況下應來自獨立機構?!?/p> 此外,這些模型的實際表現,可能也并不如開發者宣稱的那樣出色。在2025年2月發表的一項研究[7]中,提祖什(Tizhoosh)及其同事對包括UNI和GigaPath在內的多個病理學基礎模型進行了測試。研究團隊采用了零樣本測試方法,即使用模型未曾接觸過的數據集進行測試,此處選用包含9000多人約11000張切片的癌癥基因組圖譜數據。測試結果發現,即便某些模型在腎臟等特定器官的表現確實不錯,但被評估模型識別癌癥的平均準確率甚至低于拋硬幣的隨機概率。 ?使用Yottixel平臺評估了幾種基礎模型在不同器官全切片圖像上的0-shot檢索性能。其中綠色標記了各器官的最佳結果,粉色標記則為GigaPath表現不佳的結果。圖源:[7] 提祖什認為,已發表性能與其團隊觀察結果間的差異可能源于“微調”操作。模型研究者通常在使用前通過提供大量相關病例對模型進行微調,而提祖什團隊則直接使用了原始模型進行測試。盡管如此,這些結果也表明基于AI的病理學工具可能不如設計者宣稱的那樣具有“革命性”。提祖什指出,“我擔憂他們正在過度承諾。而這將引發新一輪對AI的失望浪潮——我們稱之為‘AI寒冬’?!?/p> 多個研究團隊已著手推動驗證與基準測試流程的標準化。例如,提祖什正與紐約紀念斯隆-凱特琳癌癥中心、休斯頓德克薩斯大學MD安德森癌癥中心共同籌備一項挑戰賽:主辦方會給參賽者1.5億張圖像用于模型訓練,隨后要求他們提交模型以接受獨立測試。提祖什介紹說,“這項賽事計劃年底結束,我們希望通過這項賽事,形成一套規則與指南。” 荷蘭奈梅亨拉德堡德大學醫學中心的計算機科學家弗朗切斯科·喬姆皮(Francesco Ciompi)領導的團隊也發起了多項類似挑戰。其中,一個名為UNICORN(計算病理學、放射學與自然語言成像統一基準)的項目,計劃對多模態基礎模型執行包括病理學和放射學在內的一系列任務進行測試,喬姆皮說“這一項目的目標,在于評估這些基礎模型在無需過多微調時的表現。” 病理基礎模型絕非易事 即使是基礎模型的積極擁護者也得承認,驗證工作絕非易事。這些模型本身被設計為開放式架構,具有高度適應性。正如卡瑟所說,“最保守”的評估方式是對每項具體應用單獨測試,這也意味著“如果有成千上萬種用途,就必須為每種用途收集海量組織切片樣本,再逐一驗證模型效果?!?/p> 當前學界正圍繞“性能評估的通用基礎方法”展開討論。例如,卡瑟就提出,當AI模型具備更接近人類的能力時,或許應采用人類能力評估方式。“就像我們評估醫生時,并非測試他們對所有病例的診斷能力,而是通過挑選一些例子來評估他們的表現,以此考察其綜合認知能力?!?/p> ?按種族/民族和復發評分(RS)劃分的乳腺癌特定死亡累積風險。湖藍色代表非西班牙裔白人,墨綠色代表黑人,虛線代表亞裔/太平洋島民,橙色代表西班牙裔。在每個 RS 組中,黑人女性的累積死亡風險明顯高于非西班牙裔白人女性。圖源:[8] 對于基礎模型的其他問題,如普適性問題:如何確保這些工具適用于不同人群?2021年,用于評估乳腺癌患者化療獲益率的分子檢測Oncotype DX就曾引發這類爭議——研究者發現,盡管該檢測上市了二十余年,但其對黑人女性的有效性遠低于白人女性[8]。因此,馬達布希警告說,“如果在開發和驗證算法時缺乏針對性考量,必將導致災難性錯誤?!?/p> 另一個不容回避的問題則是“幻覺“問題——聊天機器人可能編造虛假回答,而在醫療領域,錯誤答案可能導致誤診或漏診?!叭绾瘟炕@些模型的安全性與可解釋性以降低診療風險?”王博質問道,“FDA等監管機構目前對醫療領域的生成式模型尚無任何規范?!?/p> 實際上,基礎模型本質上屬于“黑箱系統”,我們難以追溯其診斷決策的底層邏輯。正如馬達布希所指出的,“基礎模型確實潛力無限,但我們始終無法理解它們究竟捕捉到了哪些特征。” 因此,馬達布希致力于研究“可解釋的AI”——這類模型基于傳統技術,研究者能夠通過編程使算法精確定位與疾病相關的特定生物學特征。例如,其團隊開發的模型能夠識別預示早期乳腺癌的膠原纖維特征性排布模式[9],以及預測癌癥患者免疫治療效果的免疫細胞空間構型[10]。(馬達布希聯合創立了Picture Health,一家位于俄亥俄州克利夫蘭的生物技術公司,該公司已經獲得了這些技術的許可,并正在試圖得到監管批準中。) 其他研究者也在致力于破解模型的黑箱之謎——至少實現部分可解釋性。陳浩表示,他的團隊正在開發模型決策路徑追溯技術,試圖揭示算法決策的內在邏輯?!拔覀兿M覀兊哪P图葴蚀_又值得信賴,可解釋性對醫生受眾而言尤其重要。”盡管這仍有長路要走,但陳浩對此持樂觀態度: “一切才剛剛開始。短期內,這項技術的能力可能會被高估,但從長遠來看,它蘊藏的潛力是否無意中被低估了也未可知?!?/strong> 編譯后記 閱讀此文后,我深感AI在病理學領域正掀起一場靜默而深刻的革命?;A模型如UNI、CONCH的涌現,在病理診斷的準確和效率上給人以巨大震撼,展現了令人振奮的潛力,而PathChat等智能助手的出現,更預示著AI能作為病理診斷的“協作者”,為病理工作者門提供參考,有助于緩解診斷資源的短缺。 然而,曙光之下暗礁猶存。文中提到的測試也提示AI在病理領域還有很長的路可走:未經微調的模型在獨立驗證中表現堪憂,暴露了過擬合與泛化能力的致命短板。同時,我們對AI的理解限制了我們對其的使用:醫生無法理解AI如何判定某組織為癌變時,該如何信任其結果并為之負責?而馬達布希指出的種族數據偏差(如OncotypeDX對黑人女性的失效)更警示我們,AI病理診斷的普適性與公平性仍有待考察。 綜合來看,AI病理學的未來絕非坦途,卻值得堅定探索。其價值不在于替代病理學家,而在于解放他們的精力,使其聚焦于復雜病例研判與人文關懷。當下關鍵,是建立嚴格的獨立驗證體系與倫理框架,推動“可解釋的AI”發展,并確保訓練數據的多樣性與代表性。 誠如陳浩所言,短期內或存在高估,但長遠潛力更易被低估。唯有技術突破與審慎驗證并重,這場變革才能真正惠及每一個等待診斷的生命。前路漫漫,但方向已明。 https://www.nature.com/articles/d41586-025-01576-0 參考文獻: 1.Oquab, M. et al. Preprint at arXiv https://doi.org/10.48550/arXiv.2304.07193 (2023) 2.Chen, R. J. et al. Nature Med. 30, 850–862 (2024). 3.Lu, M. Y. et al. Nature Med. 30, 863–874 (2024). 4.Xu, H. et al. Nature 630, 181–188 (2024). 5.Xu, Y. et al. Preprint at arXiv https://doi.org/10.48550/arXiv.2407.15362 (2024). 6.Lu, M. Y. et al. Nature 634, 466–473 (2024). 7.Alfasly, S. et al. Sci. Rep. 15, 3990 (2025). 8.Hoskins, K. F., Danciu, O. C., Ko, N. Y. & Calip, G. S. JAMA Oncol. 7, 370–378 (2021). 9.Li, H. et al. npj Breast Cancer 7, 104 (2021). 10.Wang, X. et al. Sci. Adv. 8, eabn3966 (2022). 關于追問nextquestion 天橋腦科學研究院旗下科學媒體,旨在以科學追問為紐帶,深入探究人工智能與人類智能相互融合與促進,不斷探索科學的邊界。如果您有進一步想要討論的內容,歡迎評論區留言,或后臺留言“社群”即可加入社群與我們互動。 關于天橋腦科學研究院 天橋腦科學研究院(Tianqiao and Chrissy Chen Institute)是由陳天橋、雒芊芊夫婦出資10億美元創建的世界最大私人腦科學研究機構之一,圍繞全球化、跨學科和青年科學家三大重點,支持腦科學研究,造福人類。 Chen Institute與華山醫院、上海市精神衛生中心設立了應用神經技術前沿實驗室、人工智能與精神健康前沿實驗室;與加州理工學院合作成立了加州理工天橋神經科學研究院。 Chen Institute建成了支持腦科學和人工智能領域研究的生態系統,項目遍布歐美、亞洲和大洋洲,包括、、、科研型臨床醫生獎勵計劃、、等。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.