始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在,歡迎加入共同成長。A800/H20等算力6.25元/卡時,支持在線微調訓練,及線部署和。
在多模態大模型持續突破的今天,AI正在以前所未有的速度滲透進各個領域。然而,當我們將視野投向醫療垂類場景,尤其是對診斷準確性和專業性要求較高的結腸鏡檢查,就會發現通用大模型仍面臨推理失真、知識脫節、指令遵循度低等諸多問題。
與此同時,結直腸癌依然是全球第三高發和第二致死的癌癥,而早篩是改善生存率的關鍵。結腸鏡檢查作為目前最敏感的早期篩查手段之一,承擔著至關重要的角色。
ColonGPT模型解決了多模態結腸鏡領域發展滯后的問題。其核心亮點在于,它是首個聚焦結腸鏡檢查領域的智能AI專家,還是一款更輕量更準確的輔助診斷助手,在保證診斷精度的前提下,以輕量化的技術架構實現高效運作,為結腸鏡檢查的輔助診斷帶來新的突破與可能。ColonGPT大模型及相關數據集已上線始智AI-wisemodel開源社區,歡迎體驗。
模型和數據集地址
數據集:https://wisemodel.cn/datasets/Jingyi/ColonINST
模型地址:https://wisemodel.cn/models/Jingyi/ColonGPT
01.
ColonSurvey:構建研究圖譜
本文從數據驅動與模型驅動兩大視角出發,首次系統的梳理了智能結腸鏡的研究圖譜,提出挑戰與研究機遇,奠定了構建“智驅結腸鏡”系統的基礎認知框架。
就數據層面而言,本文對63個公開數據集進行全面匯總,覆蓋分類、檢測、分割、視覺語言任務,發現現有數據存在類別種類單一、標注粒度不夠、多模態支持薄弱等問題。
就模型層面而言,本文調研了137個深度學習模型,梳理了其架構演進路徑,并揭示了當前在網絡架構創新、監督形式探索、多任務融合等方面仍有巨大空間。
02.
ColonINST:多模態基準
為了解決多模態結腸鏡領域發展滯后的問題,本文提出 ColonINST —— 首個面向結腸鏡場景的多模態指令微調基準,為開發結腸鏡領域的視覺語言模型奠定了數據基底。
數據多樣性與層級結構的系統整合
為增強社區協作性,本文從 19 個公開數據集中進行篩選、重構,系統整合出超過 30 萬張圖像,并引入根類別、父類別、子類別三級類別結構,覆蓋從病灶到器械等62類廣泛目標,形成層次化的標注體系。
多模態任務與指令驅動對話構建
本文還引入 GPT-4V,基于類別信息與任務目標設計提示詞,自動生成專業且細粒度的圖像字幕,形成醫學語義豐富的描述。隨后,本文將圖像、字幕、標簽與任務目標融合,生成 45 萬條指令對話樣本,支持圖像分類、指稱表達生成、指稱表達理解以及字幕生成四項核心任務。此外,為增強模型泛化能力,本文為每項任務設計五種問題模板。
03.
ColonGPT:多模態專家模型
盡管現有多模態大模型在通用場景中表現優異,但在高專業度的醫療圖像任務中表現遠未達標。例如,LLaVA 和 LLaVA-Med 模型均未能正確識別出結腸鏡圖像,而ChatGPT甚至無法準確理解人類指令。因此提出了 ColonGPT —— 面向結腸鏡的視覺語言對話專家。
設計理念
ColonGPT 采用標準的視覺語言架構,包含文本分詞器、視覺編碼器、多模態適配器以及自語言模型四個模塊。在多模態適配器設計上,本文引入多粒度圖元池化結構,通過層次化特征整合與降維處理,將圖元數量減少 66%,極大提升了模型效率與訓練速度,僅需要7小時即可完成訓練,方便后續版本迭代和快速改進。
多維度基準測試
本文將 ColonGPT 與八種主流模型(六個通用模型和兩個醫療模型)進行了對比評估。對于分類任務和指稱表達生成任務本文使用準確率來計算正確預測的比例。對于指稱表達理解任務,本文使用 IoU 來衡量定位精度。此外本文通過驗證圖像中可見的解剖結構、類別名稱以及臨床描述的正確性來分析字幕生成任務。結果表明,ColonGPT 在所有可量化任務上均取得最佳表現,在未見樣本中也展示出優越的泛化能力。
04.
經驗教訓:邁向智能外科助手
擁抱數據稀缺:
擴大數據規模是提高特定領域表征能力的一種簡單粗暴的方法,例如使用合成數據來彌補公共數據池不足的問題,或者通過聯邦學習,使多個機構在不共享原始數據的情況下協同訓練。此外,通過多樣化人機對話形式也可以有效地訓練適用于結腸鏡檢查應用的人工智能專家,包括擴展問答對、更多可執行的任務、推理鏈條數據等。
效率至上:
未來的工作應主要圍繞優化模型參數效率展開。本文通過改進多模態適配器結構在減少冗余的同時不向模型性能妥協。此外,也可以使用輕量化語言模型作為核心架構,特別在醫學數據稀缺場景下有意想不到的效果。
改善空間感知能力:
當前語言模型在視覺目標定位上仍存局限(如指稱表達理解任務中IoU常低于50%),這可以通過在指令微調之前對多模態空間進行預訓練和預對齊來改善。此外讓視覺部分和語言部分各司其職也是一個有前景的方案,例如采用并行框架同時生成分割掩碼與語言描述。
持續學習與適應性進化:
為確保模型的長期有效性,其必須具備持續學習與自我調整的能力。例如通過反饋驅動的學習機制實現模型的動態優化,也可以借助少樣本學習技術促進模型在新任務上的快速適應與跨領域知識遷移的能力。
視覺語言導航:
最近的視覺語言導航研究展示了將多模態數據整合到動態決策和規劃任務中的潛力。例如OpenVLA探索了微調視覺語言行為(VLA) 模型的有效方法,LH-VLN重構了視覺語言導航任務的范式——由單個任務轉向連續決策,由人工規劃轉向自主推理。這為未來開發智能外科助手提供了可能。
研究團隊的長期愿景是開發一個通用智能結腸鏡檢查助手——一個能夠理解實時影像、患者病歷、生理參數等多層次醫療數據、制定自適應治療方案,并具備自動執行手術能力的人工智能系統。它將不再只是一個工具,而是一位積極可靠的醫療合作伙伴。研究團隊致力于通過持續努力,為多模態醫療AI的未來奠定堅實基礎,推動醫療過程向智能化、普適化方向不斷演進。
編輯丨趙雅鑫
----- END -----
wisemodel相關:
系統升級:
系列模型:
關于wisemodel更多
1
歡迎持續關注和支持
開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發布到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續關注wisemodel.cn開源社區動態。
2
歡迎加盟wisemodel開源社區
始智AI wisemodel社區自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區,為了加快公司發展,我們長期需要技術、運營等人才加盟,技術側重在AI infra、后端開發,熟悉K8S、模型訓練和推理等技術, 以及熟悉開發者生態運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn
3
歡迎投稿優質內容
歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。
4
關于wisemodel開源社區
始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。
向上滑動查看
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.