始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)。正在,歡迎加入共同成長。A800/H20等算力6.25元/卡時(shí),支持在線微調(diào)訓(xùn)練,及線部署和。
在多模態(tài)大模型持續(xù)突破的今天,AI正在以前所未有的速度滲透進(jìn)各個(gè)領(lǐng)域。然而,當(dāng)我們將視野投向醫(yī)療垂類場景,尤其是對診斷準(zhǔn)確性和專業(yè)性要求較高的結(jié)腸鏡檢查,就會(huì)發(fā)現(xiàn)通用大模型仍面臨推理失真、知識脫節(jié)、指令遵循度低等諸多問題。
與此同時(shí),結(jié)直腸癌依然是全球第三高發(fā)和第二致死的癌癥,而早篩是改善生存率的關(guān)鍵。結(jié)腸鏡檢查作為目前最敏感的早期篩查手段之一,承擔(dān)著至關(guān)重要的角色。
ColonGPT模型解決了多模態(tài)結(jié)腸鏡領(lǐng)域發(fā)展滯后的問題。其核心亮點(diǎn)在于,它是首個(gè)聚焦結(jié)腸鏡檢查領(lǐng)域的智能AI專家,還是一款更輕量更準(zhǔn)確的輔助診斷助手,在保證診斷精度的前提下,以輕量化的技術(shù)架構(gòu)實(shí)現(xiàn)高效運(yùn)作,為結(jié)腸鏡檢查的輔助診斷帶來新的突破與可能。ColonGPT大模型及相關(guān)數(shù)據(jù)集已上線始智AI-wisemodel開源社區(qū),歡迎體驗(yàn)。
模型和數(shù)據(jù)集地址
數(shù)據(jù)集:https://wisemodel.cn/datasets/Jingyi/ColonINST
模型地址:https://wisemodel.cn/models/Jingyi/ColonGPT
01.
ColonSurvey:構(gòu)建研究圖譜
本文從數(shù)據(jù)驅(qū)動(dòng)與模型驅(qū)動(dòng)兩大視角出發(fā),首次系統(tǒng)的梳理了智能結(jié)腸鏡的研究圖譜,提出挑戰(zhàn)與研究機(jī)遇,奠定了構(gòu)建“智驅(qū)結(jié)腸鏡”系統(tǒng)的基礎(chǔ)認(rèn)知框架。
就數(shù)據(jù)層面而言,本文對63個(gè)公開數(shù)據(jù)集進(jìn)行全面匯總,覆蓋分類、檢測、分割、視覺語言任務(wù),發(fā)現(xiàn)現(xiàn)有數(shù)據(jù)存在類別種類單一、標(biāo)注粒度不夠、多模態(tài)支持薄弱等問題。
就模型層面而言,本文調(diào)研了137個(gè)深度學(xué)習(xí)模型,梳理了其架構(gòu)演進(jìn)路徑,并揭示了當(dāng)前在網(wǎng)絡(luò)架構(gòu)創(chuàng)新、監(jiān)督形式探索、多任務(wù)融合等方面仍有巨大空間。
02.
ColonINST:多模態(tài)基準(zhǔn)
為了解決多模態(tài)結(jié)腸鏡領(lǐng)域發(fā)展滯后的問題,本文提出 ColonINST —— 首個(gè)面向結(jié)腸鏡場景的多模態(tài)指令微調(diào)基準(zhǔn),為開發(fā)結(jié)腸鏡領(lǐng)域的視覺語言模型奠定了數(shù)據(jù)基底。
數(shù)據(jù)多樣性與層級結(jié)構(gòu)的系統(tǒng)整合
為增強(qiáng)社區(qū)協(xié)作性,本文從 19 個(gè)公開數(shù)據(jù)集中進(jìn)行篩選、重構(gòu),系統(tǒng)整合出超過 30 萬張圖像,并引入根類別、父類別、子類別三級類別結(jié)構(gòu),覆蓋從病灶到器械等62類廣泛目標(biāo),形成層次化的標(biāo)注體系。
多模態(tài)任務(wù)與指令驅(qū)動(dòng)對話構(gòu)建
本文還引入 GPT-4V,基于類別信息與任務(wù)目標(biāo)設(shè)計(jì)提示詞,自動(dòng)生成專業(yè)且細(xì)粒度的圖像字幕,形成醫(yī)學(xué)語義豐富的描述。隨后,本文將圖像、字幕、標(biāo)簽與任務(wù)目標(biāo)融合,生成 45 萬條指令對話樣本,支持圖像分類、指稱表達(dá)生成、指稱表達(dá)理解以及字幕生成四項(xiàng)核心任務(wù)。此外,為增強(qiáng)模型泛化能力,本文為每項(xiàng)任務(wù)設(shè)計(jì)五種問題模板。
03.
ColonGPT:多模態(tài)專家模型
盡管現(xiàn)有多模態(tài)大模型在通用場景中表現(xiàn)優(yōu)異,但在高專業(yè)度的醫(yī)療圖像任務(wù)中表現(xiàn)遠(yuǎn)未達(dá)標(biāo)。例如,LLaVA 和 LLaVA-Med 模型均未能正確識別出結(jié)腸鏡圖像,而ChatGPT甚至無法準(zhǔn)確理解人類指令。因此提出了 ColonGPT —— 面向結(jié)腸鏡的視覺語言對話專家。
設(shè)計(jì)理念
ColonGPT 采用標(biāo)準(zhǔn)的視覺語言架構(gòu),包含文本分詞器、視覺編碼器、多模態(tài)適配器以及自語言模型四個(gè)模塊。在多模態(tài)適配器設(shè)計(jì)上,本文引入多粒度圖元池化結(jié)構(gòu),通過層次化特征整合與降維處理,將圖元數(shù)量減少 66%,極大提升了模型效率與訓(xùn)練速度,僅需要7小時(shí)即可完成訓(xùn)練,方便后續(xù)版本迭代和快速改進(jìn)。
多維度基準(zhǔn)測試
本文將 ColonGPT 與八種主流模型(六個(gè)通用模型和兩個(gè)醫(yī)療模型)進(jìn)行了對比評估。對于分類任務(wù)和指稱表達(dá)生成任務(wù)本文使用準(zhǔn)確率來計(jì)算正確預(yù)測的比例。對于指稱表達(dá)理解任務(wù),本文使用 IoU 來衡量定位精度。此外本文通過驗(yàn)證圖像中可見的解剖結(jié)構(gòu)、類別名稱以及臨床描述的正確性來分析字幕生成任務(wù)。結(jié)果表明,ColonGPT 在所有可量化任務(wù)上均取得最佳表現(xiàn),在未見樣本中也展示出優(yōu)越的泛化能力。
04.
經(jīng)驗(yàn)教訓(xùn):邁向智能外科助手
擁抱數(shù)據(jù)稀缺:
擴(kuò)大數(shù)據(jù)規(guī)模是提高特定領(lǐng)域表征能力的一種簡單粗暴的方法,例如使用合成數(shù)據(jù)來彌補(bǔ)公共數(shù)據(jù)池不足的問題,或者通過聯(lián)邦學(xué)習(xí),使多個(gè)機(jī)構(gòu)在不共享原始數(shù)據(jù)的情況下協(xié)同訓(xùn)練。此外,通過多樣化人機(jī)對話形式也可以有效地訓(xùn)練適用于結(jié)腸鏡檢查應(yīng)用的人工智能專家,包括擴(kuò)展問答對、更多可執(zhí)行的任務(wù)、推理鏈條數(shù)據(jù)等。
效率至上:
未來的工作應(yīng)主要圍繞優(yōu)化模型參數(shù)效率展開。本文通過改進(jìn)多模態(tài)適配器結(jié)構(gòu)在減少冗余的同時(shí)不向模型性能妥協(xié)。此外,也可以使用輕量化語言模型作為核心架構(gòu),特別在醫(yī)學(xué)數(shù)據(jù)稀缺場景下有意想不到的效果。
改善空間感知能力:
當(dāng)前語言模型在視覺目標(biāo)定位上仍存局限(如指稱表達(dá)理解任務(wù)中IoU常低于50%),這可以通過在指令微調(diào)之前對多模態(tài)空間進(jìn)行預(yù)訓(xùn)練和預(yù)對齊來改善。此外讓視覺部分和語言部分各司其職也是一個(gè)有前景的方案,例如采用并行框架同時(shí)生成分割掩碼與語言描述。
持續(xù)學(xué)習(xí)與適應(yīng)性進(jìn)化:
為確保模型的長期有效性,其必須具備持續(xù)學(xué)習(xí)與自我調(diào)整的能力。例如通過反饋驅(qū)動(dòng)的學(xué)習(xí)機(jī)制實(shí)現(xiàn)模型的動(dòng)態(tài)優(yōu)化,也可以借助少樣本學(xué)習(xí)技術(shù)促進(jìn)模型在新任務(wù)上的快速適應(yīng)與跨領(lǐng)域知識遷移的能力。
視覺語言導(dǎo)航:
最近的視覺語言導(dǎo)航研究展示了將多模態(tài)數(shù)據(jù)整合到動(dòng)態(tài)決策和規(guī)劃任務(wù)中的潛力。例如OpenVLA探索了微調(diào)視覺語言行為(VLA) 模型的有效方法,LH-VLN重構(gòu)了視覺語言導(dǎo)航任務(wù)的范式——由單個(gè)任務(wù)轉(zhuǎn)向連續(xù)決策,由人工規(guī)劃轉(zhuǎn)向自主推理。這為未來開發(fā)智能外科助手提供了可能。
研究團(tuán)隊(duì)的長期愿景是開發(fā)一個(gè)通用智能結(jié)腸鏡檢查助手——一個(gè)能夠理解實(shí)時(shí)影像、患者病歷、生理參數(shù)等多層次醫(yī)療數(shù)據(jù)、制定自適應(yīng)治療方案,并具備自動(dòng)執(zhí)行手術(shù)能力的人工智能系統(tǒng)。它將不再只是一個(gè)工具,而是一位積極可靠的醫(yī)療合作伙伴。研究團(tuán)隊(duì)致力于通過持續(xù)努力,為多模態(tài)醫(yī)療AI的未來奠定堅(jiān)實(shí)基礎(chǔ),推動(dòng)醫(yī)療過程向智能化、普適化方向不斷演進(jìn)。
編輯丨趙雅鑫
----- END -----
wisemodel相關(guān):
系統(tǒng)升級:
系列模型:
關(guān)于wisemodel更多
1
歡迎持續(xù)關(guān)注和支持
開源社區(qū)建設(shè)需要長期堅(jiān)持和投入,更需要廣大用戶的積極參與、貢獻(xiàn)和維護(hù),歡迎大家加入wisemodel開源社區(qū)的志愿者計(jì)劃和開源共創(chuàng)計(jì)劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動(dòng)態(tài)。
2
歡迎加盟wisemodel開源社區(qū)
始智AI wisemodel社區(qū)自2023年9月上線以來,逐漸成為影響力日益擴(kuò)大的中立開放的AI開源社區(qū),為了加快公司發(fā)展,我們長期需要技術(shù)、運(yùn)營等人才加盟,技術(shù)側(cè)重在AI infra、后端開發(fā),熟悉K8S、模型訓(xùn)練和推理等技術(shù), 以及熟悉開發(fā)者生態(tài)運(yùn)營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn
3
歡迎投稿優(yōu)質(zhì)內(nèi)容
歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵(lì)高校實(shí)驗(yàn)室、大企業(yè)研究團(tuán)隊(duì)、個(gè)人等,在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實(shí)踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。
4
關(guān)于wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū)由清華校友總會(huì)AI大數(shù)據(jù)專委會(huì)副秘書長劉道全創(chuàng)立,旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高校科研院所、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個(gè)人開發(fā)者,以及政府部門、學(xué)會(huì)協(xié)會(huì)、聯(lián)盟、基金會(huì)等,還有投資機(jī)構(gòu)、科技媒體等,共同參與建設(shè)AI開源創(chuàng)新生態(tài)。
向上滑動(dòng)查看
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.