“有人直到去世前,才知道自己患有克羅恩病?!鄙虾=煌ù髮W計算機學院LoCCS實驗室的王爍教授感慨道。
這是一種被喻為“不死癌癥”的罕見病,誘因不明但可對整個消化道產生影響。與多數罕見病相同,克羅恩病也面臨醫生資源不足、診斷時間長、確診困難等問題。
這引起了上海交通大學計算機學院(網絡空間安全學院)的思考:在大模型與醫療產業緊密發展的當下,在一個又一個大模型接連落地醫療健康細分場景的今天,大模型是否能為諸如克羅恩病這樣的罕見病的高效精準診斷提供助力?答案是肯定的,但挑戰亦是艱巨的。
具體而言,罕見病精準診斷大模型的開發面臨至少三大難題:一是數據難題。這是現階段整個醫療大模型面臨的共同挑戰,但相較于其他疾病,罕見病數據較少,因此數據獲取更為艱難;二是可解釋性難題,這是大模型能否獲得醫患信任的關鍵要素;三是部署成本難題。這是由于推動罕見病精準診斷的目的便是緩解醫生資源不足,讓更多基層醫院具備罕見病診療能力。而基層醫院的投入有限,因此大模型的部署成本問題亦成為落地推廣的關鍵所在。
而由王爍教授領導研發的國內首個可精準診斷罕見病的醫學影像多模態大模型——明岐,則攻克了數據稀缺、部署成本高以及模型可解釋性的難題,不僅診斷準確率超過了92%,部署成本更是降至了10萬元。
圖源明岐多模態大模型官網
那么,明岐多模態大模型如何攻克醫療AI領域最具挑戰性的罕見病精準診斷難題?如何使模型具備可解釋性并降低了部署成本?未來推廣計劃如何?帶著這些問題,動脈網與王爍教授取得了聯系,聽他詳細介紹了“明岐”多模態大模型的實力與攻堅故事。
01
形成數據飛輪體系,攻克罕見病數據稀缺難題
據王爍教授介紹,針對數據稀缺難題,明岐團隊采取了“遞進式”策略進行攻克。具體而言,在大模型訓練的第一階段,只需讓大模型具備基礎的認知能力即可。在這一階段,明岐團隊先搜集了大量公開的腸胃鏡圖片,再結合自監督學習和大模型定制優化來激發輕量化大模型在關鍵診斷環節上的能力,從而使模型具備基礎的識別和判斷的能力矩陣,如識別腸道、腸道息肉、腸道潰瘍的能力等。
而在第二階段,團隊便需要考慮如何提升明岐在垂直領域應用的能力。且在訪談中,王爍教授直言,相較于第一階段,第二階段所需的數據體量相對較小。因此,實際上,在第二階段,數據體量不是制約模型訓練的主要因素,數據的精準性更為關鍵。換言之,此時,團隊更需要查漏補缺,需要模型具備怎樣的能力便需要匹配相應的數據進行訓練。
對此,明岐團隊也形成了數據的飛輪體系:首先,團隊形成了“黃金數據提取”機制,針對模型所需的能力訓練重點生產數千條的黃金數據;其次,團隊還會基于大模型的生成能力進行數據的智能合成;最后,明岐團隊還訓練大模型學習專家的標注邏輯與能力,使模型具備高質量數據標注能力,最終反哺模型訓練。
由此,明岐在醫療垂直領域形成了穩固的數據分發體系,進而攻克了模型訓練中的數據稀缺難題,也為明岐在醫療垂直領域的應用奠定了堅實基礎。而明岐在實際應用中的表現也的確令人驚喜——針對克羅恩病等消化道病種,其診斷準確率超過了92%。中南大學湘雅三醫院消化內科專家表示,“明岐的診斷準確率,已超越了??聘呒夅t生的水平?!?/p>
顯然,92%的診斷準確率,倚靠的,不僅僅是豐富多元的數據,還有一個名為“大模型能力矩陣+專家路由協同”的雙引擎架構。
02
采用“大模型矩陣+透明診斷艙”,診斷準確度超過92%
為什么近年來大家普遍感知大模型變聰明了?王爍教授解釋道,背后原因與大模型調用“工具”的能力增強有關。
一個最明顯的例證便是,在以往,用戶輸入一道數學題,可能經過一通“胡言亂語”后什么也分析不出來。但現在,首先,大模型產品能夠識別出這是一道數學題;其次,它會調用相關工具進行計算,最后給出結果,若是復雜一點的數據分析等問題,大模型產品也會對各個工具給出的“結果”進行整合,從而形成完整的結果。
明岐也采用了相似的技術路徑。據王爍教授透露,首先,明岐團隊會拆解包含克羅恩病在內的消化道罕見病精準診斷所需要的能力,再根據這些能力去開發相應的輕量化大模型,最后將這些輕量化大模型通過專家路由協議“集成”為大模型矩陣。而這一大模型矩陣,便為實現罕見病精準診斷提供了豐富且必需的“工具”。
而“專家路由協同”則是指明岐團隊整合了臨床指南、臨床專家診斷經驗等,形成了符合循證醫學、臨床要求的“診斷路徑”,或稱“診斷邏輯”。例如,針對克羅恩病的診斷,明岐需要遵循擁有先看部位,再看潰瘍,再看邊緣的診斷路徑,以及在這一過程中對各種工具的調配和規劃。這是明岐具備臨床邏輯思考能力的體現。
值得一提的是,為加強明岐的邏輯推理能力,并加強醫患對明岐的信任,明岐團隊還推出了“透明診斷艙”機制,可視化呈現每一個診斷步驟和推理過程,為每個診斷提供包含影像標記、診斷路徑決策和相似病歷參考庫在內的三級可解釋證據。具體而言,在實際應用過程中,明岐會通過影像標記疑似病灶區域,并給出完善的證據鏈條,爾后還會檢索以往相似病例進行對比和反思,最終給出精確診斷。
“傳統AI醫療黑箱式的決策使得AI診斷結果難以獲得醫患信任,換言之,可解釋性正是獲得臨床認同的關鍵。而明岐的‘透明診斷艙’機制不僅提高了診斷的準確度,更是破解了醫患對AI的信任難題,使醫生敢于、愿意在真實場景中使用AI。” 在“AI賦能精準診療創新發展學術會議”上,上海交通大學計算機學院LoCCS實驗室核心成員賀超翔教授如是說道。
一言以蔽之,足夠的數據和豐富的模型讓明岐具備了罕見病的診斷能力,而“專家路由協同”和“透明診斷艙”的機制又讓明岐具備了罕見病的診斷推理邏輯。能力+邏輯的雙重實力讓明岐得以達到超過92%的診斷準確率,并據此獲得了醫患信任。
然而,明岐對罕見病診斷的賦能,還不止準確率的提升和醫患信任關系的加強。
03
優化輕量化模型,將部署成本降至10萬左右
誠如王爍教授所言,明岐所采用的是輕量化大模型集成的技術路徑。輕量化大模型的特點之一便是訓練成本的大幅下降,而部署成本也將隨之下降。但需要注意的是,采用輕量化大模型并不意味著模型性能的“偷工減料”,而是充分放大每一個模型的特點和價值,使之效用最大化?!凹词故禽p量化模型,我們采用的也是大模型,而且是可信的大模型。”上海交通大學計算機學院LoCCS實驗室核心成員孫士鋒教授表示。
于是,現階段,明岐僅需10萬元左右的一體機便可完成大模型推理。這意味著縣域及基層醫院能用可負擔的價格享受到專家級別的診斷系統,進一步推動優質醫療資源的下沉和普惠醫療的實現。并且,據王爍教授透露,除進一步優化模型降低部署成本外,明岐團隊還正在探索CPU+GPU的部署方式,將部分模型的運行交由CPU承接,由此可進一步降低部署成本。
圖源明岐多模態大模型官網
此外,在病種拓展方面,據王爍介紹,在未來三年內,明岐將會進一步覆蓋15種國家罕見病目錄中的疾病,并將持續提升以克羅恩病為代表的核心病種的診斷能力。在明岐的助力下,預計每年將減少約100萬例的罕見病誤診,并將節省超過10億元的醫療支出,為我國醫療健康事業高質量發展和普惠醫療的實現貢獻重要力量。
*封面圖片來源:123rf
如果您想對接文章中提到的項目,或您的項目想被動脈網報道,或者發布融資新聞,請與我們聯系;也可加入動脈網行業社群,結交更多志同道合的好友。
聲明:動脈網所刊載內容之知識產權為動脈網及相關權利人專屬所有或持有。未經許可,禁止進行轉載、摘編、復制及建立鏡像等任何使用。文中如果涉及企業信息和數據,均由受訪者向分析師提供并確認。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.