四倍,AI 醫生的診斷準確率遠超過人類醫生。
這可能有點難以置信,但微軟人工智能團隊日前發布的一項 AI 診斷協調系統 MAI-DxO(MAI Diagnostic Orchestrator)真的做到了。
它在《新英格蘭醫學雜志》每周發布共計 304 個真實復雜病例上進行了基準測試。測試結果顯示,準確率達到了85.5%。
這個基準測試不再是之前光憑借記憶,就可以做到的試卷答題,而是微軟創建的全新的評測標準,「順序診斷基準」(SD Bench)。它高度還原了真實診療過程的互動挑戰:
- 從患者的初步癥狀描述入手。
- 通過多輪提問,選擇各種檢驗檢查,逐步手機病情信息。
- 每開一項檢查,同時記錄檢查項目的費用;評估必要性和成本。
- 給出最終診斷。
同樣面對這個 304 個復雜病例,微軟選擇了另外 21 位來自美國和英國,具有 5 年至 20 年臨床經驗的執業醫生,測試結果顯示,真實醫生的平均準確率僅為 20%,這與 「AI 醫生」的差距足足有四倍之大。
同時,與人類醫生相比,這個「AI 醫生」還少開了很多不必要的檢查,減少了 20%-70% 的診斷成本。
▲順序診斷基準測試介紹圖,「守門人」回應來自診斷代理的信息請求,評估模型則評估診斷代理的最終診斷與病例報告準確度。
MAI-DxO 究竟是如何做到人類醫生的準確率四倍之高呢,它不是一個新出現的大語言模型,它也不依賴某個單一的模型。
MAI-DxO 是一個模擬現實中多名醫生合作診斷過程的系統。得益于當前大語言模型的持續發展,在 MAI-DxO 系統中,有不同的語言模型去扮演五種不同的醫療角色。
這些醫療角色包括推測各種結果的假設醫生、選擇醫生、質疑當前診斷假設的挑戰醫生、避免不必要檢查的成本管理醫生、以及確保診斷步驟和選擇邏輯一致的檢查表醫生。
這些「醫生」協作工作,充分地模擬了人類醫生團隊的工作流程,還彌補了單一 AI 模型在復雜診斷中可能出現的缺陷。
▲MAI-DxO 系統概覽圖
如上圖描述的系統概覽圖所示,MAI-DxO 完全模擬了我們去醫院看病的流程。
- 首先從問診開始,MAIN-DxO 會得到一個簡短的臨床小故事,通常為 2-3 句話,包含病例的基本情況。
- 接著,MAI-DxO 會開始總結患者的主要訴求,選擇下一步操作,是繼續向患者提問,還是申請開檢查。
- 每開一項檢查會計算檢查費用,同時持續進行多輪互動,直到給出最后診斷結果。
在測試過程中,MAI-DxO 利用 o4-mini 和專業醫生設置了一個「守門人」,確保系統給 AI 的信息是與正常醫生在問診和臨床上能夠得到的信息一樣。
MAI-DxO 的出現,為大語言模型在醫療診斷上取得明顯的性能提升。微軟測試了來自 OpenAI、Gemini、Claude、Grok、DeepSeek 以及 Llama 系列的不同模型,表現均優于僅使用單一的 AI 模型,而表現最好的組合是 MAI-DxO 與 OpenAI 的 o3 配對。
由于不受大語言模型的限制,MAI-DxO 還能夠在將來有更好的模型出現時,同步適配。
▲不同人工智能模型的準確性和每例平均診斷測試成本對比
盡管看起來 「AI 醫生」已經有模有樣,不過 AI 要真正做一個好醫生可不是那么容易的。
微軟在該項目論文最后提到,這次的研究存在顯著局限性,包括像參與對比實驗的 21 位醫生并沒有獲得同行的討論協助、參考書籍以及生成式 AI 等資源。此外,微軟這次實驗也僅僅只討論了最具挑戰性的病例難題,而對我們一般的日常性疾病診斷沒有做進一步的測試。
微軟強調 AI 不會取代醫生,它將成為醫生與患者共同的助手。
但就是這個醫生和患者共同的助手,也持續地吸引著全世界范圍的關注;早在今年 3 月,微軟就發布了醫療界首個用于臨床工作流程的 AI 助手 Microsoft Dragon Copilot,它能幫助醫生更好的整理病例的臨床文件。
IBM 推出 IBM Watson Health 醫療人工智能平臺、谷歌的 DeepMind、以及英偉達的 NVIDIA Clara 等,都正從導診、問診、病理等醫療場景中帶來新的變革。
前段時間,阿里達摩院也發布了全球首個胃癌影像篩查 AI 模型 DAMO GRAPE,首次利用平掃 CT 影像結合深度學習識別早期胃癌病灶。
華為今年才組建組建醫療衛生軍團,上周也聯合瑞金醫院,宣布開源 RuiPath 病理模型,具備臨床驗證能力,覆蓋肺癌等 7 個常見癌種。
醫學需要極高的精準度,0.01% 的失誤也有可能造成嚴重的后果,它完全不同于程序員寫代碼時出現的 bug。
MAI-DxO 模擬真實問診的過程,看起來這條 AI 醫療之路越來越清晰。
從百度問診,到 ChatGPT 問診,我想未來除了拿著普通醫院的檢查結果,查醫院排行榜,付費問在線醫生,還可以先看看這個「AI 醫生」。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.