編輯 | 白菜葉
谷歌醫療聊天機器人的升級版可以使用智能手機照片來診斷皮疹,并可以評估大量其他類型的醫學圖像,從而提高機器人查明疾病原因的能力。
早期版本的人工智能 (AI) 系統在診斷準確性和臨床態度方面優于醫生。升級后的系統在解讀心電圖和實驗室結果 PDF 等圖像方面也比人類醫生表現更好。
該系統的最新版本名為「Articulate Medical Intelligence Explorer,AMIE」,目前仍處于純實驗階段,已于 5 月 6 日發布在了arXiv預印本服務器。
論文鏈接:https://arxiv.org/abs/2505.04653
加州斯坦福大學數字健康中心主任 Eleni Linos 評價道,整合圖像和臨床信息的系統「讓我們更接近能夠反映臨床醫生實際思維方式的人工智能助手。」
醫療保健模擬
為了測試 AMIE 的新功能,25 名扮演患者的演員與聊天機器人和一位人類初級保健醫生進行了虛擬咨詢。演員們模擬了 105 種醫療場景,涉及一系列癥狀和病史。他們還展示了相關的醫學圖像。
每次問診后,AMIE 和人類醫生都會給出診斷和治療方案。一個由 18 位皮膚科、心臟病科和內科專家組成的團隊通過分析問診記錄和問診后報告,評估了聊天機器人和人類醫生的表現。
他們發現,總體而言,AMIE 的診斷準確率高于人類醫生。此外,其準確率受圖像質量低等問題的影響較小。
「AI 醫生」的「醫學院」
升級版聊天機器人基于谷歌的大型語言模型(LLM)Gemini 2.0 Flash,該模型能夠處理圖像。研究人員對其進行了調整,使其適用于醫療用途,并添加了算法來提升 LLM 進行診斷對話和臨床推理的能力。
為了驗證最終系統確實優于未經修改的 Gemini 2.0 版本,研究人員命令該模型模擬醫患對話,其中模型分別扮演患者、醫生以及評估其他兩人對話的第三方。
「這樣,你就可以在進行診斷對話時賦予它正確的、理想的行為。」谷歌 DeepMind 的科學家、論文的作者之一 Ryutaro Tanno 說道。
Tanno表示,該方法與早期版本有所不同,早期版本需要使用專門的數據庫重新訓練模型,這是一個更為繁瑣的過程。「這種方法成本更低,而且可能更容易獲得。」
Linos 表示,涉及演員的場景也用于評估人類醫生。但她指出,模擬互動無法捕捉現實世界護理的復雜性。「醫生擁有經驗、直覺以及對患者進行身體檢查的能力,而這些元素在模擬腳本中很難復制。」
以色列特拉維夫大學數字健康專家Dan Zeltzer 表示,研究結果「很有前景,但其實際應用效果如何,仍存在諸多不確定性。」他還指出,論文并未詳細說明開發人員使用的代碼和提示,這意味著其他研究人員無法復現該系統或在此基礎上進行構建。
紐約市西奈山伊坎醫學院的人工智能科學家Xueyan Mei 表示,在現實世界中部署此類模型將是一項挑戰。
「話雖如此,我們確實認為,用于診斷的大型語言模型將是未來的發展方向。」她補充道。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.