編輯 | 白菜葉
大型語言模型 (LLM) 正在日益改變醫療應用。
然而,像 GPT-4o 這樣的專有模型在臨床應用方面面臨巨大障礙,因為它們無法在醫療機構內部部署,同時也不符合嚴格的隱私法規。
DeepSeek 等開源 LLM 展示的強悍性能,為科學家提供了一種有前景的替代方案。因為它們可以被部署在本地,醫院的工作人員可以用本地數據對它們進行高效的微調。
DeepSeek 在臨床決策中的能力
為了證明 DeepSeek-V3 和 DeepSeek-R1 的臨床實用性,來自德國的研究團隊(Otto-von-Guericke University,Charite - University Medicine Berlin等)將其在臨床決策支持任務中的表現與專有 LLM(包括 GPT-4o 和 Gemini-2.0 Flash Thinking Experimental)進行了對比。
相關論文《Benchmark evaluation of DeepSeek large language models in clinical decision-making》,于 2025 年 4 月 23 日發布在《Nature Medicine》。
論文鏈接:https://www.nature.com/articles/s41591-025-03727-2
研究人員使用 125 例具有足夠統計功效的患者病例,涵蓋了廣泛的常見病和罕見病,發現 DeepSeek 模型的表現與醫學專用 LLM 相當,在某些情況下甚至更佳。
這項研究表明,開源 LLM 可以為安全的模型訓練提供可擴展的途徑,從而在符合數據隱私和醫療保健法規的情況下,實現現實世界的醫療應用。
圖示:考慮診斷和治療的 LLM(GPT-4o、DeepSeek-R1、DeepSeek-V1 和 Gemini-2.0)在 Gem2FTE 實驗中的 Likert 評分。(來源:論文)
DeepSeek 在醫學領域的推理能力
雖然如此,但是在醫學領域 DeepSeek 的能力推理能力尚未得評估。
在同期發表在 《Nature Medicine》上的另一篇論文《Comparative benchmarking of the DeepSeek large language model on medical tasks and clinical reasoning》中,美國西奈山伊坎醫學院(Icahn School of Medicine at Mount Sinai)的研究人員測試了 DeepSeek 在臨床醫學領域的推理能力。
論文鏈接:https://www.nature.com/articles/s41591-025-03726-3
本研究評估了 DeepSeek-R1、ChatGPT-o1 和 Llama 3.1-405B 這三個 LLM 執行四項不同醫學任務的能力:回答美國醫師執照考試 (USMLE) 的問題、基于文本的診斷和治療案例進行解釋和推理、根據 RECIST 1.1 標準進行腫瘤分類以及提供跨多種模式的診斷影像報告摘要。
圖示:概述了三種大型語言模型在執行四項指定醫學任務方面的表現。縮寫:pt:分值,PD:疾病進展,PR:部分緩解,N:數量。(來源:論文)
在 USMLE 測試中,DeepSeek-R1(準確率 = 0.92)的表現略遜于 ChatGPT-o1(準確率 = 0.95;p = 0.04),但優于 Llama 3.1-405B(準確率 = 0.83;p < 10^-3)。
在基于文本的案例挑戰中,DeepSeek-R1 的表現與 ChatGPT-o1 相似(準確率分別為 0.57 vs 0.55;p = 0.76 和 0.74 vs 0.76;p = 0.06,使用《New England Journal of Medicine》和《Medicilline》數據庫)。
圖示:比較三款 LLM 在各種醫學任務中的表現。對三款 LLM(ChatGPT-o1、DeepSeek-R1 和 Llama 3.1-405B)在以下醫學任務中的表現進行了評估:美國醫師執照考試 (USMLE) 試題、診斷問題(NEJM 和 Medicilline 數據庫中)、推理(BMJ 和 NEJM 數據庫中)、放射學報告中的 RECIST 1.1 分類以及報告摘要(MIMIC-III 和私有數據集)。(來源:論文)
對于 RECIST 分類,DeepSeek-R1 的表現也與 ChatGPT-o1 相似(0.73 vs 0.81;p?=?0.10)。DeepSeek 提供的診斷推理步驟被認為比 ChatGPT 和 Llama 3.1-405B 提供的步驟更準確(平均 Likert 分數分別為 3.61、3.22 和 3.13,p?=?0.005 和 p?<?10^?3)。
然而,DeepSeek-R1 提供的匯總成像報告的整體質量低于 ChatGPT-o1 提供的報告(5 分制 Likert 分數:4.5 vs 4.8;p?<?10^?3)。
這項研究展示了 DeepSeek-R1 LLM 在醫療應用方面的潛力,但也強調了需要進一步提升的方向。
圖示:AI 與醫療。(來源:AI 生成)
總而言之,科學家們在不斷探索 AI 在醫療決策、醫學診斷中的應用,已有的評估結果表明,AI 在這些領域的使用正變得越來越可靠、越來越安全。相信在不久的將來,AI 將成為醫療體系中不可或缺的強大助力,為全球的患者造福!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.