網易首頁 > 網易號 > 正文申請入駐

DeepSeek、GPT-4o等LLM在醫學推理、臨床決策中的應用評估

2025-04-28 13:09:41　來源: ScienceAI

天津舉報

分享至

編輯 | 白菜葉

大型語言模型 (LLM) 正在日益改變醫療應用。

然而，像 GPT-4o 這樣的專有模型在臨床應用方面面臨巨大障礙，因為它們無法在醫療機構內部部署，同時也不符合嚴格的隱私法規。

DeepSeek 等開源 LLM 展示的強悍性能，為科學家提供了一種有前景的替代方案。因為它們可以被部署在本地，醫院的工作人員可以用本地數據對它們進行高效的微調。

DeepSeek 在臨床決策中的能力

為了證明 DeepSeek-V3 和 DeepSeek-R1 的臨床實用性，來自德國的研究團隊（Otto-von-Guericke University，Charite - University Medicine Berlin等）將其在臨床決策支持任務中的表現與專有 LLM（包括 GPT-4o 和 Gemini-2.0 Flash Thinking Experimental）進行了對比。

相關論文《Benchmark evaluation of DeepSeek large language models in clinical decision-making》，于 2025 年 4 月 23 日發布在《Nature Medicine》。

論文鏈接：https://www.nature.com/articles/s41591-025-03727-2

研究人員使用 125 例具有足夠統計功效的患者病例，涵蓋了廣泛的常見病和罕見病，發現 DeepSeek 模型的表現與醫學專用 LLM 相當，在某些情況下甚至更佳。

這項研究表明，開源 LLM 可以為安全的模型訓練提供可擴展的途徑，從而在符合數據隱私和醫療保健法規的情況下，實現現實世界的醫療應用。

圖示：考慮診斷和治療的 LLM（GPT-4o、DeepSeek-R1、DeepSeek-V1 和 Gemini-2.0）在 Gem2FTE 實驗中的 Likert 評分。（來源：論文）

DeepSeek 在醫學領域的推理能力

雖然如此，但是在醫學領域 DeepSeek 的能力推理能力尚未得評估。

在同期發表在《Nature Medicine》上的另一篇論文《Comparative benchmarking of the DeepSeek large language model on medical tasks and clinical reasoning》中，美國西奈山伊坎醫學院（Icahn School of Medicine at Mount Sinai）的研究人員測試了 DeepSeek 在臨床醫學領域的推理能力。

論文鏈接：https://www.nature.com/articles/s41591-025-03726-3

本研究評估了 DeepSeek-R1、ChatGPT-o1 和 Llama 3.1-405B 這三個 LLM 執行四項不同醫學任務的能力：回答美國醫師執照考試 (USMLE) 的問題、基于文本的診斷和治療案例進行解釋和推理、根據 RECIST 1.1 標準進行腫瘤分類以及提供跨多種模式的診斷影像報告摘要。

圖示：概述了三種大型語言模型在執行四項指定醫學任務方面的表現。縮寫：pt：分值，PD：疾病進展，PR：部分緩解，N：數量。（來源：論文）

在 USMLE 測試中，DeepSeek-R1（準確率 = 0.92）的表現略遜于 ChatGPT-o1（準確率 = 0.95；p = 0.04），但優于 Llama 3.1-405B（準確率 = 0.83；p < 10^-3）。

在基于文本的案例挑戰中，DeepSeek-R1 的表現與 ChatGPT-o1 相似（準確率分別為 0.57 vs 0.55；p = 0.76 和 0.74 vs 0.76；p = 0.06，使用《New England Journal of Medicine》和《Medicilline》數據庫）。

圖示：比較三款 LLM 在各種醫學任務中的表現。對三款 LLM（ChatGPT-o1、DeepSeek-R1 和 Llama 3.1-405B）在以下醫學任務中的表現進行了評估：美國醫師執照考試 (USMLE) 試題、診斷問題（NEJM 和 Medicilline 數據庫中）、推理（BMJ 和 NEJM 數據庫中）、放射學報告中的 RECIST 1.1 分類以及報告摘要（MIMIC-III 和私有數據集）。（來源：論文）

對于 RECIST 分類，DeepSeek-R1 的表現也與 ChatGPT-o1 相似（0.73 vs 0.81；p?=?0.10）。DeepSeek 提供的診斷推理步驟被認為比 ChatGPT 和 Llama 3.1-405B 提供的步驟更準確（平均 Likert 分數分別為 3.61、3.22 和 3.13，p?=?0.005 和 p?<?10^?3）。

然而，DeepSeek-R1 提供的匯總成像報告的整體質量低于 ChatGPT-o1 提供的報告（5 分制 Likert 分數：4.5 vs 4.8；p?<?10^?3）。

這項研究展示了 DeepSeek-R1 LLM 在醫療應用方面的潛力，但也強調了需要進一步提升的方向。

圖示：AI 與醫療。（來源：AI 生成）

總而言之，科學家們在不斷探索 AI 在醫療決策、醫學診斷中的應用，已有的評估結果表明，AI 在這些領域的使用正變得越來越可靠、越來越安全。相信在不久的將來，AI 將成為醫療體系中不可或缺的強大助力，為全球的患者造福！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.