99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

DeepSeek、GPT-4o等LLM在醫學推理、臨床決策中的應用評估

0
分享至



編輯 | 白菜葉

大型語言模型 (LLM) 正在日益改變醫療應用。

然而,像 GPT-4o 這樣的專有模型在臨床應用方面面臨巨大障礙,因為它們無法在醫療機構內部部署,同時也不符合嚴格的隱私法規。

DeepSeek 等開源 LLM 展示的強悍性能,為科學家提供了一種有前景的替代方案。因為它們可以被部署在本地,醫院的工作人員可以用本地數據對它們進行高效的微調。

DeepSeek 在臨床決策中的能力

為了證明 DeepSeek-V3 和 DeepSeek-R1 的臨床實用性,來自德國的研究團隊(Otto-von-Guericke University,Charite - University Medicine Berlin等)將其在臨床決策支持任務中的表現與專有 LLM(包括 GPT-4o 和 Gemini-2.0 Flash Thinking Experimental)進行了對比。

相關論文《Benchmark evaluation of DeepSeek large language models in clinical decision-making》,于 2025 年 4 月 23 日發布在《Nature Medicine》。



論文鏈接:https://www.nature.com/articles/s41591-025-03727-2

研究人員使用 125 例具有足夠統計功效的患者病例,涵蓋了廣泛的常見病和罕見病,發現 DeepSeek 模型的表現與醫學專用 LLM 相當,在某些情況下甚至更佳。

這項研究表明,開源 LLM 可以為安全的模型訓練提供可擴展的途徑,從而在符合數據隱私和醫療保健法規的情況下,實現現實世界的醫療應用。



圖示:考慮診斷和治療的 LLM(GPT-4o、DeepSeek-R1、DeepSeek-V1 和 Gemini-2.0)在 Gem2FTE 實驗中的 Likert 評分。(來源:論文)

DeepSeek 在醫學領域的推理能力

雖然如此,但是在醫學領域 DeepSeek 的能力推理能力尚未得評估。

在同期發表在 《Nature Medicine》上的另一篇論文《Comparative benchmarking of the DeepSeek large language model on medical tasks and clinical reasoning》中,美國西奈山伊坎醫學院(Icahn School of Medicine at Mount Sinai)的研究人員測試了 DeepSeek 在臨床醫學領域的推理能力。



論文鏈接:https://www.nature.com/articles/s41591-025-03726-3

本研究評估了 DeepSeek-R1、ChatGPT-o1 和 Llama 3.1-405B 這三個 LLM 執行四項不同醫學任務的能力:回答美國醫師執照考試 (USMLE) 的問題、基于文本的診斷和治療案例進行解釋和推理、根據 RECIST 1.1 標準進行腫瘤分類以及提供跨多種模式的診斷影像報告摘要。



圖示:概述了三種大型語言模型在執行四項指定醫學任務方面的表現。縮寫:pt:分值,PD:疾病進展,PR:部分緩解,N:數量。(來源:論文)

在 USMLE 測試中,DeepSeek-R1(準確率 = 0.92)的表現略遜于 ChatGPT-o1(準確率 = 0.95;p = 0.04),但優于 Llama 3.1-405B(準確率 = 0.83;p < 10^-3)。

在基于文本的案例挑戰中,DeepSeek-R1 的表現與 ChatGPT-o1 相似(準確率分別為 0.57 vs 0.55;p = 0.76 和 0.74 vs 0.76;p = 0.06,使用《New England Journal of Medicine》和《Medicilline》數據庫)。





圖示:比較三款 LLM 在各種醫學任務中的表現。對三款 LLM(ChatGPT-o1、DeepSeek-R1 和 Llama 3.1-405B)在以下醫學任務中的表現進行了評估:美國醫師執照考試 (USMLE) 試題、診斷問題(NEJM 和 Medicilline 數據庫中)、推理(BMJ 和 NEJM 數據庫中)、放射學報告中的 RECIST 1.1 分類以及報告摘要(MIMIC-III 和私有數據集)。(來源:論文)

對于 RECIST 分類,DeepSeek-R1 的表現也與 ChatGPT-o1 相似(0.73 vs 0.81;p?=?0.10)。DeepSeek 提供的診斷推理步驟被認為比 ChatGPT 和 Llama 3.1-405B 提供的步驟更準確(平均 Likert 分數分別為 3.61、3.22 和 3.13,p?=?0.005 和 p?<?10^?3)。

然而,DeepSeek-R1 提供的匯總成像報告的整體質量低于 ChatGPT-o1 提供的報告(5 分制 Likert 分數:4.5 vs 4.8;p?<?10^?3)。

這項研究展示了 DeepSeek-R1 LLM 在醫療應用方面的潛力,但也強調了需要進一步提升的方向。



圖示:AI 與醫療。(來源:AI 生成)

總而言之,科學家們在不斷探索 AI 在醫療決策、醫學診斷中的應用,已有的評估結果表明,AI 在這些領域的使用正變得越來越可靠、越來越安全。相信在不久的將來,AI 將成為醫療體系中不可或缺的強大助力,為全球的患者造福!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
家長醒醒吧,河北高考600分數段淪落,上211成為歷史

家長醒醒吧,河北高考600分數段淪落,上211成為歷史

解說阿洎
2025-06-26 13:28:27
男子坐了25年牢,出獄后去派出所辦身份證,所長看到他名字竟哭了

男子坐了25年牢,出獄后去派出所辦身份證,所長看到他名字竟哭了

歷史八卦社
2025-06-03 23:05:49
國務院官宣兩個好消息:除閱兵外,四個月后,兩岸同慶一個大日子

國務院官宣兩個好消息:除閱兵外,四個月后,兩岸同慶一個大日子

阿纂看事
2025-06-26 15:50:33
我想回中國!女孩被騙到印度貧民窟,獲救前反悔,老公身份不簡單

我想回中國!女孩被騙到印度貧民窟,獲救前反悔,老公身份不簡單

楊哥歷史
2025-06-25 11:40:15
伊朗防長訪華釋放重磅信號:殲-10CE與052D大單即將敲定?

伊朗防長訪華釋放重磅信號:殲-10CE與052D大單即將敲定?

淡然小司
2025-06-26 07:26:13
為什么近期突然把“干部違規吃喝”查得這么嚴?

為什么近期突然把“干部違規吃喝”查得這么嚴?

帝都觀日記
2025-06-25 14:10:08
1986年,顧城與謝燁在成都公園的留影,最后卻親手殺妻,上吊自盡

1986年,顧城與謝燁在成都公園的留影,最后卻親手殺妻,上吊自盡

歷史偉人錄
2025-06-25 14:08:42
你無意中看到了什么不該看的東西?網友:每一個都是炸裂的存在

你無意中看到了什么不該看的東西?網友:每一個都是炸裂的存在

美好客棧大掌柜
2024-11-03 05:55:57
浙江調整生育津貼發放方式,7月1日起施行!

浙江調整生育津貼發放方式,7月1日起施行!

浙江發布
2025-06-26 10:27:00
男子沉迷修仙,竟前往神農架尋遠古巨蟲煉丹,3個月后異象突生

男子沉迷修仙,竟前往神農架尋遠古巨蟲煉丹,3個月后異象突生

古怪奇談錄
2025-06-23 16:01:11
浙江00后帶飯上班,堅持3天就受不了,網友:沒有對比就沒有傷害

浙江00后帶飯上班,堅持3天就受不了,網友:沒有對比就沒有傷害

阿龍美食記
2025-06-25 22:46:14
以軍對德黑蘭軍事目標展開打擊

以軍對德黑蘭軍事目標展開打擊

新京報
2025-06-23 17:15:02
傾家蕩產也不能治愈?提醒:這五種病根本無法根治,別白花冤枉錢

傾家蕩產也不能治愈?提醒:這五種病根本無法根治,別白花冤枉錢

健康八條
2025-06-25 22:25:56
伊駐華使館稱:特朗普意識到自己是以色列的“玩物”,但為時已晚

伊駐華使館稱:特朗普意識到自己是以色列的“玩物”,但為時已晚

明月聊史
2025-06-26 16:06:44
伊朗外長親口承認:中國不賣一枚導彈,卻給我們最硬的底牌!

伊朗外長親口承認:中國不賣一枚導彈,卻給我們最硬的底牌!

Ck的蜜糖
2025-06-25 06:09:03
中國女排比賽推遲!原因讓人無奈,唯一女教練帶隊,訓練可以暫停

中國女排比賽推遲!原因讓人無奈,唯一女教練帶隊,訓練可以暫停

跑者排球視角
2025-06-25 23:56:08
NASA衛星照片證明美軍空襲炸偏了?

NASA衛星照片證明美軍空襲炸偏了?

樞密院十號
2025-06-22 23:06:01
2025年工齡一旦超過40年,養老金“跳”一檔?每5年“跳”一次?

2025年工齡一旦超過40年,養老金“跳”一檔?每5年“跳”一次?

社保精算師
2025-06-26 13:13:12
特朗普先生可能來華參加中國抗戰勝利80周年大閱兵的三點理由!

特朗普先生可能來華參加中國抗戰勝利80周年大閱兵的三點理由!

爆笑大聰明阿衿
2025-06-26 15:47:40
30歲女子直言:我就喜歡和黑人在一起的感覺,國內男人根本不入眼

30歲女子直言:我就喜歡和黑人在一起的感覺,國內男人根本不入眼

易玄
2025-06-24 19:03:23
2025-06-26 17:03:00
ScienceAI incentive-icons
ScienceAI
關注人工智能與其他前沿技術
983文章數 214關注度
往期回顧 全部

科技要聞

奧特曼剛警告完 Meta就挖走OpenAI三名大將

頭條要聞

媒體:英國公布針對中國的審計報告 對華“既要又要”

頭條要聞

媒體:英國公布針對中國的審計報告 對華“既要又要”

體育要聞

蓄謀已久的開拓者,就是最適合楊瀚森的球隊

娛樂要聞

倪妮,怎么突然下桌了?

財經要聞

免除蘇寧易購5億債務的神秘人是誰?

汽車要聞

奇瑞最大轎車 風云A9L把VIP待遇和續航焦慮一起解決

態度原創

家居
房產
手機
數碼
藝術

家居要聞

木質簡約 空間極致利用

房產要聞

最強黑馬殺出!海南這些區域,教育正悄悄崛起!

手機要聞

Nothing Phone (3) 手機跑分曝光:驍龍 8s Gen 4芯片、16GB 內存

數碼要聞

田亮空降TCL奧運中國行重慶站:體驗眾多黑科技

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 栖霞市| 静乐县| 广昌县| 边坝县| 沁阳市| 宁国市| 隆尧县| 永登县| 土默特右旗| 临邑县| 廉江市| 黑水县| 抚顺县| 察隅县| 桦川县| 山东省| 资源县| 镇坪县| 浑源县| 珲春市| 疏附县| 永兴县| 新化县| 忻城县| 句容市| 长汀县| 临清市| 冷水江市| 宁强县| 凌海市| 陇川县| 浦城县| 体育| 哈巴河县| 伊宁县| 奎屯市| 湖口县| 滁州市| 荥阳市| 高台县| 错那县|