99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

AI 橫掃醫學問答,贏麻了?牛津大學團隊實錘 AI 臨床短板

0
分享至


大數據文摘出品

原本以為,大模型考過了醫學考試,離成為“AI醫生”也就差臨門一腳。沒想到,牛津大學最新這項研究,卻狠狠給了一記當頭棒喝。


論文地址:https://arxiv.org/pdf/2504.18919

你在新聞里看到的那些“AI診斷準確率高達99%!”“大模型吊打專業醫生!”的標題,真的靠得住嗎?

牛津的研究團隊專門找來了1298個英國普通人,給他們設了十個真實的就醫場景。

他們要像現實生活中那樣判斷:我現在的癥狀會不會很嚴重?該自己扛、去社區醫院,還是得立刻沖急診?有些人手里有大模型幫忙,有些人只能自己用Google查。

這次拿來PK的,不是什么小模型,而是GPT-4o、Llama 3和Cohere的Command R+。理論上都是“天花板”級別的AI。

可結果呢?模型單獨答題時,表現得堪稱完美:GPT-4o能正確識別94.7%的疾病,推薦的處理方式也有64.7%是對的,Llama 3和Command R+的數字也都不低。你以為AI只要上線,人人有救?


研究方案:(a) 3名醫生編寫了10個醫療案例,經反復修改后對處置方式(從自我護理到叫救護車共5級)達成一致。(b) 另4名醫生提供鑒別診斷,匯總形成標準答案。(c) 招募1298人隨機分4組,每組測試1個案例。實驗組用大語言模型輔助判斷,對照組可使用任意方法(多數用搜索引擎或自身知識)。(d) 受試者選擇處置方式并說明相關病癥。每人測試2個案例,每組最終收集600例數據,以標準答案評估結果。

可一旦讓真實用戶自己來和大模型互動,情況就變了味:用AI輔助以后,大家反而只在34.5%的場景下能說出正確疾病名,比不看AI、自己查資料的還差。選對處理方式的概率,也沒比對照組更高。AI越聰明,用戶卻越“迷糊”。


大語言模型單獨使用及與用戶協作的表現

為什么會這樣?研究團隊發現,并不是AI本身不行,而是“人和AI”這個配合環節,掉了鏈子。比如,用戶描述癥狀時信息不全,AI就診斷失誤;AI給了2.2個可能選項,用戶只會采納1.33個,其中三分之一還選錯了。模型說得再明白,用戶沒能聽懂,或者沒按建議去做,那些醫學知識就像被鎖進了黑箱。


如上圖,在多個大語言模型(如 GPT-4o、LLaMA 3 70B 和 Command R+)在醫學問答任務(MedQA)中的表現,并與人類用戶進行了對比。結果表明,盡管模型在標準問答任務中普遍達到或超過人類通過標準(60%),但在模擬臨床場景中的判斷任務(如確定最佳處理方式和相關疾病條件)上表現不穩定。此外,模擬用戶的判斷準確性與真實人類用戶的表現高度相關,說明模擬用戶在實驗中可以有效代表人類行為。


圖注:交互過程中的相關病癥識別情況

這像不像我們生活里那些“明明有說明書還是裝錯了家具”“菜譜寫得清清楚楚但最后炒糊了”的瞬間?技術好歸好,人用不明白,一切白搭。你給爸媽買了最新旗艦手機,他們卻只會用來打電話發微信;AI醫生再牛,遇到現實生活的“碎片信息、臨場慌亂、溝通誤會”,一樣抓瞎。

很多人還沉浸在“AI馬上能緩解醫療資源緊張”的美夢里。但牛津團隊潑了一盆冷水:實驗室里的高分,到了現實世界就打了折扣。用考試題、模擬病人測AI,分數再高,不能代表它能搞定真實用戶。AI會答題,但不懂得主動追問、不知道怎樣引導患者補全信息——這才是最大短板。

更諷刺的是,模型測評用的MedQA等考試題,AI能刷滿分,輪到和真人互動,反而“翻車”了。你讓AI和模擬病人聊,結果也比和真實用戶高。AI和AI之間的交流當然順暢,可人類的表達、記憶、情緒、甚至敷衍,才是現實世界最大的bug。

當然,這項牛津研究本身也還算“半真實”:參與者是健康人,按照劇本模擬生病,比起真正帶病痛、焦慮、信息混亂的真實患者,還是有距離。AI用的是API接口,不是像ChatGPT那樣的連續對話體驗。沒有上下文,沒有“鏈式思考”,現實中的各種“人性化提示”也沒加進去。

哪怕如此,這個實驗還是給我們敲了警鐘:AI不是不能用,而是“AI+人”這套流程,才是最難啃的硬骨頭。

我們太習慣于相信“技術能一錘定音”,卻忘了現實世界的混亂、粗糙和不確定。你以為AI醫生上線就能解放一線醫生?但在真正的就醫現場,信息永遠不全,溝通永遠混亂,決策永遠充滿不確定。就像生活中那些手抖拍糊的照片,才是最接近真實的“醫學場景”。

所以,AI醫學的未來,絕不只是模型分數的競賽,而是“如何讓普通人和AI好好說話”的漫長修煉。 AI要走進醫療的最后一公里,腳下的路,還很長很長。

圖注:頭圖AI -Qwen 生成

GPU算力按需租用

A100/H100 GPU算力按需租用,

秒級計費,平均節省開支30%以上!

掃碼了解詳情?


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
《藏海傳》:99%的人都看不懂,文官趙秉文,為什么也要搶癸璽?

《藏海傳》:99%的人都看不懂,文官趙秉文,為什么也要搶癸璽?

手工制作阿殲
2025-06-05 15:38:37
有一說一,鄭欽文已成為不折不扣的吸金女王!

有一說一,鄭欽文已成為不折不扣的吸金女王!

田先生籃球
2025-06-05 08:57:12
近日曝光!被印軍包圍,兩名落單解放軍嘴咬手雷,誓死不當俘虜

近日曝光!被印軍包圍,兩名落單解放軍嘴咬手雷,誓死不當俘虜

涵豆說娛
2025-06-05 13:26:31
中國乒協釋放重要信號!不懼被對手研究,允許張本美和等人參加乒超

中國乒協釋放重要信號!不懼被對手研究,允許張本美和等人參加乒超

最愛乒乓球
2025-06-06 00:06:58
反對無效,貝爾伯克當選聯大主席,曾叫囂不想跟中國待在一個星球

反對無效,貝爾伯克當選聯大主席,曾叫囂不想跟中國待在一個星球

說說史事
2025-06-04 20:53:50
詹姆斯:以前我跟勇士交手 提前知道他們在第三節會打出得分高潮

詹姆斯:以前我跟勇士交手 提前知道他們在第三節會打出得分高潮

直播吧
2025-06-05 13:40:17
我國著名主持人赴瑞士安樂死,兒子講述其死前慘狀:我非常后悔

我國著名主持人赴瑞士安樂死,兒子講述其死前慘狀:我非常后悔

犀利辣椒
2025-06-05 18:14:30
藏海傳:趙秉文敢讓星斗、高明死,卻不敢讓六初死,因為后臺太硬

藏海傳:趙秉文敢讓星斗、高明死,卻不敢讓六初死,因為后臺太硬

小椰的奶奶
2025-06-05 16:40:00
美軍這下徹底絕望了,解放軍向全球宣布,055和預警機跨平臺組網

美軍這下徹底絕望了,解放軍向全球宣布,055和預警機跨平臺組網

荷蘭豆愛健康
2025-05-28 02:06:33
文在寅沒參加李在明的就職儀式,在家割麥子,夫人金正淑沒有過來

文在寅沒參加李在明的就職儀式,在家割麥子,夫人金正淑沒有過來

深析古今
2025-06-05 22:11:31
皇馬球衣上的綠色斑點之謎:球場使用無害綠色油漆,美化草皮接縫

皇馬球衣上的綠色斑點之謎:球場使用無害綠色油漆,美化草皮接縫

直播吧
2025-06-05 17:44:59
紅極一時的“麻將涼席”,為何銷聲匿跡了?網友:淪為時代的眼淚

紅極一時的“麻將涼席”,為何銷聲匿跡了?網友:淪為時代的眼淚

裝修秀
2025-06-05 11:40:03
“雨水多不多,就看五月十一”,今夏雨多會大澇嗎?早看早防備

“雨水多不多,就看五月十一”,今夏雨多會大澇嗎?早看早防備

阿龍美食記
2025-06-06 03:34:10
今年擴招最猛的7所211高校,錄取分數或將下降,學生和家長要清楚

今年擴招最猛的7所211高校,錄取分數或將下降,學生和家長要清楚

教育導向分享
2025-06-05 21:33:32
孫楠近況曝光,情感風波再起,潘蔚終于找到了真實的愛情

孫楠近況曝光,情感風波再起,潘蔚終于找到了真實的愛情

陳意小可愛
2025-06-04 08:24:11
冉瑩穎在校門口送兒子零食蛋糕,軒軒冷臉拒絕,她崩潰大哭太傷心

冉瑩穎在校門口送兒子零食蛋糕,軒軒冷臉拒絕,她崩潰大哭太傷心

泠泠說史
2025-06-05 09:59:39
突發!川普新旅行禁令,19國公民來美受限!還將重磅加上這個國家

突發!川普新旅行禁令,19國公民來美受限!還將重磅加上這個國家

華人生活網
2025-06-06 03:42:46
遼寧艦領銜,中國海軍12艦編隊抵近關島,美媒:距離之近已創紀錄

遼寧艦領銜,中國海軍12艦編隊抵近關島,美媒:距離之近已創紀錄

說歷史的老牢
2025-06-05 11:00:47
昔日女神被PUA了?假體被打飛,賺錢養賭鬼老公!

昔日女神被PUA了?假體被打飛,賺錢養賭鬼老公!

毒舌八卦
2025-06-03 18:45:52
28天“性交易額”高達24萬億,性泛濫的韓國,色情業為何如此猖獗

28天“性交易額”高達24萬億,性泛濫的韓國,色情業為何如此猖獗

談史論天地
2025-05-22 13:30:07
2025-06-06 05:08:49
大數據文摘 incentive-icons
大數據文摘
專注大數據,每日有分享!
6649文章數 94424關注度
往期回顧 全部

科技要聞

對話盛景網聯彭志強:跳出SaaS虧損黑洞!從“賣工具”到“賣結果”的AI RaaS轉型法則

頭條要聞

特朗普:我要求馬斯克離開 馬斯克瘋了

頭條要聞

特朗普:我要求馬斯克離開 馬斯克瘋了

體育要聞

提前無緣美加墨世界杯 國足眾將賽后落淚

娛樂要聞

陳赫宴請好友,李乃文攜妻子罕見亮相

財經要聞

習近平同美國總統特朗普通電話

汽車要聞

旗艦+大六座+百萬級 阿維塔全新SUV預計明年量產

態度原創

房產
健康
家居
藝術
軍事航空

房產要聞

再奪荔灣銷冠!誰是主城改善標準制定者,終于有了答案!

減重專家破解減肥九大謠言!

家居要聞

潔白奶油 簡約舒適之家

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

軍事要聞

普京明確:沒有人會與“恐怖分子”談判

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 荆州市| 琼中| 乌苏市| 荃湾区| 开原市| 砚山县| 社会| 西平县| 金湖县| 天柱县| 扎赉特旗| 海原县| 鄂托克旗| 浦城县| 黄冈市| 雷波县| 芷江| 晋中市| 建昌县| 永和县| 建平县| 肃南| 正蓝旗| 湖州市| 福鼎市| 元氏县| 固阳县| 西乌珠穆沁旗| 通州市| 宿迁市| 杭州市| 屏东市| 屏东县| 淮滨县| 泰安市| 沭阳县| 阿合奇县| 张掖市| 拉孜县| 岳阳市| 桐庐县|