新智元報(bào)道
編輯:英智
【新智元導(dǎo)讀】AI從醫(yī)療工具變身為協(xié)作隊(duì)友,斯坦福大學(xué)研究揭示:醫(yī)生診斷準(zhǔn)確率竟飆升10%!70名美國執(zhí)業(yè)醫(yī)生參與的真實(shí)測(cè)試,AI-first、AI-second與傳統(tǒng)診斷,誰能更精準(zhǔn)破解臨床謎題?
你敢讓AI幫你看病嗎?
斯坦福大學(xué)的一群醫(yī)生和工程師,最近做了一項(xiàng)研究:讓AI和人類醫(yī)生組隊(duì),共同破解復(fù)雜的診斷難題。
論文鏈接:https://www.medrxiv.org/content/10.1101/2025.06.07.25329176v1.full.pdf
結(jié)果讓人驚訝:當(dāng)AI從「工具」變成「隊(duì)友」,醫(yī)生的診斷準(zhǔn)確率直接飆升了10%。
網(wǎng)友驚嘆:顛覆的臨界點(diǎn)即將到來!
「充滿熱情的醫(yī)生加上AI將勢(shì)不可擋。」
「AI驅(qū)動(dòng)的臨床決策支持,仍然是該領(lǐng)域最有力的杠桿之一。」
還有人表示,「對(duì)于一個(gè)背負(fù)數(shù)十萬美元債務(wù)的醫(yī)生來說,這種發(fā)現(xiàn)有點(diǎn)令人害怕。這還只是用GPT 4,無法想象o3會(huì)有多厲害。」
AI當(dāng)醫(yī)生,
搶飯碗還是遞扳手?
過去幾年,AI在醫(yī)療領(lǐng)域的存在感越來越強(qiáng),從影像識(shí)別到藥物研發(fā)。
但醫(yī)生把它當(dāng)搜索工具,用來查指南、找文獻(xiàn),卻不敢真正把它當(dāng)作「搭檔」。
為什么會(huì)這樣?斯坦福的研究團(tuán)隊(duì)發(fā)現(xiàn),關(guān)鍵問題出在交互模式上。
早期的AI就像個(gè)沉默的助手,醫(yī)生輸入問題,它輸出答案。
這導(dǎo)致醫(yī)生很難信任AI的判斷,甚至出現(xiàn)過「醫(yī)生用AI輔助診斷,結(jié)果反而比AI單獨(dú)診斷更差」的情況。
于是,他們決定做一個(gè)顛覆性實(shí)驗(yàn):把AI變成會(huì)討論的隊(duì)友。
實(shí)驗(yàn)設(shè)計(jì)很巧妙:讓醫(yī)生和AI各自先獨(dú)立分析病例,然后AI生成一份聯(lián)合報(bào)告,不僅列出雙方的共識(shí)和分歧,還會(huì)像資深醫(yī)生一樣點(diǎn)評(píng)每個(gè)診斷的合理性。
比如,當(dāng)醫(yī)生考慮真性紅細(xì)胞增多癥,AI會(huì)補(bǔ)充低EPO水平支持這一診斷,但需排除罕見的EPO分泌腫瘤。
當(dāng)醫(yī)生漏掉淋巴瘤的可能性,AI會(huì)提醒瘙癢和尿酸升高可能是這個(gè)方向。
團(tuán)隊(duì)基于GPT-4開發(fā)了一款定制化的AI系統(tǒng),設(shè)計(jì)了兩種協(xié)作工作流程,分別測(cè)試AI-first和AI-second時(shí)的效果。
70名美國執(zhí)業(yè)的內(nèi)科或家庭科醫(yī)生參與了這項(xiàng)試驗(yàn),他們被隨機(jī)分配到以下三種組別之一:
AI-first組:醫(yī)生首先輸入病例信息,查看AI生成的診斷建議(包括五個(gè)可能的診斷和七個(gè)后續(xù)步驟),然后結(jié)合自己的判斷形成最終診斷。
AI-second組:醫(yī)生先獨(dú)立完成診斷(可以使用傳統(tǒng)資源如UpToDate、PubMed等),再將病例和自己的初步診斷輸入AI系統(tǒng),AI會(huì)生成獨(dú)立分析并與醫(yī)生的診斷進(jìn)行整合,生成一份綜合報(bào)告。
對(duì)照組:醫(yī)生僅使用傳統(tǒng)資源完成診斷,不與AI互動(dòng)。
實(shí)驗(yàn)使用了六個(gè)基于真實(shí)患者的臨床病例,涵蓋了復(fù)雜診斷場(chǎng)景。
每個(gè)病例包含病史、體檢和實(shí)驗(yàn)室檢查結(jié)果,醫(yī)生需要提供三個(gè)可能的診斷、支持和反對(duì)的證據(jù)、最終診斷及三個(gè)后續(xù)步驟。
研究通過19分制的評(píng)分系統(tǒng)評(píng)估診斷的準(zhǔn)確性,評(píng)分由兩位內(nèi)科認(rèn)證醫(yī)生獨(dú)立完成,且評(píng)分者不知道答案來自醫(yī)生還是AI,以確保公平。
AI系統(tǒng)的核心設(shè)計(jì)在于協(xié)作。
它不僅生成自己的診斷,還會(huì)對(duì)比醫(yī)生和AI的判斷,生成一份綜合報(bào)告,清晰列出雙方提出的診斷、共識(shí)點(diǎn)、分歧點(diǎn),并對(duì)每個(gè)診斷提供評(píng)論。
這種設(shè)計(jì)旨在激發(fā)醫(yī)生的批判性思考,而非簡(jiǎn)單依賴AI的輸出。
研究結(jié)果:
AI顯著提升診斷準(zhǔn)確性
研究結(jié)果令人振奮,AI協(xié)作組的醫(yī)生表現(xiàn)明顯優(yōu)于僅使用傳統(tǒng)工具的對(duì)照組。
診斷準(zhǔn)確性:
對(duì)照組(傳統(tǒng)工具):平均得分75%。
AI-first組:平均得分85%,比對(duì)照組高9.8%(p<0.0004)。
AI-second組:平均得分82%,比對(duì)照組高6.8%(p<0.00001)。
AI單獨(dú)運(yùn)行:平均得分90%,略高于協(xié)作組但差異不顯著。
醫(yī)生和AI協(xié)作后,雖然沒超過AI單獨(dú)水平,卻比醫(yī)生單打獨(dú)斗強(qiáng)。這說明,AI能補(bǔ)全人類思維的漏洞。
在最終診斷和后續(xù)步驟(即臨床上可操作的決策)方面,AI-first比AI-second組表現(xiàn)更好(高8.9%,p=0.026)。
AI-second相較于對(duì)照組在這些決策上的得分提升了14.9%(p=0.00092),其中36%的病例在與AI互動(dòng)后有所提高。
AI-first完成每個(gè)病例的平均時(shí)間為631秒,略快于AI-second的688秒。在剔除未嚴(yán)格遵循流程的病例后,AI-first的優(yōu)勢(shì)更明顯。
所有醫(yī)生在試驗(yàn)后對(duì)AI的態(tài)度顯著改善,98.6%表示愿意在復(fù)雜臨床推理中使用AI(試驗(yàn)前為91.4%,p=0.011)。
為什么AI當(dāng)隊(duì)友更厲害?
信息過載與遺漏:臨床診斷就像拼拼圖,每個(gè)病例可能包含幾十條線索。
醫(yī)生很容易漏掉某個(gè)實(shí)驗(yàn)室指標(biāo)(比如「血清LDH升高」提示細(xì)胞破壞),但AI能瞬間掃描所有數(shù)據(jù),精準(zhǔn)關(guān)聯(lián)高LDH+巨幼細(xì)胞貧血可能指向骨髓增生異常綜合征。
經(jīng)驗(yàn)依賴的陷阱:資深醫(yī)生容易被典型病例固化思維。
比如看到老年女性、乏力、舌炎,可能優(yōu)先考慮缺鐵性貧血,但AI會(huì)跳出經(jīng)驗(yàn)框架,提出維生素B12缺乏或甲狀腺功能減退的可能性。
決策鏈的邏輯性:AI的診斷報(bào)告就像思維流程圖:先列出3個(gè)最可能的診斷,再用支持證據(jù)和反對(duì)證據(jù)逐條論證,最后給出3個(gè)下一步檢查建議。
AI的「人性化改造」
為了讓AI更懂醫(yī)生,研究團(tuán)隊(duì)給它加了三個(gè)補(bǔ)丁。
1. 會(huì)「吵架」的批判性思維:當(dāng)醫(yī)生的診斷和AI不一致時(shí),AI不會(huì)直接服從,而是會(huì)說:「您提到的原發(fā)性膽汁性膽管炎可能性較低,因?yàn)榛颊呷狈δ懼俜e的證據(jù),但需要注意罕見變異型。」
這種挑戰(zhàn)不是對(duì)抗,而是逼醫(yī)生重新審視自己的邏輯漏洞。
2.能「翻譯」的溝通能力:傳統(tǒng)AI輸出的是學(xué)術(shù)化的語言,但實(shí)驗(yàn)中的AI會(huì)用口語化表達(dá):「目前看,真性紅細(xì)胞增多癥是最可能的,但淋巴瘤不能完全排除,建議先查血清EPO水平和骨髓活檢。」
這種說人話的能力,讓醫(yī)生更容易理解和接受。
3.可「追溯」的透明化決策:每個(gè)診斷結(jié)論,AI都會(huì)標(biāo)注證據(jù)來源,比如「支持淋巴瘤的證據(jù)是瘙癢和尿酸升高(引用文獻(xiàn)X),反對(duì)證據(jù)是缺乏淋巴結(jié)腫大(引用指南Y)。」
這解決了醫(yī)生對(duì)AI黑箱決策的不信任感,讓協(xié)作建立在可驗(yàn)證的基礎(chǔ)上。
AI的「錨定效應(yīng)」
研究發(fā)現(xiàn),AI-second組中,AI的獨(dú)立分析有時(shí)會(huì)受到醫(yī)生初步診斷的影響。
實(shí)驗(yàn)中有個(gè)有趣的細(xì)節(jié):AI-second組中,48%的病例中AI的診斷和醫(yī)生初始意見完全重疊,而AI-first組僅為3%。
說明如果醫(yī)生先入為主給出思路,AI可能會(huì)「迎合」人類判斷,未能完全遵循獨(dú)立分析的指令。
比如,有個(gè)病例中醫(yī)生誤判缺鐵性貧血,AI在后續(xù)分析中居然也把這個(gè)診斷放在了第一位。盡管按照數(shù)據(jù),維生素B12缺乏才是更合理的方向。
這意味著,AI的批判性依賴于獨(dú)立思考的空間,一旦被人類思維錨定,反而會(huì)降低協(xié)作價(jià)值。
但反過來,當(dāng)AI先發(fā)言時(shí),醫(yī)生會(huì)更主動(dòng)地挑戰(zhàn)它的結(jié)論。
有位住院醫(yī)師在看到AI提出骨髓瘤時(shí),立刻反駁:患者沒有骨痛和蛋白尿,這個(gè)診斷可能性太低,并最終通過追問病史排除了這一方向。
這種「對(duì)抗性協(xié)作」,反而激發(fā)了更深入的臨床推理。
參考資料:
https://x.com/emollick/status/1931907652118069510
https://www.medrxiv.org/content/10.1101/2025.06.07.25329176v1
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.