新智元報(bào)道
編輯:犀牛
【新智元導(dǎo)讀】AI正在顛覆醫(yī)療領(lǐng)域!哈佛、斯坦福等頂尖學(xué)術(shù)醫(yī)療中心的研究表明,OpenAI的o1-preview在診斷推理任務(wù)中全面超越人類醫(yī)生。從新英格蘭醫(yī)學(xué)雜志的臨床病例到真實(shí)急診室場(chǎng)景,o1不僅精準(zhǔn)識(shí)別疾病,還在關(guān)鍵時(shí)刻提供可靠的第二意見(jiàn)。
AI醫(yī)生的時(shí)代正在到來(lái)!
哈佛、斯坦福等學(xué)術(shù)醫(yī)療中心的醫(yī)生發(fā)布重磅論文,測(cè)試了OpenAI o1-preview在醫(yī)療推理和診斷任務(wù)中的表現(xiàn)。
結(jié)果表明,在所有的實(shí)驗(yàn)中,無(wú)論是臨床案例還是急診室的第二意見(jiàn),o1-preview的表現(xiàn)都全面超出人類醫(yī)生!
論文地址:https://arxiv.org/pdf/2412.10849
文章中,研究團(tuán)隊(duì)全面評(píng)估了o1-preview與數(shù)百名醫(yī)生表現(xiàn)的對(duì)比。
此外,他們還在波士頓一所大型學(xué)術(shù)三級(jí)急診中心隨機(jī)抽取患者,采用盲評(píng)方式,把大模型給出的「第二診療意見(jiàn)」與專家醫(yī)生的診斷進(jìn)行對(duì)比。
實(shí)驗(yàn)結(jié)果驚人
團(tuán)隊(duì)首先使用《新英格蘭醫(yī)學(xué)雜志》(NEJM)發(fā)表的臨床病例討論(CPCs)來(lái)評(píng)估o1-preview。
兩位醫(yī)生對(duì)o1-preview給出的診斷質(zhì)量評(píng)價(jià)高度一致——在143個(gè)病例中有120例觀點(diǎn)相同(84%)。
o1-preview在近八成病例(78.3%)中都把正確診斷列進(jìn)了它的「待選清單」(圖 1)。
如果只看它給出的第一個(gè)診斷,有52%一擊即中。
另外,無(wú)論是在預(yù)訓(xùn)練數(shù)據(jù)截止點(diǎn)之前還是之后,模型的表現(xiàn)沒(méi)有明顯差異:截止點(diǎn)前準(zhǔn)確率為79.8%,截止點(diǎn)后為73.5%。
在之前的用GPT-4評(píng)估的70個(gè)病例中,o1-preview在88.6%的病例中給出了完全正確或非常接近的診斷,相比之下GPT-4為72.9%(圖2)。
接下來(lái),研究團(tuán)隊(duì)評(píng)估了o1-preview在NEJM CPC病例中選擇下一步診斷檢查的能力。
兩位醫(yī)生對(duì)o1-preview提出的檢查方案評(píng)分。在87.5%的病例中,o1-preview選擇了正確的檢查;另外11%的病例中,方案被兩位醫(yī)生視為「有幫助」;僅1.5%的病例中被認(rèn)為「無(wú)幫助」(圖3)。
推理表現(xiàn)
研究團(tuán)隊(duì)選取了NEJM Healer課程中的20個(gè)臨床病例,NEJM Healer病例是一種面向臨床推理評(píng)估的虛擬患者就診場(chǎng)景。
在經(jīng)過(guò)修訂的IDEA(R-IDEA,一套驗(yàn)證過(guò)的10分量表,用來(lái)評(píng)估臨床推理記錄的四個(gè)核心維度)評(píng)分上,兩位評(píng)審醫(yī)生的意見(jiàn)高度一致——在80份記錄里有79份達(dá)成一致。
在80份記錄中,o1-preview有78份拿到了R-IDEA滿分。它的成績(jī)顯著領(lǐng)先于GPT-4 (47/80,p < 0.0001)、主治醫(yī)生(28/80,p < 0.0001)和住院醫(yī)師(16/80,p < 0.0001)。(見(jiàn)圖4A)
團(tuán)隊(duì)還統(tǒng)計(jì)了o1-preview在初始分診階段覆蓋「絕不能漏診」病因的比例(圖4B)。該模型的中位覆蓋率為0.92,但與GPT-4、主治醫(yī)生或住院醫(yī)生相比無(wú)顯著差異。
此外,在灰色事項(xiàng)管理案例、標(biāo)志性診斷案例、診斷概率推理案例中,o1-preview都比GPT-4、使用GPT-4的醫(yī)生及使用常規(guī)資源的醫(yī)生表現(xiàn)要好。(圖5A/B、圖6)
急診案例
研究團(tuán)隊(duì)比較了o1、GPT-4o和兩位主治醫(yī)師在診斷疾病方面的能力。
他們選取了貝斯以色列女執(zhí)事醫(yī)療中心的79個(gè)病例,并將診斷過(guò)程分為三個(gè)關(guān)鍵節(jié)點(diǎn):急診室初步分診、急診室醫(yī)生診斷,以及轉(zhuǎn)入普通病房或重癥監(jiān)護(hù)室時(shí)的診斷。
總的來(lái)說(shuō),o1的表現(xiàn)比4o和兩位專家醫(yī)生都要好。
這個(gè)評(píng)估是由另外兩位醫(yī)生進(jìn)行的,他們事先都不知道自己評(píng)估的診斷結(jié)果是來(lái)自人類醫(yī)生還是AI。
這種「盲評(píng)」很成功:一位評(píng)估醫(yī)生猜對(duì)診斷來(lái)源(AI還是人類)的準(zhǔn)確率只有 14.8%(83.5%的情況表示「無(wú)法判斷」),另一位醫(yī)生則只有 2.7%(84.6%的情況表示「無(wú)法判斷」)。
在每一個(gè)診斷節(jié)點(diǎn)上,o1的表現(xiàn)要么優(yōu)于兩位醫(yī)生和4o,要么與他們持平。
尤其是在第一個(gè)診斷節(jié)點(diǎn)——急診室初步分診時(shí),表現(xiàn)差異最為明顯。在這個(gè)階段,關(guān)于患者的信息最少,但做出正確診斷的緊迫性卻最高。
o1在初步分診中識(shí)別出完全正確或非常接近的診斷的比例為65.8%,急診醫(yī)生階段為69.6%,ICU階段為79.7%,均超過(guò)兩位醫(yī)生(醫(yī)生1:54.4%、60.8%、75.9%;醫(yī)生2:48.1%、50.6%、68.4%)。
o1表現(xiàn)超越醫(yī)生
總的來(lái)說(shuō),o1在所有實(shí)驗(yàn)中都展現(xiàn)了超越人類的表現(xiàn)。尤其是在急診科使用真實(shí)且非結(jié)構(gòu)化的臨床數(shù)據(jù)進(jìn)行真實(shí)病例診斷時(shí),o1的表現(xiàn)超越了專業(yè)醫(yī)生。
隨著可用信息的增加,o1、4o和人類醫(yī)生的診斷能力均有所提升。
然而,兩個(gè)模型的表現(xiàn)始終優(yōu)于人類,尤其是在信息量較少的情況下,o1的優(yōu)勢(shì)最為明顯。
對(duì)于該論文的研究成果,沃頓教授Ethan Mollick認(rèn)為,醫(yī)生應(yīng)該使用AI來(lái)獲取診斷的「第二意見(jiàn)」。
他們可以選擇是否采納AI的建議,但不使用AI「越來(lái)越像自愿放棄一種能幫助患者的重要工具。」
本文作者之一,醫(yī)學(xué)博士Liam McCoy也表示稱,AI尤其適合執(zhí)行鑒別診斷的任務(wù)。這類任務(wù)富有創(chuàng)造性,且高度依賴聯(lián)想。
不像敲定最終診斷結(jié)果那樣,需要依賴「世界模型」或無(wú)懈可擊的推理能力。
o1-preview的突破表明,AI不僅能輔助醫(yī)生,還可能重塑醫(yī)療診斷流程,未來(lái)或?qū)V泛應(yīng)用于臨床實(shí)踐。
正如沃頓教授Ethan Mollick所言,拒絕AI輔助如同「放棄重要工具」。但這場(chǎng)變革的核心,或許不在于誰(shuí)更優(yōu)秀,而在于如何讓人類醫(yī)生的經(jīng)驗(yàn)與AI的精準(zhǔn)形成合力。
參考資料:
https://x.com/emollick/status/1925362565946786206
https://arxiv.org/pdf/2412.10849
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.