網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Hinton夢(mèng)想的AI醫(yī)生要來(lái)了！斯坦福哈佛實(shí)測(cè)：o1以78%正確率超人類

2025-06-08 12:48:39　來(lái)源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：犀牛

【新智元導(dǎo)讀】AI正在顛覆醫(yī)療領(lǐng)域！哈佛、斯坦福等頂尖學(xué)術(shù)醫(yī)療中心的研究表明，OpenAI的o1-preview在診斷推理任務(wù)中全面超越人類醫(yī)生。從新英格蘭醫(yī)學(xué)雜志的臨床病例到真實(shí)急診室場(chǎng)景，o1不僅精準(zhǔn)識(shí)別疾病，還在關(guān)鍵時(shí)刻提供可靠的第二意見(jiàn)。

AI醫(yī)生的時(shí)代正在到來(lái)！

哈佛、斯坦福等學(xué)術(shù)醫(yī)療中心的醫(yī)生發(fā)布重磅論文，測(cè)試了OpenAI o1-preview在醫(yī)療推理和診斷任務(wù)中的表現(xiàn)。

結(jié)果表明，在所有的實(shí)驗(yàn)中，無(wú)論是臨床案例還是急診室的第二意見(jiàn)，o1-preview的表現(xiàn)都全面超出人類醫(yī)生！

論文地址：https://arxiv.org/pdf/2412.10849

文章中，研究團(tuán)隊(duì)全面評(píng)估了o1-preview與數(shù)百名醫(yī)生表現(xiàn)的對(duì)比。

此外，他們還在波士頓一所大型學(xué)術(shù)三級(jí)急診中心隨機(jī)抽取患者，采用盲評(píng)方式，把大模型給出的「第二診療意見(jiàn)」與專家醫(yī)生的診斷進(jìn)行對(duì)比。

實(shí)驗(yàn)結(jié)果驚人

團(tuán)隊(duì)首先使用《新英格蘭醫(yī)學(xué)雜志》（NEJM）發(fā)表的臨床病例討論（CPCs）來(lái)評(píng)估o1-preview。

兩位醫(yī)生對(duì)o1-preview給出的診斷質(zhì)量評(píng)價(jià)高度一致——在143個(gè)病例中有120例觀點(diǎn)相同（84%）。

o1-preview在近八成病例（78.3%）中都把正確診斷列進(jìn)了它的「待選清單」（圖 1）。

如果只看它給出的第一個(gè)診斷，有52%一擊即中。

另外，無(wú)論是在預(yù)訓(xùn)練數(shù)據(jù)截止點(diǎn)之前還是之后，模型的表現(xiàn)沒(méi)有明顯差異：截止點(diǎn)前準(zhǔn)確率為79.8%，截止點(diǎn)后為73.5%。

在之前的用GPT-4評(píng)估的70個(gè)病例中，o1-preview在88.6%的病例中給出了完全正確或非常接近的診斷，相比之下GPT-4為72.9%（圖2）。

接下來(lái)，研究團(tuán)隊(duì)評(píng)估了o1-preview在NEJM CPC病例中選擇下一步診斷檢查的能力。

兩位醫(yī)生對(duì)o1-preview提出的檢查方案評(píng)分。在87.5%的病例中，o1-preview選擇了正確的檢查；另外11%的病例中，方案被兩位醫(yī)生視為「有幫助」；僅1.5%的病例中被認(rèn)為「無(wú)幫助」（圖3）。

推理表現(xiàn)

研究團(tuán)隊(duì)選取了NEJM Healer課程中的20個(gè)臨床病例，NEJM Healer病例是一種面向臨床推理評(píng)估的虛擬患者就診場(chǎng)景。

在經(jīng)過(guò)修訂的IDEA（R-IDEA，一套驗(yàn)證過(guò)的10分量表，用來(lái)評(píng)估臨床推理記錄的四個(gè)核心維度）評(píng)分上，兩位評(píng)審醫(yī)生的意見(jiàn)高度一致——在80份記錄里有79份達(dá)成一致。

在80份記錄中，o1-preview有78份拿到了R-IDEA滿分。它的成績(jī)顯著領(lǐng)先于GPT-4 （47/80，p < 0.0001）、主治醫(yī)生（28/80，p < 0.0001）和住院醫(yī)師（16/80，p < 0.0001）。（見(jiàn)圖4A）

團(tuán)隊(duì)還統(tǒng)計(jì)了o1-preview在初始分診階段覆蓋「絕不能漏診」病因的比例（圖4B）。該模型的中位覆蓋率為0.92，但與GPT-4、主治醫(yī)生或住院醫(yī)生相比無(wú)顯著差異。

此外，在灰色事項(xiàng)管理案例、標(biāo)志性診斷案例、診斷概率推理案例中，o1-preview都比GPT-4、使用GPT-4的醫(yī)生及使用常規(guī)資源的醫(yī)生表現(xiàn)要好。（圖5A/B、圖6）

急診案例

研究團(tuán)隊(duì)比較了o1、GPT-4o和兩位主治醫(yī)師在診斷疾病方面的能力。

他們選取了貝斯以色列女執(zhí)事醫(yī)療中心的79個(gè)病例，并將診斷過(guò)程分為三個(gè)關(guān)鍵節(jié)點(diǎn)：急診室初步分診、急診室醫(yī)生診斷，以及轉(zhuǎn)入普通病房或重癥監(jiān)護(hù)室時(shí)的診斷。

總的來(lái)說(shuō)，o1的表現(xiàn)比4o和兩位專家醫(yī)生都要好。

這個(gè)評(píng)估是由另外兩位醫(yī)生進(jìn)行的，他們事先都不知道自己評(píng)估的診斷結(jié)果是來(lái)自人類醫(yī)生還是AI。

這種「盲評(píng)」很成功：一位評(píng)估醫(yī)生猜對(duì)診斷來(lái)源（AI還是人類）的準(zhǔn)確率只有 14.8%（83.5%的情況表示「無(wú)法判斷」），另一位醫(yī)生則只有 2.7%（84.6%的情況表示「無(wú)法判斷」）。

在每一個(gè)診斷節(jié)點(diǎn)上，o1的表現(xiàn)要么優(yōu)于兩位醫(yī)生和4o，要么與他們持平。

尤其是在第一個(gè)診斷節(jié)點(diǎn)——急診室初步分診時(shí)，表現(xiàn)差異最為明顯。在這個(gè)階段，關(guān)于患者的信息最少，但做出正確診斷的緊迫性卻最高。

o1在初步分診中識(shí)別出完全正確或非常接近的診斷的比例為65.8%，急診醫(yī)生階段為69.6%，ICU階段為79.7%，均超過(guò)兩位醫(yī)生（醫(yī)生1：54.4%、60.8%、75.9%；醫(yī)生2：48.1%、50.6%、68.4%）。

o1表現(xiàn)超越醫(yī)生

總的來(lái)說(shuō)，o1在所有實(shí)驗(yàn)中都展現(xiàn)了超越人類的表現(xiàn)。尤其是在急診科使用真實(shí)且非結(jié)構(gòu)化的臨床數(shù)據(jù)進(jìn)行真實(shí)病例診斷時(shí)，o1的表現(xiàn)超越了專業(yè)醫(yī)生。

隨著可用信息的增加，o1、4o和人類醫(yī)生的診斷能力均有所提升。

然而，兩個(gè)模型的表現(xiàn)始終優(yōu)于人類，尤其是在信息量較少的情況下，o1的優(yōu)勢(shì)最為明顯。

對(duì)于該論文的研究成果，沃頓教授Ethan Mollick認(rèn)為，醫(yī)生應(yīng)該使用AI來(lái)獲取診斷的「第二意見(jiàn)」。

他們可以選擇是否采納AI的建議，但不使用AI「越來(lái)越像自愿放棄一種能幫助患者的重要工具。」

本文作者之一，醫(yī)學(xué)博士Liam McCoy也表示稱，AI尤其適合執(zhí)行鑒別診斷的任務(wù)。這類任務(wù)富有創(chuàng)造性，且高度依賴聯(lián)想。

不像敲定最終診斷結(jié)果那樣，需要依賴「世界模型」或無(wú)懈可擊的推理能力。

o1-preview的突破表明，AI不僅能輔助醫(yī)生，還可能重塑醫(yī)療診斷流程，未來(lái)或?qū)V泛應(yīng)用于臨床實(shí)踐。

正如沃頓教授Ethan Mollick所言，拒絕AI輔助如同「放棄重要工具」。但這場(chǎng)變革的核心，或許不在于誰(shuí)更優(yōu)秀，而在于如何讓人類醫(yī)生的經(jīng)驗(yàn)與AI的精準(zhǔn)形成合力。

參考資料：

https://x.com/emollick/status/1925362565946786206

https://arxiv.org/pdf/2412.10849

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.