99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Hinton夢(mèng)想的AI醫(yī)生要來(lái)了!斯坦福哈佛實(shí)測(cè):o1以78%正確率超人類

0
分享至


新智元報(bào)道

編輯:犀牛

【新智元導(dǎo)讀】AI正在顛覆醫(yī)療領(lǐng)域!哈佛、斯坦福等頂尖學(xué)術(shù)醫(yī)療中心的研究表明,OpenAI的o1-preview在診斷推理任務(wù)中全面超越人類醫(yī)生。從新英格蘭醫(yī)學(xué)雜志的臨床病例到真實(shí)急診室場(chǎng)景,o1不僅精準(zhǔn)識(shí)別疾病,還在關(guān)鍵時(shí)刻提供可靠的第二意見(jiàn)。

AI醫(yī)生的時(shí)代正在到來(lái)!

哈佛、斯坦福等學(xué)術(shù)醫(yī)療中心的醫(yī)生發(fā)布重磅論文,測(cè)試了OpenAI o1-preview在醫(yī)療推理和診斷任務(wù)中的表現(xiàn)。

結(jié)果表明,在所有的實(shí)驗(yàn)中,無(wú)論是臨床案例還是急診室的第二意見(jiàn),o1-preview的表現(xiàn)都全面超出人類醫(yī)生!


論文地址:https://arxiv.org/pdf/2412.10849

文章中,研究團(tuán)隊(duì)全面評(píng)估了o1-preview與數(shù)百名醫(yī)生表現(xiàn)的對(duì)比。

此外,他們還在波士頓一所大型學(xué)術(shù)三級(jí)急診中心隨機(jī)抽取患者,采用盲評(píng)方式,把大模型給出的「第二診療意見(jiàn)」與專家醫(yī)生的診斷進(jìn)行對(duì)比。

實(shí)驗(yàn)結(jié)果驚人

團(tuán)隊(duì)首先使用《新英格蘭醫(yī)學(xué)雜志》(NEJM)發(fā)表的臨床病例討論(CPCs)來(lái)評(píng)估o1-preview。

兩位醫(yī)生對(duì)o1-preview給出的診斷質(zhì)量評(píng)價(jià)高度一致——在143個(gè)病例中有120例觀點(diǎn)相同(84%)。

o1-preview在近八成病例(78.3%)中都把正確診斷列進(jìn)了它的「待選清單」(圖 1)。

如果只看它給出的第一個(gè)診斷,有52%一擊即中。

另外,無(wú)論是在預(yù)訓(xùn)練數(shù)據(jù)截止點(diǎn)之前還是之后,模型的表現(xiàn)沒(méi)有明顯差異:截止點(diǎn)前準(zhǔn)確率為79.8%,截止點(diǎn)后為73.5%。


在之前的用GPT-4評(píng)估的70個(gè)病例中,o1-preview在88.6%的病例中給出了完全正確或非常接近的診斷,相比之下GPT-4為72.9%(圖2)。


接下來(lái),研究團(tuán)隊(duì)評(píng)估了o1-preview在NEJM CPC病例中選擇下一步診斷檢查的能力。

兩位醫(yī)生對(duì)o1-preview提出的檢查方案評(píng)分。在87.5%的病例中,o1-preview選擇了正確的檢查;另外11%的病例中,方案被兩位醫(yī)生視為「有幫助」;僅1.5%的病例中被認(rèn)為「無(wú)幫助」(圖3)。


推理表現(xiàn)

研究團(tuán)隊(duì)選取了NEJM Healer課程中的20個(gè)臨床病例,NEJM Healer病例是一種面向臨床推理評(píng)估的虛擬患者就診場(chǎng)景。

在經(jīng)過(guò)修訂的IDEA(R-IDEA,一套驗(yàn)證過(guò)的10分量表,用來(lái)評(píng)估臨床推理記錄的四個(gè)核心維度)評(píng)分上,兩位評(píng)審醫(yī)生的意見(jiàn)高度一致——在80份記錄里有79份達(dá)成一致。

在80份記錄中,o1-preview有78份拿到了R-IDEA滿分。它的成績(jī)顯著領(lǐng)先于GPT-4 (47/80,p < 0.0001)、主治醫(yī)生(28/80,p < 0.0001)和住院醫(yī)師(16/80,p < 0.0001)。(見(jiàn)圖4A)

團(tuán)隊(duì)還統(tǒng)計(jì)了o1-preview在初始分診階段覆蓋「絕不能漏診」病因的比例(圖4B)。該模型的中位覆蓋率為0.92,但與GPT-4、主治醫(yī)生或住院醫(yī)生相比無(wú)顯著差異。


此外,在灰色事項(xiàng)管理案例、標(biāo)志性診斷案例、診斷概率推理案例中,o1-preview都比GPT-4、使用GPT-4的醫(yī)生及使用常規(guī)資源的醫(yī)生表現(xiàn)要好。(圖5A/B、圖6)



急診案例

研究團(tuán)隊(duì)比較了o1、GPT-4o和兩位主治醫(yī)師在診斷疾病方面的能力。

他們選取了貝斯以色列女執(zhí)事醫(yī)療中心的79個(gè)病例,并將診斷過(guò)程分為三個(gè)關(guān)鍵節(jié)點(diǎn):急診室初步分診、急診室醫(yī)生診斷,以及轉(zhuǎn)入普通病房或重癥監(jiān)護(hù)室時(shí)的診斷。

總的來(lái)說(shuō),o1的表現(xiàn)比4o和兩位專家醫(yī)生都要好。

這個(gè)評(píng)估是由另外兩位醫(yī)生進(jìn)行的,他們事先都不知道自己評(píng)估的診斷結(jié)果是來(lái)自人類醫(yī)生還是AI。


這種「盲評(píng)」很成功:一位評(píng)估醫(yī)生猜對(duì)診斷來(lái)源(AI還是人類)的準(zhǔn)確率只有 14.8%(83.5%的情況表示「無(wú)法判斷」),另一位醫(yī)生則只有 2.7%(84.6%的情況表示「無(wú)法判斷」)。

在每一個(gè)診斷節(jié)點(diǎn)上,o1的表現(xiàn)要么優(yōu)于兩位醫(yī)生和4o,要么與他們持平。

尤其是在第一個(gè)診斷節(jié)點(diǎn)——急診室初步分診時(shí),表現(xiàn)差異最為明顯。在這個(gè)階段,關(guān)于患者的信息最少,但做出正確診斷的緊迫性卻最高。

o1在初步分診中識(shí)別出完全正確或非常接近的診斷的比例為65.8%,急診醫(yī)生階段為69.6%,ICU階段為79.7%,均超過(guò)兩位醫(yī)生(醫(yī)生1:54.4%、60.8%、75.9%;醫(yī)生2:48.1%、50.6%、68.4%)。

o1表現(xiàn)超越醫(yī)生

總的來(lái)說(shuō),o1在所有實(shí)驗(yàn)中都展現(xiàn)了超越人類的表現(xiàn)。尤其是在急診科使用真實(shí)且非結(jié)構(gòu)化的臨床數(shù)據(jù)進(jìn)行真實(shí)病例診斷時(shí),o1的表現(xiàn)超越了專業(yè)醫(yī)生。

隨著可用信息的增加,o1、4o和人類醫(yī)生的診斷能力均有所提升。

然而,兩個(gè)模型的表現(xiàn)始終優(yōu)于人類,尤其是在信息量較少的情況下,o1的優(yōu)勢(shì)最為明顯。

對(duì)于該論文的研究成果,沃頓教授Ethan Mollick認(rèn)為,醫(yī)生應(yīng)該使用AI來(lái)獲取診斷的「第二意見(jiàn)」。

他們可以選擇是否采納AI的建議,但不使用AI「越來(lái)越像自愿放棄一種能幫助患者的重要工具。」


本文作者之一,醫(yī)學(xué)博士Liam McCoy也表示稱,AI尤其適合執(zhí)行鑒別診斷的任務(wù)。這類任務(wù)富有創(chuàng)造性,且高度依賴聯(lián)想。

不像敲定最終診斷結(jié)果那樣,需要依賴「世界模型」或無(wú)懈可擊的推理能力。


o1-preview的突破表明,AI不僅能輔助醫(yī)生,還可能重塑醫(yī)療診斷流程,未來(lái)或?qū)V泛應(yīng)用于臨床實(shí)踐。


正如沃頓教授Ethan Mollick所言,拒絕AI輔助如同「放棄重要工具」。但這場(chǎng)變革的核心,或許不在于誰(shuí)更優(yōu)秀,而在于如何讓人類醫(yī)生的經(jīng)驗(yàn)與AI的精準(zhǔn)形成合力。

參考資料:

https://x.com/emollick/status/1925362565946786206

https://arxiv.org/pdf/2412.10849


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
2006年,十幾名刑警狂毆四名交警,全市交警列隊(duì)討公道,結(jié)局如何

2006年,十幾名刑警狂毆四名交警,全市交警列隊(duì)討公道,結(jié)局如何

阿胡
2024-01-08 17:03:39
蘋果新機(jī)突然官宣,新配色來(lái)了!

蘋果新機(jī)突然官宣,新配色來(lái)了!

Q科技基地
2025-06-22 12:56:44
伊朗要?jiǎng)?chuàng)造人類歷史?連續(xù)擊落4架F-35,卻連以軍導(dǎo)彈都攔截不了

伊朗要?jiǎng)?chuàng)造人類歷史?連續(xù)擊落4架F-35,卻連以軍導(dǎo)彈都攔截不了

阿芒娛樂(lè)說(shuō)
2025-06-22 23:55:11
新華社快訊:敘利亞首都大馬士革一座教堂發(fā)生爆炸25人喪生

新華社快訊:敘利亞首都大馬士革一座教堂發(fā)生爆炸25人喪生

新華社
2025-06-23 00:23:01
內(nèi)賈德及其家人突傳死訊

內(nèi)賈德及其家人突傳死訊

高博新視野
2025-06-19 16:30:07
官宣!G7票價(jià)創(chuàng)紀(jì)錄,哈利伯頓傷情更新,亞歷山大把話挑明

官宣!G7票價(jià)創(chuàng)紀(jì)錄,哈利伯頓傷情更新,亞歷山大把話挑明

世界體育圈
2025-06-22 10:37:52
朗尼克:花5000萬(wàn)簽28或30歲球員沒(méi)意義,比如拜仁應(yīng)簽20歲的凱恩

朗尼克:花5000萬(wàn)簽28或30歲球員沒(méi)意義,比如拜仁應(yīng)簽20歲的凱恩

直播吧
2025-06-22 16:40:16
分析:凱文·杜蘭特重磅交易后,火箭隊(duì)和太陽(yáng)隊(duì)的NBA排名

分析:凱文·杜蘭特重磅交易后,火箭隊(duì)和太陽(yáng)隊(duì)的NBA排名

好火子
2025-06-23 02:07:25
女網(wǎng)紅曬豪宅曝一年電費(fèi)40萬(wàn),驚動(dòng)電力局后底細(xì)被扒她老公職業(yè)值得細(xì)品…

女網(wǎng)紅曬豪宅曝一年電費(fèi)40萬(wàn),驚動(dòng)電力局后底細(xì)被扒她老公職業(yè)值得細(xì)品…

浪花媽媽
2025-06-21 23:14:14
滕帥大手筆!3500萬(wàn)歐寬薩成隊(duì)史標(biāo)王,藥廠已花6000萬(wàn)&賣人近2億

滕帥大手筆!3500萬(wàn)歐寬薩成隊(duì)史標(biāo)王,藥廠已花6000萬(wàn)&賣人近2億

直播吧
2025-06-22 18:47:15
小因扎吉:所有頂級(jí)俱樂(lè)部齊聚于世俱杯,唯獨(dú)缺了巴薩

小因扎吉:所有頂級(jí)俱樂(lè)部齊聚于世俱杯,唯獨(dú)缺了巴薩

懂球帝
2025-06-22 14:43:16
降幅高達(dá)50%左右!全國(guó)醫(yī)院檢查費(fèi)用大幅下調(diào),放射類首當(dāng)其沖…

降幅高達(dá)50%左右!全國(guó)醫(yī)院檢查費(fèi)用大幅下調(diào),放射類首當(dāng)其沖…

火山詩(shī)話
2025-06-22 17:53:28
大雨、暴雨,局部大暴雨!河南新一輪降雨要來(lái)了

大雨、暴雨,局部大暴雨!河南新一輪降雨要來(lái)了

魯中晨報(bào)
2025-06-22 17:33:28
亞軍沒(méi)盤子!王欣瑜僅獲項(xiàng)鏈+鮮花,冠軍選手:連拿獎(jiǎng)杯手表香檳

亞軍沒(méi)盤子!王欣瑜僅獲項(xiàng)鏈+鮮花,冠軍選手:連拿獎(jiǎng)杯手表香檳

侃球熊弟
2025-06-22 21:22:22
老祖宗常告誡“勿近白虎”,“白虎”究竟是什么?真有這么可怕嗎

老祖宗常告誡“勿近白虎”,“白虎”究竟是什么?真有這么可怕嗎

大千世界觀
2025-05-22 16:57:05
以為他們退出歌壇,其實(shí)早已悄然離逝,再也見(jiàn)不到的4位歌星

以為他們退出歌壇,其實(shí)早已悄然離逝,再也見(jiàn)不到的4位歌星

TVB的四小花
2025-06-14 00:38:15
中國(guó)一旦發(fā)生戰(zhàn)爭(zhēng),要記得第一時(shí)間要帶好這5樣?xùn)|西,才能保命

中國(guó)一旦發(fā)生戰(zhàn)爭(zhēng),要記得第一時(shí)間要帶好這5樣?xùn)|西,才能保命

阿策聊實(shí)事
2025-04-27 17:15:00
美記:火箭送出的次輪簽最晚延伸到了2032年 這筆交易沒(méi)有第三隊(duì)

美記:火箭送出的次輪簽最晚延伸到了2032年 這筆交易沒(méi)有第三隊(duì)

直播吧
2025-06-23 01:35:17
Shams:杜蘭特 8 換 1 被太陽(yáng)交易至火箭!

Shams:杜蘭特 8 換 1 被太陽(yáng)交易至火箭!

貴圈真亂
2025-06-23 01:21:02
央媒發(fā)聲!四天狂掠60萬(wàn),承包商血本無(wú)歸,紀(jì)委終于介入!

央媒發(fā)聲!四天狂掠60萬(wàn),承包商血本無(wú)歸,紀(jì)委終于介入!

朗威談星座
2025-06-21 12:12:54
2025-06-23 02:52:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
12929文章數(shù) 66077關(guān)注度
往期回顧 全部

科技要聞

"你應(yīng)該靠嘴吃飯",羅永浩自述被梁文鋒勸退

頭條要聞

伊朗投入5萬(wàn)億美元的核項(xiàng)目遭摧毀 哈梅內(nèi)伊面臨抉擇

頭條要聞

伊朗投入5萬(wàn)億美元的核項(xiàng)目遭摧毀 哈梅內(nèi)伊面臨抉擇

體育要聞

中國(guó)女排0-3意大利 香港站3勝1負(fù)收官

娛樂(lè)要聞

離婚四年!趙麗穎被曝新戀情惹爭(zhēng)議

財(cái)經(jīng)要聞

蘋果后院起火

汽車要聞

首搭華為雙王牌/6月24日預(yù)售 嵐圖FREE+正式下線

態(tài)度原創(chuàng)

時(shí)尚
家居
數(shù)碼
教育
本地

伊姐周日熱推:電視劇《完美的救贖》;電視劇《書(shū)卷一夢(mèng)》......

家居要聞

山水之間 墨染風(fēng)雨云間

數(shù)碼要聞

曝索尼PS6將采用全新AMD架構(gòu):光追、AI性能翻倍

教育要聞

2026qs排名完整名單公布后,申請(qǐng)難度會(huì)暴漲的幾所英國(guó)大學(xué)!

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 福建省| 庆云县| 高雄市| 丽江市| 雅安市| 札达县| 肥城市| 堆龙德庆县| 弋阳县| 新邵县| 鄂州市| 格尔木市| 弥渡县| 奈曼旗| 阿拉善左旗| 台江县| 称多县| 丘北县| 会东县| 渝中区| 敦煌市| 潞西市| 黎川县| 奉化市| 星座| 左贡县| 盐津县| 嘉兴市| 清水县| 乐业县| 漳平市| 香河县| 盐津县| 浦东新区| 寿阳县| 临泽县| 太和县| 唐山市| 喜德县| 大名县| 万年县|