- 01 微軟開發(fā)出一款醫(yī)療工具。在一項基于《新英格蘭醫(yī)學(xué)雜志》復(fù)雜病例的測試中,該工具通過協(xié)調(diào)多個大語言模型,取得了85.5%的診斷成功率,據(jù)稱是對比試驗中人類醫(yī)生的四倍。
- 02 該技術(shù)被認(rèn)為能加速診療進(jìn)程,有望解決醫(yī)療人員短缺和患者候診時間過長的問題。研究還顯示,它在提升診斷準(zhǔn)確性的同時,能顯著減少檢查項目以節(jié)約成本。
- 03 此成果是微軟新組建的人工智能健康部門的首個研究,該部門由前DeepMind聯(lián)合創(chuàng)始人領(lǐng)導(dǎo)。研究采用了“辯論鏈”新技術(shù),并聚合了OpenAI等多個主流大語言模型。
7月1日消息,微軟開發(fā)出一款人工智能驅(qū)動的醫(yī)療工具,稱其在診斷復(fù)雜疾病方面的成功率是人類醫(yī)生的四倍。微軟認(rèn)為,這項技術(shù)能夠加速診療進(jìn)程。
去年,前DeepMind聯(lián)合創(chuàng)始人穆斯塔法·蘇萊曼(Mustafa Suleyman)在微軟組建人工智能健康部門,成員基本來自他曾共同創(chuàng)立、現(xiàn)歸谷歌所有的DeepMind研究院。這款名為“微軟人工智能診斷協(xié)調(diào)器”(MAI-DxO)的工具也是該部門的首個研究成果。
現(xiàn)任微軟人工智能首席執(zhí)行官的蘇萊曼在接受采訪時表示,此次試驗是邁向“醫(yī)療超級智能”的一步,有望幫助解決醫(yī)療系統(tǒng)人員短缺和患者候診時間過長等問題。
微軟這套新系統(tǒng)的核心是一個“協(xié)調(diào)器”,它能創(chuàng)建5個扮演“醫(yī)生”角色的智能體并組成虛擬專家組,其中每個智能體分工明確,有的提出假設(shè)、有的專門選擇診斷測試,并通過相互協(xié)作和“辯論”來共同制定診療方案。
為了測試其性能,研究人員讓MAI-DxO學(xué)習(xí)了《新英格蘭醫(yī)學(xué)雜志》(NEJM)上發(fā)表的304份研究病例,這些案例詳細(xì)描述了醫(yī)生是如何解決最復(fù)雜病例的。
這使得研究人員能夠驗證程序能否正確完成診斷并闡明其決策過程。測試采用了一種名為“辯論鏈”(chain of debate)的新技術(shù),能讓人工智能推理模型逐步說明解決問題的思路。
微軟調(diào)用了來自OpenAI、Meta、Anthropic、谷歌、xAI和DeepSeek的主流大語言模型。協(xié)調(diào)器讓所有大語言模型的表現(xiàn)都有提升,但與OpenAI的o3推理模型配合效果最佳,成功解決了85.5%的《新英格蘭醫(yī)學(xué)雜志》案例。
相比之下,經(jīng)驗豐富的人類醫(yī)生在對比試驗中的成功率約為20%。但在試驗中,這些醫(yī)生不允許查閱教科書或向同事請教,否則他們的成功率本可以更高。
這項技術(shù)可能很快會部署到微軟的Copilot人工智能聊天機器人和必應(yīng)搜索引擎中,目前這兩個平臺每天處理約5000萬次健康咨詢。
蘇萊曼表示,微軟正接近于實現(xiàn)“不僅僅是略優(yōu)于人類,而是遠(yuǎn)超人類表現(xiàn)的AI模型:速度更快、成本更低、準(zhǔn)確率高出四倍”。
“這將帶來真正的變革,”他補充道。
蘇萊曼取得這項研究成果之前,DeepMind在人工智能相關(guān)的醫(yī)療保健領(lǐng)域已取得一系列突破并處于領(lǐng)先地位。谷歌實驗室負(fù)責(zé)人戴密斯·哈薩比斯(Demis Hassabis)去年因利用人工智能揭示支撐生命的蛋白質(zhì)的生物奧秘,與他人共同獲得諾貝爾化學(xué)獎。
微軟已向OpenAI投資近140億美元,并擁有其技術(shù)的獨家使用權(quán)和銷售權(quán)。然而,這家科技巨頭正與試圖轉(zhuǎn)型為營利性實體的OpenAI陷入激烈博弈,雙方在未來合作條款上存在分歧。
蘇萊曼表示,盡管OpenAI的模型表現(xiàn)最佳,但微軟對于“MAI-DxO”具體使用的四種“世界級模型”持“中立態(tài)度”。
“我們一直認(rèn)為,它們終將成為商品……真正的差異化在于我們的聚合協(xié)調(diào)器。”他說。
去年末加入微軟的前DeepMind健康部門負(fù)責(zé)人多米尼克·金(Dominic King)表示,程序的“表現(xiàn)超越了以往任何技術(shù)”,并且“如今有機會成為醫(yī)療服務(wù)的新入口”。
他表示,研究人員還引導(dǎo)人工智能模型考慮成本效益,在試驗中顯著減少了正確診斷所需的檢查項目,在某些情況下可節(jié)省數(shù)十萬美元。
但金也強調(diào),這項技術(shù)仍處于早期階段,尚未經(jīng)過同行評審,也未準(zhǔn)備好在臨床環(huán)境中使用。
“這是一項具有里程碑意義的研究,”心臟病學(xué)家、斯克里普斯研究所轉(zhuǎn)化醫(yī)學(xué)中心(Scripps Research Translational Institute)創(chuàng)始人兼主任埃里克·托波爾(Eric Topol)說道。“盡管這項工作并非在真實的醫(yī)療實踐環(huán)境中完成,但它首次為生成式人工智能在醫(yī)學(xué)領(lǐng)域提升準(zhǔn)確性和節(jié)約成本的潛力提供了證據(jù)。”
麻省理工學(xué)院科學(xué)家、醫(yī)療人工智能初創(chuàng)公司Layer Health聯(lián)合創(chuàng)始人戴維·桑塔格(David Sontag)也表示,“這項研究振奮人心”。他認(rèn)為,這項研究之所以重要,不僅因為它更貼近醫(yī)生的實際操作方式,還因為它對底層方法論中的潛在問題進(jìn)行了嚴(yán)謹(jǐn)?shù)奶幚怼!斑@正是這項研究的強大之處。”桑塔格說。
不過桑塔格也提醒,對微軟的研究成果需持審慎態(tài)度,因為參與研究的醫(yī)生不得借助任何工具來輔助診斷,這可能無法真實反映臨床實踐。他補充說,這種人工智能系統(tǒng)能否在實踐中顯著降低成本仍有待驗證。參與研究的醫(yī)生可能會考慮到人工智能無法涉及的因素,比如患者對某項操作的耐受性,或某些醫(yī)療器械的可獲得性。
“這份報告令人印象深刻,因為它診斷的都是高度復(fù)雜病例,”斯克里普斯研究所(Scripps Research Institute)科學(xué)家埃里克·托波爾(Eric Topol)說。他補充道,證明人工智能理論上可降低醫(yī)療成本具有開創(chuàng)性意義。
托波爾和桑塔格都認(rèn)為,在大規(guī)模推廣前,驗證微軟系統(tǒng)潛力的下一步,應(yīng)是在臨床試驗中將其與醫(yī)生為真實患者治療的結(jié)果進(jìn)行對比。桑塔格強調(diào),“這樣才能獲得對成本的非常嚴(yán)謹(jǐn)?shù)脑u估。”(辰辰)