網(wǎng)易首頁 > 網(wǎng)易科技 > IT業(yè)界 > 正文

微軟發(fā)布AI診斷工具，自稱準(zhǔn)確率是醫(yī)學(xué)專家4倍，還能“會診辯論”

2025-07-01 08:21:05　來源: 網(wǎng)易科技報道

北京舉報

分享至

核心提示

01 微軟開發(fā)出一款醫(yī)療工具。在一項基于《新英格蘭醫(yī)學(xué)雜志》復(fù)雜病例的測試中，該工具通過協(xié)調(diào)多個大語言模型，取得了85.5%的診斷成功率，據(jù)稱是對比試驗中人類醫(yī)生的四倍。
02 該技術(shù)被認(rèn)為能加速診療進(jìn)程，有望解決醫(yī)療人員短缺和患者候診時間過長的問題。研究還顯示，它在提升診斷準(zhǔn)確性的同時，能顯著減少檢查項目以節(jié)約成本。
03 此成果是微軟新組建的人工智能健康部門的首個研究，該部門由前DeepMind聯(lián)合創(chuàng)始人領(lǐng)導(dǎo)。研究采用了“辯論鏈”新技術(shù)，并聚合了OpenAI等多個主流大語言模型。

7月1日消息，微軟開發(fā)出一款人工智能驅(qū)動的醫(yī)療工具，稱其在診斷復(fù)雜疾病方面的成功率是人類醫(yī)生的四倍。微軟認(rèn)為，這項技術(shù)能夠加速診療進(jìn)程。

去年，前DeepMind聯(lián)合創(chuàng)始人穆斯塔法·蘇萊曼（Mustafa Suleyman）在微軟組建人工智能健康部門，成員基本來自他曾共同創(chuàng)立、現(xiàn)歸谷歌所有的DeepMind研究院。這款名為“微軟人工智能診斷協(xié)調(diào)器”（MAI-DxO）的工具也是該部門的首個研究成果。

現(xiàn)任微軟人工智能首席執(zhí)行官的蘇萊曼在接受采訪時表示，此次試驗是邁向“醫(yī)療超級智能”的一步，有望幫助解決醫(yī)療系統(tǒng)人員短缺和患者候診時間過長等問題。

微軟這套新系統(tǒng)的核心是一個“協(xié)調(diào)器”，它能創(chuàng)建5個扮演“醫(yī)生”角色的智能體并組成虛擬專家組，其中每個智能體分工明確，有的提出假設(shè)、有的專門選擇診斷測試，并通過相互協(xié)作和“辯論”來共同制定診療方案。

為了測試其性能，研究人員讓MAI-DxO學(xué)習(xí)了《新英格蘭醫(yī)學(xué)雜志》（NEJM）上發(fā)表的304份研究病例，這些案例詳細(xì)描述了醫(yī)生是如何解決最復(fù)雜病例的。

這使得研究人員能夠驗證程序能否正確完成診斷并闡明其決策過程。測試采用了一種名為“辯論鏈”（chain of debate）的新技術(shù)，能讓人工智能推理模型逐步說明解決問題的思路。

微軟調(diào)用了來自OpenAI、Meta、Anthropic、谷歌、xAI和DeepSeek的主流大語言模型。協(xié)調(diào)器讓所有大語言模型的表現(xiàn)都有提升，但與OpenAI的o3推理模型配合效果最佳，成功解決了85.5%的《新英格蘭醫(yī)學(xué)雜志》案例。

相比之下，經(jīng)驗豐富的人類醫(yī)生在對比試驗中的成功率約為20%。但在試驗中，這些醫(yī)生不允許查閱教科書或向同事請教，否則他們的成功率本可以更高。

這項技術(shù)可能很快會部署到微軟的Copilot人工智能聊天機器人和必應(yīng)搜索引擎中，目前這兩個平臺每天處理約5000萬次健康咨詢。

蘇萊曼表示，微軟正接近于實現(xiàn)“不僅僅是略優(yōu)于人類，而是遠(yuǎn)超人類表現(xiàn)的AI模型：速度更快、成本更低、準(zhǔn)確率高出四倍”。

“這將帶來真正的變革，”他補充道。

蘇萊曼取得這項研究成果之前，DeepMind在人工智能相關(guān)的醫(yī)療保健領(lǐng)域已取得一系列突破并處于領(lǐng)先地位。谷歌實驗室負(fù)責(zé)人戴密斯·哈薩比斯（Demis Hassabis）去年因利用人工智能揭示支撐生命的蛋白質(zhì)的生物奧秘，與他人共同獲得諾貝爾化學(xué)獎。

微軟已向OpenAI投資近140億美元，并擁有其技術(shù)的獨家使用權(quán)和銷售權(quán)。然而，這家科技巨頭正與試圖轉(zhuǎn)型為營利性實體的OpenAI陷入激烈博弈，雙方在未來合作條款上存在分歧。

蘇萊曼表示，盡管OpenAI的模型表現(xiàn)最佳，但微軟對于“MAI-DxO”具體使用的四種“世界級模型”持“中立態(tài)度”。

“我們一直認(rèn)為，它們終將成為商品……真正的差異化在于我們的聚合協(xié)調(diào)器。”他說。

去年末加入微軟的前DeepMind健康部門負(fù)責(zé)人多米尼克·金（Dominic King）表示，程序的“表現(xiàn)超越了以往任何技術(shù)”，并且“如今有機會成為醫(yī)療服務(wù)的新入口”。

他表示，研究人員還引導(dǎo)人工智能模型考慮成本效益，在試驗中顯著減少了正確診斷所需的檢查項目，在某些情況下可節(jié)省數(shù)十萬美元。

但金也強調(diào)，這項技術(shù)仍處于早期階段，尚未經(jīng)過同行評審，也未準(zhǔn)備好在臨床環(huán)境中使用。

“這是一項具有里程碑意義的研究，”心臟病學(xué)家、斯克里普斯研究所轉(zhuǎn)化醫(yī)學(xué)中心（Scripps Research Translational Institute）創(chuàng)始人兼主任埃里克·托波爾（Eric Topol）說道。“盡管這項工作并非在真實的醫(yī)療實踐環(huán)境中完成，但它首次為生成式人工智能在醫(yī)學(xué)領(lǐng)域提升準(zhǔn)確性和節(jié)約成本的潛力提供了證據(jù)。”

麻省理工學(xué)院科學(xué)家、醫(yī)療人工智能初創(chuàng)公司Layer Health聯(lián)合創(chuàng)始人戴維·桑塔格（David Sontag）也表示，“這項研究振奮人心”。他認(rèn)為，這項研究之所以重要，不僅因為它更貼近醫(yī)生的實際操作方式，還因為它對底層方法論中的潛在問題進(jìn)行了嚴(yán)謹(jǐn)?shù)奶幚怼！斑@正是這項研究的強大之處。”桑塔格說。

不過桑塔格也提醒，對微軟的研究成果需持審慎態(tài)度，因為參與研究的醫(yī)生不得借助任何工具來輔助診斷，這可能無法真實反映臨床實踐。他補充說，這種人工智能系統(tǒng)能否在實踐中顯著降低成本仍有待驗證。參與研究的醫(yī)生可能會考慮到人工智能無法涉及的因素，比如患者對某項操作的耐受性，或某些醫(yī)療器械的可獲得性。

“這份報告令人印象深刻，因為它診斷的都是高度復(fù)雜病例，”斯克里普斯研究所（Scripps Research Institute）科學(xué)家埃里克·托波爾（Eric Topol）說。他補充道，證明人工智能理論上可降低醫(yī)療成本具有開創(chuàng)性意義。

托波爾和桑塔格都認(rèn)為，在大規(guī)模推廣前，驗證微軟系統(tǒng)潛力的下一步，應(yīng)是在臨床試驗中將其與醫(yī)生為真實患者治療的結(jié)果進(jìn)行對比。桑塔格強調(diào)，“這樣才能獲得對成本的非常嚴(yán)謹(jǐn)?shù)脑u估。”（辰辰）