5個AI Agent“辯論”診斷，準(zhǔn)確率超人類專家4倍 | 微軟AI CEO詳解微軟醫(yī)療AI新突破

2025-07-10 16:16:13　來源: 人工智能學(xué)家

北京舉報

分享至

7月5日，Microsoft AI 首席執(zhí)行官 Mustafa Suleyman接受Big Technology播客的訪談，詳細(xì)介紹了微軟在醫(yī)療AI領(lǐng)域的最新突破——多智能體“診斷協(xié)調(diào)器”。闡述了其設(shè)計理念、性能數(shù)據(jù)，系統(tǒng)性地解答了關(guān)于該系統(tǒng)技術(shù)架構(gòu)、相較人類的性能優(yōu)勢、內(nèi)在的透明度機(jī)制，以及對未來醫(yī)生角色帶來何種改變等一系列問題。

對話從一個核心數(shù)據(jù)展開：目前通過 AI 產(chǎn)品提出的健康相關(guān)查詢已達(dá)到怎樣的規(guī)模？這與傳統(tǒng)搜索有何不同？

Suleyman 指出，目前 Microsoft Copilot 及其他 AI 應(yīng)用每日處理的健康相關(guān)查詢高達(dá) 5000 萬次。他認(rèn)為這是一個積極的信號，因為 AI 正在讓信息獲取變得更具對話性。他解釋道：“搜索引擎已經(jīng)讓信息的獲取變得極其廉價和便捷。而現(xiàn)在有了 Copilot，我們得到的答案更具對話性，你可以根據(jù)自己特定的知識背景和專業(yè)水平，調(diào)整回答的風(fēng)格和深度。這常常會鼓勵用戶提出第二個、第三個問題，從而將一次簡單的查詢，轉(zhuǎn)變?yōu)橐粓鲱愃朴谀愫歪t(yī)生之間的深度對話或咨詢。” 這些查詢覆蓋了從癌癥到心理健康，再到皮膚疹等極為廣泛的健康問題。

這項由 Microsoft AI 宣布的新進(jìn)展——多智能體“診斷協(xié)調(diào)器”，其具體工作原理是怎樣的？

Suleyman 表示，這套系統(tǒng)的核心是模擬 AI 扮演診斷醫(yī)生的角色，其工作流程覆蓋了從問詢到診斷的全過程。為了驗證和訓(xùn)練這套系統(tǒng)，研究團(tuán)隊使用了《新英格蘭醫(yī)學(xué)雜志》發(fā)布的數(shù)百個真實歷史病歷。“這些病例每周都會發(fā)布一個，對醫(yī)生來說就像一個終極填字游戲。他們顯然要到下周才能看到答案，這是一個巨大的猜謎游戲，需要回顧五到七頁非常詳細(xì)的病史，然后試圖弄清楚診斷結(jié)果究竟是什么。”

在具體實現(xiàn)上，系統(tǒng)在概念上由兩個核心AI角色構(gòu)成：一個“信息看門人”負(fù)責(zé)管理和調(diào)取患者所有的醫(yī)療信息；另一個“診斷醫(yī)生”則通過與“看門人”對話，主動、有序地探尋病史、分析數(shù)據(jù)，并最終給出診斷。

為何需要采用一套由多個機(jī)器人對話組成的復(fù)雜系統(tǒng)，而非依賴單一的生成式 AI 模型一步到位？

Suleyman 指出，AI 領(lǐng)域近期的重大突破在于具備推理能力的模型，它們能在推理時主動查詢其他 AI Agent 或信息源，以提升回答質(zhì)量，而不是直接給出第一個想到的答案。他認(rèn)為，真正的價值高地正在向上層轉(zhuǎn)移。“隨著AI模型本身逐漸商品化，真正的價值將體現(xiàn)在頂層的協(xié)調(diào)、編排與產(chǎn)品集成上。”

這個被稱為“協(xié)調(diào)器”的系統(tǒng)，其底層調(diào)用了來自幾家主流供應(yīng)商的四種不同模型。通過這種智能編排，系統(tǒng)的綜合準(zhǔn)確率能在每個獨立模型的基礎(chǔ)上再獲得約 10% 的顯著提升。

該系統(tǒng)的實際表現(xiàn)如何？與人類專家的能力相比處于何種水平？

Suleyman 提供了直接的基準(zhǔn)測試數(shù)據(jù)。在一項使用了《新英格蘭醫(yī)學(xué)雜志》病例的模擬診斷測試中，一批頂尖人類醫(yī)生的平均診斷正確率約為 20%。相比之下，協(xié)調(diào)器系統(tǒng)的準(zhǔn)確率達(dá)到了 85%。

他對此評價道：“它的準(zhǔn)確率是人類專家的四倍以上。在我的職業(yè)生涯中，從未見過人類水平的表現(xiàn)與 AI 系統(tǒng)的表現(xiàn)之間存在如此巨大的差距。很多年前，我曾從事大量關(guān)于放射學(xué)、頭頸癌和乳腺 X 光檢查的診斷工作，目標(biāo)只是拿一個單一的放射學(xué)檢查來預(yù)測是或否有癌癥。而那是我們能做的極限。而現(xiàn)在，它不僅僅是產(chǎn)生一個二元分類輸出，而是實際上產(chǎn)生一個非常詳細(xì)的診斷，并通過這種交互式對話機(jī)制順序地完成。所以這極大地提高了準(zhǔn)確性。”

這套系統(tǒng)是否能擺脫對訓(xùn)練數(shù)據(jù)的依賴，進(jìn)行真正的推理？

Suleyman 強(qiáng)調(diào)，該系統(tǒng)具備真正的推理能力，而非記憶。他解釋說：“我們與《新英格蘭醫(yī)學(xué)雜志》合作的部分原因，是因為他們每周都會發(fā)布一個全新的病例，這個病例甚至從未被數(shù)字化過。所以毫無疑問它不在訓(xùn)練數(shù)據(jù)中。例如，上周的這個病例，絕對不可能在訓(xùn)練數(shù)據(jù)中，因為它實際上是剛剛發(fā)表的。所以我不認(rèn)為有任何那樣的可能性。這真的是在做一種抽象的判斷，它不是在復(fù)現(xiàn)訓(xùn)練數(shù)據(jù)，而是在根據(jù)它已有的知識進(jìn)行某種推理或思考。”

對于 AI 系統(tǒng)普遍存在的“黑箱”問題，以及醫(yī)生可能因依賴 AI 而導(dǎo)致“技能退化”的擔(dān)憂，該系統(tǒng)如何應(yīng)對？

Suleyman 認(rèn)為，該系統(tǒng)的設(shè)計恰恰解決了這些問題。其核心在于過程的透明化。他詳細(xì)描述道：“這不僅僅是給出一個黑箱答案。這就是為什么順序診斷部分如此重要的原因，因為你可以實時觀看 AI 向病歷提問，得到一個答案，形成一個新問題，得到一個答案，提出一個新問題，然后要求一種不同類型的測試，得到那些結(jié)果，解釋它，然后給出一個答案。所以對話性質(zhì)意味著人類醫(yī)生可以跟隨，并以一種非常透明的方式實際學(xué)習(xí)。”

為了實現(xiàn)這種透明的、高質(zhì)量的決策，系統(tǒng)內(nèi)部擁有一套獨特的協(xié)作機(jī)制。“我們實際上創(chuàng)造了五種不同類型的AI Agent，它們都會進(jìn)行辯論，我們稱之為‘辯論鏈’。它們相互協(xié)商，它們試圖優(yōu)先考慮某些不同的方面，比如成本或效率。正是這些不同技能在醫(yī)生 Agent 之間的協(xié)調(diào)，實際上使這個系統(tǒng)如此有效。”

如果醫(yī)生能夠觀察 AI 的全過程，這是否意味著他們的角色會變得被動？這種工具的真正效用在哪里？

Suleyman 承認(rèn)讓醫(yī)生親身思考的價值，但他認(rèn)為新工具帶來的益處遠(yuǎn)超風(fēng)險。“我仍然認(rèn)為這將是一個了不起的教育工具，讓醫(yī)生實際學(xué)習(xí)他們從未遇到過的廣泛病例。例如，我們上周實際上在《新英格蘭醫(yī)學(xué)雜志》的最新病例研究上運行了 DXO 協(xié)調(diào)器，它正確地診斷了一個在所有醫(yī)學(xué)文獻(xiàn)中只出現(xiàn)過 1500 次的病例。那是一種非常晦澀的罕見病。所以很少有醫(yī)生能有機(jī)會看到那個。因此，在真實的臨床應(yīng)用環(huán)境中準(zhǔn)確和可預(yù)防地檢測這類疾病的能力，我認(rèn)為將大大超過醫(yī)生無法以你描述的方式進(jìn)行鍛煉的風(fēng)險。”

這項技術(shù)將如何重塑醫(yī)生的未來角色？

Suleyman 認(rèn)為，醫(yī)生的角色遠(yuǎn)不止是做出診斷，AI 的介入將使其工作重心向更高價值的領(lǐng)域轉(zhuǎn)移。他表示，人類專家醫(yī)生仍然需要運用大量的判斷力，尤其是在診斷之后。“判斷什么對患者有效，并幫助患者決定，‘鑒于我現(xiàn)在知道我得到了這個診斷，我想采取什么治療以及何時采取？以及那里的權(quán)衡是什么？’所以那將需要大量的判斷力。”

因此，醫(yī)生的角色不僅僅是提供人際連接和親身陪伴，更是“以一種深度共情的方式與一個收到了診斷的患者一起思考，來規(guī)劃他們的治療過程。”

這套“協(xié)調(diào)器”方法論是否具有更廣泛的應(yīng)用前景？以及 Microsoft 對這項技術(shù)的最終目標(biāo)是什么？

Suleyman 確認(rèn)，這種方法論具有廣泛的適用性。“這些協(xié)調(diào)器的基本方法是它們調(diào)整不同的 AI 來扮演非常具體的角色，然后讓這些 AI 相互協(xié)商、辯論和討論。這種設(shè)置顯然適用于很多不同的環(huán)境，無論是在商業(yè)中，甚至未來在政府中。”

對于這項技術(shù)的未來，他懷有極高的期望。盡管目前尚處早期研究階段，但他認(rèn)為其展現(xiàn)的潛力是邁向“真正的醫(yī)療超級智能”的步伐。最終的目標(biāo)是：“我們希望嘗試盡快地、盡可能廣泛地提供它，包括為我們每天 5000 萬的健康查詢服務(wù)。所以這將是我們的雄心壯志，就是以最安全的方式，盡快地把它帶到消費者面前。”

【AI技術(shù)與應(yīng)用交流群｜僅限受邀加入】

AI算力領(lǐng)域TOP級從業(yè)者專屬圈層

√ 與頭部算力企業(yè)深度對話

√ 與AI上下游企業(yè)深度對話

√ 獲取一手全球AI與算力產(chǎn)業(yè)信息

√ 獲取AI熱點及前沿產(chǎn)業(yè)獨家信息

√ 隨時了解全球AI領(lǐng)域高管最新觀點及實錄全文

√ 有機(jī)會參與AI主題產(chǎn)業(yè)交流活動

掃碼驗證身份（需備注姓名/公司/職務(wù)）

不止有 DeepSeek，更有 AI產(chǎn)業(yè)的未來！

| 文章來源：數(shù)字開物

? END?

【專欄】精品再讀

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.