7月5日,Microsoft AI 首席執(zhí)行官 Mustafa Suleyman接受Big Technology播客的訪談,詳細(xì)介紹了微軟在醫(yī)療AI領(lǐng)域的最新突破——多智能體“診斷協(xié)調(diào)器”。闡述了其設(shè)計理念、性能數(shù)據(jù),系統(tǒng)性地解答了關(guān)于該系統(tǒng)技術(shù)架構(gòu)、相較人類的性能優(yōu)勢、內(nèi)在的透明度機(jī)制,以及對未來醫(yī)生角色帶來何種改變等一系列問題。
對話從一個核心數(shù)據(jù)展開:目前通過 AI 產(chǎn)品提出的健康相關(guān)查詢已達(dá)到怎樣的規(guī)模?這與傳統(tǒng)搜索有何不同?
Suleyman 指出,目前 Microsoft Copilot 及其他 AI 應(yīng)用每日處理的健康相關(guān)查詢高達(dá) 5000 萬次。他認(rèn)為這是一個積極的信號,因為 AI 正在讓信息獲取變得更具對話性。他解釋道:“搜索引擎已經(jīng)讓信息的獲取變得極其廉價和便捷。而現(xiàn)在有了 Copilot,我們得到的答案更具對話性,你可以根據(jù)自己特定的知識背景和專業(yè)水平,調(diào)整回答的風(fēng)格和深度。這常常會鼓勵用戶提出第二個、第三個問題,從而將一次簡單的查詢,轉(zhuǎn)變?yōu)橐粓鲱愃朴谀愫歪t(yī)生之間的深度對話或咨詢。” 這些查詢覆蓋了從癌癥到心理健康,再到皮膚疹等極為廣泛的健康問題。
這項由 Microsoft AI 宣布的新進(jìn)展——多智能體“診斷協(xié)調(diào)器”,其具體工作原理是怎樣的?
Suleyman 表示,這套系統(tǒng)的核心是模擬 AI 扮演診斷醫(yī)生的角色,其工作流程覆蓋了從問詢到診斷的全過程。為了驗證和訓(xùn)練這套系統(tǒng),研究團(tuán)隊使用了《新英格蘭醫(yī)學(xué)雜志》發(fā)布的數(shù)百個真實歷史病歷。“這些病例每周都會發(fā)布一個,對醫(yī)生來說就像一個終極填字游戲。他們顯然要到下周才能看到答案,這是一個巨大的猜謎游戲,需要回顧五到七頁非常詳細(xì)的病史,然后試圖弄清楚診斷結(jié)果究竟是什么。”
在具體實現(xiàn)上,系統(tǒng)在概念上由兩個核心AI角色構(gòu)成:一個“信息看門人”負(fù)責(zé)管理和調(diào)取患者所有的醫(yī)療信息;另一個“診斷醫(yī)生”則通過與“看門人”對話,主動、有序地探尋病史、分析數(shù)據(jù),并最終給出診斷。
為何需要采用一套由多個機(jī)器人對話組成的復(fù)雜系統(tǒng),而非依賴單一的生成式 AI 模型一步到位?
Suleyman 指出,AI 領(lǐng)域近期的重大突破在于具備推理能力的模型,它們能在推理時主動查詢其他 AI Agent 或信息源,以提升回答質(zhì)量,而不是直接給出第一個想到的答案。他認(rèn)為,真正的價值高地正在向上層轉(zhuǎn)移。“隨著AI模型本身逐漸商品化,真正的價值將體現(xiàn)在頂層的協(xié)調(diào)、編排與產(chǎn)品集成上。”
這個被稱為“協(xié)調(diào)器”的系統(tǒng),其底層調(diào)用了來自幾家主流供應(yīng)商的四種不同模型。通過這種智能編排,系統(tǒng)的綜合準(zhǔn)確率能在每個獨立模型的基礎(chǔ)上再獲得約 10% 的顯著提升。
該系統(tǒng)的實際表現(xiàn)如何?與人類專家的能力相比處于何種水平?
Suleyman 提供了直接的基準(zhǔn)測試數(shù)據(jù)。在一項使用了《新英格蘭醫(yī)學(xué)雜志》病例的模擬診斷測試中,一批頂尖人類醫(yī)生的平均診斷正確率約為 20%。相比之下,協(xié)調(diào)器系統(tǒng)的準(zhǔn)確率達(dá)到了 85%。
他對此評價道:“它的準(zhǔn)確率是人類專家的四倍以上。在我的職業(yè)生涯中,從未見過人類水平的表現(xiàn)與 AI 系統(tǒng)的表現(xiàn)之間存在如此巨大的差距。很多年前,我曾從事大量關(guān)于放射學(xué)、頭頸癌和乳腺 X 光檢查的診斷工作,目標(biāo)只是拿一個單一的放射學(xué)檢查來預(yù)測是或否有癌癥。而那是我們能做的極限。而現(xiàn)在,它不僅僅是產(chǎn)生一個二元分類輸出,而是實際上產(chǎn)生一個非常詳細(xì)的診斷,并通過這種交互式對話機(jī)制順序地完成。所以這極大地提高了準(zhǔn)確性。”
這套系統(tǒng)是否能擺脫對訓(xùn)練數(shù)據(jù)的依賴,進(jìn)行真正的推理?
Suleyman 強(qiáng)調(diào),該系統(tǒng)具備真正的推理能力,而非記憶。他解釋說:“我們與《新英格蘭醫(yī)學(xué)雜志》合作的部分原因,是因為他們每周都會發(fā)布一個全新的病例,這個病例甚至從未被數(shù)字化過。所以毫無疑問它不在訓(xùn)練數(shù)據(jù)中。例如,上周的這個病例,絕對不可能在訓(xùn)練數(shù)據(jù)中,因為它實際上是剛剛發(fā)表的。所以我不認(rèn)為有任何那樣的可能性。這真的是在做一種抽象的判斷,它不是在復(fù)現(xiàn)訓(xùn)練數(shù)據(jù),而是在根據(jù)它已有的知識進(jìn)行某種推理或思考。”
對于 AI 系統(tǒng)普遍存在的“黑箱”問題,以及醫(yī)生可能因依賴 AI 而導(dǎo)致“技能退化”的擔(dān)憂,該系統(tǒng)如何應(yīng)對?
Suleyman 認(rèn)為,該系統(tǒng)的設(shè)計恰恰解決了這些問題。其核心在于過程的透明化。他詳細(xì)描述道:“這不僅僅是給出一個黑箱答案。這就是為什么順序診斷部分如此重要的原因,因為你可以實時觀看 AI 向病歷提問,得到一個答案,形成一個新問題,得到一個答案,提出一個新問題,然后要求一種不同類型的測試,得到那些結(jié)果,解釋它,然后給出一個答案。所以對話性質(zhì)意味著人類醫(yī)生可以跟隨,并以一種非常透明的方式實際學(xué)習(xí)。”
為了實現(xiàn)這種透明的、高質(zhì)量的決策,系統(tǒng)內(nèi)部擁有一套獨特的協(xié)作機(jī)制。“我們實際上創(chuàng)造了五種不同類型的AI Agent,它們都會進(jìn)行辯論,我們稱之為‘辯論鏈’。它們相互協(xié)商,它們試圖優(yōu)先考慮某些不同的方面,比如成本或效率。正是這些不同技能在醫(yī)生 Agent 之間的協(xié)調(diào),實際上使這個系統(tǒng)如此有效。”
如果醫(yī)生能夠觀察 AI 的全過程,這是否意味著他們的角色會變得被動?這種工具的真正效用在哪里?
Suleyman 承認(rèn)讓醫(yī)生親身思考的價值,但他認(rèn)為新工具帶來的益處遠(yuǎn)超風(fēng)險。“我仍然認(rèn)為這將是一個了不起的教育工具,讓醫(yī)生實際學(xué)習(xí)他們從未遇到過的廣泛病例。例如,我們上周實際上在《新英格蘭醫(yī)學(xué)雜志》的最新病例研究上運行了 DXO 協(xié)調(diào)器,它正確地診斷了一個在所有醫(yī)學(xué)文獻(xiàn)中只出現(xiàn)過 1500 次的病例。那是一種非常晦澀的罕見病。所以很少有醫(yī)生能有機(jī)會看到那個。因此,在真實的臨床應(yīng)用環(huán)境中準(zhǔn)確和可預(yù)防地檢測這類疾病的能力,我認(rèn)為將大大超過醫(yī)生無法以你描述的方式進(jìn)行鍛煉的風(fēng)險。”
這項技術(shù)將如何重塑醫(yī)生的未來角色?
Suleyman 認(rèn)為,醫(yī)生的角色遠(yuǎn)不止是做出診斷,AI 的介入將使其工作重心向更高價值的領(lǐng)域轉(zhuǎn)移。他表示,人類專家醫(yī)生仍然需要運用大量的判斷力,尤其是在診斷之后。“判斷什么對患者有效,并幫助患者決定,‘鑒于我現(xiàn)在知道我得到了這個診斷,我想采取什么治療以及何時采取?以及那里的權(quán)衡是什么?’所以那將需要大量的判斷力。”
因此,醫(yī)生的角色不僅僅是提供人際連接和親身陪伴,更是“以一種深度共情的方式與一個收到了診斷的患者一起思考,來規(guī)劃他們的治療過程。”
這套“協(xié)調(diào)器”方法論是否具有更廣泛的應(yīng)用前景?以及 Microsoft 對這項技術(shù)的最終目標(biāo)是什么?
Suleyman 確認(rèn),這種方法論具有廣泛的適用性。“這些協(xié)調(diào)器的基本方法是它們調(diào)整不同的 AI 來扮演非常具體的角色,然后讓這些 AI 相互協(xié)商、辯論和討論。這種設(shè)置顯然適用于很多不同的環(huán)境,無論是在商業(yè)中,甚至未來在政府中。”
對于這項技術(shù)的未來,他懷有極高的期望。盡管目前尚處早期研究階段,但他認(rèn)為其展現(xiàn)的潛力是邁向“真正的醫(yī)療超級智能”的步伐。最終的目標(biāo)是:“我們希望嘗試盡快地、盡可能廣泛地提供它,包括為我們每天 5000 萬的健康查詢服務(wù)。所以這將是我們的雄心壯志,就是以最安全的方式,盡快地把它帶到消費者面前。”
【AI技術(shù)與應(yīng)用交流群|僅限受邀加入】
AI算力領(lǐng)域TOP級從業(yè)者專屬圈層
√ 與頭部算力企業(yè)深度對話
√ 與AI上下游企業(yè)深度對話
√ 獲取一手全球AI與算力產(chǎn)業(yè)信息
√ 獲取AI熱點及前沿產(chǎn)業(yè)獨家信息
√ 隨時了解全球AI領(lǐng)域高管最新觀點及實錄全文
√ 有機(jī)會參與AI主題產(chǎn)業(yè)交流活動
掃碼驗證身份(需備注姓名/公司/職務(wù))
不止有 DeepSeek,更有 AI產(chǎn)業(yè)的未來!
| 文章來源:數(shù)字開物
? END?
【專欄】精品再讀
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.