開年以來,AI火爆醫療圈,超過100家醫院官宣接入DeepSeek。
然而,在市場預期拉滿的同時,一線使用者們卻對AI褒貶不一,有醫生表示:AI真正起到的作用還很有限。
去年10月,斯坦福大學、哈佛醫學院等機構的研究人員在JAMA Network Open上發表了題為Large Language Model Influence on Diagnostic Reasoning: A Randomized Clinical Trial的論文。
該研究針對50名醫生進行隨機臨床試驗,結果發現使用大語言模型 (LLM) 并沒有顯著提高醫生的診斷推理能力。
造成這一結果的原因并非是AI不夠強大,研究結果顯示,AI獨立使用的效果要比人類醫生以及人類醫生+AI更好!
一直以來,人們對AI的定位往往是醫生的“好助手”,而該研究卻否定了強大的AI模型對醫生臨床診斷的提升作用,人與AI的結合實際上起到了1+1=1的效果。
這一發現不禁讓人開始重新審視AI在醫療領域的角色定位,是我們對AI的認知還不夠深入全面,還是人類醫生與AI之間的協作模式還存在優化空間?
畢竟,醫療領域關乎的是生命健康,容不得絲毫馬虎。在期待AI能夠為醫療事業帶來革新的同時,如何實現AI與人類醫生的優勢互補,將是未來的關鍵課題。
AI強大但沒用?
斯坦福大學醫學助理教授Jonathan Chen和斯坦福大學生物醫學信息學研究中心博士后Ethan Goh是此次研究的發起人。
Chen擁有計算機科學博士學位,多年前曾是一名程序員,對計算機+醫學這一交叉領域地研究已有20多年,而Goh則曾擔任內科醫生,與谷歌、羅氏、三星等公司合作開發數字醫療產品。
圖:Ethan Goh(左)和Jonathan Chen(右)
具體而言,他們招募了50名美國執業醫師,包括26名主治醫師和24名住院醫師,專業涵蓋家庭醫學、內科和急診醫學。
通過隨機分組,其中AI組25人使用大語言模型(GPT-4)+傳統資源,傳統組25人僅使用傳統資源(如UpToDate、Google)。
最終,所有參與者共完成 244例診斷(AI組125 例,對照組119 例),由3名資深醫師盲審給出評分。
結果顯示,AI組中位數得分為76%(IQR 66%-87%),傳統組為74%(IQR 63%-84%),調整后差異為2個百分點,診斷性能無顯著差異。
時間上,LLM組每例耗時519秒(IQR 371-668),傳統組565秒(IQR 456-788),差別也不明顯。
是因為AI不夠強大嗎?答案是否定的,研究人員讓AI單獨表現時,其得分達92%(IQR 82%-97%),顯著高于AI組和傳統組。
研究人員得出結論:與傳統資源相比,大語言模型作為強大的診斷輔助工具卻并沒有提高醫生的表現,AI在臨床決策上的潛力有待進一步發掘。
當醫生遇上AI,協同成痛點
人們往往會認為,只要醫生使用AI,就能提升診療的準確性與效率。但事實證明,這種假設是錯誤的。
究其原因,AI的確很強大,但如果醫生們并不能熟練掌握,其作用仍然有限。
也正因如此,在文章的最后,研究人員們認為需要“通過重新設計醫學教育和實踐框架來適應顛覆性的新興技術”。
在實際工作中,因為不明白如何使用AI而導致效果大打折扣的案例比比皆是。
一項來自麻省理工學院-哈佛大學的聯合研究同樣指出,AI在圖像識別等任務上表現優異,但這些能力未被醫生們充分利用。
該研究調查了180名來自美國和越南的放射科醫生,結果發現,即便AI的預測準確性高于醫生,但醫生仍傾向于依賴自身經驗或直覺。
這意味著,即使AI是正確的,醫生也往往會堅持自己的第一印象,導致他們做出的診斷不太準確。
這暴露出人和AI協同的深層矛盾,如何在醫生與AI之間建立起更加和諧的互動關系,成為AI醫療能否真正落地的關鍵。
這讓我想起歷史上多起民航空難事故,正是由于飛行員與自動駕駛爭奪控制權,最終釀成了不可挽回的結果。
必須承認,自動駕駛極大程度上簡化了飛行員的操作,實現了對飛機非常精準的操控,但當電腦結果會和飛行員的判斷產生沖突,將直接挑戰著航空安全的底線。
而現代民航制度已經發展出一套成熟的方案來應對,通過多層次的安全設計和標準化流程,構建起「人機協同」的決策體系。
同樣是人命關天的大事,當AI深入到醫療領域,或許可以學習航空業的經驗,在教育培訓制度、標準化工作程序、監管框架設計等方面發力,突破信任危機與效率瓶頸。
AI醫療大幕拉開,DeepSeek只是開始
盡管不少醫院均表示已經接入DeepSeek,但大部分醫院僅僅是停留在Chatbot(聊天機器人)的形式,其實際效果究竟如何需要打個大大的問號。
尤其是在醫療資源極為稀缺的中國,如果AI不能真正提高效率、解決實際問題,醫務工作人員將很快拋棄這些工具,風口之后只會留下一地雞毛。
DeepSeek的出現,僅僅解決了AI醫療最為初級的問題,其技術價值還沒有觸及醫療細分場景的核心痛點,而這個則是留給相關公司們的更大機會。
對于當下的AI醫療公司來說,與其在參數、性能上內卷,不如在理解臨床需求、匹配實際場景、優化用戶體驗、提供培訓支持等方向上深化,讓AI能夠融入到醫務人員的工作流之中。
未來的成功不在于AI能完成多少項“炫技”,而在于它能否成為診療過程中不可分割的智能伙伴。
當DeepSeek完成市場啟蒙后,AI醫療真正的戰場將在每一次問診、每一份病歷、每一項數據中進行,只有那些最懂患者、最懂醫院、最懂中國的公司,才能成為這場深刻的行業革命中的贏家。
參考文獻:
Hswen Y, Rubin R. An AI Chatbot Outperformed Physicians and Physicians Plus AI in a Trial—What Does That Mean? JAMA. 2025;333(4):273–276.
Agarwal, Nikhil and Moehring, Alex and Rajpurkar, Pranav and Salz, Tobias, Combining Human Expertise with Artificial Intelligence: Experimental Evidence from Radiology (July 2023)
—The End—
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.