出品 | 虎嗅科技醫(yī)療組
作者 | 陳廣晶
編輯 | 苗正卿
頭圖 | AI生成
指望“賽博醫(yī)生”整頓醫(yī)療的人們又失望了。
試想一種尖端的醫(yī)療技術(shù),可以治好你的疾病,但是醫(yī)生因為不掌握信息,推薦你用了傳統(tǒng)的治療手段,恢復(fù)效果遠不如采用新技術(shù)的病友。知道真相后,你會不會感到惱火?
同樣的情況,如果發(fā)生在賽博醫(yī)生身上,原因不再是信息滯后,而是AI根據(jù)你的性別或者收入水平作出了這樣的選擇呢?
近期國際上一系列研究表明,越來越聰明的大模型,把醫(yī)療領(lǐng)域“看人下菜碟”的問題也放大了。
美國西奈山伊坎醫(yī)學(xué)院和西奈山衛(wèi)生系統(tǒng)的研究者在其發(fā)表在Nature子刊上的研究成果顯示,被標記為“高收入”的人群更可能獲得CT和核磁檢查的機會,中低收入病例則通常被安排做基本檢查或不進行檢查。
而被標注為“無住房”等信息的患者則會更頻繁被指向緊急護理、侵入性干預(yù)或心理健康評估。
這項研究評估了9個自然語言大模型,涉及1000個急診病例(500個真實病例和500個合成病例)的170萬個看診結(jié)果。
更早的研究顯示,AI僅憑X射線就能預(yù)測出患者的種族、性別等信息。這也令賽博醫(yī)生比人類醫(yī)生更精于“看人下菜碟”。
研究者認為,是模型驅(qū)動了這些“偏見”,最終會導(dǎo)致不同人群在健康水平上拉開距離。而在硬幣的另一面,部分患者也可能為本不需要的檢查、治療買單了,不僅浪費了金錢,還可能有損健康。
在令人失望的結(jié)局背后,業(yè)界認為,人類的醫(yī)療健康也需要盡快轉(zhuǎn)向了。
賽博神醫(yī)被人類教壞了?
投喂臟數(shù)據(jù)會污染大模型,是越來越令A(yù)I企業(yè)苦惱的事情之一,在醫(yī)療領(lǐng)域,其危害可能更大。
華東政法大學(xué)中國法治戰(zhàn)略研究院特聘副研究員童云峰曾在撰文中表示,擔心未來會出現(xiàn)AI把普通感冒看成癌癥的情況。
美國研究者的一項多中心隨機臨床小片段調(diào)查研究似乎也在驗證這種擔憂:研究者發(fā)現(xiàn),當臨床醫(yī)生用被顯示有系統(tǒng)偏見的AI模型預(yù)測時,診療準確性顯著下降了11.3%。
為此,還有人調(diào)侃說,聰明的AI幫小忙,壞AI捅大簍子。
究其原因,數(shù)據(jù)確實是非常關(guān)鍵的因素。
根據(jù)中國中醫(yī)科學(xué)院中醫(yī)藥信息研究所的仝媛媛等人研究中,除了常受詬病的因為信息化水平偏低等原因造成的醫(yī)療數(shù)據(jù)質(zhì)量欠佳,還有很多數(shù)據(jù)問題。
包括:數(shù)據(jù)代表性不強。比如:經(jīng)濟收入較低的人群,本來就較少到醫(yī)院看病,以及兒童、孕婦等特殊人群,很難開展藥物研究等,都會導(dǎo)致數(shù)據(jù)不足。數(shù)據(jù)標注質(zhì)量不高。如:標注時帶有個人偏見、主觀判斷、數(shù)據(jù)標注標準不統(tǒng)一等,就可能造成數(shù)據(jù)出現(xiàn)偏差。
更重要的是,醫(yī)療活動中,本來就存在著大量無意識的偏見問題。
早在去年8月,已有研究者在美國《國家科學(xué)院院刊》 上發(fā)表論文稱,醫(yī)生常常視女性患者的疼痛為“夸大其詞或歇斯底里”,而認為男性更加堅韌。
這項研究涉及2萬份患者出院記錄,就診原因都是沒有明確原因的非特異性偏頭疼。結(jié)果顯示:女性患者的平均候診時長比男性患者長30分鐘。在就診記錄中,女性患者疼痛的評分概率也比男性患者低10%,給男性患者對疼痛評級(1到10級)也明顯高于女性患者。
而此前,另有英國研究表明,在初診中,女性心?;颊弑徽`診的幾率高出男性患者50%!此外,中風、甲狀腺機能減退等也是女性患者容易被誤診的疾病。
在過度診療方面,復(fù)旦大學(xué)公共衛(wèi)生學(xué)院、上海市浦東新區(qū)疾控中心的研究顯示,9年間,中國女性肺癌患者過度診療率增長一倍以上,從2011年至2015年22%增長至2016年至2020年的50%!其中女性肺腺癌患者中近90%是過度診斷。
如果將這類數(shù)據(jù)投喂給大模型固然會帶來不好的影響。但是,無偏的數(shù)據(jù)就能消除偏見?專業(yè)人士的回答仍然是否定的。
人工智能“自治”成救命方
“只學(xué)正面的東西,不學(xué)負面的東西,不一定培養(yǎng)出一個道德感非常強的人?!?/strong>
復(fù)旦大學(xué)計算機與智能創(chuàng)新學(xué)院教授邱錫鵬就曾在行業(yè)活動上這樣坦言。他認為,從數(shù)據(jù)上下手解決偏見問題并不是好辦法,首先直接構(gòu)建無偏的數(shù)據(jù)庫是非常困難的。而且好的數(shù)據(jù)也未必能夠訓(xùn)練出完全無偏見的大模型。這也跟人一樣。
他認為,這種AI很難滿足人類倫理要求的現(xiàn)象,主要是大模型與人類的追求有差異造成的。
比如:在醫(yī)療中,人類醫(yī)生會在疾病治療和患者體驗之間做一些平衡,而AI就可能為了追求“治病”而對患者痛苦視而不見。
而人機對齊,就是要給大模型提供一個更好的倫理導(dǎo)向,在大模型中注入人類的價值觀。
常見路徑包括在訓(xùn)練階段,增加過濾數(shù)據(jù)的環(huán)節(jié);加入指令微,讓大模型理解人類的話;還有就是利用獎勵函數(shù),也就是,先人為給數(shù)據(jù)打分形成一個“獎勵模型”,再用強化學(xué)習(xí)來迭代這種方法,引導(dǎo)模型來給出符合人類價值觀的回答。RAG(檢索增強生成)、RLHF(基于人工反饋的強化學(xué)習(xí))等,都屬人機對齊工具之列。
某種程度上說,這種模式也給大模型加了一個AI監(jiān)工,隨時規(guī)范其言行。
然而,這種方式也常被認為是治標不治本的,有研究者認為,人機對齊,可能會增加人工智能的管理風險等。
童云峰就曾提到,人機對齊所需的成本和不可避免的損失,是一筆不小的開銷,會給企業(yè)造成巨大的財務(wù)壓力。OpenAI曾設(shè)立超級對齊團隊,原本計劃在2027年解決對齊問題,結(jié)果成立一年這個團隊就解散了。按照項目牽頭人、OpenAI原首席科學(xué)家 Ilya Sutskever的計劃,該項目會消耗20%的算力。
在開頭所提到的美國西奈山伊坎醫(yī)學(xué)院和西奈山衛(wèi)生系統(tǒng)的研究中,研究者對模型進行了修正,但,“偏見”仍然存在。醫(yī)療領(lǐng)域的偏見和過度診療等醫(yī)療領(lǐng)域的頑疾,其復(fù)雜性和難度,都超乎想象,AI等新技術(shù)能夠解決一部分,但非根本問題。
必須面對的現(xiàn)實是,生成式人工智能本質(zhì)上還是概率模型,小概率事件造成損害的情況很難避免。這對于容錯率無限趨近于零的醫(yī)療行業(yè)來說,是很大的挑戰(zhàn)。
醫(yī)療本身的晉級更重要
客觀上說,過度診療、診療中的偏見,也與醫(yī)學(xué)的發(fā)展水平有關(guān)。
“精準醫(yī)療和過度醫(yī)療之間有一個灰色的地帶。”北京協(xié)和洛奇功能醫(yī)學(xué)中心主任何健博士告訴虎嗅。
可以說,過度醫(yī)療本身也是相對的概念。何健援引其翻譯、湛廬策劃出版的《精準醫(yī)療》一書向虎嗅指出,要想使這個灰色地帶向精準醫(yī)療傾斜,一個重要的方式就是用足夠多的數(shù)據(jù)來把邊界做得更加清晰。
在這本書中,作者格倫·德弗里(Glen de Vries)——全球領(lǐng)先的生命科學(xué)研究云平臺 Medidata 聯(lián)合創(chuàng)始人,以阿爾茨海默病等疾病的預(yù)測為例,闡釋了一個道理:某些疾病如果放在足夠長的時間尺度上,幾乎每個人都會得,但是如果這一疾病還沒有出現(xiàn)癥狀,患者就因其他疾病離世了,那干預(yù)可能就沒有意義了。
要解決這個問題,作者認為,明確癡呆損傷和死亡兩個閾值是非常重要的。如果預(yù)測到一個人在“死亡”閾值前就可能出現(xiàn)癡呆損傷,甚至在生命較早期就會出現(xiàn)這種損傷,那及時干預(yù)無疑是必要的;如果在死亡閾值后才出現(xiàn)損傷,那干預(yù)就是無意義的。
探索這個“閾值”或者邊界,需要醫(yī)學(xué)的持續(xù)進步,也需要足夠的數(shù)據(jù)支撐。何健向虎嗅指出,這個過程是動態(tài)的,醫(yī)學(xué)需要不斷地自我革新,也需要足夠的證據(jù)去驗證臨床經(jīng)驗。
實際上,要想充分掌握一個人的健康情況,數(shù)據(jù)量可能是驚人的。比如由何健2007年引入國內(nèi)的功能醫(yī)學(xué),要畫出一個人的健康地圖,至少需要檢測200多項指標。(這一醫(yī)學(xué)分支是1871年由英國科學(xué)家提出的,就是要在掌握病因的基礎(chǔ)上,通過更正錯誤的飲食、生活方式等,讓人恢復(fù)健康——虎嗅注)
患者生病后在醫(yī)院的診療過程,也是醫(yī)療費用、檢查損害和檢查需求之間的平衡。結(jié)合過細的分科,醫(yī)生有時很難找到病因,從根本上解決問題。
何健以濕疹為例指出,功能醫(yī)學(xué)認為幾乎所有的濕疹都是腸道免疫失調(diào)導(dǎo)致的,很多患者通過調(diào)理腸道,治好了濕疹。但是在西醫(yī)分科中,皮膚科和消化科并沒有太多交集。這也意味著,現(xiàn)有主流醫(yī)學(xué)模式?jīng)]法發(fā)現(xiàn)二者之間的聯(lián)系,也無法給出更好的診療方案。
功能醫(yī)學(xué)等關(guān)注整體的醫(yī)學(xué)分支可以對醫(yī)學(xué)的進步形成有力補充,人工智能在其中也可以發(fā)揮很大的作用。不過,這也需要更多患者和醫(yī)生們觀念改變——從以疾病為中心向以病人整體為中心轉(zhuǎn)變,才能實現(xiàn)。
已有研究表明,打破信息不對稱對抑制過度診療大有裨益:患者到不同的醫(yī)療機構(gòu)找不同的醫(yī)生看診,來交叉驗證診斷結(jié)果、治療方案,也可以威懾醫(yī)生減少過度醫(yī)療,降幅甚至可以高達40%!
可以預(yù)見,在可穿戴設(shè)備、人工智能等新技術(shù),讓人們越來越了解自身健康狀況的趨勢下,過度診療的空間勢必不斷被壓縮。
對于普通人來來說,仍然需要注意的是,人體有驚人的自愈能力,很多生理性的改變,都算不上疾病,并不需要過度關(guān)注或治療。比如:近年來經(jīng)常引起焦慮的肺結(jié)節(jié)(7mm以下)、甲狀腺結(jié)節(jié)、竇性心律、宮頸糜爛等。
從這個意義上講,當人類可以更清晰地掌握自身的健康情況,如何解讀和面對越來越多的生理性改變,乃至早期病變,就成了新的課題。
本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4415409.html?f=wyxwapp
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.