大家好,我是Ai學(xué)習(xí)的老章
周末了,看篇論文:
https://www.biorxiv.org/content/10.1101/2025.04.06.647498v1.full.pdf
unsetunset研究背景與動(dòng)機(jī)unsetunset
隨著機(jī)器學(xué)習(xí) (ML) 模型在醫(yī)療保健領(lǐng)域的廣泛應(yīng)用,其復(fù)雜性和不透明性引發(fā)了醫(yī)療從業(yè)者的擔(dān)憂。在醫(yī)療決策直接影響患者生命的情況下,模型的可解釋性變得尤為重要。歐盟 AI 法案和美國(guó)關(guān)于 AI 安全發(fā)展的行政命令都強(qiáng)調(diào)了高風(fēng)險(xiǎn) AI 系統(tǒng)(如醫(yī)療 AI)的透明度要求??山忉屓斯ぶ悄?(XAI) 在提高 ML 過(guò)程透明度方面發(fā)揮著至關(guān)重要的作用,有助于用戶理解模型預(yù)測(cè)及其決定性變量。
unsetunset論文核心概念unsetunset
可辨別性 (Discernibility): 一種新的、面向用戶的評(píng)估指標(biāo),用于量化機(jī)器學(xué)習(xí)解釋的清晰度——從用戶視角衡量解釋如何有效地反映輸入數(shù)據(jù)與模型輸出之間的關(guān)系。這一概念彌補(bǔ)了現(xiàn)有 XAI 評(píng)估方法中的重要缺口:在算法可解釋性和人類(lèi)理解之間建立客觀、可量化的橋梁。
unsetunset研究方法與設(shè)計(jì)unsetunset 人類(lèi)研究設(shè)計(jì)
研究團(tuán)隊(duì)招募了 50 名具有不同背景的參與者:
來(lái)自生物醫(yī)學(xué)研究機(jī)構(gòu)(RESTORE 實(shí)驗(yàn)室,法國(guó)圖盧茲)的生理學(xué)家和醫(yī)生
來(lái)自計(jì)算機(jī)科學(xué)研究機(jī)構(gòu)(IRIT 實(shí)驗(yàn)室,法國(guó)圖盧茲)的數(shù)據(jù)科學(xué)家
來(lái)自數(shù)據(jù)科學(xué)碩士課程(UT1 Capitole,法國(guó)圖盧茲)的學(xué)生
參與者被要求評(píng)估各種解釋的清晰度,這些解釋來(lái)自于:
合成數(shù)據(jù)生成的模擬關(guān)系(線性、多項(xiàng)式、根函數(shù)、三角函數(shù)等)
真實(shí)生物醫(yī)學(xué)數(shù)據(jù)(NHANES 數(shù)據(jù)集,包含 60,402 名個(gè)體的 48 個(gè)生物變量)
研究者測(cè)試了 13 種不同的統(tǒng)計(jì)系數(shù),以找出最能代表用戶感知的可辨別性指標(biāo):
皮爾遜相關(guān)系數(shù)(pearson)
斯皮爾曼等級(jí)相關(guān)系數(shù)(spearman)
肯德?tīng)柕燃?jí)相關(guān)系數(shù)(kendall)
距離相關(guān)系數(shù)(dcor)
互信息(MI)
最大信息系數(shù)(MIC)
相關(guān)系數(shù)(xicor)等
![前5個(gè)圖是合成生成的,其余來(lái)自NHANES數(shù)據(jù)集。面板結(jié)合了左側(cè)的摘要圖和隨后的部分依賴(lài)圖。每個(gè)圖旁邊提供了統(tǒng)計(jì)系數(shù),顏色表示給定系數(shù)的歸一化值。]
unsetunset研究發(fā)現(xiàn)unsetunset 人類(lèi)評(píng)估結(jié)果
評(píng)估者間一致性:
解釋清晰度的評(píng)估者間一致性較低(ICC < 0.5)
不同背景(生物醫(yī)學(xué) vs 數(shù)據(jù)科學(xué))的參與者對(duì)解釋清晰度的判斷存在顯著差異
教育水平對(duì)評(píng)估的影響:博士學(xué)位持有者比碩士和學(xué)士學(xué)位持有者表現(xiàn)出更高的信心提升
最佳統(tǒng)計(jì)代理:
距離相關(guān)系數(shù) (dcor) 在所有測(cè)試指標(biāo)中表現(xiàn)最佳
通過(guò) Passing-Bablok 回歸和 Bland-Altman 圖分析,dcor 顯示出最低的差異偏差
dcor 能夠有效捕捉非線性和非單調(diào)關(guān)系,這在生物學(xué)領(lǐng)域尤為重要
![圖2:dcor 指標(biāo)更好地反映人類(lèi)對(duì)解釋可辨別性的感知能力。為了捕捉系數(shù)與用戶感知之間的關(guān)系,研究者進(jìn)行了 Passing-Bablok 回歸。兩個(gè)小提琴圖描繪了從每個(gè)用戶執(zhí)行的 Passing-Bablok 回歸中獲得的斜率及其置信區(qū)間寬度的分布。右側(cè)的 Bland-Altman 圖展示了每個(gè)統(tǒng)計(jì)系數(shù)的殘差(y軸)與系數(shù)值(x軸)。紅色虛線表示95%置信區(qū)間。]
應(yīng)用與優(yōu)勢(shì)
與特征重要性方法協(xié)同:
與 SHAP 等方法結(jié)合使用效果顯著
幫助識(shí)別不僅影響模型預(yù)測(cè),而且以用戶能夠有意義理解的方式影響預(yù)測(cè)的變量
增強(qiáng)了解釋的可接受性和實(shí)用性
作為特征選擇標(biāo)準(zhǔn):
基于 dcor 的加權(quán)可辨別性可作為額外的特征選擇標(biāo)準(zhǔn)
研究表明,即使在 R2 分?jǐn)?shù)保持高水平時(shí),可辨別性也能有效識(shí)別過(guò)擬合模型
提供了超越傳統(tǒng)性能指標(biāo)的模型評(píng)估維度
模型復(fù)雜性與可辨別性的關(guān)系:
在 100 個(gè) ML 模型(XGBoost 和 ANN)測(cè)試中,隨著模型復(fù)雜性增加,可辨別性一致降低
XGBoost 模型通常表現(xiàn)出比 ANN 更好的可辨別性
增加 ANN 深度導(dǎo)致可辨別性下降,而性能提升不顯著
帕累托前沿優(yōu)化:
研究構(gòu)建了幫助用戶在預(yù)測(cè)性能和解釋清晰度之間進(jìn)行權(quán)衡的帕累托前沿
為 NHANES 數(shù)據(jù)集提供了六種最優(yōu)特征選擇方案
例如,用戶可以在子集 4(可辨別性 0.895)和子集 5(更高 R2)之間選擇
如果將問(wèn)題擴(kuò)展到模型選擇,使用 XGBoost 的子集 3 可達(dá)到更高的可辨別性(0.90),R2 略有下降(0.67)![圖3:可辨別性作為額外指標(biāo)用于獲取更易接受的ML模型。A) 過(guò)擬合與可辨別性之間的反相關(guān)關(guān)系在三個(gè)XGBoost模型中觀察到。可辨別性能夠識(shí)別過(guò)擬合模型(圖3A中的圖1),即使它們的R2值相似(圖3A中的圖2和3)。B) 為NHANES數(shù)據(jù)集繪制的帕累托前沿,由六種最優(yōu)特征選擇方案組成,每種方案代表性能與可辨別性之間的權(quán)衡。]
適應(yīng)復(fù)雜關(guān)系:
不同于傳統(tǒng)可讀性指標(biāo),可辨別性能夠適應(yīng)非單調(diào)、非線性關(guān)系
這一特性使其特別適合生物學(xué)領(lǐng)域,因?yàn)樯锵到y(tǒng)中非線性關(guān)系普遍存在且至關(guān)重要
能夠捕捉到傳統(tǒng)線性相關(guān)系數(shù)可能忽略的復(fù)雜模式
對(duì)用戶背景的穩(wěn)健性:
研究表明,可辨別性指標(biāo)對(duì)不同教育水平和專(zhuān)業(yè)領(lǐng)域的用戶都有效
這種穩(wěn)健性支持了在不同用戶群體中實(shí)現(xiàn)公平和透明的模型解釋
克服了由教育背景或個(gè)人經(jīng)驗(yàn)引起的偏見(jiàn),為解釋提供了客觀參考
自動(dòng)化計(jì)算能力:
與需要專(zhuān)家逐案評(píng)估的傳統(tǒng)方法(如合理性、用戶滿意度)不同
可辨別性可以通過(guò) dcor 系數(shù)自動(dòng)計(jì)算,節(jié)省資源并提高效率
適用于大規(guī)模模型評(píng)估和自動(dòng)化 ML 流程
可解釋 AI (XAI) 系統(tǒng)整合:
作者提倡將可辨別性整合到 XAI 系統(tǒng)中,特別是在醫(yī)療等高風(fēng)險(xiǎn)領(lǐng)域
符合美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院(NIST)提出的"可解釋人工智能四原則"
有助于增強(qiáng)用戶對(duì)系統(tǒng)的信任和監(jiān)管透明度
模型驗(yàn)證與優(yōu)化:
低可辨別性可能表明需要修改模型超參數(shù)以防止過(guò)擬合
可作為模型復(fù)雜性與性能之間權(quán)衡的指導(dǎo)原則
為醫(yī)療 AI 系統(tǒng)的設(shè)計(jì)提供了新的優(yōu)化維度
相關(guān)性與因果性的區(qū)分:
研究強(qiáng)調(diào)了相關(guān)性不等同于因果性的經(jīng)典謬誤
在 ML 模型中,相關(guān)性可能源于因果關(guān)系、混雜因素或選擇偏差
實(shí)施可辨別性時(shí)應(yīng)包括對(duì)這些基本術(shù)語(yǔ)的清晰解釋?zhuān)詭椭脩舯苊鉂撛诘恼`解
跨領(lǐng)域應(yīng)用潛力:
雖然研究聚焦于醫(yī)療領(lǐng)域,但可辨別性概念有望應(yīng)用于其他研究領(lǐng)域
如金融、生態(tài)學(xué)、汽車(chē)等需要透明且可解釋 AI 的領(lǐng)域
為不同專(zhuān)業(yè)背景的用戶提供了統(tǒng)一的解釋評(píng)估框架
本研究引入的可辨別性指標(biāo)為評(píng)估機(jī)器學(xué)習(xí)模型解釋提供了新視角,特別是在醫(yī)療領(lǐng)域。通過(guò)將用戶感知與客觀統(tǒng)計(jì)指標(biāo)相結(jié)合,研究者能夠開(kāi)發(fā)出既高性能又易于理解的模型,從而增強(qiáng)醫(yī)療 AI 系統(tǒng)的可接受性和實(shí)用性。距離相關(guān)系數(shù) (dcor) 作為可辨別性的最佳代理,能夠有效捕捉復(fù)雜的非線性關(guān)系,并在不同用戶群體中保持穩(wěn)定性。這種方法不僅提高了模型的透明度,還為未來(lái)的可解釋 AI 研究提供了有價(jià)值的框架,有望在醫(yī)療決策支持系統(tǒng)中發(fā)揮重要作用。
配圖復(fù)現(xiàn)思路:
Figure 1: 組合圖示例 (Examples of combination plots)
內(nèi)容來(lái)源: 前5個(gè)圖的數(shù)據(jù)是人工合成的,模擬了不同的函數(shù)關(guān)系(如線性、多項(xiàng)式、三角函數(shù)等,論文在方法部分有提及)。其余的圖則來(lái)源于真實(shí)的 NHANES 數(shù)據(jù)集。
解釋方法: 使用了SHAP(SHapley Additive exPlanations) 作為 XAI 方法來(lái)生成解釋值。
可視化組合: 圖本身是一種組合圖,左側(cè)是 **SHAP 摘要圖 (summary plot)**,右側(cè)是 **部分依賴(lài)圖 (partial dependence plot)**。
實(shí)現(xiàn): 論文描述了圖的構(gòu)成和數(shù)據(jù)來(lái)源,但沒(méi)有明確提及使用了哪個(gè)具體的繪圖庫(kù)(如 Python 的 Matplotlib, Seaborn, 或者 SHAP 庫(kù)自帶的繪圖功能)。實(shí)現(xiàn)上需要先用 SHAP 計(jì)算解釋值,然后分別生成摘要圖和部分依賴(lài)圖,最后將它們并排組合在一起。
Figure 2: dcor 指標(biāo)與人類(lèi)感知的對(duì)比
核心分析: 此圖旨在展示dcor(距離相關(guān)系數(shù))相較于其他統(tǒng)計(jì)指標(biāo),更能反映用戶對(duì)解釋可辨別性的感知。
統(tǒng)計(jì)方法:- 計(jì)算了多種相關(guān)性/依賴(lài)性系數(shù)(如 dcor, pearson, spearman, kendall, xicor 等)。- 對(duì)每個(gè)用戶進(jìn)行了Passing-Bablok 回歸分析,以比較統(tǒng)計(jì)系數(shù)與用戶評(píng)分之間的一致性。- 繪制了Bland-Altman 圖來(lái)展示統(tǒng)計(jì)系數(shù)預(yù)測(cè)值與用戶實(shí)際評(píng)分之間的殘差。
可視化:- 使用了小提琴圖 (violin plots)來(lái)展示 Passing-Bablok 回歸得到的斜率和置信區(qū)間寬度的分布。- 使用了散點(diǎn)圖 (Bland-Altman plots)來(lái)展示殘差。
實(shí)現(xiàn): 實(shí)現(xiàn)這張圖需要進(jìn)行大量的統(tǒng)計(jì)計(jì)算(相關(guān)系數(shù)、回歸分析、殘差計(jì)算)和相應(yīng)的數(shù)據(jù)可視化。論文沒(méi)有指明使用的具體統(tǒng)計(jì)軟件或庫(kù)(如 R 語(yǔ)言的相應(yīng)包, Python 的 SciPy, Statsmodels, Pingouin 等)或繪圖庫(kù)(如 Matplotlib, Seaborn)。
Figure 3: 可辨別性作為模型評(píng)估和選擇的指標(biāo)
圖 3A: 展示了過(guò)擬合與加權(quán)可辨別性 (weighted discernibility)之間的關(guān)系。比較了不同復(fù)雜度的 XGBoost 和 ANN 模型在 R2 和加權(quán)可辨別性上的表現(xiàn),說(shuō)明可辨別性可以識(shí)別出 R2 值相似但已過(guò)擬合的模型。
圖 3B: 展示了一個(gè) **帕累托前沿 (Pareto Front)**,用于在模型性能 (R2)和加權(quán)可辨別性之間進(jìn)行權(quán)衡,以選擇最優(yōu)的特征子集/模型組合。
計(jì)算:- 訓(xùn)練多個(gè)機(jī)器學(xué)習(xí)模型(論文提到了 XGBoost 和 ANN)。- 需要計(jì)算每個(gè)模型的R2值。- 需要計(jì)算加權(quán)可辨別性(論文提到基于 dcor,但具體加權(quán)方式可能結(jié)合了特征重要性如 SHAP 值,但未詳細(xì)說(shuō)明)。- 需要識(shí)別出帕累托最優(yōu)解來(lái)構(gòu)建帕累托前沿。
實(shí)現(xiàn): 這張圖的實(shí)現(xiàn)涉及機(jī)器學(xué)習(xí)模型訓(xùn)練、性能評(píng)估、自定義指標(biāo)(加權(quán)可辨別性)計(jì)算以及帕累托前沿的構(gòu)建和可視化。論文沒(méi)有指明使用的機(jī)器學(xué)習(xí)庫(kù)(如 scikit-learn, XGBoost, TensorFlow/Keras)或繪圖庫(kù)。
制作不易,如果這篇文章覺(jué)得對(duì)你有用,可否點(diǎn)個(gè)關(guān)注。給我個(gè)三連擊:點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個(gè),謝謝你看我的文章,我們下篇再見(jiàn)!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.