一、背景
心臟移植 (HT) 是心力衰竭晚期患者的生命救治手段,不僅能夠提供生存的最后機會,還能改善生活質(zhì)量。然而,心臟移植面臨諸多挑戰(zhàn):
? "心臟移植 (HT) 是心力衰竭晚期患者的生命救治手段,提供生存的最后機會同時改善生活質(zhì)量。然而,由于合適供體心臟的極其有限、供體與受體之間的匹配復雜性,以及移植后的重大風險(包括移植排斥和感染),它仍然是醫(yī)學中最具挑戰(zhàn)性的手術之一。"(出處:第 1 頁)
傳統(tǒng)上,醫(yī)學界開發(fā)了多種基于回歸的風險評分模型來預測心臟移植后的死亡率,包括供體風險指數(shù) (DRI)、風險分層評分 (RSS) 和心臟移植后死亡率預測指數(shù) (IMPACT)。這些模型雖然有所幫助,但在特異性和泛化能力方面存在固有局限性。
近年來,人工智能 (AI) 和機器學習 (ML) 作為傳統(tǒng)風險評分模型的強大替代方案出現(xiàn),提供更高的預測準確性和個性化能力。與傳統(tǒng)模型依賴預先指定的變量和線性關系不同,AI 和 ML 算法能夠分析大量多樣化和復雜的數(shù)據(jù),識別傳統(tǒng)方法無法檢測到的模式和交互作用。
本系統(tǒng)綜述和元分析旨在評估機器學習模型在心臟移植領域的表現(xiàn),重點關注 ROC 曲線下面積 (AUC) 作為預測準確性的指標,并探討 AI 模型在預測移植結果方面的臨床潛力。 https://r2blog.zhanglearning.com/2025/04/dd1473510ee2ecfad65dc4576d2d5d34.png
二、方法 2.1 搜索策略
? "一項全面的系統(tǒng)綜述于 2024 年 5 月 12 日進行,利用四個文獻數(shù)據(jù)庫:PubMed、Embase、Scopus 和 Web of Science。搜索使用 MeSH 術語及其同義詞,包括'心臟移植'、'人工智能'和'死亡率'。搜索術語針對每個特定數(shù)據(jù)庫進行了適當調(diào)整。未指定出版年份的限制。"(出處:第 2 頁)
為確保選擇過程的徹底和無偏,兩位作者獨立評估檢索到的文章以確定其納入情況。第三位審稿人解決了兩位初始審稿人之間可能出現(xiàn)的分歧。
2.2 納入標準
納入標準包括以下方面:僅限于使用完善研究設計的研究,包括前瞻性和回顧性隊列研究、病例對照和實驗研究以及隨機對照試驗 (RCT)。敘述性綜述、元分析、病例報告、動物研究、會議摘要、社論和評論被排除在外。此外,非英語撰寫的研究也被排除。
研究基于以下人群、干預、比較和結果 (PICO) 標準納入:
人群:接受心臟移植的患者
干預:使用人工智能的預測模型
比較:與標準臨床護理實踐或非 AI 預測模型的比較
結果:死亡率預測的 ROC 曲線下面積 (AUC)
兩位作者獨立進行數(shù)據(jù)提取,第三位作者在出現(xiàn)任何可能的差異時做出最終決定。數(shù)據(jù)被提取到預先構建的 Excel 表格中,包括第一作者、出版年份、國家、人群類型和規(guī)模、人群年齡和性別、移植后死亡率時間框架、使用的算法、表現(xiàn)最佳的算法、AUC 和標準誤差或 95% 置信區(qū)間、驗證模式以及驗證類型。
使用 QUADAS-2 工具評估納入研究的偏倚風險。每項研究在四個領域進行評估:患者選擇、指標測試、參考標準以及流程和時間。研究被分類為高風險、低風險和不明確風險偏倚。
2.4 統(tǒng)計分析
? "納入研究的 AUC 元分析使用 Stata 版本 18 進行。由于機器學習算法的異質(zhì)性,采用隨機效應模型。內(nèi)部和外部驗證的模型在主要元分析中分開。使用 I2統(tǒng)計量評估異質(zhì)性,值大于 50% 表示存在實質(zhì)性異質(zhì)性。"(出處:第 3 頁)
為了調(diào)查異質(zhì)性,按算法類型、機器學習或深度學習算法進行了亞組分析,并按預測死亡率的時間 (即 12 個月、3 個月和 120 個月) 進行了元回歸。敏感性分析使用留一法進行,并通過排除高偏倚風險的研究進行。如果元分析包括至少 10 項研究,則使用 Egger 回歸檢驗評估發(fā)表偏倚。
三、實驗與結果 3.1 研究選擇
圖 1. PRISMA 流程圖
在初始搜索過程中確定的 317 篇文章中,去除重復后剩余 204 篇;標題 - 摘要篩選后選擇 66 篇進行全文檢索和評估,其中 17 篇記錄符合預定義的納入標準,被納入當前系統(tǒng)綜述。其中,12 篇出版物包含足夠的數(shù)據(jù)被納入元分析。
3.2 研究特征
納入的研究發(fā)表于 2015 年至 2023 年間,其中 11 篇自 2020 年以來發(fā)表。大多數(shù)研究 (n=13) 使用成人人群,三項研究使用兒科人群,一項研究在其樣本人群中匯集了成人和兒童。
? "人群主要來自美國器官共享聯(lián)合網(wǎng)絡 (UNOS) 注冊表 (n=14),而國際心肺移植學會 (ISHLT) 注冊表被兩項研究使用,移植受者科學注冊表 (SRTR) 被一項研究使用,北歐胸部移植數(shù)據(jù)庫被一項研究使用,本地醫(yī)療記錄被一項研究使用。人群規(guī)模從 381 名 (Zhou 等,2021) 到 67,939 名 (Miller 等,2022) 參與者不等。"(出處:第 3 頁)
關于移植后死亡率,大多數(shù)研究調(diào)查了 1 年死亡率 (n=15),但時間點范圍從 3 個月到 10 年不等。
3.3 模型表現(xiàn)
最常用的算法是隨機森林 (RF)、人工神經(jīng)網(wǎng)絡 (ANN)、支持向量機 (SVM)、決策樹 (DT)、自適應提升 (AdaBoost)、極端梯度提升 (XGB) 和梯度提升機 (GBM),按降序排列。
表 1 展示了納入研究的詳細特征信息。
表 1. 納入研究的特征
將 12 項研究的數(shù)據(jù)合并進行元分析后,所有 AI 算法的總體 AUC 為 0.65(95%CI:0.64,0.67),外部驗證模型的 AUC 為 0.64(95%CI:0.62,0.65),內(nèi)部驗證模型的 AUC 為 0.65(95%CI:0.64,0.67),亞組差異無統(tǒng)計學意義 (p 值=0.10)。
圖 2. 按算法類型和機器學習 vs.深度學習算法的亞組分析
存在顯著的異質(zhì)性 (I2=100.00%),通過預測死亡率時間的元回歸和所使用算法類型的亞組分析進行了調(diào)查。元回歸顯示,移植后時間越長,模型表現(xiàn)越好 (系數(shù)=0.0005436,p 值=0.008,R2=6.9%)。亞組分析也顯示算法類型之間存在顯著的組間差異 (p 值<0.01),但機器學習和深度學習算法之間沒有差異 (p 值=0.67)。
? "在算法中,K 近鄰具有最低的 AUC(0.53,95%CI:0.50,0.55),而 CatBoost 具有最高的 AUC(0.80,95%CI:0.74,0.86)。"(出處:第 4 頁)
當僅匯總每項研究中表現(xiàn)最佳的算法時,獲得了 0.73 的匯總 AUC(95%CI:0.68,0.78),存在顯著的異質(zhì)性 (I2=99.9%)。
圖 4. 每項納入研究中表現(xiàn)最佳模型的 ROC 曲線下面積的元分析
3.4 偏倚風險評估
使用 QUADAS-2 工具評估了所有 17 項研究的偏倚風險。在這些研究中,八項研究被發(fā)現(xiàn)具有高偏倚風險,四項具有不明確的偏倚風險,主要是由于分析方法不明確。其余五項研究均被評估為低偏倚風險。 ??upload failed, check dev console
圖 5. 使用 QUADAS-2 工具的偏倚風險
在納入元分析的研究中,四項具有低偏倚風險,七項具有高偏倚風險,一項研究具有不明確的偏倚風險。最常見的偏倚原因是流程和時間領域。
四、討論與應用 4.1 模型性能與臨床意義
本研究發(fā)現(xiàn),機器學習模型在預測心臟移植后死亡率方面的總體預測能力為 0.65,而每項研究中表現(xiàn)最佳算法的元分析產(chǎn)生了 0.73 的匯總 AUC。平均而言,CatBoost 表現(xiàn)最佳,AUC 為 0.80,而 KNN 表現(xiàn)最差,AUC 為 0.53。傳統(tǒng)機器學習和深度學習算法表現(xiàn)相似,并且當心臟移植后經(jīng)過的時間越長,模型表現(xiàn)越好。
? "盡管我們的匯總分析顯示 ML 模型的區(qū)分能力相對較低,但必須通過與文獻中其他已建立的預測模型進行比較來將其性能置于背景中。供體風險指數(shù) (DRI)、風險分層評分 (RSS) 和心臟移植后死亡率預測指數(shù) (IMPACT) 是使用邏輯回歸開發(fā)的三個最突出的模型。"(出處:第 6 頁)
Nilsson 等人比較了國際心臟移植生存算法 (IHTSA) 模型與 DRI、RSS 和 IMPACT,發(fā)現(xiàn) IHTSA 在預測 1 年死亡率方面優(yōu)于所有三個模型。同樣,Medved 等人也發(fā)現(xiàn) IHTSA 在預測心臟移植后 1 年死亡率和長期生存方面顯示出比 IMPACT 更優(yōu)的區(qū)分能力。
4.2 重要預測因素
在納入的研究中,確定了一系列對死亡率有顯著貢獻的變量,可分為受體因素、供體因素以及與移植相關和術后因素。
受體特征,包括功能狀態(tài)、年齡、特定診斷和兒科考慮因素,成為死亡率的關鍵預測因素:
? "Ashfaq 等人將受體在列表時的功能狀態(tài)確定為 1 年死亡率最重要的預測因素之一。同樣,Shou 等人報告受體功能狀態(tài)、年齡和肺毛細血管楔壓是其 GBM 模型中最具預測性的變量。Nilsson 等人強調(diào)受體年齡和肌酐水平是國際心臟移植生存算法 (IHTSA) 中的關鍵預測因素。"(出處:第 7 頁)
供體特征被證明顯著影響結果:
? "Lisboa 等人的部分響應網(wǎng)絡-Lasso 模型確定供體年齡和缺血時間對 1 年死亡率具有高度預測性。Nilsson 等人同樣發(fā)現(xiàn)供體年齡是其分析中的重要因素。"(出處:第 7 頁)
與移植過程相關的變量,如呼吸機使用、缺血時間和移植物狀態(tài),在幾個模型中很突出:
? "Ashfaq 等人強調(diào)移植時呼吸機使用是 1 年死亡率的重要預測因素。Lisboa 等人和 Agasthi 等人都將缺血時間確定為 1 年和 5 年死亡率的重要因素。"(出處:第 7 頁)4.3 研究局限性
本研究存在幾個局限性:
計算的累積 AUC(AUC=0.65) 意味著當前 AI 模型僅提供有限程度的臨床適用性,因為在診斷價值研究中,AUC 值高于 0.90 表示出色的性能,而 AUC 值低于 0.80,即使在統(tǒng)計上顯著,也意味著非常有限的臨床效用。
匯總模型性能時觀察到高度異質(zhì)性。我們的分析成功地將這種異質(zhì)性歸因于模型類型和心臟移植后經(jīng)過的時間。其他因素,如人群特征和疾病類型,也可能導致這種異質(zhì)性。
特征選擇、超參數(shù)設置和數(shù)據(jù)預處理方法可能導致異質(zhì)性,因為構建所包含模型時使用了廣泛的方法。
根據(jù) QUADAS-2 工具,大多數(shù)納入的研究被判斷為低質(zhì)量。
? "總之,這項系統(tǒng)綜述和元分析評估了用于預測心臟移植 (HT) 后死亡率的 ML 模型,產(chǎn)生了 0.73 的匯總 AUC,其中 CatBoost 表現(xiàn)最佳 (AUC 為 0.80)。ML 模型展示了超越傳統(tǒng)基于回歸的評分 (如 DRI、RSS 和 IMPACT) 的潛力,能夠捕捉復雜的非線性交互作用。然而,高異質(zhì)性和可變的研究質(zhì)量限制了匯總結果的可靠性。死亡率的關鍵預測因素包括受體診斷和功能狀態(tài)、年齡和供體特征。未來的研究應該專注于改善方法一致性,并直接比較 ML 方法與傳統(tǒng)模型,以優(yōu)化 HT 中的臨床決策。"(出處:第 8 頁)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.