本文整理自《Radiology》期刊(IF=12.1)在2025年2月發(fā)表的一篇專家述評文章,對于放射科醫(yī)生撰寫AI相關(guān)研究論文提出了10個tips,這些tips對于任何AI論文寫作者都具有參考價值。
2017年的一次會議上,有位專家提出了一個發(fā)人深省的問題:"人工智能(AI)會取代醫(yī)生嗎?"。他隨即給出了答案:"我的回答是否定的,但使用AI的醫(yī)生必將取代那些拒絕AI的同行"。
如今《Radiology》期刊約三分之一的論文都以AI為核心議題,關(guān)于大語言模型和生成式AI(如ChatGPT)的研究文章尤為熱門。這意味著臨床醫(yī)生不僅需要掌握AI應(yīng)用技能,還應(yīng)學(xué)會如何撰寫AI相關(guān)的論文(期刊編輯亦然)。
1. 撰寫AI相關(guān)論文前,請查閱相關(guān)的《人工智能研究報告規(guī)范》
在《Radiology》期刊發(fā)表AI相關(guān)論文時,需特別注意2024版《醫(yī)學(xué)影像人工智能檢查清單指南(CLAIM)》的兩項術(shù)語更新[1]:
? 使用"reference standard"替代"ground truth"或"gold standard"
? CLAIM專家組建議避免使用"validation"一詞,推薦采用"model optimization"或" tuning"等表述
2. 詳述所有數(shù)據(jù)集并附上數(shù)據(jù)集特征表與流程圖
在"材料與方法"部分,請按以下順序描述數(shù)據(jù)集:訓(xùn)練集(training set)、驗證集(validation set)、內(nèi)部測試集(internal test set)和外部測試集(external test set)[1,2]。需特別說明的是,驗證集可能有多種命名方式,例如調(diào)優(yōu)集(tuning set)或開發(fā)集(development set)。根據(jù)CLAIM指南要求,應(yīng)避免使用"驗證集"這一術(shù)語,而是描述"用于模型優(yōu)化的數(shù)據(jù)",可使用術(shù)語“tuning”[1]。
在"結(jié)果"部分的開篇,需包含:
?數(shù)據(jù)集的特征表:展示人群的人口統(tǒng)計學(xué)特征,用于評估模型訓(xùn)練人群能否代表其應(yīng)用的目標(biāo)人群。若訓(xùn)練數(shù)據(jù)缺乏關(guān)鍵預(yù)測因素(如年齡、性別等),模型將無法有效預(yù)測結(jié)局。
?流程圖:以可視化形式呈現(xiàn)各數(shù)據(jù)集樣本量及篩選過程。
3. 詳細描述模型的訓(xùn)練方法
為確保最佳性能,訓(xùn)練模型時應(yīng)使用該領(lǐng)域內(nèi)廣泛認可且可合理獲取的高質(zhì)量數(shù)據(jù)。例如,優(yōu)先選擇技術(shù)先進的影像學(xué)檢查結(jié)果、病理結(jié)果或長期隨訪影像和結(jié)局?jǐn)?shù)據(jù),而非普通放射學(xué)報告[2]。
?訓(xùn)練過程:
1.需詳細描述訓(xùn)練流程與超參數(shù)(Hyperparameter),確保實驗可復(fù)現(xiàn)。
2.若字?jǐn)?shù)受限,可通過標(biāo)準(zhǔn)化框架的簡明訓(xùn)練腳本代碼呈現(xiàn)細節(jié)。
?模型選擇:
明確說明在測試前從所有訓(xùn)練模型中篩選出最優(yōu)模型的方法與評估指標(biāo)。
若提供多個模型,需逐一說明合理性。
4. 說明內(nèi)部測試與外部測試的實施方法
內(nèi)部測試指采用訓(xùn)練數(shù)據(jù)中預(yù)留的子集(即內(nèi)部測試集)進行驗證的過程,而外部測試應(yīng)使用來自其他機構(gòu)的影像數(shù)據(jù)(即外部測試集)。若未進行外部測試,須明確說明并討論該局限性。
5. 避免在指代測試或測試集時使用"驗證(validation) "一詞
機器學(xué)習(xí)術(shù)語"validation"易導(dǎo)致醫(yī)療專業(yè)人員誤解,可能被理解為檢驗?zāi)P褪欠?有效",而健康研究報告規(guī)范(如EQUATOR網(wǎng)絡(luò)指南)在醫(yī)學(xué)文獻中使用的"驗證"定義與此存在差異。
因此,《Radiology》期刊不鼓勵使用"驗證(validation)"一詞,除非特指驗證集(用于模型調(diào)優(yōu)的數(shù)據(jù)集)。不要使用"驗證(validation)"來指代模型的測試或測試集。
6. 提供計算機代碼鏈接(發(fā)表的必要條件)
請將所有計算機代碼存儲于公開可訪問的代碼庫并提供鏈接地址。常用代碼庫包括:
? GitHub(https://github.com)
? Bitbucket(www.bitbucket.org/)
? SourceForge(https://sourceforge.net/)
在"材料與方法"部分提供:
(a)算法代碼的訪問鏈接
(b)必要時,請?zhí)峁┱撐乃么a修訂版本的唯一標(biāo)識符
更多詳細信息,請參閱本刊《算法與代碼透明度政策》
https://pubs.rsna.org/page/policies#algorithm
7. 模型是否過擬合?需使用外部測試集進行最終統(tǒng)計報告
Park和Han[3]在其方法學(xué)指南中對過擬合給出了明確定義:"過擬合是指模型過度適應(yīng)訓(xùn)練數(shù)據(jù)的情況,對模型在新數(shù)據(jù)上的泛化能力產(chǎn)生不利影響,同時夸大了模型在訓(xùn)練數(shù)據(jù)集中的表現(xiàn)。"
過擬合模型因與訓(xùn)練數(shù)據(jù)貼合過度而無法泛化至新數(shù)據(jù),僅能在訓(xùn)練所用圖像中表現(xiàn)良好。為確保模型具有泛化能力,需使用外部測試集進行模型性能的最終統(tǒng)計報告[2]。
8. 報告模型在所有數(shù)據(jù)集(包括人口統(tǒng)計學(xué)亞組)上的性能表現(xiàn)
在結(jié)果部分,請報告最終模型的性能表現(xiàn)[1]。建議將模型性能與以下標(biāo)準(zhǔn)進行對比:
? 其他已知模型
? 獨立參考標(biāo)準(zhǔn)(如病理檢查結(jié)果、醫(yī)學(xué)專家判斷等)
使用以下統(tǒng)計指標(biāo)描述模型在所有數(shù)據(jù)集上的性能差異:
? 曲線下面積(AUC)值及95%CI
? P值
同時建議報告放射科醫(yī)生關(guān)注的性能指標(biāo),例如:
? 對比放射科醫(yī)生在使用AI輔助前后的靈敏度和特異度變化
? 評估AI模型對減輕醫(yī)生工作量的潛在作用[4]
需特別說明:
? 模型表現(xiàn)最優(yōu)和最差的亞組
? 如存在數(shù)據(jù)集內(nèi)部或之間的分布不均情況,應(yīng)提供相應(yīng)的統(tǒng)計指標(biāo)[1]
9. 對錯誤結(jié)果進行失敗分析
應(yīng)提供充分信息以幫助理解模型產(chǎn)生錯誤結(jié)果的原因。對于使用兩個及以上分類類別的任務(wù),需提供預(yù)測類別與實際類別的混淆矩陣。同時,可通過代表性圖示等方式,提供錯誤分類案例的示例[1]。
10. 避免使用外部測試的替代方法(如壓力測試、交叉驗證)來檢測偏倚
外部測試對于理解模型在真實場景中的表現(xiàn)至關(guān)重要。編輯團隊理解獲取高質(zhì)量外部數(shù)據(jù)的困難,這也催生了外部測試的替代方法:
?壓力測試(Stress Testing):使用來自原始(內(nèi)部)數(shù)據(jù)集的受控偏移數(shù)據(jù)集來測試訓(xùn)練好的模型[5]
?交叉驗證:通常指將單個數(shù)據(jù)集劃分為多個子集,用于訓(xùn)練和測試不同模型
需注意的是,這些技術(shù)雖有助于評估模型的適配度,但可能無法識別原始數(shù)據(jù)中的偏倚[5]。本刊建議采用來自其他醫(yī)療機構(gòu)的獨立圖像集進行外部測試,相較于上述替代方法,此類研究的稿件更有可能獲得接收。
參考文獻:
1. Radiol Artif Intell 2024;6(4):e240300.
2. Radiology 2020;294(3):487–489.
3. Radiology 2018;286(3):800–809.
4. Radiology 2021;298(1):47–48.
5. Radiol Artif Intell 2022;4(5):e220061.
文章整理自:Top 10 Tips for Writing about AI in Radiology: A Brief Guide for Authors. Radiology. 2025 Feb;314(2):e243347.
為您推薦:AI相關(guān)課程
點擊左下角“閱讀原文”,學(xué)習(xí)醫(yī)咖會專欄課程《機器學(xué)習(xí)在醫(yī)學(xué)研究中的應(yīng)用案例實戰(zhàn)教學(xué)》。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.