本文整理自《Radiology》期刊(IF=12.1)在2025年2月發表的一篇專家述評文章,對于放射科醫生撰寫AI相關研究論文提出了10個tips,這些tips對于任何AI論文寫作者都具有參考價值。
2017年的一次會議上,有位專家提出了一個發人深省的問題:"人工智能(AI)會取代醫生嗎?"。他隨即給出了答案:"我的回答是否定的,但使用AI的醫生必將取代那些拒絕AI的同行"。
如今《Radiology》期刊約三分之一的論文都以AI為核心議題,關于大語言模型和生成式AI(如ChatGPT)的研究文章尤為熱門。這意味著臨床醫生不僅需要掌握AI應用技能,還應學會如何撰寫AI相關的論文(期刊編輯亦然)。
1. 撰寫AI相關論文前,請查閱相關的《人工智能研究報告規范》
在《Radiology》期刊發表AI相關論文時,需特別注意2024版《醫學影像人工智能檢查清單指南(CLAIM)》的兩項術語更新[1]:
? 使用"reference standard"替代"ground truth"或"gold standard"
? CLAIM專家組建議避免使用"validation"一詞,推薦采用"model optimization"或" tuning"等表述
2. 詳述所有數據集并附上數據集特征表與流程圖
在"材料與方法"部分,請按以下順序描述數據集:訓練集(training set)、驗證集(validation set)、內部測試集(internal test set)和外部測試集(external test set)[1,2]。需特別說明的是,驗證集可能有多種命名方式,例如調優集(tuning set)或開發集(development set)。根據CLAIM指南要求,應避免使用"驗證集"這一術語,而是描述"用于模型優化的數據",可使用術語“tuning”[1]。
在"結果"部分的開篇,需包含:
?數據集的特征表:展示人群的人口統計學特征,用于評估模型訓練人群能否代表其應用的目標人群。若訓練數據缺乏關鍵預測因素(如年齡、性別等),模型將無法有效預測結局。
?流程圖:以可視化形式呈現各數據集樣本量及篩選過程。
3. 詳細描述模型的訓練方法
為確保最佳性能,訓練模型時應使用該領域內廣泛認可且可合理獲取的高質量數據。例如,優先選擇技術先進的影像學檢查結果、病理結果或長期隨訪影像和結局數據,而非普通放射學報告[2]。
?訓練過程:
1.需詳細描述訓練流程與超參數(Hyperparameter),確保實驗可復現。
2.若字數受限,可通過標準化框架的簡明訓練腳本代碼呈現細節。
?模型選擇:
明確說明在測試前從所有訓練模型中篩選出最優模型的方法與評估指標。
若提供多個模型,需逐一說明合理性。
4. 說明內部測試與外部測試的實施方法
內部測試指采用訓練數據中預留的子集(即內部測試集)進行驗證的過程,而外部測試應使用來自其他機構的影像數據(即外部測試集)。若未進行外部測試,須明確說明并討論該局限性。
5. 避免在指代測試或測試集時使用"驗證(validation) "一詞
機器學習術語"validation"易導致醫療專業人員誤解,可能被理解為檢驗模型是否"有效",而健康研究報告規范(如EQUATOR網絡指南)在醫學文獻中使用的"驗證"定義與此存在差異。
因此,《Radiology》期刊不鼓勵使用"驗證(validation)"一詞,除非特指驗證集(用于模型調優的數據集)。不要使用"驗證(validation)"來指代模型的測試或測試集。
6. 提供計算機代碼鏈接(發表的必要條件)
請將所有計算機代碼存儲于公開可訪問的代碼庫并提供鏈接地址。常用代碼庫包括:
? GitHub(https://github.com)
? Bitbucket(www.bitbucket.org/)
? SourceForge(https://sourceforge.net/)
在"材料與方法"部分提供:
(a)算法代碼的訪問鏈接
(b)必要時,請提供論文所用代碼修訂版本的唯一標識符
更多詳細信息,請參閱本刊《算法與代碼透明度政策》
https://pubs.rsna.org/page/policies#algorithm
7. 模型是否過擬合?需使用外部測試集進行最終統計報告
Park和Han[3]在其方法學指南中對過擬合給出了明確定義:"過擬合是指模型過度適應訓練數據的情況,對模型在新數據上的泛化能力產生不利影響,同時夸大了模型在訓練數據集中的表現。"
過擬合模型因與訓練數據貼合過度而無法泛化至新數據,僅能在訓練所用圖像中表現良好。為確保模型具有泛化能力,需使用外部測試集進行模型性能的最終統計報告[2]。
8. 報告模型在所有數據集(包括人口統計學亞組)上的性能表現
在結果部分,請報告最終模型的性能表現[1]。建議將模型性能與以下標準進行對比:
? 其他已知模型
? 獨立參考標準(如病理檢查結果、醫學專家判斷等)
使用以下統計指標描述模型在所有數據集上的性能差異:
? 曲線下面積(AUC)值及95%CI
? P值
同時建議報告放射科醫生關注的性能指標,例如:
? 對比放射科醫生在使用AI輔助前后的靈敏度和特異度變化
? 評估AI模型對減輕醫生工作量的潛在作用[4]
需特別說明:
? 模型表現最優和最差的亞組
? 如存在數據集內部或之間的分布不均情況,應提供相應的統計指標[1]
9. 對錯誤結果進行失敗分析
應提供充分信息以幫助理解模型產生錯誤結果的原因。對于使用兩個及以上分類類別的任務,需提供預測類別與實際類別的混淆矩陣。同時,可通過代表性圖示等方式,提供錯誤分類案例的示例[1]。
10. 避免使用外部測試的替代方法(如壓力測試、交叉驗證)來檢測偏倚
外部測試對于理解模型在真實場景中的表現至關重要。編輯團隊理解獲取高質量外部數據的困難,這也催生了外部測試的替代方法:
?壓力測試(Stress Testing):使用來自原始(內部)數據集的受控偏移數據集來測試訓練好的模型[5]
?交叉驗證:通常指將單個數據集劃分為多個子集,用于訓練和測試不同模型
需注意的是,這些技術雖有助于評估模型的適配度,但可能無法識別原始數據中的偏倚[5]。本刊建議采用來自其他醫療機構的獨立圖像集進行外部測試,相較于上述替代方法,此類研究的稿件更有可能獲得接收。
參考文獻:
1. Radiol Artif Intell 2024;6(4):e240300.
2. Radiology 2020;294(3):487–489.
3. Radiology 2018;286(3):800–809.
4. Radiology 2021;298(1):47–48.
5. Radiol Artif Intell 2022;4(5):e220061.
文章整理自:Top 10 Tips for Writing about AI in Radiology: A Brief Guide for Authors. Radiology. 2025 Feb;314(2):e243347.
為您推薦:AI相關課程
點擊左下角“閱讀原文”,學習醫咖會專欄課程《機器學習在醫學研究中的應用案例實戰教學》。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.