21世紀已經悄然走過了1/4,而這前25年對于科研人來說是難忘的,比如首個mRNA疫苗、基于CRISPR的基因編輯技術、希格斯玻色子的發現,以及首次探測到引力波。然而,這些里程碑式成果并未出現在2000年以來被引用最多的學術論文中。
《Nature》新聞團隊分析了本世紀被引用次數最多的25篇論文,發現多數高被引論文聚焦于人工智能(AI)、科研方法、系統綜述、癌癥統計及科研軟件等領域。其中,一篇2004年關于石墨烯的論文也入榜,該研究為作者贏得了2010年諾貝爾物理學獎。
由于各大數據庫覆蓋文獻范圍不同,引用數據差異明顯?!禢ature》綜合五大數據庫的中位排名,評出微軟研究團隊2016年發表的ResNet論文為21世紀引用排名第一。
ResNet是一種深度殘差神經網絡,突破性地實現了150層的訓練深度,解決了信號衰減問題,是深度學習技術飛躍的關鍵。
不過,論文引用量的比較存在不公平之處。例如,微軟的論文已有十年時間積累引用,且計算機科學本身就是高產領域?!禢ature》委托計量學專家進行調整分析,但因入選論文引用量本就極高,結果變化不大。接下來,《Nature》將重點介紹幾篇在21世紀脫穎而出的“引用巨作”。
表1. 21世紀被引用次數最多的論文排名
排名
引文
1
Deep residual learning for image recognition (2016, preprint 2015)
2
Analysis of relative gene expression data using real-time quantitative PCR and the 2–ΔΔCT method (2001)
3
Using thematic analysis in psychology (2006)
4
Diagnostic and Statistical Manual of Mental Disorders, DSM-5 (2013)
5
A short history of SHELX (2007)
6
Random forests (2001)
7
Attention is all you need (2017)
8
ImageNet classification with deep convolutional neural networks (2017)
9
Global cancer statistics 2020: GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries (2020)
10
Global cancer statistics 2018: GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries (2016)
11
Preferred Reporting Items for Systematic Reviews and Meta-Analyses: The PRISMA Statement
12
U-Net: Convolutional Networks for Biomedical Image Segmentation
13
Electric Field Effect in Atomically Thin Carbon Films
14
Fitting Linear Mixed-Effects Models Using lme4
15
Scikit-learn: Machine learning in Python
16
Deep learning
17
Common Method Biases in Behavioral Research: A Critical Review of the Literature and Recommended Remedies
18
Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2
19
Hallmarks of Cancer: The Next Generation
20
Measuring inconsistency in meta-analyses
21
NIH Image to ImageJ: 25 years of image analysis
22
Fiji: an open-source platform for biological-image analysis
23
The PRISMA 2020 statement: an updated guideline for reporting systematic reviews
24
ImageNet: A Large-Scale Hierarchical Image Database
25
G*Power 3: A flexible statistical power analysis program for the social, behavioral, and biomedical sciences
人工智能的崛起
多倫多大學的Geoff Hinton指出,AI論文因覆蓋領域廣、發展迅速、論文量大而更易獲得高引用。他與人合作的2012年AlexNet論文被認為開啟了深度學習時代,現為本世紀第8高被引論文;其綜述論文排名第16,ImageNet數據集論文排第24。
隨后,基于AlexNet結構進行改進的的U-Net論文位列第12,廣泛用于圖像生成。緊隨其后的是微軟的ResNet論文居首,而谷歌2017年提出的Transformer架構(“Attention is all you need”)排第7,是ChatGPT等語言模型的基礎。
AI領域高引用還因開源共享普遍。排名第6的《隨機森林》論文因算法簡單、高效、免費而流行。然而,許多AI論文先以預印本形式發布,引用統計存在低估問題。OpenAlex和谷歌學術嘗試整合不同版本的引用,推動更準確統計。
科研軟件
本世紀被引用次數第二多的論文并非偶然,它就是為“提供可引用來源”而寫。論文由Schmittgen撰寫,為解決無法引用用戶手冊的問題而發表,提供了qPCR數據分析的標準公式,已被引用超16.2萬次,用于計算基因表達變化。
除此之外,排名第18的DESeq2論文則基于RNA測序數據分析基因表達。第5名的SHELX軟件由英國化學家Sheldrick開發,用于解析分子晶體結構,其2008年發表的一篇綜述已被引用7–9萬次。
癌癥與健康研究
三篇高被引論文常見于癌癥研究論文的引言部分:
排名第9和第10的是GLOBOCAN項目在2018年和2020年發布的全球癌癥統計報告,由世衛組織支持,廣泛用于癌癥發病率和死亡率數據引用。排名第19的是一篇綜述文章,提出了“癌癥標志特征”這一概念,簡化了癌癥復雜性,對該領域影響深遠。
此外,排名第4的是《精神疾病診斷與統計手冊》第五版(DSM-5),2013年出版,被廣泛用于精神疾病的分類與診斷,是唯一上榜的圖書。
提高研究質量
心理學家Virginia Braun和Victoria Clarke的2006年論文介紹了“主題分析方法”:這是一種定性研究方法,用于探索從一系列數據(如訪談)中提取出能解答問題的模式。并通過簡明的標準幫助學生理解和應用這一方法,進而導致該文成為高被引論文之一。
另一篇旨在提高研究質量的高被引論文發表于2003年,論文揭示了心理學和管理學等領域中行為研究的常見方法偏差,推動了這些領域研究質量的提升。
綜述的興起
21世紀的高被引論文中,一個顯著趨勢是系統綜述和薈萃分析的增加。系統綜述通過綜合所有能回答問題的嚴格研究來得出結論,通常還包括薈萃分析,這是一種結合數值結果的統計技術。加拿大渥太華醫院的David Moher等人發現,許多系統評價的報告質量較差,缺少重要細節,如治療對象特征和藥物劑量。為此,2009年他們發布了PRISMA聲明,提供了27項報告要求,迅速成為標準,且目前排名第11位。PRISMA的引用量難以統計,但如果合并所有版本,可能會排名第一。
統計/編程軟件
最后一類高被引論文涉及統計或編程軟件。例如,關于scikit-learn的論文獲得了超過50,000次引用,排名第15位,描述了一個為Python用戶提供機器學習函數的開源庫。另一篇關于lme4軟件包的論文,介紹了使用R語言分析特定統計模型的方法,排名稍高。還有一篇關于G*Power軟件的論文,為生物學家提供計算實驗樣本量的軟件。
然而,R編程軟件本身未出現在這些列表上,盡管它在OpenAlex中被引用超過300,000次。這是因為R的開發者推薦引用其網站而未發布研究論文。Max Planck研究所的科學計量學家Robin Haunschild表示:“第一課是:如果你寫了一個有影響力的程序,就要寫一篇關于它的論文?!?/strong>
https://www.nature.com/articles/d41586-025-01125-9
主編微信
注:添加微信請備注昵稱+單位+研究
生命科學綜合交流QQ群:681341860
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.