網易首頁 > 網易號 > 正文申請入駐

一半以上實驗結果無法重復，學術界正在遭遇一場危機嗎？

2024-11-29 12:26:25　來源: 知識分子

上海舉報

分享至

知識分子

The Intellectual

圖源：Pixabay

撰文| 詹羊

科學的大廈建立在大量可重復的研究結果之上，然而，近年來，種種跡象表示，在生物醫學領域，大量的研究結果似乎不可重復。比如，Plos Biology最近發表的一篇對近2000名生物醫學研究人員的調研報告中[1]，在最終收回的問卷中，72%的參與調研的活躍一線科研人員認同生物醫學領域存在可重復性危機，其中27%的參與者甚至認為這場危機非常嚴重。

但這也許不能算新聞。2021年，eLife上就發表了一篇針對癌癥生物學的可重復性研究的總結[2]。結果發現，學術界至少一半以上的癌癥生物學實驗很有可能是不能重復的。而工業界似乎也沒有好到哪里去---早在2011年，拜耳（Bayer）公司的一項內部調查顯示[3]，其對67個潛在的新藥靶點進行重復實驗時，僅有不到四分之一的結果得以重復。

由此可見，可重復性的問題在生物醫學領域可謂曠日持久。解決這一問題，絕不會是朝夕之功。這方面，也許一個稍微沒有那么熱門的領域---心理學的故事，可以給我們帶來一些啟示。

扎堆的“p值曲線”

與不到一半的可重復率

心理學的可重復性故事，得從2011年講起。

在這一年，現西班牙艾賽德商學院的尤里·西蒙松（Uri Simonsohn）、加州大學伯克利分校的萊夫·尼爾森（Leif Nelson）和賓夕法尼亞大學約瑟夫·西蒙斯（Joseph Simmons）發表了一篇具有里程碑意義的論文[4]。在這個文章中，三人直言不諱地道出了心理學領域心照不宣的事實：心理學研究者在實驗設計和分析過程中擁有極大自由度，研究者往往可以通過不斷的嘗試，“證明”任何假說在統計上顯著，可謂是“有志者，事竟成”。

作為一個例證，他們演示了如何通過選擇樣本量，選擇控制不同的變量，以及選擇不同的實驗組、對照組等一系列騷操作，最終成功“證明”了“聽披頭士的歌使人年輕”的荒謬結論。假如這樣的行為大量存在，那么大量已發表的心理學研究成果，可能都是不可重復的假陽性。

他們開出的藥方是：研究者在開始實驗之前就公開所有的實驗選擇，并嚴格按照公開的方案執行實驗。這個藥方，就是后來廣為人知的“預注冊”（pre-registration）。

同樣在2011年，布萊恩·諾塞克經過多年努力，終于籌到了推動心理學領域大規模可重復性項目所需的第一桶金[5]。他說服了全球270多名研究者一起合作，計劃對100-200項高影響力的心理學實驗進行重復試驗。這項雄心勃勃的計劃，日后給心理學領域帶來翻天覆地的變化。

西蒙松等人2011年的文章，只是在理論上指出了心理學可重復性危機的可能性，但在實證上，并沒有強有力的證據表明問題已經嚴重成了一場“危機”。但到了2014年，情況變得更為清晰了。因為這三位研究者又發表了一篇有趣的論文[6]，為實證檢驗心理學的可重復性危機提供了有力的工具，這就是著名的“p值曲線”。

p值是統計學中用于衡量結果顯著性的重要指標，通常認為p值小于0.05就算顯著。p值曲線依賴于一個簡單直白的直覺：如果研究者在統計顯著性上“鉆空子”，一旦p值跌破那個神奇的0.05，他們就會興高采烈地收工回家。如果這種情況普遍存在，那么我們應該會在已發表的論文中看到p值在0.05附近扎堆。果不其然，后續的研究利用p值曲線驗證了這一點[7]。

而在2015年，諾塞克的大規模可重復性研究也開花結果，發表在Science上[8]。在完成的100項心理學重復實驗中，只有不到一半（36%-47%）的研究結果被成功復制，約80%的重復實驗中，檢測到的效應強度比原先的實驗要小。這一結果，徹底做實了心理學領域的可重復性危機。

想提高領域的可重復性，

應更鼓勵不顯著結果的發表。

現代發展經濟學有“創造性破壞”（creative destruction）之說，指出創新往往首先帶來舊的經濟體系的崩解，然后建立更高效的新經濟體系，最終推動經濟發展。心理學的發展也是如此。西蒙松和諾賽克等人的工作，激起了心理學領域盛況空前的真理大討論。自那以后，學界對可重復性根源和應對方案的理解有了長足的進展。

一方面，學科本身有其特異性[9]。在有些領域，理論和實驗技術都已發展到了很高的水平（比如高能物理），其實驗設計和分析的范式已經高度統一，沒有太多任由實驗人員自行裁量的空間，結果可重復性自然就高。然而像心理學這樣的學科，目前的技術水平還無法做到這種程度的一致性，需要假以時日等待技術的自然進步，在此之前，要對可重復的實驗比例有個理性的預期。

另一方面，科學家也是人，人類多樣的行為也會影響科研產出的可靠性。這里面，最突出的當然是嚴重的學術不端，比如赤裸裸的造假。但是最廣泛的，也是最難以杜絕的還是是西蒙松等人在2011年文章中指出的，通過反復嘗試不同的實驗設計和分析流程，直到獲得顯著的結果。這樣的微小的“作弊”，幾乎無法被確鑿地證明。除此之外，即使研究者主觀上沒有“作弊”的動機，實驗過程中也極有可能下意識地調整實驗條件，直到預期結果出現---畢竟很多新的科學發現，需要的就是反常規的實驗設計和分析流程，無法預先框定，嘗試不可避免。

現行的發表制度，則進一步鼓勵了這種微小“作弊”行為的泛濫，而“不發表，就出局”的簡單粗暴的科研管理體制也為這種現狀添了一把火。在前述PLOS Biology研究中，受訪的研究者們紛紛表示發表不可重復性結果的主要原因是“發表壓力”。

對此，現加州大學默賽德分校的保羅·司馬爾蒂諾(Paul Smaldino）和現馬普所演化人類學所長理查德·麥克埃爾里思（Richard McElreath）就在2016年一篇極具影響力的論文中指出[10]，只要現行的學術激勵只傾向于發表新穎而顯著的結果，這一現象就很難被遏止。華盛頓大學的卡爾·伯格斯特羅姆（Carl T. Bergstrom)也在2016年一篇文章中指出[11]，想要提高領域的可重復性，現行的發表體制應該更加鼓勵不顯著結果的發表。

除了理論方面的探究，可重復性的實證研究也大有進步。這里面不乏極具趣味性的研究，在這里僅舉一例，來自2015年發表在PNAS的一篇文章[12]。在這篇文章里面，作者展示了如何使用“預測市場”（prediction market）來預估實驗的可重復性。預測市場通過價格機制將參與者的不同信息、觀點和判斷匯聚在一起。每個交易者根據自己的知識或預期買入或賣出合約，價格最終反映了集體智慧。在諾賽克的市場中，科學家和公眾可以對某項研究是否可重復進行匿名的“投注”。結果發現，市場最終的價格，相比于采訪領域內的專家們的意見，更能夠準確預測實驗的可重復性。

而可喜的是，這些探究并不僅僅停留在學術討論上。很多的應對方案，開始慢慢變成了心理學研究的新范式。比如當年西蒙松等人提出的預注冊實驗方式，已經被越來越多的學者所踐行，而領域內的頂級期刊，比如Nature Human Behavior，也在鼓勵這類文章的投稿，并且聲明無論結果符不符合預期，只要按照預注冊的標準嚴格執行，都予以接受。

從心理學的經驗看來，可重復性危機不僅僅是“危機”，更是“置信度的革命”（credibility revolution）。這讓我們有理由對生物醫學領域可重復性的未來保持樂觀。

參考文獻：（上下滑動可瀏覽）

[1]Cobey, K. D.et al.Biomedical researchers’perspectives on the reproducibility of research.PLoS Biol.22, e3002870 (2024).

[2]Errington, T. M.et al.Investigating the replicability of preclinical cancer biology.Elife10, (2021).

[3]Prinz, F., Schlange, T. & Asadullah, K. Believe it or not: how much can we rely on published data on potential drug targets?Nat. Rev. Drug Discov.10, 712 (2011).

[4]Simmons, J. P., Nelson, L. D. & Simonsohn, U. False-positive psychology: undisclosed flexibility in data collection and analysis allows presenting anything as significant: Undisclosed flexibility in data collection and analysis allows presenting anything as significant.Psychol. Sci.22, 1359–1366 (2011).

[5]Wikipedia contributors. Reproducibility Project.Wikipedia, The Free Encyclopediahttps://en.wikipedia.org/wiki/Reproducibility_Project(2024).

[6]Simonsohn, U., Nelson, L. D. & Simmons, J. P. P-curve: a key to the file-drawer.J. Exp. Psychol. Gen.143, 534–547 (2014).

[7]Head, M. L., Holman, L., Lanfear, R., Kahn, A. T. & Jennions, M. D. The extent and consequences of p-hacking in science.PLoS Biol.13, e1002106 (2015).

[8]Open Science Collaboration. PSYCHOLOGY. Estimating the reproducibility of psychological science.Science349, aac4716 (2015).

[9]National Academies of Sciences, Engineering, and Medicineet al.Reproducibility and Replicability in Science. (National Academies Press, Washington, D.C., DC, 2019).

[10]Smaldino, P. E. & McElreath, R. The natural selection of bad science.R. Soc. Open Sci.3, 160384 (2016).

[11]Nissen, S. B., Magidson, T., Gross, K. & Bergstrom, C. T. Publicationbias and the canonization of false facts.Elife5, (2016).

[12]Dreber, A.et al.Using prediction markets to estimate the reproducibility of scientific research.Proc. Natl. Acad. Sci. U. S. A.112, 15343–15347 (2015).

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.