我們可以在多大程度相信一項科學發現?這個問題的答案至關重要,因為在許多領域中,偶有出現已發表的研究結果的可重復性受到質疑的情況。在一項名為社會科學復現項目(the Social Science Replication Project)的新研究中,再一次將研究結果的可重復性問題置于科學辯論的風口浪尖。因為科學家發現,在21個具有影響力的社會實驗研究中,只有13個可以被復現。
研究結果的不可重復性
社會科學復現項目的研究人員調查了在2010-2015年間,發表在頂級期刊《自然》和《科學》上的21項社會科學實驗的可重復性。8月27日,他們將研究結果發表于《自然·人類行為》期刊上。
○ 研究人員重復了在2010到2015年發表在《自然》和《科學》上的21個社會科學實驗。《自然》和《科學》都是非常有聲望的科學期刊,發表在上面的文章通常被認為是重要的,并且具有創新性和影響力。| 圖片來源:Nature
為了測試那些初始論文的結果,研究人員在進行的重復測試中采用了更多的受試人數,并采取了多種統計方法進行分析。并且這些研究的初始作者對新研究的實驗擬定進行了反饋,還提供了他們使用過的數據、軟件和代碼。研究人員耗費了很大的心血才完成了對這些研究的檢測。
在21個重復實驗中,研究人員發現只有13個實驗能與初始研究有著相同方向上的顯著效應;而且觀察到的效應量級大約只有初始研究中的一半。心理學和實驗經濟學中具有前瞻性的復現項目已經揭示了這些領域的問題,但是它們并沒有重點關注過發表在具有高影響力期刊上的文章,因為高影響力期刊可能更注重新穎性,而且可能會有更多的編輯審查。
在未通過可重復性測試的8項實驗中,有一項是來自于現為肯塔基大學副教授的Will Gervais,在2012年,當他還是英屬哥倫比亞大學的一位心理學博士生時,進行了這項研究善于分析的人是否更不可能持有宗教信仰的實驗。在一個測試中,接受測試的本科生被要求觀看雕塑的照片:一半的參與者觀看的是羅丹的雕塑“沉思者”,另一半屬于控制組的參與者觀看的則是“擲鐵餅者”。Gervais在發表在《科學》上的文章中報告稱,觀看了“沉思者”的人對宗教信仰表達了更多的懷疑。
如今,他承認這個實驗非常薄弱:“事后看來,這項研究簡直是徹頭徹尾的愚蠢。我們過分兜售了一個甚至都不具有統計顯著性的研究。我想換作今天這樣的研究都不太可能能被發表。”
科學研究的一個基本特征是自我糾正,那么為什么還需要正式地通過實驗來復現呢?如果科學按照預想的那樣運作,這難道不應該是自然就會發生的嗎?所有的科學結果都應該是堅實可靠的,這一點非常重要,因為一項研究的發現常常會被用來作為未來工作的起點。因此,如果這些最初的結果是錯誤的,或者只在某些特定條件下有效,那么就會牽連到未來的研究工作。
發表在《科學》和《自然》這樣的核心期刊上的文章,不僅會推動科學進展,還會通過媒體傳播給大眾。酷炫有趣的研究甚至會注入流行文化,盡管這些研究的可重復性可能是個問號。
在實驗經濟學復現項目(EERP)中,18個復現研究中的11個具有與初始研究相同方向的顯著效應,復現結果的效應的平均值是初試結果的66%。在可重復性項目:心理學(RPP)中,97個復現研究中的35個具有與初始研究相同方向的顯著效應,復現結果的平均效應值是初始結果的49%。仍在進行中的可重復性項目:癌癥生物學(RPCB)中,10個復現研究中的4個成功復制了初始研究中的重要部分,另有2項取得部分成功。
不可重復意味著錯誤嗎?
這是否意味著,那些無法被復現的研究結果就是錯誤的?并不是。其實,實驗無法復現的原因多種多樣。
曾經參與過可重復性研究的普林斯頓大學的計算社會科學家Matt Salganik說:“社會生活的異質性和人們在空間與時間上的多變性使得我們難以對同樣事情得到相同的結果。但是這并不意味著初始的結果沒有出現過,也不代表后續復現的結果沒有出現過。”
現在,數以千計的研究人員會在發表研究成果之前,預先注冊他們的方法論和假說,以此來阻止外界認為他們會在事后篡改數據的擔憂。一般來說期刊都會要求研究人員提交他們的整個數據集和分析代碼。
心理學家Brian Nosek說:“潛在的動機是真實誠懇的。科學家試圖做的是發現真實的結果,而不是讓結果正確,即便整個文化驅使人們追逐刺激的發現。而與之抗衡的一些價值觀——透明度、嚴謹性、展示完整的工作,在科學群體中仍然根植于心。“
目前的研究也開始從復現研究中更清楚地確定可能的結果。有些研究復現了研究結果的方向以及有效性的量級;有些研究復現了方向但是有效量級更低一些;還有一些復現研究似乎沒能出現任何結果。
出現復現了方向卻沒能復現出同等有效量級的情況,可能是因為諸如研究設計或報告中的任何方面等因素導致結果的有效性在初始研究中被夸大。對研究的設計、實施和報告投入更多的精力,將會在某種程度上解決這一問題。
更有趣的是那些在復現研究中沒有出現任何結果的研究。這有可能是因為一些潛在的獨立變量只出現在一個實驗中,而沒有出現在另一個實驗中。重要的是,識別這些潛在的變量并了解其影響,能提供更好的機會以理解當下正在調查的現象。
例如,在一項試圖復現某種藥物具有延長蠕蟲生命的效應失敗之初,人們收獲到的是絕望;但在多年以后,它卻啟發了由多中心的國家衰老研究所資助的隱桿線蟲干預測試計劃(CITP)。經過大量努力之后,作者最終證明,存在無法被任何已知的生物學知識來解釋的雙峰生存模式,以及藥效的差異性——有些具有廣泛的療效,還有一些對不同的菌種和菌株則有不同的效果。這為那些或許能加深我們對衰老生物學理解的實驗提供了起點。
危機還是機遇?
眼下正進行的這項研究是非常重要的,因為它表明了即使是發表在高影響力期刊上的研究結果,同樣可能無法被成功復現;因此,期刊的影響因子并不能確保研究結果的正確性。
此外,當這些作者讓一個大約由400名科學家組成的群體來預測某項研究結果能否被復現時,在該項結果能否被復現與觀察到的復現結果的效應值這兩方面,有著良好的相關性,也就是說,群體預測正確的時候遠多于錯誤的時候。
重要的問題依然存在。雖然這些正式的復現項目是預先注冊有著詳細實驗擬定的前瞻性研究,但用來復現的結果的選擇卻并不是隨機的。在另一項研究中,Peder Mortvedt Isager鑒定了85個獨立的復現工作,并發現可以基于理論影響、個人興趣、學術、公眾或社會影響、方法問題等方面來考慮選擇的策略。
目前的這項研究選擇的是發表在《科學》和《自然》上的論文,而它們都不太可能是社會科學研究中的典型例子。正如作者指出的那樣,現有的可重復性研究有著“相對小的研究樣本,并包含獨特的入選標準和未知的普遍性。”
然而,在不同學科都觀察到的這種不可重復性,意味著引用這些研究成果的人并不能可靠地斷定報告的結果是真實的。要么我們必須嘗試復現所有我們想要使用的研究結果,要么我們需要找到能預測哪些研究特征與可復現的研究結果是相關聯的方法,以使得報告的結果更加可信。
我們從可重復性計劃了解到,如果初始研究具有較大的效應值和較小的P值(詳見《“可重復性危機”引發的一場科學辯論》),那么更可能成功復現。我們可以認為具有低誤差風險的活體研究更有可能被成功復現,但是目前并沒有直接證據支持這一觀點。令人沮喪的是,目前沒有任何一個可重復性研究沒考慮到了在初始研究的設計中,作者是否在某種程度上處理了可能存在的誤差風險,這或許能預測成功復現的可能性。
此外,如果用于復現研究的資源有限,那么,最好通過大幅度增加(或降低)我們對大量表現出某些共同特征的研究結果的信心,將目標集中在能夠做得最好的地方。
要做到這一點,需要這樣一個可重復性研究——對初始研究的選擇,是通過對那些有或沒有感興趣特征的研究進行的隨機取樣。鑒于一項復現研究將能對初始文獻進行30–65%的“修正”,那么對于研究的資助者來說,這仍然代表著高回報率的研究。
當研究人員發表的作品挑戰了公認的智慧時會遇到很多困難,在這樣的背景下,這種工作的重要性在職業發展中很少得到認可。各種可重復性項目,作者們理應接受的喝彩,以及為這類研究開發專門的資金流,在某種程度上都是解決這種不平衡現象的方法。
以科學地方法看待復現的“失敗”,實則能提供巨大的研究機會。要對這些機會加以利用通常需要各方協作,這樣,這些機會或許就能轉變為更加周到、更加完善的研究計劃。基于這些原因,我們不該將目前關于研究的可重復性問題視為一場危機,或許更應視其為一個機會。
編譯:烏鴉少年
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.