The Catch in Catching Cancer Early
新型血液檢測有望在惡性腫瘤擴散前將其檢出,但證明這些檢測真正能改善預后,仍是一個棘手的挑戰。
本文即將發表于2025 年 6 月 23 日《紐約客》雜志印刷版,標題為“Early Warnings.”作者:悉達多·穆克吉(Siddhartha Mukherjee)憑借“The Emperor of All Maladies: A Biography of Cancer”榮獲2011年普利策獎。該書的擴充版預計將于2025年11月出版。
每年,美國在癌癥篩查上的花費高達數百億美元。但我們如何判斷一項檢測是否真正有效? 插圖:Ibrahim Rayintakath
這一發現的開端,如同許多突破性成果,源于一個看似不合常理的觀察。
1948年,兩位法國研究人員保羅·曼德爾(Paul Mandel)和皮埃爾·梅泰(Pierre Métais)在一本科學期刊上發表了一篇鮮為人知的論文。他們在斯特拉斯堡的實驗室里,一直致力于記錄血漿的化學成分——血漿這股生命之流中充斥著蛋白質、糖分、代謝廢物、營養物質和細胞碎片。在這些熟悉的成分中,他們發現了一個意想不到的存在:自由漂浮的DNA片段。
這一發現挑戰了生物學的傳統認知。當時人們認為DNA始終被鎖在細胞核內,不會自行游離。更奇怪的是,這些不是完整的基因組,而是破碎的片段——如同從未知源頭漂來的基因殘骸。
曼德爾和梅泰不確定該如何解讀這一現象。同樣困惑的科學界在十多年里基本忽略了這篇論文。但生物學的奧秘很少會永遠被掩埋。最終,研究人員帶著一個簡單的解釋重新審視這個問題:每天,隨著數十億細胞死亡,它們會破裂并將內容物(包括DNA)釋放入血液。這些片段在被腎臟代謝或清除前,會在血液中短暫循環。研究人員得出結論,這種“無細胞DNA”是人體持續進行的死亡與更新循環的殘留物。
DNA似乎像沉船的殘骸一樣從死亡細胞中脫落。看似廢物的東西可能成為見證——一只襪子、一把勺子、一條從淹沒船艙中漂出的項鏈,每一樣都暗示著曾經存在的生命。我們血液中的這些片段是否攜帶著釋放它們的細胞的信息?科學家能否將這些分子碎片拼湊起來,重建它們所來自的細胞的身份?
20世紀60年代,紐約的癌癥研究員亞倫·本迪奇(Aaron Bendich)提出,腫瘤細胞可能像健康細胞一樣,會向血液中釋放DNA。 到1989年——即曼德爾和梅泰的發現過去四十年后——研究人員已在癌癥患者的血液中找到了腫瘤來源的無細胞DNA的確鑿證據。
這一發現的影響深遠。幾十年來,科學家一直在尋找早期發現癌癥的方法:乳房X光檢查、結腸鏡檢查、巴氏涂片——所有這些都是為了在惡性腫瘤擴散前將其捕獲。癌細胞可能將秘密泄漏到血液中的觀點,暗示了一種全新的可能性:我們或許可以不通過影像學或體格檢查,而是通過簡單的抽血來檢測惡性腫瘤。科學家最終將其稱為“液體活檢”,對許多人而言,這預示著癌癥篩查領域將迎來革命性的飛躍。
在癌癥通過癥狀顯現之前將其捕獲——這種早期發現的希望,持續推動著該領域的研究和投資。但這種希望可能掩蓋了一個更復雜的現實。
英國癌癥研究中心的一個小組在2020年《柳葉刀腫瘤學》的一篇評論文章中宣稱:“如果我們要戰勝癌癥,早期發現和診斷無疑是我們掌握的最有效手段。”癌癥篩查的案例可以概括為一個簡單的故事:一位女性的乳房出現腫塊;乳房X光檢查發現了腫塊;活檢證實了惡性腫瘤;外科醫生在腫塊擴散之前將其切除。她的生命得救了。
但現在想象一下,兩位女士去乳房X光檢查診所。她們都被發現長著一模一樣的腫塊。她們都被診斷為早期乳腺癌,并安排了手術。她們都如釋重負地回家,堅信現代醫學已經及時介入。正如一位女士回憶起那一刻時告訴我的那樣:“一旦我知道它已經長在我體內,我就想盡快把它取出來。我每小時都給外科醫生的辦公室打電話,直到他們給我安排了下周的預約。”
問題在于,乳房X光檢查只能顯示腫瘤的陰影,無法預知腫瘤的性質。它顯示的是癌癥的“軀體”,而非“思想”:也就是說,乳房X光檢查無法告訴我們腫瘤是否具有侵襲性,是否已經擴散,還是會保持惰性。圖像無法提供任何線索,揭示意圖和未來的傾向。
假設第一位女士接受了手術,她對“早期”發現的想法感到安心,但結果卻發現癌癥已經擴散到手術刀無法觸及的范圍內。手術雖然嚴格,卻沒有任何益處。她承受了傷害卻沒有得到任何好處,這與古老的醫學箴言“首先,不要造成傷害”截然相反。
第二位女士面臨的情況則截然相反。她的腫瘤看似兇險,但本質上卻并非致命——生長緩慢,非侵入性,永遠不會威脅到她的生命。然而,她也經歷了手術、麻醉和康復。手術切除了一個毫無危險的腫瘤。再次強調:弊大于利。
這一悖論揭示了我們當前癌癥篩查模式的一個核心缺陷。我們已經能夠精準定位癌癥的物理存在——它的實體形態——但對其特征、行為和未來卻大多視而不見。我們運用基因組檢測和組織病理學分級,但許多早期腫瘤在生物學層面仍然難以確定。它們可能是那種可以通過手術治愈的早期癌癥。它們可能生長緩慢,不太可能造成損害。或者,最令人擔憂的是,它們可能已經轉移,使得局部干預變得毫無意義。三種可能性——然而,我們常常無法確定我們面對的是哪一種。
讓情況更加復雜的是,假陽性比比皆是:一些檢測結果顯示癌癥并非真實存在,導致不必要的檢查、焦慮和傷害。為了探索這片險峻的領域,我們或許可以求助于一位奇特的人物——一位啟蒙時代的牧師兼數學家,他的思想如今正引領我們穿越黑暗。
托馬斯·貝葉斯并非醫生。他出生于十八世紀初,是一位長老會牧師,同時兼任形式邏輯學的副業——在那個渴望確定性的時代,他是一位不確定性的詮釋者。在一幅傳統上被認為是貝葉斯的肖像畫中(盡管畫中人物的身份可能被誤認),他是一位身材魁梧、自信滿滿、留著華爾街式發型的男子:他其實是穿著牧師外套的亞歷克·鮑德溫。貝葉斯一生只發表了兩篇論文:一篇為上帝的仁慈辯護,另一篇為牛頓微積分辯護。他去世后,皇家學會發表了一篇關于條件概率的論文,為他做出了持久的貢獻。該論文的論點至今仍影響著我們評估信息的方式。
想象一下,一群六十多歲的重度吸煙者中,有一人患有肺癌。這個千分之一的概率,就是貝葉斯所說的“先驗概率”——即在我們知道其他任何情況之前就患上這種疾病的概率。現在假設我們使用一種檢測方法,當肺癌存在時,它能以99%的準確率檢測出肺癌。這就是該檢測方法的“靈敏度”。當癌癥不存在時,它也能以99%的準確率給出陰性結果——這就是該檢測方法的“特異性”。
那么,如果這群人中有人檢測呈陽性,這意味著什么呢?這個人真正患癌癥的概率有多大?貝葉斯算法給出了一個令人驚訝的答案:這項測試預計可以識別出真正患癌癥的那一個,但也會錯誤地標記出大約十個沒有患癌癥的人。這意味著大約會有十一個陽性結果,但其中只有一個是準確的。因此,檢測呈陽性的人患癌癥的概率略高于9%。換句話說,11個人將被送去接受活檢等后續檢查。其中10個人將經歷一個危險且具有侵入性的檢查過程——可能涉及肺部穿孔、出血或其他并發癥——而且沒有任何益處。
簡而言之,如果你打算在大海撈針,即使使用最好的探測器,你也大多會找到干草。如果你選擇一個草堆,里面散落著成千上萬根針,你找到的針就會比干草還多。后驗概率(找到針的概率)取決于先驗概率(一開始有多少根針)。
在貝葉斯模型中,知識總是暫時的,是一個根據新證據更新信念的過程。對于一位58歲的乳腺癌幸存者,如果其家族有乳腺癌病史,那么在原發部位附近出現新的腫塊可能預示著復發——需要進行干預。對于一位20歲且沒有相關病史的病人,同樣的發現很可能是良性的——觀察等待可能就足夠了。
忽視這些原則的后果令人震驚。據估計,2021年美國在癌癥篩查上的花費超過400億美元。平均而言,一年的篩查結果有900萬個陽性結果,其中880萬個是假陽性。數百萬人忍受著后續掃描、活檢和焦慮,最終只能發現20多萬個真正的陽性結果,而這些結果中只有極小一部分可以通過切除等局部治療治愈。其余的都是被誤認為是信號的噪音,被誤認為是幫助的傷害。
早期檢測的難題遠不止于此。我有時會在晨查時問實習生一個問題:“我們如何判斷癌癥篩查測試是否有效?”答案通常很快:“如果這項測試能以高比率或早期階段檢測出惡性腫瘤。”
但是,正如乳房X光檢查的故事所表明的那樣,僅僅發現腫瘤并不能告訴我們它會產生什么后果。于是我進一步追問。他們的下一個答案也很快浮出水面:“通過將人群分為篩查組和未篩查組,然后測量哪一組在沒有癌癥的情況下存活時間更長。” 但這種方法又引發了另一個謬誤。
假設2025年,一對同卵雙胞胎同時罹患乳腺癌。其中一個接受定期篩查,腫瘤早期發現。她開始接受治療——手術、化療。治療過程非常艱苦:手術后出現血栓,化療期間感染,以及數月的恢復期。四年過去了。她堅持著這一切,希望能夠治愈。
她的姐姐因一位老朋友的治療經歷而受到打擊,徹底拒絕接受篩查。她搬到了紐約州北部,照料蘋果樹,讀書,并拒絕接受醫療干預。到2029年,她出現了乳腺癌癥狀,但她拒絕接受治療。
2030年,第一個姐姐得知癌癥復發。她住進了紐約市的一家醫院。同月,她妹妹——現在病情明顯惡化——也住進了同一家醫院。她們躺在相鄰的病床上,反思著各自的選擇。她們在同一周去世。
現在出現了幻覺。第一個雙胞胎的診斷后生存期記錄為五年,而第二個只有一年。醫生審查她們的病例可能會得出結論,篩查將生存期延長了五倍。但這兩個女人是同時出生和死亡的。篩查對壽命沒有影響。表面上的好處只是統計上的幻象——是我們開始計時時產生的假象。這就是“領先時間偏差”,它夸大了生存時間,卻沒有改善結果。
領先時間偏差并非扭曲癌癥篩查結果的唯一因素。設想一個村莊,那里的癌癥有兩種形式——一種發展迅速且致命,另一種發展緩慢且基本無害。通過年度篩查,生長緩慢的腫瘤更容易被發現:它們在可檢測的無癥狀期停留更長時間。相比之下,侵襲性腫瘤通常在兩次篩查之間出現癥狀,并通過臨床診斷。(患有這些腫瘤的患者甚至可能在兩次年度檢查之間死亡。)十年后,數據看起來很有希望:發現更多早期癌癥,確診后生存期更長。但這種表面上的好處具有誤導性。篩查會不成比例地發現惰性腫瘤——那些一開始就不太可能致命的腫瘤。這被稱為長度時間偏差。
這兩種錯覺——領先時間偏差和時間長度偏差——為篩查工作蒙上了一層光彩。一種錯覺通過改變起跑線來延伸我們對生存的衡量標準;另一種錯覺則通過偏向那些本來就危害較小的腫瘤來宣稱篩查成功。幾十年來,這兩種錯覺一直誤導著癌癥研究人員。
要確定篩查是否真正有效,我們必須衡量的不是生存時間,而是死亡率。篩查組死于癌癥的人數是否減少?這才是真正重要的結果。然而,證明這種益處是一項緩慢而艱巨的工作。作為一名試驗者,你必須等待最終的終點:死亡。這可能需要幾十年的時間。你需要大量的患者來捕捉篩查組和未篩查組之間的任何差異。這個過程是無休止的——篩查、檢測、治療、重復和等待。嚴格的癌癥篩查試驗費用昂貴、耗時長、方法論棘手,而且極不確定。它們不僅考驗我們方法的有效性,也考驗我們信念的持久性。
重點并非在于篩查無法帶來益處。成功案例是真實存在的。2022年,《新英格蘭醫學雜志》發表了一項具有里程碑意義的結腸鏡檢查試驗的結果,該試驗涉及波蘭、挪威和瑞典的84,585名參與者。經過十多年的研究,數據顯示,接受結腸鏡檢查的人群中,與結直腸癌相關的死亡人數估計減少了50%。每四到五百例結腸鏡檢查就能預防一例結直腸癌。這種益處是真實存在的——但要證明這一點需要多年的艱苦研究。
不同癌癥類型的篩查效果差異巨大。以卵巢癌為例,這種疾病通常潛伏期較長,直到癌細胞擴散至腹部才被發現。1993年,研究人員啟動了一項大型試驗,旨在測試每年進行超聲檢查和血液檢查能否降低死亡率。試驗規模驚人:超過七萬八千名女性參與其中,其中一半被隨機分配接受篩查。四年來,她們忍受著經陰道超聲檢查;六年來,她們接受著常規抽血檢查。之后,她們又接受了十多年的監測。這是一次集體的慷慨之舉——成千上萬的人忍受著不適和不確定性,只為挽救未來的患者。
其中一位是我認識的雪莉。她敏銳、風趣、精力充沛,那種能不費吹灰之力就讓整個房間都為之傾倒的人。她是一位心胸寬廣、思維敏捷的高管,她總是能以同樣永不停歇的精力投入到新項目或朋友的危機中。當她得到陰性結果時,她如釋重負。但她仍然堅持參加。年復一年,她忍受著尷尬的超聲波檢查、抽血,以及候診室里偶爾出現的沉默。她相信這項試驗的前景。
我們發現了什么?在接受篩查的患者中,3285人被確診為假陽性。超過一千人接受了不必要的手術。163人出現嚴重并發癥——出血、感染、腸道損傷。但十八年后,死亡率并無差異。即使額外進行了三到六年的隨訪,結果仍然成立。
我們常說“抗癌之戰”,卻鮮少承認為此付出的代價。這本身就是一場戰爭——一場沒有勝利的戰斗。它留下的教訓,有助于解釋為何有效的篩查至今仍難以實現,以及為何游離DNA(即所謂的液體活檢)的前景如此誘人。如果癌癥不是通過影像學或侵入性檢查,而是通過血液中的分子痕跡來發現,那又會怎樣?如果我們不僅能檢測到癌癥的存在,還能預知其發展方向,那又會怎樣?或許,我們最終可以開發出一種既能拯救生命,又不會在過程中造成那么多傷害的檢測方法。
2016年,一家名為Grail的初創公司著手實現這一目標。Grail這個名字本身就暗示著癌癥檢測的“圣杯”,既展現了該公司的雄心壯志,也展現了它對這一挑戰的敬畏之心。Grail總部位于加州門洛帕克,由一支杰出的科學顧問委員會提供支持,該公司開始開發一種基于游離DNA分析的“多種癌癥早期檢測”測試。
這種方法非常巧妙:提取血液中循環的DNA片段——這些片段與曼德爾和梅泰斯近七十年前首次發現的片段相同——并對其進行測序,以識別提示癌癥的基因表達調控異常。機器學習算法能夠識別DNA中的化學修飾,探測到Grail所說的“癌癥信號”,然后解碼其來源,確定它可能在體內的哪個部位開始。這是一項艱苦而嚴謹的工作。
我向 Grail 總裁 Joshua Ofman 詢問了公司雄心勃勃的目標。他指出,目前,指南通常只建議篩查五種癌癥:乳腺癌、宮頸癌、前列腺癌(盡管這項檢測的價值尚有爭議)、結直腸癌,以及吸煙者中的肺癌。“這種一次篩查一種癌癥的方法,在美國僅能檢測出14%的癌癥病例——這是一個令人沮喪的數字,”他告訴我。“現狀令人無法接受。我們無法選擇自己會患上哪種癌癥,而且一次篩查一種癌癥并不能解決超過80%的癌癥死亡問題。增加更多單一癌癥篩查檢測并不可行,因為每種檢測的假陽性率都很高,加在一起會讓醫療保健系統不堪重負。”
然而,Grail 的檢測已經識別出 50 多種癌癥。2016 年 8 月至 2019 年 2 月期間,Grail 啟動了一項里程碑式的研究,旨在評估這項檢測(后來被命名為 Galleri 檢測)的效果。其規模令人印象深刻:超過 1.5 萬名參與者在 140 多個地點參與,其中包括美國的頂級醫療中心。該研究被精心設計成幾個子研究,每個子研究都旨在解答關于該檢測效果的一個特定問題。經過五年的數據收集和分析,所有結果將于 2021 年公布。
乍一看,這篇論文就像一篇科學杰作——醫學、數學、生物化學、計算生物學和機器學習的完美融合。我記得在2021年一個悶熱的夜晚,新冠疫情肆虐之際,我仔細研讀了這篇論文。我端著一壺咖啡,仔細閱讀了五十頁密密麻麻的表格和文字,一直讀到深夜。
子研究 3 脫穎而出:在 4,077 名參與者中,2,823 名已知癌癥,1,254 名確認無癌。Grail 的檢測在 1,453 例癌癥病例中發現了惡性腫瘤,在 1,370 例中漏診。總體靈敏度(即在癌癥真正存在時檢測出癌癥的能力)高達 51.5%。對于一次抽血檢測數十種癌癥類型而言,這是一個令人震驚的結果。現有的方法很少能與之匹敵。最引人注目的是,該檢測能夠檢測出長期以來被認為無法篩查的惡性腫瘤——胰腺癌、卵巢癌和其他逃避監測的腫瘤。同時,在 1,254 名無癌參與者中,只有 6 例出現假陽性——比率非常低,約為 0.5%。
該公司的言論充滿樂觀,這并非毫無道理。研究人員聽起來信心滿滿。投資者欣喜若狂。患者充滿希望。看來,我們終于有了名副其實的液體活檢技術:一種只需一小瓶血液就能檢測出多種癌癥的檢測方法。
然而,深入研究數據后,一個令人警醒的數字浮出水面。該檢測對I期癌癥的敏感性——這是任何篩查工具的基準——略高于16%。早期發現難道不應該是關鍵嗎?然而,早期癌癥——仍處于局部,尚可手術——常常被忽略,因為釋放的信號太少而無法被檢測到。隨著癌癥的進展,該檢測的效果會更好,這合情合理:晚期腫瘤會釋放更多DNA。但它們對治療的反應也更差。
不同癌癥類型的結果差異很大。對于I期胰腺癌和卵巢癌,靈敏度分別達到50%和60%——對于兩種最難診斷的惡性腫瘤來說,這確實令人鼓舞。對于早期食管癌和肺癌,靈敏度則下降到12%和21%——這一水平將嚴重限制其臨床應用。
即便如此,發現某些早期癌癥——尤其是卵巢癌和胰腺癌——仍然令人興奮。早期癌癥提供了更多選擇、更多時間和更多希望。它們更有可能被治愈。經濟和人力成本的考量也發生了變化:早期癌癥的治療費用遠低于晚期癌癥。手術規模更小;化療的痛苦更小。患者可以保留更多精力、更多尊嚴,更好地享受正常生活。
讀完之后,我保持著謹慎樂觀的態度。任何篩查測試的一個關鍵指標是其陽性預測值(PPV),即陽性結果真正預示疾病的可能性。Grail 的測試總體 PPV 約為 45%。也就是說,如果檢測結果呈陽性,那么你實際患癌癥的概率略低于 50%。許多現有的篩查測試的預測值更差,通常會產生比 Grail 方法可能引發的更多不必要的干預。
2021年,在公布了一些補充結果后,Grail開始向公眾推出Galleri檢測。不久之后,Grail的網站上刊登了Rich的故事。Rich是一位健身房老板,大約七十多歲,舉止慈祥沉穩。在一段制作精良的視頻中,Rich講述了這項檢測是如何在他血液中檢測到癌癥信號的。他去看了一位腫瘤科醫生,得知這項檢測發現了已經擴散到淋巴結的癌癥。“我感到很欣慰——幸好我們能早點發現,”他手放在胸口說道。“雖然是三期,但我還要六個月到一年的時間才能發現,到那時就太晚了。”
這是一個感人的故事。然而,看著看著,我卻始終無法擺脫敘事與臨床現實之間的矛盾。這并非傳統意義上的早期發現——在小腫瘤擴散之前就發現它。里奇的癌癥已經蔓延到淋巴系統。如果說這是篩查的勝利,那感覺就像一場有條件的勝利——與其說是勝利,不如說是短暫的喘息。
兩年前,Grail在《柳葉刀》上發表了另一項研究的結果。該研究對該檢測的功能進行了更細致的描述。從 2019 年末到 2020 年,研究人員招募了超過 6600 名參與者,從每位參與者身上抽取血液,并將這些樣本提交分子檢測。這項研究并非隨機的;其設計旨在模擬該檢測在日常醫療實踐中的表現。
與之前的試驗一樣,技術人員從血漿中提取并測序了游離DNA片段。機器學習算法在細胞的嘈雜聲中篩選出細微的信號。92名參與者的信號浮現——理論上,每一位都挽救或延長了一條生命。
后續檢查——掃描、活檢、全套診斷手段——確診了36例癌癥。其中29例為新診斷癌癥;7例為既往治療復發。真正令人燃起希望的是,14例新診斷癌癥(約占一半)處于早期(I期或II期),且有望治愈。此外,該檢測還發現了一些目前尚無標準篩查方法的惡性腫瘤:小腸癌、胰腺癌,以及一種罕見的梭形細胞腫瘤(一種骨癌)。所有這些癌癥都是在尚可手術切除的階段被發現的。這些癌癥通常只有在廣泛擴散后才會顯現。
然而,在《柳葉刀》雜志的一篇評論文章中,醫生理查德·李和流行病學家希拉里·羅賓斯認為該檢測的總體靈敏度“有些令人失望”。他們指出,通過傳統方法發現的癌癥數量也相當。他們總結道,Galleri 檢測“可能不會取代標準篩查”,并敦促謹慎使用,呼吁在將其添加到現有方案之前,先進行成本效益分析。
他們還指出了一個關鍵細節:在14例早期癌癥中,只有6例是新診斷的實體瘤——這些惡性腫瘤有可能通過根治性手術切除。其余8例是液體腫瘤——白血病和骨髓瘤,這些彌漫性疾病不易被控制或“切除”。正如評論員所指出的,“這一發現提出了關于該檢測能否在人群層面降低癌癥死亡率的重要問題。”
盡管存在局限性,Grail 仍然掃清了一個重要的障礙:這項檢測能夠在看似健康的個體中識別出癌癥,而這些癌癥原本可能被遺漏。但一些亟待解決的問題依然存在。如果不進行干預,早期的肝臟腫瘤——或者胰腺病變——是否會致命?如果這類癌癥之前就能在早期就被定期發現,它們的自然發展史或許就能被記錄下來。有些癌癥會保持休眠狀態,甚至消退嗎?還是它們都注定會擴散?
只有一種方法可以知道。Grail 需要在一項完全隨機的試驗中證明其能夠降低癌癥特定死亡率——而這項難以捉摸的黃金標準已經毀掉了許多前景光明的篩查技術。
這項挑戰極其艱巨,需要招募大量參與者并進行多年的隨訪。在美國這樣一個碎片化的醫療體系中,此類研究在商業上也極具風險:投資者不愿接受如此漫長的周期和如此不確定的結果。然而,目前還沒有捷徑可走。
Grail 此前已與英國國家醫療服務體系 (NHS) 的英語系統合作開展一項研究。該研究于 2020 年底宣布,規模龐大:超過十四萬名參與者,來自英格蘭各地 151 個地點的 11 個流動診所。“該試驗設計了連續三年的篩查,旨在實現主要終點,即晚期(III 期和 IV 期)癌癥診斷數量的絕對減少,”Grail 國際業務負責人 Harpal Kumar 寫道。第一輪篩查數據的審查計劃于 2024 年進行,最終結果預計將于 2026 年公布。如果早期數據證明有希望,Galleri 測試將在英國國家醫療服務體系 (NHS) 內推進到更大規模的試點項目。
此次合作立即在癌癥流行病學家中引發爭議。英國國家醫療服務體系(NHS)在英國人的生活中占據著獨特的地位——它既是備受珍視的機構,也是人們長期詬病的靶子。一家美國私營公司介入公共衛生體系的想法引發了人們的警惕。在一篇措辭尖銳的《柳葉刀》評論文章中,題為《Grail -Galleri:為何如此特殊?》,八位杰出的醫生、流行病學家和社會學家直言不諱地發出警告:“一項無法改善死因特異性死亡率(或生活質量)的癌癥篩查計劃只會造成損害并浪費金錢。”他們認為,“ GRAIL -Galleri 試驗至少必須證明其在降低癌癥特異性死亡率方面具有直接益處。”任何替代終點都不足以說明問題。他們對 NHS 試驗選擇“分期轉變”(即減少晚期診斷)作為主要指標感到擔憂。始于上世紀90年代的卵巢癌篩查慘敗清楚地表明,早期診斷的增多并不一定意味著死亡人數的減少。批評人士警告說:“盡管商業利益強大,但NHS(英國國家醫療服務體系)卻無力承擔引領世界采用這些評估不充分的干預措施的后果,這些干預措施可能收效甚微甚至毫無益處,不僅會損害民眾的利益,還會浪費本可用于其他用途的資源。”
2024年春天,我坐在辦公桌前,等待英國國家醫療服務體系(NHS)宣布Galleri的療效。如果早期數據異常積極,Galleri測試預計將擴大到更大規模的試點。最終的聲明出奇地簡潔:“基于NHS-Galleri三年試驗第一年的數據,英國國家醫療服務體系(NHS England)決定,將等待最終結果(預計在2026年),然后再考慮是否應該繼續在NHS推廣Galleri多種癌癥早期檢測測試(即多種癌癥血液檢測計劃,MCBT)。”
這意味著什么?是檢測結果不盡如人意,還是分析結果本身就缺乏定論?根據 Grail 自身的框架,決策將遵循“三個強有力、雄心勃勃且預先設定的標準”:篩查組和未篩查組之間晚期癌癥診斷的減少率、檢測的陽性預測值以及每個隊列的總體癌癥檢出率。
我聯系了 Grail 的總裁 Joshua Ofman。“NHS 當時希望看到僅憑第一輪篩查就能獲得顯著益處的早期跡象,而這在之前的首輪篩查試驗中從未出現過,”他告訴我。他的基本思路是:數據太少,現在下結論還為時過早。(不過,Grail 同意讓 NHS 審查早期數據時,大概抱有不同的預期。)
為了弄清楚情況,我聯系了英國癌癥研究中心的首席臨床醫生查爾斯·斯旺頓。他立即回復道:“作為聯合首席研究員,在最終結果出來之前,我對任何數據都一無所知。” 前牛津大學欽定醫學教授、全球基因組醫學權威約翰·貝爾也同樣不解。“完全沒有頭緒,”他回答道。“我知道的和你一樣多。或許可以問問彼得·約翰遜。”
約翰遜——英國國家醫療服務體系(NHS)癌癥國家臨床主任,也是該領域最受尊敬的臨床學者之一——也迅速回復了郵件。“這項研究已經完成了三年的血液采樣,我們正在等待統計分析計劃和研究方案的結果,然后再做進一步的決定。目前還沒有對數據進行分析。” 他澄清說,2024年5月的聲明并非正式的中期分析,并不能決定試驗的方向。
我隨后提出了一系列問題:Grail 的“三個穩健、雄心勃勃且預先設定的標準”是否經過評估?如果這不是中期分析,那么究竟評估了什么?這些有希望的數據是否會導致由 NHS 資助的更廣泛推廣?為什么 Grail 選擇分期轉變而不是癌癥特定死亡率作為主要終點?后續研究中會測量死亡率嗎?
約翰遜接下來的回應頗具啟發性。首先,他澄清了財務安排:“隨機對照試驗 NHS-Galleri 由GRAIL獨家資助和贊助。” 他指出,NHS 為檢測結果呈陽性的參與者承擔了診斷檢查和治療費用,但沒有承擔檢測費用。(NHS 已同意,如果早期結果非常有希望,將為擴大規模的試點項目購買一百萬份檢測試劑。)
隨后,關鍵信息披露來了:“我可以確認,至少有一項標準未得到滿足,”他寫道,并解釋了為何實施試點項目無法在2024年啟動。他承認癌癥篩查研究進展緩慢:“癌癥篩查試驗通常需要10-15年才能發表死亡率研究結果,而即使結果呈陽性,通常也需要再過10-15年才能在全國范圍內推廣高覆蓋率的篩查項目。我們對NHS-Galleri試驗以及一項可能的實施試點項目采取的方法旨在加快這一進程,同時又不失方法學的嚴謹性,而這對于任何此類項目的成功都至關重要。”
哈帕爾·庫馬爾(Harpal Kumar)在 Grail 網站上發表意見:“這種對某些特定指標的早期研究只能提供有限的視角。正如之前的癌癥篩查試驗所證明的那樣,第一輪篩查的結果并不總是反映最終結果,尤其是在減少晚期診斷方面。”
事實上,幾乎每一項新型高科技癌癥篩查測試,都可以上演類似的版本。格局在變遷,技術在進步,但核心難題依然存在:確定哪些癌癥具有臨床意義,如何應對諸如領先時間和時間長度偏差之類的錯覺,以及最終證明我們不僅能夠發現更多癌癥,還能預防更多死亡。
癌癥遺傳學和機器學習的加速發展可能會改變早期檢測的貝葉斯格局。幾代人以來,我們目睹了惡性腫瘤在家族中穿梭——結直腸癌、卵巢癌、乳腺癌、胰腺癌。這種模式很熟悉,即使尚未完全理解。我們通常會尋找單基因突變——BRCA1、BRCA2、MLH1——這些突變預示著風險升高。但大多數遺傳風險并非由單一的流氓基因攜帶。它源于許多基因的積累——一系列微小變異的復調,每一個都會略微增加風險。如今,基因組測序和計算建模的進步已經開始解開這個架構。復雜的算法可以掃描整個基因組,繪制出數千個微小遺傳變異如何相互作用的圖譜。一個針對數千個基因位點的模型已經可以預測成年人的身高。營養仍然很重要,但這些預測的精確度代表著一項顯著的進步。
類似的模型目前正在被訓練用于預測復雜疾病的易感性——肥胖、心臟病,以及日益增多的癌癥。有乳腺癌家族史的女性現在可以獲得“多基因風險評分”——由數十或數百個基因變異組成的綜合評分。很快,這類模型或許能夠解釋環境暴露和偶然因素的影響,從而提供更動態、更個性化的風險地圖。
想象一下,設計的篩查試驗并非針對普通人群,而是針對那些已被基因標記的人群——那些乳腺癌或結腸癌多基因評分較高的人。再加上其他風險因素:年齡、既往診斷、暴露史。在這樣的世界里,篩查將不再普及。高危人群將接受重點監測。低危人群則可能免于不必要的檢查。預先篩選高危人群可以顯著提高篩查的預測能力。CT掃描中的可疑結節或液體活檢的陽性結果將更有意義。信號更多,噪音更少。獲益的可能性增加;損害的風險降低。
這種新范式不可避免地背負著自身的心理負擔。貝葉斯風險會引發貝葉斯焦慮。患者開始將風險視為一個“地形”——評分、閾值、概率——不斷調整自己在其中的位置。正如一位患者所說,“這就像被圍攻”——不是被實際疾病圍攻,而是被一種潛在的疾病圍攻。這種現象催生了一個意味深長的新詞“預生者”(previvor),指的是那些長期生活在疾病陰影下的人,盡管他們尚未患上這種疾病,但基因上易患上這種疾病。與那些忍受疾病并最終改變的幸存者不同,預生者發現自己懸在健康與預期的背叛之間。他們的生活并非由診斷決定,而是由可能性決定。“癌癥之地”(Cancerland)——腫瘤學家戴維·斯卡登(David Scadden)的貼切術語——的邊界已經急劇擴大。這片曾經專屬于活動性癌癥患者的土地,很快將涵蓋數百萬僅因風險評分就被卷入其中的人。
早期檢測倡導者和流行病學嚴謹論者之間的爭論愈演愈烈。新興技術——無細胞DNA檢測、新型生物標志物、全身成像——的支持者認為,傳統標準設定了難以實現的高門檻。旨在證明癌癥特定死亡率降低的隨機試驗可能需要數十年時間。即使是針對高危人群的貝葉斯試驗也面臨著招募緩慢和長期隨訪的問題。這些研究往往像疲憊不堪的中世紀商隊一樣,帶著來之不易的貨物搖搖晃晃地回家,卻發現周圍的景象已經發生了變化。正如奧夫曼警告的那樣,等到最終結果出來時,這項技術可能已經過時了。如果三十年后,一項試驗產生了一個略微積極的信號——恰逢一種更新、更好的檢測方法出現,該怎么辦?
一組流行病學家在2008年寫道:“所有篩查項目都會造成危害;有些項目也會帶來好處,其中一些項目在合理的成本下利大于弊。” 這一觀點至今仍然成立。但是,一旦篩查測試被廣泛采用,即使其益處被證明微不足道,也幾乎不可能取消。其政治后果將是巨大的。心理上的損失——摧毀一種保護感——也將是巨大的。
與此同時,新技術不斷涌現,每一項都以速度為誘惑。隨之而來的是,人們傾向于接受一些更寬松的療效替代指標:更早的檢測、更精準的分期、更優的生存曲線。采取行動的壓力是真實存在的。但問題同樣重要:我們能否在不損害證據標準的情況下調整證據標準——找到既能跟上創新步伐,又能告訴我們最需要了解的信息的嚴謹方法。
我想起了雪莉。在卵巢癌試驗結果為陰性后,她堅持了好幾年——每次掃描、每次抽血都如期而至,相信自己的工作。她感到無比輕松,并將這份輕松轉化為更大的事業:籌款、倡導、公眾支持生物醫學研究。然而,在2020年,她被診斷出患有轉移性卵巢癌。盡管接受了手術和強化化療,她還是在兩年后去世了。如果最初的篩查更有效,她還會活著嗎?無人知曉。但這個問題依然縈繞心頭。
2021年,在她生命的最后一年,我得了重感冒。雪莉把一盒自制雞湯送到我的公寓。這是一個小小的舉動,卻又很有特色:務實、慷慨,而且是主動提出的。它一直縈繞在我的心頭——比任何p值或風險比都更直接。每當我回想起早期檢測的統計難題時,我都會想起她。篩查試驗的對象并非抽象概念。他們是活生生的人,他們的生活以任何數據點都無法捕捉的方式觸動著他人。
或許,假以時日,我們最終能開發出不僅能檢測癌癥存在,還能預測其發展過程的工具——這些測試不僅能監聽信號,還能洞察癌癥的意圖。早期對游離DNA的研究暗示了這種可能性:血液檢測或許有一天不僅能告訴我們癌癥的起源,還能告訴我們它是否可能對健康構成威脅。目前,我們正處于希望與證據之間的邊緣地帶。在這個領域,希望仍然大于確定性,完美篩查的圣杯仍然遙不可及。
這是摘自The Emperor of All Maladies”十五周年紀念版的最新內容。
說明:本號刊發自各方的文章,是為了獲得更全面的信息,不代表本號支持文章中的觀點。由于微信公眾號每天只能推送一次,無法即時更新,因此,本站目前在騰訊新聞發布最新的文章,每天24小時不間斷更新,請收藏以下地址(請完整復制),隨時刷新:
https://news.qq.com/omn/author/8QIf3nxc64AYuDfe4wc%3D
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.