4月5日,當北京某三甲醫院的腫瘤研究院張博士用鼠標點擊NIH官網嘗試獲取項目數據時,頁面卻彈出了“訪問被拒”的提示。這并非網速延緩,也不是張博士點擊出錯,而是美國政府最新出臺的限制政策所致。
4月2日美國國立衛生研究院(NIH)對外公布文件,自本月4日起將全面禁止中國、伊朗、俄羅斯等相關國家機構訪問數據存儲庫,范圍包括人類基因表型數據庫dbGaP以及大規模基因數據分析云平臺AnVIL等等。
這些平臺承載著全球最核心的人類基因組和疾病研究數據,堪稱世界科研人員的數據糧倉,而現在卻對中國全面關停。對此有不少國內專家埋怨:為何一直呼吁建立的統一臨床數據庫,進展卻如此緩慢?
美利堅的封鎖
前不久美國白宮公布了EO 14117總統令,內容涉及防止個別國家訪問美國的個人敏感數據和政府相關數據,以及禁止與某些國家、個人進行數據交易。在此行政令基礎上,美政府實施了本次封鎖政策,將中國地區、俄羅斯、伊朗等國家統一列為數據禁區。
NIH是全球最大生物醫學研究機構,旗下運營數據庫被稱為生命科學領域的基石。本次封鎖令限制的數據庫包括SEER,該數據庫于1973年建立,數據覆蓋全美34.6%的人口,內容包括癌癥的發病率、患病率、死亡率以及治療生存率。
另有儲存人類基因、疾病相關數據,涉及遺傳罕見病領域的dbGAP基因表型數據庫,涵蓋2.5萬癌癥患者基因組數據的TCGA基因圖譜。值得注意的是,美國封鎖令針對的不僅是國籍,還包括所在科研機構位置。也就是說,無論訪問者是什么身份,只要身處中國一律都將被限制訪問。
美國政府為何要突然發動醫療封鎖?這背后其實源自于政策邏輯。特朗普高度重視生物醫學,將此視作戰略競爭領域,在他的認知內,生物醫學就是美國最高科技代表,也是美國封鎖制裁最銳利的劍刃。
毫無疑問,美國的醫療數據封鎖將對我國科研造成重大影響。比如跨國合作上的打擊,如果中國學者課題組與海外團隊合作共享了NIH數據,那么4日過后,我方將徹底無法訪問相關數據,一些項目也將因此被迫終止。一切依賴dbGaP 或 AnVIL獲得數據的研究都將陷入困境,導致數據不僅難以走出來,而且還進不來。
從實際科研需求分析,中國學者對于美國公開數據庫和臨床數據是高度依賴的。2024年復旦大學基于TCGA數據庫發現了新亞型肺癌,并計劃于今年啟動多國臨床試驗。但美利堅的一紙政策卻完全推翻了復旦大學的計劃,現在他們因無法獲取對照數據而難以開展試驗。
坐擁全球最大腫瘤樣本庫的上海瑞金醫院,旗下60萬份樣本中順利完成基因測序的僅有15%以下,國內各大醫院之間的數據共享率堪堪僅有28%,反觀美國卻高達68%。
受沖擊最深的當屬精準醫療領域,深圳一基因檢測公司表示,旗下源于MIH數據開發的跨種族變異數據準確率高達92%,現在卻暴跌至78%。華大基因的國際基因庫雖然儲存足足有400PB數據,但能用于科研調用的數據占比不足30%。
被予以厚望的阿里健康,所搭建的腫瘤數據庫覆蓋病種,也只占到了美國的1/4。國產替代數據庫不僅儲量匱乏,而且準確率似乎也遠不及美國。
這則封鎖令可謂直接改寫了國際科研合作規則,中科院和歐洲生物信息研究所緊急啟動了數據中立區,打算通過第三方服務器托管敏感數據。
計劃很完美,但在實際操作中,只要涉及美國方面的基因數據依然是無法調用,除非獲得美司法部特批。一個帕金森病的跨國研究項目,也因此被迫延誤長達8個月之久。
中國此前牽頭提出的"十萬人基因組計劃"原本在今年就該順利接入全球數據庫,如今在美國封鎖下卻不得不被迫轉向東南亞與非洲樣本。據統計,這導致我國研究成果在《自然》《細胞》等國際頂尖期刊的接受率暴跌17%。
美國的一項封鎖令,至少揭露了兩大現象。第一是全球科研合作的脆弱性,過去這些數據庫對全球免費開放,有效促進了國際科研合作。但如今個別國家對數據的重視程度不斷提升,他們可以隨心所以的暫停知識共享,去削弱任意一個國家在全球生命科學領域的競爭力。
第二就是中國生物醫學的致命弱點,比如顯而易見的技術代差,中國生物醫學論文多達42%的圖表數據都來自于NIH數據庫,清華大學在《自然》雜志發表的阿爾茲海默病研究,近九成的數據樣本都來自于AnVIL。
再比如人才斷層,我國八零后科研人員普遍崇尚“拿來主義”,自主建庫能力極為薄弱。國內諸多資歷深厚的臨床醫生早有預料美國會采取數據封鎖行動,因此腫瘤專家們早在五年前就呼吁大力開發國產數據庫,但始終都面臨著經費和管理上的問題,導致國內至今未能建立起腫瘤生物樣本之類的數據庫平臺。
中國數據庫平臺建設
其實早在2020年,國務院就將“數據”列為第五大生產要素。在后續的《“十四五”大數據產業發展規劃》中,國家更是出臺“數據二十條”,全面推動數據市場化,打算將數據轉型為資產。
但五年時間轉眼而逝,以醫療方面為首的各類數據發展依然緩慢。盡管互聯互通工作開展了數年,表面上看上層建立了全民健康平臺,下層突破了科室之間的孤島效應,但各大醫院之間卻依然是相互獨立,互不相擾,老百姓看病還是局限于單個醫院之內。
因此中國醫學數據庫在實現商業化之前,首先要突破的問題就是“共享”。2023年全國兩會上,全國政協委員趙宏將醫療數據所面臨的各類問題,用八個字進行了總結,那就是:不愿共享、不敢共享。
對于醫院彼此之前,各家標準互不相同,支撐業務數字化的數據庫結構也各不一樣。因此即便是同個區域,三級醫院和基層醫院提交的數據質量卻是良莠不齊,相差極大,若是按照統一標準進行采集也十分困難。
再比如產權與分配,目前我國的法律體系并不能很好界定醫療數據的歸屬所有權。無論是政府、企業還是院校、機構,在長期業務中都積累了大量健康醫療資源,都是醫療數據的持有者和控制者,這導致數據權屬根本無法定義。
目前關于醫療數據的歸屬權問題,社會上就分出了兩大派別。第一派認為醫療數據所反映的是個人健康情況,因此理應歸屬患者個人。
第二個觀點認為醫療數據是由醫院進行采集,醫院還同時負責儲存保護,因此應該屬于醫療機構。還有少部分認為,醫療數據所有權在于患者,控制權在于醫院,管理權在于政府。
只能說這些最基礎的歸屬權問題解決不了,國家數據庫就很難有長足的積累和進步。近兩年國家數據庫也在積極推動相關監管機制的建立,我們不妨將這件事情交給時間來解決,相信一個完善全面的醫療數據共享時代即將來臨。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.