點(diǎn)擊藍(lán)字關(guān)注,多點(diǎn)在看防失聯(lián)
個(gè)人觀點(diǎn),不代表任何組織與單位
一個(gè)刷屏科研圈的新聞:NIH突然禁止中國(guó)研究人員使用核心數(shù)據(jù)庫。
起因是NIH在4月2日發(fā)表的一份公告,通知從4月4日起,禁止6個(gè)國(guó)家訪問NIH的受控?cái)?shù)據(jù)庫(controlled-access data repositories)。
幾個(gè)需要注意的點(diǎn)——也是網(wǎng)上不少說辭有混淆的地方。
第一,限制中國(guó)在內(nèi)數(shù)個(gè)國(guó)家地區(qū)對(duì)NIH部分?jǐn)?shù)據(jù)庫的訪問是過去一年多美國(guó)法律推進(jìn)的結(jié)果,很難說“突然”。
NIH通告里引用了兩條法規(guī),一條是2024年2月頒布的行政令EO14117,這是拜登政府發(fā)布的限制一些國(guó)家獲取美國(guó)個(gè)人敏感信息以及美國(guó)政府信息的行政令。該行政令提出個(gè)人基因組信息在內(nèi)的一些生物學(xué)數(shù)據(jù)屬于敏感信息,源于美國(guó)境內(nèi)的數(shù)據(jù)不能傳到包括中國(guó)在內(nèi)的部分國(guó)家。
另一條被引用的 28 CFR Part 202,是美國(guó)司法部依據(jù) EO14117做出的最終法規(guī)。 EO14117和 28 CFR Part 202是典型的美國(guó)立法方式,行政令或國(guó)會(huì)立法給出框架,相關(guān)部門,比如這里的美國(guó)司法部根據(jù)框架再確立具體條規(guī)。
28 CFR Part 202是美國(guó)司法部基于 EO14117給出的最終法規(guī),公布時(shí)間是2024年12月27日,生效時(shí)間是2025年4月8日,里面給出了諸如多少數(shù)量的個(gè)人基因組數(shù)據(jù)屬于大量等具體規(guī)則。
NIH 4月2日通告限制中國(guó)等地訪問部分NIH管理的數(shù)據(jù)庫,是執(zhí)行司法部的 28 CFR Part 202,從 EO14117算起,整個(gè)事件演變超過一年,并非突然。
第二,受限的是NIH部分?jǐn)?shù)據(jù)庫,很多常用的NIH數(shù)據(jù)服務(wù)不受影響。
說到有NIH數(shù)據(jù)庫不能用,很多人第一反應(yīng)是文獻(xiàn)數(shù)據(jù)庫pubmed這類生物醫(yī)學(xué)最常用的數(shù)據(jù)庫不能用了,但這屬于誤解。
NIH通告里明確說了受限制的是受控?cái)?shù)據(jù)庫(controlled-access data repositories)。
NIH數(shù)據(jù)庫可以分為兩個(gè)類型,一個(gè)就是受控?cái)?shù)據(jù)庫,另一類是開放數(shù)據(jù)庫(open access)。前者由于具有個(gè)人基因組信息、醫(yī)療信息等敏感內(nèi)容,使用本就有規(guī)則,需要注冊(cè),獲的授權(quán)后才能訪問。而大家熟知的pubmed是開放數(shù)據(jù)庫,并非受控?cái)?shù)據(jù)庫,不受NIH新規(guī)定影響。
NIH網(wǎng)站上有列出21個(gè)受控?cái)?shù)據(jù)庫:
這些受控?cái)?shù)據(jù)庫涉及 EO14117和 28 CFR Part 202提到的個(gè)人基因組信息等敏感信息。NIH針對(duì)中國(guó)等國(guó)家的限制,等于是在受控?cái)?shù)據(jù)庫訪問的規(guī)則里加入里地理限制,中國(guó)等地的研究人員不能取得相關(guān)訪問權(quán)限。
第三,一些NIH數(shù)據(jù)庫有“受控”與“公開”兩個(gè)分級(jí),受影響的是前者,不影響“公開”級(jí)別數(shù)據(jù)的使用。
我們以實(shí)例說明被限制的“受控”到底是怎么回事。
從上表可見NIH列出的多個(gè)受控?cái)?shù)據(jù)庫都屬于dbGaP Access System。該系統(tǒng)全名是 The database of Genotypes and Phenotypes,是存儲(chǔ)基因型與表型數(shù)據(jù)的平臺(tái)。
美國(guó)國(guó)立癌癥研究所(NCI)有一個(gè)針對(duì)癌癥研究的基因組數(shù)據(jù)庫:癌癥基因組學(xué)數(shù)據(jù)共享中心(Genomic Data Commons,簡(jiǎn)稱GDC)。做腫瘤研究經(jīng)常遇到的數(shù)據(jù)庫TCGA就是GDC的一部分,而GDC又建立在 dbGaP之上。
TCGA數(shù)據(jù)有兩個(gè)層級(jí),一個(gè)是“公開”(open access),任何人打開TCGA都可使用,不需要獲取特殊許可。該“公開”層級(jí)的特點(diǎn)是不具備可追溯到個(gè)人的信息。舉個(gè)例子,你可以用TCGA看EGFR突變這種致癌突變?cè)诓煌[瘤類型里的比例。
但TCGA也能提供更細(xì)致的信息,比如某份腫瘤樣本的原始測(cè)序數(shù)據(jù),這就屬于“受控?cái)?shù)據(jù)”,必須取得GDC的受控?cái)?shù)據(jù)訪問權(quán)限方能獲得,GDC網(wǎng)站上也有取得權(quán)限的流程示意圖:
“受控?cái)?shù)據(jù)”需要權(quán)限顯然有重要的隱私保護(hù)考慮,畢竟這些數(shù)據(jù)更容易追溯到具體個(gè)人。
但EO14117和 28 CFR Part 202加入的是國(guó)家安全要求,認(rèn)為此類數(shù)據(jù)如果傳輸?shù)讲糠謬?guó)家,不僅威脅到隱私,還有國(guó)家安全問題。NIH基于此執(zhí)行的新規(guī),也就意味著中國(guó)等地的研究人員無法獲得相應(yīng)訪問、使用權(quán)限。
了解了這些,我們也能推測(cè),NIH此次禁止中國(guó)研究人員使用部分?jǐn)?shù)據(jù)庫,受影響最大的是那些此前注冊(cè)了相關(guān)訪問權(quán)限,深度使用這些受控?cái)?shù)據(jù)庫的科研工作人員。如果此前從未尋求過那些受控?cái)?shù)據(jù)庫的使用權(quán)限,受到的影響有限。
考慮到近年來歐美出于隱私、國(guó)家安全等多個(gè)因素,對(duì)基因組等敏感數(shù)據(jù)的管控越來越嚴(yán),依賴歐美“受控”級(jí)別的基因組、醫(yī)學(xué)數(shù)據(jù)做研究,本來也過于冒險(xiǎn)。
網(wǎng)上對(duì)某些數(shù)據(jù)庫的重要性描述似乎也令人難以理解。比如SEER,這是美國(guó)本土的癌癥流行病學(xué)數(shù)據(jù)庫,包括美國(guó)這里的各種腫瘤發(fā)生率、預(yù)后情況。作為目前全球最大、最全的腫瘤流行病學(xué)數(shù)據(jù)庫,中國(guó)的研究人員想?yún)⒖计渲袛?shù)據(jù)做研究可以理解,可這畢竟是在美國(guó)收集到的患者數(shù)據(jù),不同腫瘤的發(fā)病率、標(biāo)準(zhǔn)治療方案等均可能與中國(guó)本土數(shù)據(jù)相去甚遠(yuǎn)。
如果一項(xiàng)在中國(guó)的研究離開SEER就無法實(shí)行,那么這項(xiàng)研究到底是在琢磨什么?又有多大必要非在中國(guó)做呢?
訂閱關(guān)注防失聯(lián)
前沿醫(yī)藥,請(qǐng)關(guān)注
參考資料
https://grants.nih.gov/grants/guide/notice-files/NOT-OD-25-083.html
更多精彩內(nèi)容見Youtube:Y博的科普?qǐng)@
Y博也有播客了,歡迎關(guān)注《說醫(yī)解藥》
小宇宙、蘋果播客、Spotify同步更新
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.