2025年4月2日,美國國立衛生研究院(NIH)主任辦公室(OD)在網站上發布一份《實施更新:增強NIH受控訪問數據的安全措施》聲明文件,稱自2025年4月4日起,NIH將禁止位于中國、俄羅斯、伊朗等受關注國家的機構訪問NIH受控訪問數據存儲庫和相關數據,涉及dbGaP(基因型與表型數據庫)、AnVIL云平臺、SEER(癌癥監測數據庫)數據庫和NCBI基因組數據共享平臺等。消息一出,引發國內外科研界的熱烈關注和討論。本文在對該事件進行深入分析的基礎上,結合我國當前科學數據工作的主要問題,討論其對我國科學數據管理和共享工作可能產生的影響,并提出意見和建議。
1. 本次NIH數據訪問限制政策的深入分析
本次申明提到兩個依據文件,一個是2024年2月28日發布的第14117條行政命令(Preventing Access to Americans' Bulk Sensitive Personal Data and United States Government-Related Data by Countries of Concern,防止受關注國家訪問美國人的批量敏感個人數據和美國政府相關數據,簡稱EO 14117)。另外一個是2025年1月8日才更新完成的28 CFR Part 202(Preventing Access to U.S. Sensitive Personal Data and Government-Related Data by Countries of Concern or Covered Persons,防止相關國家/地區或所涵蓋人員訪問美國敏感個人數據和政府相關數據)。第一個文件只是對數據類型和行為進行了界定,第二個文件則明確指定了關注國家(Country of Concern)清單,具體包括中國(包括香港和澳門)、古巴、伊朗、朝鮮、俄羅斯和委內瑞拉等6個國家。關注國家的認定原則和依據是:長期存在或存在嚴重行為,對美國國家安全或美國公民的安全構成嚴重危害,并且存在利用政府相關數據或大量美國敏感個人數據,損害美國國家安全或美國公民安全的巨大風險。
要看到的是,本次聲明有一定的范圍界定,并不是所有的科學數據,主要聚焦的是“敏感個人數據”。該詞適用《外國情報監視法》第203(b)(1)和(b)(3)條的規定,是指涵蓋的個人識別信息、精確地理位置數據、生物識別信息、人體組學數據、個人健康數據、個人財務數據或其任何組合,具體內容如下表所示。
表1 “敏感個人數據”包括的數據類型和具體內容
盡管本次聲明是數據從嚴管理和共享的原則出發的。但是,兩份依據文件中卻都提到在科研方面對開放合作行為的支持。如第一份文件中提到“美國繼續支持跨境的數據流動開放、全球、互操作、可靠且安全,以及維持美國與其他國家之間重要的消費者、經濟、科學和貿易關系”,第二份文件中也提到“美國支持開放科學數據和樣本共享,以通過國際合作與合作加速研究和開發”。可見,美國這次事件并不是完全的“一刀切”,也為國際科技合作留出了空間。但是前提是“保護美國人的敏感個人健康數據和人類基因組數據免受威脅”,并在積極“承諾增加公眾獲取納稅人資助科學研究成果的機會,促進電子健康信息的共享和互操作性,以及患者對其數據的訪問”。
2. 我國科學數據的問題分析
我國對科學數據工作非常重視,在2018年出臺了國家層面的《科學數據管理辦法》,提出了“開放為常態、不開放為例外”的基本原則。在專業數據的管理和保護方面,也出臺了《中華人民共和國人類遺傳資源管理條例》(2019年)、《中華人民共和國生物安全法》(2020年)和《中華人民共和國個人信息保護法》(2021年)等一系列的法律法規。但是,我國科學數據工作仍然存在諸多不足。
(1)科學數據資源本底狀況不清楚,缺乏國家頂層設計和協調框架。
我國雖然在科技部和財政部的支持下,建成了以20個國家科學數據中心和31個國家資源庫為重要基礎的科技資源共享平臺。但是還有很多數據零散地分布在各個部委、科研機構、高校、企業、公益機構、期刊出版單位建立的大大小小平臺中,缺乏國家層面跨部門之間的數據統籌協同交互機制。通過表1的歐盟數據門戶、美國政府數據門戶和中國科技資源共享網的數據共享情況可以看出,歐美可以非常清楚地從行業分類和政府部門的角度對數據進行統計和盤點,歐盟數據門戶甚至將高質量數據集等特色數據產品也做了集成。而我國的科學數據和政府數據則由于缺乏國家統一匯繳和管理平臺(雖然已經大部分建成了省市級平臺,但仍然缺乏國家統一的數據平臺),無法進行全面的統計。這對于國家數據資產的盤點、管理和調度都極為不利的。另外,從下表的數據統計來看,歐美則是社會公共領域和自然環境類的數據居多。而我國的生物、臨床和人口健康數據的共享數據占比非常大,這也正是NIH數據事件的焦點,如果不加限制即可訪問和使用這些數據則會有較大的風險,需要引起重視。
表2 歐洲和美國政府數據和中國科技資源數據統計表
注:歐洲數據門戶(European data,網址:https://data.europa.eu/en)匯總了35個歐洲國家199個數據目錄的1,874,254條數據集。美國政府數據(網址:https://data.gov/)匯總了美國政府各大部門的307,366個公共數據集。中國科技資源共享網是由國家科技基礎條件平臺中心主辦的綜合性門戶網站(網址:https://www.escience.org.cn/),包括20家國家科學數據中心和31家國家生物種質與實驗材料資源庫,共計4,263,891個資源目錄。
(2)中國科學數據外流現象非常嚴重,個中原因復雜多樣。
除了存繳在國內各大數據平臺之外,我國的科學數據還大量地流失在國外的數據平臺中。從Dimensions數據庫中可以檢索到70.2萬條中國學者發布的數據集(僅次于美國的85.3萬條)。對這些數據進行不同維度的統計分析,從圖1的學科分類和資助機構的熱力統計圖來看,具有明顯的學科特征,生物、醫學、臨床、健康和化學領域以國內資助為主,而物理和數學領域則與美國、德國、英國和日本等國有重要的合作關系。
圖1 中國學者在國際上發表科學數據的學科分類和資助基金統計表
(數據來自Dimensions數據庫,2025年4月9日)
另外一個令人擔憂的情況是,這些能夠在國際上檢索、發現和收錄的科學數據相對來說都是質量比較高的數據。而從數據所在TOP 10倉儲平臺來看(表2),沒有一家來自中國國內。盡管從表1的中國科技資源共享網的數據來看,我國實際的數據資源遠不止這個情況。但是國內的數據倉儲為什么被統計進來?是國內平臺自己不積極主動和國際接軌?還是不知道其中的操作流程和規范?亦或是其他原因,就不得而知了。這種情況如果依然不引起重視,中國的科學數據外流現象依然會持續。
表3 中國學者發表科學數據的TOP 10數據倉儲平臺
(3)科學數據的開放生態系統建設依然任重道遠。
科學數據相關工作包括政策、技術、軟硬件、代碼、標準、人才、質量控制、出版、共享重用、傳播推廣等方面,涉及科研人員、科研機構、學術期刊、出版社、學術組織等諸多學術共同體,是一個復雜的系統性工程。我國一方面缺乏深入系統的理論研究,未能形成類似NIST(美國國家標準和技術研究所)提出的“科學數據框架(RDaF)”的理論體系(圖2)。該體系幾乎涉及科學數據工作所有方方面面,是一個集大成的框架,同樣也適合指導我國的科學數據研究和應用工作。但是目前來看,我國的科學數據理論研究要遠遠低于這個框架設計和關注的內容。
圖2 NIST(美國國家標準和技術研究所)提出的“科學數據框架(RDaF)”的理論體系
另一方面是缺乏對實踐問題的總結和方案應對,特別是需要不同“圈子”的跨界和融合。我國在數據開放生態系統方面存在問題具體包括:數據出版發布和文獻中的數據引用并沒有建立有效的機器可讀關聯機制,導致數據的發現、獲取、重用和評估都非常困難。數據貢獻沒有和績效評估和職稱晉升結合起來,導致科研人員主動融入數據共享的積極性并不高。科技期刊缺乏對數據匯繳和共享的引導和投稿政策要求,導致科學數據不能順利匯繳或者白白流失到國外。缺乏專業和多維度的標引,導致不能很好地作為專業“語料庫”服務于各類人工智能或大語言模型的應用場景。缺乏對數據的組織和深加工,不能為開放科學、數字公共產品和聯合國可持續發展目標(SDGs)等國際行動計劃提供有力支撐。敏感數據(如基因、地理信息)的脫敏技術和分級分類保護機制尚不完善或者不明確或者怕擔責任,導致有的數據直接就不對外共享。缺乏有效的全局性DMP(數據管理計劃)設計和執行,導致管理工作顧此失彼。“科學數據圈”和“開源軟件圈”、“教育課程圈”、“論文出版圈”等圈子沒有很好地形成良好的互補和互動。
(4)中國科學數據總體上缺乏國際話語權,缺乏具有國際影響力的專業數據平臺和數據期刊。
在兩個國際知名的數據倉儲編目系統中,re3data上中國數據平臺有86家(占比2.56%),FAIRSharing收錄中國的數據平臺有130家(占比5.58%)。這些數據其實并不是中國的實際數據倉儲情況。造成這種情況主要包括:一是沒有加入相關國際組織,導致在國際數據標準制定和重要數據庫的建設發展中參與度有限。二是雖然加入了國際組織,但是由于個人或者組織機構的原因,沒有明確的工作規劃和要求,導致沒有發揮相應的國際帶動作用。三是可能壓根就不知道有哪些國際組織可以發揮作用,需要有人指導或者帶領進入,熟悉相關流程和規則。如在上述數據倉儲編目系統中,國內很多數據平臺缺乏國際合作意識,并沒有主動去錄入、維護和宣傳,導致國內數據平臺不為國際所知。目前,國家也缺乏相關政策引導、鼓勵和支持科研人員在國際組織中積極發揮作用。在國際組織中地位或話語權的缺失弱化,也會進一步削弱中國在區域事務中(亞洲或者一帶一路地區)的影響力。
3. 對我國科學數據工作的影響
(1)最直接影響是科學數據獲取受限,合作項目受阻或停止。
NIH的受控數據庫(如SEER、dbGaP、TCGA、ClinVar等)存儲了大量人類基因組、癌癥研究、罕見病等關鍵數據,中國科研人員將無法直接訪問,影響精準醫學、遺傳學等領域的研究進展。如中美聯合癌癥研究、傳染病基因組分析等依賴NIH數據的國際合作項目可能會停止。我國的數據和成果無法及時更新到這些數據庫中來,影響與其他國家的科研合作。我國與不同國家的國際合作影響也可以從合作論文中得到印證。下圖3是來自Web of Science核心合集數據庫與中國合作最多的5個國家這20年的合作論文情況。可以看出,中美合作從2019年達到頂峰之后,就開始逐年下降。但是,中國和英國、澳大利亞、加拿大以及日本的合作情況卻是在逐年增加的。這也為未來我國開展中美以外的國際合作奠定了良好基礎。
圖3 中國合作最多的5個國家20年來的論文統計情況(來自web of Science分析數據)
(2)研究效率下降和科研成本增加。
國內研究者或者藥企需轉向美國以外的其他國際數據或者本土數據庫,無論哪種方式都會導致時間和經濟成本的增加,同時還要考慮數據的質量和合法合規性。如國內一些醫院擁有自己的小樣本生物數據庫,但沒有一個共享的機制,再加上有數據安全風險責任和數據利益,我國迄今也沒有建立諸如腫瘤生物樣本的數據平臺。
(3)推動本地化同類數據庫的建設和發展。
盡管我國已建立國家基因庫(CNGBdb)、國家基因組科學數據中心(NGDC)等平臺,但數據規模、標準化程度與國際領先數據庫仍有差距。我國其實有大量類似的人口健康數據,但是零散地分布在各類醫院和研究機構中,缺乏統一共享機制,此次事件可能會促使政府加大力度推動該類數據共享利用。
(4)重構我國的數據共享文化和貢獻機制。
此次事件表明,國際科學數據共享正受政治因素干擾,數據主權成為大國博弈和保護人種隱私的工具。我國如果長期依賴國外數據庫,可能面臨更廣泛的“數據斷供”風險。在這種背景下,我國科研人員、機構和政府都需重新評估數據存繳與共享策略和文化,激勵對數據所做的各類貢獻。政府要從頂層框架上,跨部門打通數據的交互流通障礙,加快構建自主可控的國家級科學數據平臺,推動數據資源本地化存儲與利用。
4. 對我國科學數據工作的建議
(1)加強國家層面的頂層框架設計,加速本土數據庫建設與融合,提升數據自主性。
在中國科技資源共享網等現有科學數據體系的基礎上,加強建立跨部門之間的數據協同機制,吸納更多的跨部門數據資源。加強中國科學數據的國際回流計劃,讓更多的中國數據在本土產生、本土存繳和本土再利用,同時避免“數據孤島”現象。積極融入國家數據局的整體設計框架中,也為數字經濟、數字中國、AI4Science科研范式和“國家級人工智能訓練場”等核心基礎設施的建設提供有力支撐。
(2)加強戰略和理論問題研究,加強政策與法律的引導和支持。
對社會主義制度下的科學數據問題進行深入的理論研究,特別是數據要素和新質生產力方面的研究。制定相關法律法規,明確數據所有權、使用權與共享規則。設立專項基金,支持數據平臺建設與關鍵技術研發。推動建立多邊區域數據共享框架,減少地緣政治對科研合作的影響。建立科研數據共享激勵機制,將數據貢獻納入科研考核,打破部門與機構間的壁壘。鼓勵公眾參與,豐富數據來源,增加數據產品類型。
(3)推動數據標準化與共享文化,加強科學數據的開放社區建設。
制定統一的數據標準和原則,確保與國際接軌,如FAIR原則(可查找、可訪問、可互操作、可重用)和CARE原則(集體利益、控制權、責任、倫理)。整合科研機構、企業、學校與公眾資源,形成數據采集、存儲、分析和應用的開放生態鏈,積極融入開放科學社區建設。加強和推動科學數據與科技文獻、軟件代碼、大語言模型等科技資源之間的關聯和交互,加強數據應用服務和影響力的評估,加強學術期刊和數據存繳平臺的聯動政策發布和指導,建設和完善整個社區的生態建設和生態效應。
(4)優化數據安全與合規管理,加強對人才的培養和培訓。
采用區塊鏈、加密技術等手段,保障數據安全與隱私。完善數據分級保護制度,區分公開數據與敏感數據(如人類遺傳信息、精確地理位置信息等),確保安全共享。支持科研人員參與國際學術會議、合作項目和國際組織任職,提升國際視野與協作能力,傳播中國的數據共享政策方案和實踐案例。加強科研人員數據合規培訓,適應國際數據政策變化,避免項目因合規問題受阻。
(5)加強國際合作,降低對單一數據源的依賴。
積極與歐盟、亞洲等其他國家和地區的科研機構開展合作,建立數據共享機制與科研項目合作平臺,在開放中謀發展,通過多邊合作降低對特定國家數據資源的依賴,推動科研工作的持續開展。推動亞洲區域及“一帶一路”科學數據共享計劃,引領和倡導新型國際科技合作關系和科學計劃,增強全球數據治理話語權。
許哲平,中國科學院文獻情報中心研究館員。文章觀點不代表主辦機構立場。
◆ ◆ ◆
編輯郵箱:sciencepie@126.com
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.