2025 年 4 月 4 日起,美國國立衛(wèi)生研究院(NIH)將正式對包括中國在內(nèi)的多個(gè)受關(guān)注國家實(shí)施數(shù)據(jù)訪問限制。NIH 主任辦公室已于 4 月 2 日在官網(wǎng)發(fā)布《實(shí)施更新:增強(qiáng) NIH 受控訪問數(shù)據(jù)的安全措施》文件,明確禁止位于中國、俄羅斯、伊朗等受關(guān)注國家的機(jī)構(gòu)訪問 NIH 的受控?cái)?shù)據(jù)存儲(chǔ)庫及相關(guān)資料。
例如,NCBI 等國際知名數(shù)據(jù)庫的突然「斷供」,讓廣大科研工作者措手不及,仿佛一夜之間失去了重要的研究工具。
圖片來源:NIH 官網(wǎng)
被禁用的國外數(shù)據(jù)庫
NCBI ——作為 NIH 下屬的數(shù)據(jù)庫中心,負(fù)責(zé)維護(hù) GenBank(全球最大的公共 DNA 序列數(shù)據(jù)庫,存儲(chǔ)著數(shù)百萬物種的基因數(shù)據(jù))、PubMed(收錄超過 3500 萬篇生物醫(yī)學(xué)文獻(xiàn)摘要)、dbGaP(基因型和表型數(shù)據(jù)庫)、SRA(序列讀取存檔)、ClinVar(記錄基因變異與疾病關(guān)聯(lián)的臨床數(shù)據(jù)庫)、Protein(存儲(chǔ)蛋白質(zhì)序列和結(jié)構(gòu)數(shù)據(jù))等重要生物醫(yī)學(xué)數(shù)據(jù)庫,可以說是無數(shù)科研人的數(shù)據(jù)「糧倉」。
圖片來源:NCBI 官網(wǎng)
GenBank 數(shù)據(jù)庫——作為 NCBI 精心打造并維護(hù)的一級核酸序列數(shù)據(jù)庫,匯聚并詳盡注釋了全球所有公開的核酸及蛋白序列信息。
其豐富數(shù)據(jù)源自全球科研工作者直接向 DNA 序列數(shù)據(jù)庫的積極貢獻(xiàn),無論是作為研究論文的重要組成,還是直接公開的序列數(shù)據(jù),GenBank 都為其提供了堅(jiān)實(shí)的存儲(chǔ)與分享的平臺(tái)。
GenBank 數(shù)據(jù)庫的禁用對科研工作帶來了多方面的挑戰(zhàn),中國科研人員將無法直接訪問 GenBank 數(shù)據(jù)庫中的受控?cái)?shù)據(jù),包括人類基因組數(shù)據(jù)、健康記錄等敏感信息。
這也將嚴(yán)重影響相關(guān)領(lǐng)域的研究進(jìn)展,尤其是在精準(zhǔn)醫(yī)學(xué)、遺傳學(xué)等領(lǐng)域。
圖片來源:GenBank 官網(wǎng)
dbGaP 數(shù)據(jù)庫——作為人類基因型-表型數(shù)據(jù)庫,存儲(chǔ)著全球最全面的人類基因組與表型關(guān)聯(lián)數(shù)據(jù),覆蓋癌癥、罕見病等研究領(lǐng)域,中國約有 75% 的機(jī)制癌癥研究依賴于此平臺(tái)。
dbGaP 數(shù)據(jù)庫的禁用將使得中國科研人員無法直接訪問 dbGaP 數(shù)據(jù)庫中的受控?cái)?shù)據(jù),包括人類基因型與表型數(shù)據(jù)、疾病研究數(shù)據(jù)等敏感信息。
這將嚴(yán)重影響相關(guān)領(lǐng)域的研究進(jìn)展,尤其是在遺傳學(xué)、癌癥研究等領(lǐng)域。
圖片來源:dbGaP 官網(wǎng)
ClinVar 數(shù)據(jù)庫——作為免費(fèi)的公共數(shù)據(jù)庫,主要包含了人類遺傳變異及其與疾病的關(guān)系,全球有 2800 多個(gè)組織提交了 300 多萬種變異。
該數(shù)據(jù)庫此前進(jìn)行了更新,包含三種分類類型:種系變異、致癌性和體細(xì)胞變異的臨床影響。
ClinVar 數(shù)據(jù)庫被廣泛運(yùn)用于臨床遺傳學(xué)檢測實(shí)驗(yàn)室、研究機(jī)構(gòu)、專家組以及其他負(fù)責(zé)變異臨床意義分類的人員。尤為關(guān)鍵的是,該平臺(tái)為臨床遺傳學(xué)檢測實(shí)驗(yàn)室搭建了數(shù)據(jù)共享的橋梁,使得原本可能永不公開的寶貴信息得以共享和傳播。
ClinVar 數(shù)據(jù)庫被禁用之后,醫(yī)生可能無法獲取這些關(guān)鍵數(shù)據(jù),影響疾病的診斷和治療方案的制定,進(jìn)而影響患者的治療效果和生活質(zhì)量。
同時(shí),由于無法獲取關(guān)鍵數(shù)據(jù),一些新藥研發(fā)項(xiàng)目可能被迫延遲,導(dǎo)致預(yù)計(jì)損失增加。例如,藥明康德的新藥研發(fā)管線中,多個(gè)項(xiàng)目因無法獲取 ClinVar 數(shù)據(jù)而延遲,預(yù)計(jì)損失超過 20 億元。
圖片來源:ClinVar 官網(wǎng)
進(jìn)行替代的國產(chǎn)數(shù)據(jù)庫
面對如此多的數(shù)據(jù)庫被禁用,應(yīng)該如何破局?其實(shí),國家基因庫已早有準(zhǔn)備!中國在生物信息數(shù)據(jù)領(lǐng)域打造了自主可控的數(shù)據(jù)資源共享平臺(tái) —— 國家基因庫生命大數(shù)據(jù)平臺(tái)(CNGBdb),為科研人員提供了堅(jiān)實(shí)的數(shù)據(jù)支撐。以 CNGBdb 為代表的一批國產(chǎn)數(shù)據(jù)庫與平臺(tái)在成果發(fā)表和數(shù)據(jù)資源自主性方面均取得了顯著突破。
接下來,學(xué)霸君就帶大家認(rèn)識(shí)更多的國產(chǎn)數(shù)據(jù)庫,為大家提供更多可替代性方案。
圖片來源:CNGBdb 官網(wǎng)
?CNGB 數(shù)據(jù)庫
https://db.cngb.org
中國國家基因庫 CNGB 作為我國自主研發(fā)且可控的公共核酸序列數(shù)據(jù)庫,為數(shù)據(jù)所有者提供了一個(gè)平臺(tái),用以歸檔和公開共享各類數(shù)據(jù),包括原始數(shù)據(jù)(如 fastq/bam 格式)、組裝數(shù)據(jù)(fasta 格式)、變異數(shù)據(jù)、代謝數(shù)據(jù)、單細(xì)胞數(shù)據(jù)以及時(shí)空組數(shù)據(jù)等。
圖片來源:CNGB 官網(wǎng)
此外,相關(guān)研究成果和數(shù)據(jù)也可以通過國家基因庫序列歸檔系統(tǒng) CNSA 進(jìn)行上傳與歸檔。
目前,CNSA 已經(jīng)有近 18000TB 的數(shù)據(jù)總量!
圖片來源:CNSA 官網(wǎng)
該數(shù)據(jù)庫已獲得 CoreTrustSeal 全球核心可信存儲(chǔ)庫認(rèn)證、FAIRsharing 國際認(rèn)證,并被國際科研數(shù)據(jù)倉儲(chǔ)目錄 re3data 收錄。
此外,CNGB 支持向 Elsevier、Wiley、Taylor & Francis、Oxford、Cell Press、Science 等多個(gè)國際知名出版社和期刊系列投稿發(fā)文,所有提交至 CNGB 的數(shù)據(jù)均會(huì)進(jìn)行 DOI 標(biāo)識(shí)。
值得一提的是,CNGB 還成為國際科學(xué)理事會(huì)(ISC)世界數(shù)據(jù)系統(tǒng)(WDS)在生物信息領(lǐng)域的首個(gè)正式會(huì)員。
?NGDC 數(shù)據(jù)庫
https://ngdc.cncb.ac.cn
國家基因組科學(xué)數(shù)據(jù)中心 NGDC 數(shù)據(jù)庫,于 2019 年 6 月 5 日經(jīng)科技部、財(cái)政部通知公布,由鮑一明研究員作為學(xué)術(shù)帶頭人。
以中國科學(xué)院北京基因組研究所(國家生物信息中心)作為依托單位,聯(lián)合中國科學(xué)院生物物理研究所和中國科學(xué)院上海營養(yǎng)與健康研究所共同建設(shè)。
旨在通過建立生命健康組學(xué)大數(shù)據(jù)儲(chǔ)存、整合與挖掘分析研究體系,研發(fā)生物多樣性與健康大數(shù)據(jù)匯交、應(yīng)用與共享平臺(tái),發(fā)展大數(shù)據(jù)系統(tǒng)解析與轉(zhuǎn)化應(yīng)用的新技術(shù)和新方法,建設(shè)支撐我國生命科學(xué)發(fā)展、國際知名的基因組科學(xué)數(shù)據(jù)中心。
圖片來源:NGDC 官網(wǎng)
目前,NGDC 包括了基因組和變異、基因表達(dá)、非編碼 RNA、表觀基因組等多種類型的數(shù)據(jù)資源,共計(jì)歸檔數(shù)據(jù) 69.9PB,服務(wù)用戶超過 5822 萬。
其中,單是已產(chǎn)生腫瘤基因診斷數(shù)據(jù)就有約 160TB,腫瘤基因研究相關(guān)測序數(shù)據(jù)約為 1PB!在愈發(fā)重視數(shù)據(jù)安全的當(dāng)下,大家在進(jìn)行科研數(shù)據(jù)發(fā)表的時(shí)候,建議可以將 NGDC 作為上傳測序數(shù)據(jù)的首選!
圖片來源:NGDC 官網(wǎng)
?CHARLS 數(shù)據(jù)庫
https://charls.pku.edu.cn
中國健康與養(yǎng)老追蹤調(diào)查 CHARLS 數(shù)據(jù)庫由北京大學(xué)國家發(fā)展與研究院與北京大學(xué)中國社會(huì)科學(xué)調(diào)查中心共同發(fā)起。
旨在收集一套代表中國 45 歲及以上中老年人家庭和個(gè)人的高質(zhì)量微觀數(shù)據(jù),用以分析我國人口老齡化問題,推動(dòng)老齡化問題的跨學(xué)科研究的調(diào)查。
圖片來源:CHARLS 官網(wǎng)
據(jù)官方統(tǒng)計(jì),截至 2023 年 10 月底,已有超 8.8 萬名用戶注冊并下載了數(shù)據(jù)庫中的數(shù)據(jù)。
基于 CHARLS 的出版物也在迅速增加,截至 2023 年 9 月底,以 CHARLS 數(shù)據(jù)為基礎(chǔ)發(fā)表的論文 4,587 篇,其中英文期刊論文 2,079 篇,中文期刊論文 1,639 篇,學(xué)位論文 697 篇。
最近,來自北京大學(xué)等聯(lián)合團(tuán)隊(duì)就基于 CHARLS 數(shù)據(jù)庫,調(diào)查了抗高血壓藥物的依從性、社會(huì)經(jīng)濟(jì)地位和認(rèn)知衰老之間的關(guān)聯(lián),研究成果成功發(fā)表在中國科學(xué)院醫(yī)學(xué)一區(qū) TOP 期刊《BMC Medicine》!
圖片來源:BMC Medicine
?CHNS 數(shù)據(jù)庫
https://www.cpc.unc.edu/projects/china
中國健康與營養(yǎng)調(diào)查數(shù)據(jù)庫 CHNS 是由美國北卡羅來納大學(xué)卡羅來納人口中心與中國疾病預(yù)防控制中心營養(yǎng)與健康所(原國家食品安全與營養(yǎng)所)合作開展的持續(xù)性開放隊(duì)列。
旨在評估健康信息、營養(yǎng)及計(jì)劃生育政策的效果,并探究我國社會(huì)經(jīng)濟(jì)社會(huì)轉(zhuǎn)型對人口健康與營養(yǎng)狀況的影響。通過追蹤社區(qū)組織、項(xiàng)目以及家庭與個(gè)人經(jīng)濟(jì)、人口和社會(huì)因素的變化,研究人員能夠衡量各種因素對營養(yǎng)健康行為及結(jié)果的動(dòng)態(tài)影響。
圖片來源:CHNS 官網(wǎng)
CHNS 調(diào)查由一個(gè)國際研究團(tuán)隊(duì)進(jìn)行,他們的背景包括營養(yǎng)學(xué)、公共衛(wèi)生、經(jīng)濟(jì)學(xué)、社會(huì)學(xué)、中國研究和人口學(xué)。通過采用多階段隨機(jī)聚類過程,抽取了 15 個(gè)省市的約 7200 戶家庭和 30000 多人的樣本,這些家庭在地理、經(jīng)濟(jì)發(fā)展、公共資源和健康指標(biāo)方面差異很大。
調(diào)查的內(nèi)容涉及健康學(xué)、營養(yǎng)學(xué)、社會(huì)學(xué)、人口學(xué)、經(jīng)濟(jì)學(xué)、公共政策等多個(gè)學(xué)科,數(shù)據(jù)內(nèi)容包括社區(qū)調(diào)查、家庭戶調(diào)查、個(gè)人調(diào)查、健康調(diào)查、營養(yǎng)和體質(zhì)測驗(yàn)等。CHNS 數(shù)據(jù)庫的創(chuàng)新性較高,適用于多種醫(yī)學(xué)領(lǐng)域研究,如健康與食物結(jié)構(gòu)、吸煙影響、疾病趨勢等。
此前,來自浙江大學(xué)的研究團(tuán)隊(duì)基于 CHNS 數(shù)據(jù)庫,探究了中國中老年人群中植物性飲食(PBD)和地球健康飲食(PHD)的環(huán)境負(fù)擔(dān)與死亡風(fēng)險(xiǎn)關(guān)系,研究成果成功發(fā)表在中國科學(xué)院醫(yī)學(xué)一區(qū) TOP 期刊《Lancet Planet Health》!
圖片來源:Lancet Planet Health
?CFPS 數(shù)據(jù)庫
https://cfpsdata.pku.edu.cn
中國家庭追蹤調(diào)查(CFPS)數(shù)據(jù)庫是由北京大學(xué)中國社會(huì)科學(xué)調(diào)查中心(ISSS)實(shí)施調(diào)查,通過收集個(gè)體、家庭、社區(qū)等方面的微觀調(diào)查數(shù)據(jù)庫,采用計(jì)算機(jī)輔助調(diào)查技術(shù)開展訪問,以滿足多樣化的設(shè)計(jì)需求,提高訪問效率,保證數(shù)據(jù)質(zhì)量,是北京大學(xué)和國家自然基金委資助的重大項(xiàng)目,也是國內(nèi)最為權(quán)威的家庭層面微觀調(diào)查數(shù)據(jù)庫之一。
圖片來源:CFPS 官網(wǎng)
CFPS 的主體問卷包括村居問卷、家庭成員問卷、家庭問卷、少兒問卷和成人問卷五類。調(diào)查在社區(qū)、家庭和個(gè)人三個(gè)層面進(jìn)行。
其核心目標(biāo)是系統(tǒng)收集中國家庭、社區(qū)、個(gè)體三個(gè)層面的動(dòng)態(tài)數(shù)據(jù),展現(xiàn)中國社會(huì)經(jīng)濟(jì)、人口、教育、健康等領(lǐng)域的變化。
圖片來源:CFPS 官網(wǎng)
近日,來自北京師范大學(xué)的研究團(tuán)隊(duì)基于 CFPS 數(shù)據(jù)庫,探究了家庭沖突與青少年抑郁之間存在雙向惡性循環(huán)的關(guān)系,研究成果成功發(fā)表在中國科學(xué)院醫(yī)學(xué)二區(qū)期刊《Child and Adolescent Psychiatry and Mental Health》!
圖片來源:Child and Adolescent Psychiatry and Mental Health
除了上述的國產(chǎn)數(shù)據(jù)庫之外,以下數(shù)據(jù)庫也同樣可以幫助大家獲取大量的科研數(shù)據(jù),大家可以自行訪問!
圖片來源:生物學(xué)霸
科研人都怎么看?
經(jīng)歷此次事件,很多科研人也在網(wǎng)上發(fā)表了不同的看法:
網(wǎng)友 1:之前用國外的數(shù)據(jù)庫,上傳特別慢,每次學(xué)校斷網(wǎng)了還沒上傳好。現(xiàn)在用 CNSA,再也不用擔(dān)心斷網(wǎng)了,速度超快超穩(wěn)!另外,CNSA 能引用序列號發(fā)文章,存儲(chǔ)空間要大,上傳、下載速度要快,安全靠譜而且免費(fèi)!
網(wǎng)友 2:越卡脖子,獨(dú)立數(shù)據(jù)庫建得反而越快,就是會(huì)有陣痛期!
網(wǎng)友 3:作為一名從事基因編輯技術(shù)開發(fā)與應(yīng)用研究的科研人員,數(shù)據(jù)庫就是我們最日常打交道的平臺(tái)。沒有數(shù)據(jù)信息共享,實(shí)際具體的科研工作很難開展。如果這些公共數(shù)據(jù)庫對我們都實(shí)施關(guān)停,那我們將不得不去尋找替代數(shù)據(jù)庫,而使用替代數(shù)據(jù)庫的研究可能會(huì)被質(zhì)疑 「數(shù)據(jù)代表性不足」,如僅用中國生物銀行(China Kadoorie Biobank)數(shù)據(jù)發(fā)表的成果,在 SCI 期刊接收率將會(huì)下降。無法獲取 GTEx 正常組織表達(dá)譜,就會(huì)導(dǎo)致腫瘤特異性突變研究難以完成同行評審要求的對照實(shí)驗(yàn),而這些都會(huì)嚴(yán)重影響我們的學(xué)術(shù)產(chǎn)出。
網(wǎng)友 4:這一變化只是開始,未來一定有更多脫鉤政策出現(xiàn)。中國多年前就在未雨綢繆地建設(shè)本土數(shù)據(jù)庫。加大本土數(shù)據(jù)庫建設(shè)和使用,是中國科研圈的必然趨勢。
最后,也請大家及時(shí)做好應(yīng)對策略,嘗試?yán)每商娲鷶?shù)據(jù)庫和平臺(tái),定期備份關(guān)鍵數(shù)據(jù),最大限度降低封鎖帶來的影響。
題圖來源:圖蟲創(chuàng)意
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.