引言
Chan Zuckerberg Initiative(CZI)啟動(dòng)了“十億細(xì)胞項(xiàng)目(Billion Cells Project)”,旨在創(chuàng)建一個(gè)前所未有的10億細(xì)胞數(shù)據(jù)集,以推動(dòng)生物學(xué)領(lǐng)域人工智能模型開發(fā)的快速進(jìn)展。
有人贊其為“生命科學(xué)的登月計(jì)劃”,也有人質(zhì)疑其實(shí)際價(jià)值是否配得上如此宏大的宣傳。扎克伯格的野心究竟是一場(chǎng)資本包裝的噱頭,還是真正能改寫生命科學(xué)未來的里程碑?
01
CZI
先介紹一下CZI。
Chan Zuckerberg Initiative(CZI)由Priscilla Chan和她的丈夫、Meta(前身為Facebook)的創(chuàng)始人兼首席執(zhí)行官馬克·扎克伯格聯(lián)合創(chuàng)辦,成立于2015年。
CZI的使命是幫助解決社會(huì)面臨的一些最嚴(yán)峻挑戰(zhàn),包括根除疾病、改善教育和滿足當(dāng)?shù)厣鐓^(qū)的需求。CZI致力于為每個(gè)人建設(shè)一個(gè)更加包容、公正和健康的未來。
其非營(yíng)利性質(zhì)與開放科學(xué)的承諾,使其在業(yè)界獨(dú)樹一幟。
而在十億細(xì)胞項(xiàng)目之前,CZI也曾資助過人類細(xì)胞圖譜(Human Cell Atlas, HCA)項(xiàng)目,當(dāng)然,最終得出的實(shí)驗(yàn)數(shù)據(jù)也是開放式的——是真的想要做出一個(gè)公正的未來的。
HCA項(xiàng)目于2016年開啟,由生物學(xué)家阿維夫·雷格夫和莎拉·泰克曼牽頭,聯(lián)合約100名科學(xué)家,共同發(fā)起了這項(xiàng)雄心勃勃的倡議——從發(fā)育到衰老,對(duì)人類體內(nèi)的每一種細(xì)胞類型進(jìn)行編目。這是極其復(fù)雜和困難的,相當(dāng)于繪制出人體約37.2萬億個(gè)細(xì)胞的圖譜。
細(xì)胞作為生命體的基本構(gòu)建模塊,對(duì)人體機(jī)能的深入理解至關(guān)重要。然而,細(xì)胞并非靜止不變,它們會(huì)因遺傳背景、生活環(huán)境、性別和年齡等多種因素而不斷變化。這種動(dòng)態(tài)特性是繪制人類細(xì)胞圖譜面臨的主要困難之一。
全面的人體細(xì)胞圖譜不僅能清晰展示健康細(xì)胞的位置和功能,更重要的是,它還能揭示疾病狀態(tài)下細(xì)胞的異常變化。通過對(duì)比不同疾病狀態(tài)下細(xì)胞的差異,科學(xué)家能夠更精準(zhǔn)地診斷疾病,并開發(fā)出更有效的治療方案。
以肺部細(xì)胞圖譜為例,科學(xué)家們通過研究發(fā)現(xiàn),COVID-19患者的肺部細(xì)胞與其他肺部疾病患者存在顯著差異。這一發(fā)現(xiàn)有助于深入理解COVID-19的發(fā)病機(jī)制,并為治療該疾病提供了新的思路。
2024年11月20日,Nature及其旗下期刊發(fā)布了40多篇關(guān)于HCA計(jì)劃的論文合集,標(biāo)志著項(xiàng)目在理解人體健康與疾病以及首版草圖開發(fā)方面的重要里程碑。這些研究涵蓋了多種組織、細(xì)胞類型和器官,通過創(chuàng)新的方法和框架,推動(dòng)了科學(xué)研究的進(jìn)步。
HCA項(xiàng)目自2016年啟動(dòng)以來,已經(jīng)匯聚了來自102個(gè)國(guó)家、1700多家機(jī)構(gòu)、超過3600名研究者的智慧,共同致力于對(duì)人體內(nèi)的每種細(xì)胞類型進(jìn)行全面的生物學(xué)描述。
目前,HCA團(tuán)隊(duì)已經(jīng)掌握了約6200萬個(gè)細(xì)胞的數(shù)據(jù),這些數(shù)據(jù)根據(jù)18個(gè)生物網(wǎng)絡(luò)進(jìn)行了分類,包括神經(jīng)系統(tǒng)、肺部、心臟、腸道和免疫系統(tǒng)等部位的細(xì)胞圖譜。
而CZI作為HCA最早且最大的資助者之一,為本次里程碑式發(fā)布中的三分之一論文提供了支持。
CZI科學(xué)主管斯蒂芬·奎克表示,人類細(xì)胞圖譜是CZI支持科學(xué)的首批重大投入之一,投入轉(zhuǎn)化出的成果豐富,不僅包括論文中報(bào)道的科學(xué)發(fā)現(xiàn),共享數(shù)據(jù)的價(jià)值也非常矚目。
這些大量的數(shù)據(jù)經(jīng)過更深入的分析,能夠進(jìn)一步推動(dòng)研究進(jìn)程,加速科學(xué)發(fā)現(xiàn)的步伐,從而有助于CZI實(shí)現(xiàn)其宏偉愿景——在本世紀(jì)末達(dá)成治愈、預(yù)防或管理所有疾病的目標(biāo)。
02
它前所未有的十億細(xì)胞項(xiàng)目
CZI的十億細(xì)胞項(xiàng)目,核心目標(biāo)是生成一個(gè)前所未有的十億細(xì)胞數(shù)據(jù)集,用這些數(shù)據(jù)訓(xùn)練AI模型,推動(dòng)生物學(xué)研究的突破。
這像是科幻小說里的情節(jié),但它確實(shí)在發(fā)生。CZI已經(jīng)和10x Genomics、Ultima Genomics等頂尖機(jī)構(gòu)合作,使用Chromium GEM-X技術(shù)和超高通量測(cè)序平臺(tái)UG 100,計(jì)劃覆蓋小鼠、斑馬魚和人類細(xì)胞模型等不同物種的細(xì)胞數(shù)據(jù)。
為什么是十億細(xì)胞?因?yàn)橐?guī)模決定了深度。
過去幾年,單細(xì)胞測(cè)序技術(shù)已經(jīng)讓我們能夠逐個(gè)分析細(xì)胞的基因表達(dá),但大多數(shù)研究的數(shù)據(jù)量只有幾百萬到幾千萬細(xì)胞。十億這個(gè)量級(jí),意味著我們可以捕捉到極為罕見的細(xì)胞類型,甚至發(fā)現(xiàn)那些在傳統(tǒng)研究中被忽略的“暗物質(zhì)”細(xì)胞。比如,某些癌癥的耐藥機(jī)制可能就隱藏在極少數(shù)細(xì)胞中,而這些細(xì)胞在小規(guī)模數(shù)據(jù)中根本無法被識(shí)別。
倘若用這些數(shù)據(jù)將被用來訓(xùn)練AI模型,考慮到現(xiàn)在人工智能的發(fā)展速度,本世紀(jì)內(nèi),一個(gè)能夠完全模擬人體細(xì)胞行為的虛擬模型將出現(xiàn),它不僅能預(yù)測(cè)健康細(xì)胞如何應(yīng)對(duì)藥物,還能揭示疾病狀態(tài)下細(xì)胞的動(dòng)態(tài)變化。這種能力,可能會(huì)徹底改變我們對(duì)疾病的理解和治療方式。
CZI仍然承諾將這些數(shù)據(jù)開源,讓全球科學(xué)家都能使用——這是開放科學(xué)的承諾,是一種對(duì)科學(xué)共同體的賦能。也是他們的初心。
不過這些都有點(diǎn)遠(yuǎn)了,擺在眼前的是十億細(xì)胞項(xiàng)目的核心目標(biāo):
數(shù)據(jù)規(guī)模:生成包含十億個(gè)細(xì)胞的單細(xì)胞數(shù)據(jù)集,覆蓋小鼠、斑馬魚和人類原代細(xì)胞模型等生物體。
技術(shù)整合:聯(lián)合10x Genomics(單細(xì)胞分析)和Ultima Genomics(高通量測(cè)序)等企業(yè),利用GEM-X技術(shù)和UG 100測(cè)序平臺(tái)降低成本并提升通量。
AI驅(qū)動(dòng):通過開源數(shù)據(jù)訓(xùn)練虛擬細(xì)胞模型,加速精準(zhǔn)醫(yī)學(xué)和功能基因組學(xué)的研究。
03
炒作還是真的可行
這個(gè)項(xiàng)目并非空中樓閣,是具有一定可行性的。技術(shù)上,單細(xì)胞測(cè)序和高通量測(cè)序的進(jìn)步已經(jīng)讓大規(guī)模數(shù)據(jù)生成成為可能。
據(jù)公開報(bào)道,10x Genomics的Chromium GEM-X技術(shù),能夠以極高的效率分離和分析單個(gè)細(xì)胞,而Ultima Genomics的UG 100平臺(tái)則通過晶圓級(jí)測(cè)序架構(gòu),實(shí)現(xiàn)了低成本、高通量的數(shù)據(jù)生成。
但我們還需要考慮的是:技術(shù)的可行性不僅僅是“能不能生成數(shù)據(jù)”,更在于“這些數(shù)據(jù)能不能用”。
十億細(xì)胞的數(shù)據(jù)量是天文數(shù)字級(jí)別的,如何存儲(chǔ)、分析、共享這些數(shù)據(jù),是一個(gè)巨大的挑戰(zhàn)。CZI計(jì)劃通過CELLxGENE平臺(tái)來管理這些數(shù)據(jù),這個(gè)平臺(tái)已經(jīng)支持單細(xì)胞基因表達(dá)數(shù)據(jù)的分析和可視化,未來可能會(huì)成為全球科學(xué)家研究這些數(shù)據(jù)的基礎(chǔ)設(shè)施。
還有一個(gè)關(guān)鍵點(diǎn)是標(biāo)準(zhǔn)化。
CZI強(qiáng)調(diào)數(shù)據(jù)的互操作性,這意味著不同實(shí)驗(yàn)室生成的數(shù)據(jù)需要遵循統(tǒng)一的標(biāo)準(zhǔn)。這種標(biāo)準(zhǔn)化不僅能提高數(shù)據(jù)的可用性,還能降低AI模型的訓(xùn)練難度。畢竟,AI需要的是高質(zhì)量、結(jié)構(gòu)化的數(shù)據(jù),而不是一堆雜亂無章的碎片。
十億細(xì)胞項(xiàng)目又讓我想起了AI蛋白質(zhì)預(yù)測(cè)的突破。
當(dāng)初,誰能想到連一個(gè)日常問題都會(huì)答非所問的“人工智障”能進(jìn)化成AlphaFold,讓我們從靜態(tài)結(jié)構(gòu)預(yù)測(cè)走向動(dòng)態(tài)結(jié)構(gòu)預(yù)測(cè),甚至開始設(shè)計(jì)全新的蛋白質(zhì)呢?
但AlphaFold確實(shí)出現(xiàn)了,并且還在不斷進(jìn)化著。
AlphaFold 3可以預(yù)測(cè)超過10億個(gè)蛋白質(zhì)結(jié)構(gòu),包括多鏈復(fù)合體,這種能力正在徹底改變藥物研發(fā)的流程。
因此,私以為十億細(xì)胞項(xiàng)目很大程度上是可行的。
十億細(xì)胞項(xiàng)目和AI蛋白質(zhì)預(yù)測(cè)還能配合著使用:前者是從細(xì)胞層面生成數(shù)據(jù),后者是從分子層面優(yōu)化模型。換句話說,十億細(xì)胞項(xiàng)目更像是在為AI提供“燃料”,而AI蛋白質(zhì)預(yù)測(cè)則是在用AI“建造工具”。
這兩種技術(shù)的結(jié)合,可能會(huì)產(chǎn)生1+1>2的效果:十億細(xì)胞項(xiàng)目的數(shù)據(jù)可以用來訓(xùn)練更強(qiáng)大的蛋白質(zhì)預(yù)測(cè)模型,而這些模型又可以反過來優(yōu)化細(xì)胞行為的模擬。
End
寫在文末
十億細(xì)胞項(xiàng)目絕非單純的噱頭。其技術(shù)可行性、合作模式與科學(xué)愿景均具備顛覆性潛力。然而,挑戰(zhàn)亦不容忽視:數(shù)據(jù)標(biāo)準(zhǔn)化、計(jì)算資源分配、倫理問題(如細(xì)胞數(shù)據(jù)隱私)等仍需解決。若CZI能延續(xù)其在HCA項(xiàng)目中的開放協(xié)作精神,這一項(xiàng)目或?qū)⒊蔀槔^人類基因組計(jì)劃后,生命科學(xué)領(lǐng)域的又一里程碑。
正如AI蛋白質(zhì)預(yù)測(cè)重新定義了結(jié)構(gòu)生物學(xué),十億細(xì)胞項(xiàng)目可能為理解生命復(fù)雜性打開一扇新的大門。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.