AI生物學(xué)數(shù)據(jù),又迎來(lái)重磅里程碑!
近日,融資10億美元的AI+生物醫(yī)藥公司Xaira Therapeutics宣布,發(fā)表名為X-Atlas/Orion的全球最大規(guī)模單細(xì)胞擾動(dòng)測(cè)序數(shù)據(jù)集,包含800萬(wàn)個(gè)單細(xì)胞數(shù)據(jù)。
這是當(dāng)前全球最大的公開(kāi)可用的Perturb-seq數(shù)據(jù)集,也是專門為AI驅(qū)動(dòng)的虛擬細(xì)胞(Virtual Cell)而構(gòu)建的數(shù)據(jù)。
該研究的預(yù)印本論文已在bioRxiv發(fā)布,文中分享了該數(shù)據(jù)集以及平臺(tái)的大量細(xì)節(jié)。
可以說(shuō),該數(shù)據(jù)集當(dāng)前解決了虛擬細(xì)胞模型發(fā)展的核心瓶頸:高質(zhì)量擾動(dòng)數(shù)據(jù)短缺,為構(gòu)建虛擬細(xì)胞和藥物研發(fā)提供堅(jiān)實(shí)幫助。
公司還表示,計(jì)劃向非商業(yè)機(jī)構(gòu)提供數(shù)據(jù)集,推動(dòng)全行業(yè)的共同發(fā)展。
史上最強(qiáng)單細(xì)胞擾動(dòng)數(shù)據(jù)集
據(jù)介紹,X-Atlas/Orion是目前最大的公開(kāi)可用單細(xì)胞擾動(dòng)測(cè)序數(shù)據(jù)集,包含了800萬(wàn)個(gè)細(xì)胞,覆蓋了人類所有蛋白質(zhì)編碼基因。
與此同時(shí),每個(gè)細(xì)胞都對(duì)超過(guò) 16,000 個(gè)唯一分子標(biāo)識(shí)符 (UMI) 進(jìn)行深度測(cè)序,表明數(shù)據(jù)集測(cè)序深度非常高,數(shù)據(jù)質(zhì)量很高。
與傳統(tǒng)Perturb-seq僅將基因擾動(dòng)視為“開(kāi)/關(guān)”狀態(tài)不同,X-Atlas/Orion通過(guò)分析sgRNA豐度與表達(dá)拷貝數(shù)的關(guān)聯(lián),首次實(shí)現(xiàn)對(duì)基因活性梯度變化的量化。
因此,該數(shù)據(jù)集能夠更精準(zhǔn)地反映藥物靶標(biāo)產(chǎn)生所需治療效果的精確抑制百分比。
該數(shù)據(jù)集由Xaira推出的Fix-Cryopreserve-ScRNAseq(FiCS) 平臺(tái)實(shí)現(xiàn),通過(guò)“固定-凍存-單細(xì)胞測(cè)序”解決了傳統(tǒng)單細(xì)胞測(cè)序的批次效應(yīng)和操作耗時(shí)問(wèn)題,實(shí)現(xiàn)高通量、標(biāo)準(zhǔn)化數(shù)據(jù)生產(chǎn)。
圖:Perturb-seq平臺(tái)工作流
目前,F(xiàn)iCS平臺(tái)方法已經(jīng)在預(yù)印本中公開(kāi)。此外,公司還計(jì)劃將X-Atlas/Orion在非商業(yè)許可下向生物技術(shù)社區(qū)開(kāi)源。
Xaira還表示,愿意與表示興趣的公司討論數(shù)據(jù)合作。
“當(dāng)我們把這樣的數(shù)據(jù)集交到其他計(jì)算研究人員手中時(shí),我們很高興看到他們能想出什么樣的新模型架構(gòu)和方法,”Xaira早期發(fā)現(xiàn)副總裁兼預(yù)印本的作者Ci Chu博士表示。
Xaira:AI制藥夢(mèng)之隊(duì)
此次發(fā)布單細(xì)胞擾動(dòng)測(cè)序數(shù)據(jù)集,也是AI制藥公司Xaira Therapeutics成立一年來(lái)的重磅成果。
該數(shù)據(jù)集當(dāng)前解決了虛擬細(xì)胞模型發(fā)展的核心瓶頸——高質(zhì)量擾動(dòng)數(shù)據(jù)短缺。
Xaira究竟是何方神圣?這家公司成立之初就獲得10億美元支持,轟動(dòng)業(yè)界。
公司成立于2024年4月,其創(chuàng)始人、高管、投資人、顧問(wèn)都是生命科學(xué)領(lǐng)域的頂級(jí)陣容,希望打造下一個(gè)顛覆生命科學(xué)行業(yè)的公司。
Xaira的使命是運(yùn)用人工智能技術(shù),創(chuàng)造下一個(gè)基因泰克。
公司科學(xué)聯(lián)合創(chuàng)始人為諾貝爾化學(xué)獎(jiǎng)得主、華盛頓大學(xué)蛋白質(zhì)設(shè)計(jì)研究所所長(zhǎng)David Baker博士,該實(shí)驗(yàn)室設(shè)計(jì)了多個(gè)全球領(lǐng)先的基于蛋白質(zhì)的藥物開(kāi)發(fā)模型,有多位博士生全職加入了Xaira Therapeutics。
公司的首席執(zhí)行官Marc Tessier-Lavigne是前斯坦福校長(zhǎng),他還曾任基因泰克首席科學(xué)官。另一位聯(lián)合創(chuàng)始人Hetu Kamisetty博士,他曾供職于Meta和蛋白質(zhì)設(shè)計(jì)研究所。
左:MarcTessier-Lavigne;右:David Baker
今年4月, Xaira 宣布任命多倫多大學(xué)頂尖 AI 學(xué)者 Bo Wang 為生物醫(yī)學(xué) AI 負(fù)責(zé)人,也是X-Atlas/Orion項(xiàng)目的主要負(fù)責(zé)人。
這家初創(chuàng)的背后,則獲得包括ARCH、Foresite Labs、F-Prime、NEA、紅杉資本、Lux Capital、Lightspeed Venture Partners、Menlo、Ventures、Two Sigma Ventures、帕克癌癥免疫治療研究所(PICI)、拜耳、Rsquared和SV Angel等一眾海外頂級(jí)投資機(jī)構(gòu)的支持......
其中,著名的生物醫(yī)藥風(fēng)險(xiǎn)投資基金ARCH Venture Partners,押上了其成立以來(lái)的最大賭注,向該公司投了2億美元。
此外,Xaira Therapeutics還有一個(gè)跨領(lǐng)域的強(qiáng)大顧問(wèn)團(tuán)隊(duì),包括諾貝爾化學(xué)獎(jiǎng)得主Carolyn Bertozzi博士、波士頓集團(tuán)高管、強(qiáng)生公司前董事長(zhǎng)兼首席執(zhí)行官Alex Gorsky、23andMe前首席科學(xué)官兼治療學(xué)主管、FDA資深專員.......
AI生物學(xué)的下一個(gè)圣杯
AlphaFold2解決了蛋白質(zhì)折疊問(wèn)題后,虛擬細(xì)胞(Virtual Cell, VC)迅速成為AI+生命科學(xué)的前沿焦點(diǎn)。
畢竟AlphaFold 2本質(zhì)上是靜態(tài)蛋白質(zhì)結(jié)構(gòu)問(wèn)題的模型,但生物學(xué)是一個(gè)動(dòng)態(tài)系統(tǒng),而不是一個(gè)靜態(tài)系統(tǒng)。
許多大佬都表示過(guò)對(duì)于虛擬細(xì)胞的興趣與看好。
被譽(yù)為“女版巴菲特”木頭姐,其創(chuàng)辦的ARK Invest發(fā)布《Big Ideas 2025》,將虛擬細(xì)胞列為未來(lái)AI+生命科學(xué)最具有顛覆性的領(lǐng)域之一。
和David Baker共同獲得諾貝爾化學(xué)獎(jiǎng)的Demis Hassabis曾表示,他的終極夢(mèng)想之一是構(gòu)建虛擬細(xì)胞,這將徹底改變生物學(xué)研究,可能需要長(zhǎng)達(dá)10年的時(shí)間去實(shí)現(xiàn)。
去年12月,40位頂尖科學(xué)家在《細(xì)胞》雜志發(fā)表文章,呼吁利用AI來(lái)創(chuàng)建虛擬人類細(xì)胞(AIVC),這是一個(gè)前沿且具有巨大潛力的領(lǐng)域。
與傳統(tǒng)細(xì)胞生物學(xué)依賴實(shí)驗(yàn)不同,AI虛擬細(xì)胞通過(guò)計(jì)算模擬進(jìn)行“虛擬實(shí)驗(yàn)”,可以突破物理限制,高效測(cè)試多種假設(shè)和條件。
虛擬細(xì)胞的價(jià)值不僅在于技術(shù)突破,更在于其可能重構(gòu)生物醫(yī)學(xué)研究范式。
當(dāng)前,大多數(shù)生命活動(dòng)都是在細(xì)胞層面進(jìn)行的,如果AI能精準(zhǔn)模擬分子、細(xì)胞和組織的作用,則具有巨大的應(yīng)用前景。包括靶點(diǎn)發(fā)現(xiàn)、患者分層、藥物篩選等。
為了這一宏大目標(biāo),全球多個(gè)組織和公司正積極探索AI虛擬細(xì)胞的構(gòu)建與優(yōu)化。
今年4月,著名非盈利研究機(jī)構(gòu)Arc Institute宣布與10x和Ultima Genomics合作開(kāi)發(fā)虛擬細(xì)胞圖譜,推動(dòng)Arc Virtual Cell Atlas成為預(yù)測(cè)生物模型的關(guān)鍵資源。
前不久,美國(guó)艾倫研究所宣布啟動(dòng)“細(xì)胞景觀”(CellScapes)計(jì)劃,旨在結(jié)合尖端成像技術(shù)與AI模型來(lái)揭示細(xì)胞原理,構(gòu)造細(xì)胞動(dòng)態(tài)圖景,為科學(xué)家預(yù)測(cè)乃至設(shè)計(jì)細(xì)胞提供強(qiáng)大工具。
據(jù)悉,該項(xiàng)目將為期十年,由75名專家組成的團(tuán)隊(duì)負(fù)責(zé)執(zhí)行,期間并不設(shè)定固定的預(yù)算。
我國(guó)也正在加大對(duì)于該領(lǐng)域的投入。
2025年3月,由中國(guó)科學(xué)院廣州生物醫(yī)藥與健康研究院牽頭的人類細(xì)胞譜系大科學(xué)研究設(shè)施正式啟動(dòng)建設(shè),將打造數(shù)字細(xì)胞AI大模型。
AIVC,并不遙遠(yuǎn)
或許,在很多人眼里利用AI模擬細(xì)胞還太過(guò)于遙遠(yuǎn)。
實(shí)際上,虛擬細(xì)胞(AIVC)已不再是科幻概念,而是正在迅速發(fā)展的前沿技術(shù)。
圖:虛擬細(xì)胞三大支柱
首先,要模擬并且預(yù)測(cè)細(xì)胞的生命活動(dòng),其最重要的基礎(chǔ)就是在于多樣且高質(zhì)量的生物數(shù)據(jù)。
這些數(shù)據(jù)涵蓋基因組、轉(zhuǎn)錄組、蛋白質(zhì)組、代謝組等多層次信息,細(xì)胞顯微成像與單細(xì)胞測(cè)序數(shù)據(jù)也不可或缺。
過(guò)去二十年來(lái)全球科學(xué)家們的各類解碼計(jì)劃:如人類基因組計(jì)劃、人類細(xì)胞圖譜、癌癥基因組圖譜、ENCODE、人類蛋白質(zhì)圖譜等,這個(gè)過(guò)程中積累的大量參考數(shù)據(jù),能夠用于訓(xùn)練機(jī)器學(xué)習(xí)模型。
學(xué)界和產(chǎn)業(yè)界也意識(shí)到了當(dāng)前數(shù)據(jù)的匱乏,正在聯(lián)合多方構(gòu)建適合深度訓(xùn)練的多樣性生物數(shù)據(jù)庫(kù)。
圖:虛擬細(xì)胞相關(guān)數(shù)據(jù)集
模型層面,近年來(lái)涌現(xiàn)了多個(gè)單細(xì)胞大模型,以及整合生命分子的生物學(xué)基礎(chǔ)大模型,都極大地促進(jìn)了技術(shù)突破與發(fā)展。
圖:?jiǎn)渭?xì)胞以及生物學(xué)基礎(chǔ)大模型
雖然離人類細(xì)胞全尺度模擬還有很長(zhǎng)一段距離,但這些模型在特定領(lǐng)域已經(jīng)發(fā)揮巨大的作用,有望實(shí)現(xiàn)產(chǎn)業(yè)化落地。
例如,清華大學(xué)的scFoundation,支持“開(kāi)箱即用”的細(xì)胞質(zhì)量提升和虛擬藥物試驗(yàn)。
盡管,人類細(xì)胞全尺度模擬不僅需要大規(guī)模的數(shù)據(jù),其算力需求也將遠(yuǎn)超當(dāng)前上限。
但算力成本的不斷下降,大模型的飛速進(jìn)展,已經(jīng)讓科學(xué)們走向這一遙不可及的夢(mèng)想。
—The End—
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.