數(shù)字化生命的愿景,正在一步步變成現(xiàn)實。
就在今天,Arc Institute發(fā)布了其第一代虛擬細胞模型STATE,該模型旨在預測各種干細胞、癌細胞和免疫細胞對藥物、細胞因子或基因擾動的反應。
據(jù)悉,STATE基于近1.7億個細胞的觀測數(shù)據(jù)以及超過1億個細胞的單細胞擾動數(shù)據(jù)進行訓練。發(fā)言人表示,這是迄今為止任何其他模型都未曾達到的數(shù)據(jù)量,在預測新細胞背景下擾動后轉錄組的變化方面,它顯著優(yōu)于現(xiàn)有的最先進計算方法。
目前該模型已開源,可用于非商業(yè)用途,代碼和模型參數(shù)已上傳至GitHub及Huggingface。
成立于2021年的Arc Institute是一家位于美國加州的頂級生物醫(yī)學研究機構,其為科學家提供長期、無附帶條件的資助,從而可以更自由地追求好奇心驅動的科學項目。今年2月,Arc Institute就曾聯(lián)合推出當時最大的開源生物學模型Evo 2,參數(shù)高達400億。
繼以Alphafold為代表的模型革命性地推進了人類對蛋白質的認知后,越來越多的科學家正將研究重心轉向更復雜的細胞層面,利用AI模擬細胞生命活動,探索背后的分子機制與調控規(guī)律。
前不久,木頭姐管理的ARK Invest發(fā)布的《Big Ideas 2025》報告認為,單細胞組學與AI的結合將推動虛擬細胞的發(fā)展,重塑藥物發(fā)現(xiàn)的方式。
峰瑞資本指出,虛擬細胞正站在一個嶄新的發(fā)展節(jié)點上,憑借政策支持、科研突破、產(chǎn)業(yè)投入以及AI技術進步,這一領域有望迎來發(fā)展機遇,并對生物醫(yī)藥產(chǎn)生深遠的影響。
數(shù)據(jù)算法雙突破,性能全方面提升
當我們想要知道某款藥物將對細胞帶來什么影響時,傳統(tǒng)方法需要做大量耗時且昂貴的實驗,而虛擬細胞模型的出現(xiàn),提供了一個全新的解決方案。
通過精確預測細胞對各種擾動(例如藥物、基因或環(huán)境)的反應,STATE為揭示生命規(guī)律、理解疾病機制以及開發(fā)創(chuàng)新療法鋪平了道路。
這一重磅突破的實現(xiàn),得益于研究團隊在數(shù)據(jù)訓練與算法架構方面做出的努力。
首先在數(shù)據(jù)方面,STATE基于近1.7億個細胞的觀測數(shù)據(jù)以及超過1億個細胞的單細胞擾動數(shù)據(jù)進行訓練,這是迄今為止任何其他模型都未曾達到的水平。
Arc Institute表示,STATE最初專注于單細胞RNA測序數(shù)據(jù),然而測序數(shù)據(jù)通常純粹是觀測性的,不足以推斷細胞生物學中的因果關系。
為了開發(fā)出一個真正扎根于生物學機制的虛擬細胞模型,團隊收集了大規(guī)模的擾動數(shù)據(jù):即通過實驗(例如CRISPR工具)故意改變特定基因以觀察其對細胞影響的數(shù)據(jù),并通過AI工具加速了數(shù)據(jù)收集過程。
長期以來,單細胞研究領域面臨著一個關鍵挑戰(zhàn):大多數(shù)數(shù)據(jù)來源于分散的小型研究,由于實驗技術和樣本來源的差異,導致不同項目間的數(shù)據(jù)難以實現(xiàn)無縫整合。
為應對這一挑戰(zhàn),Arc Institute創(chuàng)新性地開發(fā)了scBaseCount——該領域首個基于智能體AI技術的單細胞數(shù)據(jù)分析平臺,這一突破性工具通過標準化數(shù)據(jù)收集和分析流程,顯著降低了批次效應帶來的偏差。目前,scBaseCount已成為全球規(guī)模最大的開源單細胞數(shù)據(jù)庫。
數(shù)據(jù)之外,STATE在算法上的創(chuàng)新同樣令人印象深刻,研究人員開發(fā)了一個多尺度機器學習架構,由兩個相互關聯(lián)的模塊組成:STATE Embedding model(SE)和STATE Transition model(ST)。
圖:STATE
其中,SE將轉錄組數(shù)據(jù)轉換為計算機更容易理解的平滑多維向量空間,同類型的細胞會在這個向量空間中會聚集在一起,使得模型能夠更好地理解細胞之間的相似性、差異性以及它們如何響應擾動。
ST則負責學習和理解細胞如何從一個初始生物學狀態(tài)轉換到另一個響應狀態(tài)(如受到特定藥物擾動后的新狀態(tài)),采用雙向Transformer架構,使模型能夠靈活地捕獲生物學和技術異質性(例如細胞周期狀態(tài)或RNA-seq數(shù)據(jù)中的偏差),而無需依賴明確的分布假設。
在跨數(shù)據(jù)集的系統(tǒng)評估中,該模型在藥物擾動(Tahoe-100M)、細胞因子擾動(Parse-PBMC)和遺傳擾動(Replogle-Nadig)三類數(shù)據(jù)集上均取得突破性表現(xiàn)。
在Tahoe-100M上的基準測試中,STATE在區(qū)分擾動效應方面表現(xiàn)出50%的改進,并且在識別真實差異表達基因方面的準確性是現(xiàn)有模型的兩倍。在所有度量指標和數(shù)據(jù)尺度上。STATE實現(xiàn)了對線性基準模型的全面超越,這在業(yè)內尚屬首次。
令人印象深刻的是,在嚴格的零樣本測試環(huán)境下(訓練集完全不含目標細胞類型),模型對五種全新細胞系的效應量預測相關性顯著提高,展現(xiàn)出強大的泛化能力。
研究人員表示,在預測新細胞背景下擾動后轉錄組的變化方面,STATE明顯優(yōu)于現(xiàn)有的最先進計算方法。
接棒AI蛋白質,虛擬細胞時代開啟
Arc Institute表示,STATE僅僅是其一系列模型中的第一個版本,隨著虛擬細胞訓練數(shù)據(jù)的增長,其預測準確性將會隨之提高。
在團隊看來,AlphaFold之所以有用,很大程度上因為研究人員找到了將其蛋白質預測結果整合到工作流程中的方法,而STATE也將遵循這一模式,盡快使得這一成果真正運用到藥物研發(fā)之中。
Arc Institute的目標是最終使未來版本的虛擬細胞模型的準確性與實驗精度相當,這將使科學家能夠運行數(shù)百萬次計算機模擬擾動,從而縮小假設范圍。
近來,關于虛擬細胞的成果層出不窮,國內外重大虛擬細胞項目紛紛啟動。
近日,華盛頓大學蛋白質設計研究所所長David Baker聯(lián)合創(chuàng)立的Xaira Therapeutics宣布,發(fā)表名為X-Atlas/Orion的全球最大規(guī)模單細胞擾動測序數(shù)據(jù)集。
6月初,美國艾倫研究所宣布啟動「細胞景觀」(CellScapes)項目,旨在結合尖端成像技術與AI模型來揭示細胞原理,構造細胞動態(tài)圖景,為科學家預測乃至設計細胞提供強大工具。
今年3月,“十四五”重大科技基礎設施——人類細胞譜系大科學研究設施正式啟動建設,由中國科學院廣州生物醫(yī)藥與健康研究院牽頭,將繪制人體中全生命周期的細胞時空演化圖譜,打造數(shù)字細胞AI大模型。
不久之前,DeepMind首席執(zhí)行官Demis Hassabis也公開表達了對虛擬細胞的強烈興趣,認為這可能會徹底改變生物學研究。
圖:2024諾貝爾化學獎得主David Baker、Demis Hassabis和John M Jumper(從左至右)
其中,David Baker和Demis Hassabis因其在AI蛋白質領域的突出貢獻獲得2024年諾貝爾化學獎,兩位領軍人物的新動作預示著繼AI改變蛋白質研究后,虛擬細胞將接棒成為下一個焦點。
虛擬細胞在藥物研發(fā)、精準診斷和個性化醫(yī)療等領域展現(xiàn)出強大的應用潛力,頂尖投資機構對此展現(xiàn)出濃厚興趣。
木頭姐創(chuàng)立的ARK Invest在《Big Ideas 2025》中強調,單細胞組學與AI的結合將推動虛擬細胞的發(fā)展,變革藥物發(fā)現(xiàn)方式。
報告認為,虛擬細胞模擬細胞功能并預測在不同生物狀態(tài)下對擾動的反應,標志著藥物發(fā)現(xiàn)領域的一次重大突破。ARK Invest預計,虛擬細胞在預測分子結構方面將實現(xiàn)與AlphaFold相同的效率提升。
峰瑞資本指出,虛擬細胞這一前沿交叉領域吸引了越來越多的企業(yè),尤其是在歐美地區(qū),創(chuàng)業(yè)公司表現(xiàn)尤為活躍。這些公司可以大致分為兩類:
第一類企業(yè)專注于構建虛擬細胞的基礎模型。這類模型或許能夠憑借強大的泛化能力,為多種應用場景提供支持,典型案例為Recursion。
第二類企業(yè)則選擇跳過構建基礎模型的步驟,聚焦具體的生物學場景,直接開發(fā)專門用于這些任務的特化細胞模型,典型案例為Asimov。
當然,這場革命才剛剛開始,一些專家表示,虛擬細胞距離真正落地仍有10-15年的時間,從模型預測到臨床驗證,從技術突破到倫理規(guī)范,虛擬細胞的發(fā)展還面臨諸多挑戰(zhàn)。
但可以確定的是,當生物學與人工智能深度融合,我們正站在新的起點——這不僅將深刻改變生物醫(yī)藥產(chǎn)業(yè),更將重新定義人類對生命的認知。
—The End—
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.