99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

訓練自2.67億個單細胞數據的AI虛擬細胞模型——STATE,無需實驗,預測細胞對藥物或基因擾動的反應

0
分享至

撰文丨王聰

編輯丨王多魚

排版丨水成文

人體是由細胞(Cell)構成的馬賽克,其中,免疫細胞通過增強炎癥來對抗感染;干細胞可以分化成各種組織;癌細胞避開調控信號而無節制地分裂。然而,盡管這些細胞之間存在顯著差異,但這些看上去截然不同的體細胞都攜帶著(幾乎)相同的基因組。

細胞的獨特性不僅源于 DNA 的不同,更在于每個細胞對 DNA 的使用方式。換句話說,細胞的特性源自基因表達的變化,即基因在不同時刻的“開啟”和“關閉”。細胞的基因表達模式——以 RNA 分子的形式體現,而 RNA 分子本身又是從 DNA 轉錄而來,基因的表達不僅決定了細胞的類型,還決定了細胞的狀態:細胞基因表達的變化可以揭示細胞如何從健康狀態轉變為炎癥狀態,甚至癌變。通過測量有或無化學或基因干擾的細胞內的 RNA 轉錄本,可以訓練出能夠預測細胞基因表達模式(這是細胞“狀態”的關鍵驅動因素)將如何變化的人工智能(AI)模型。這樣的 AI 模型甚至能夠預測模型之前未曾遇到的干擾所引發的反應。

大約 90% 的進入臨床試驗的候選藥物最終會失敗,原因在于療效不佳或產生了意外的副作用。研究人員在實驗室或患者身上測試的每種藥物,本質上都是為以特定方式干擾細胞而量身定制的探針。因此,一個高度預測性的虛擬細胞(Virtual Cell)模型能夠幫助研究人員發現新藥物,這些藥物能夠使細胞從“患病狀態”轉換到“健康狀態”,同時減少脫靶效應,從而提高臨床試驗的成功率。

近日,Arc 研究所發布了其第一代虛擬細胞模型——STATE,該虛擬細胞模型旨在預測各類干細胞、癌細胞和免疫細胞對藥物、細胞因子或基因擾動的反應。STATE 模型基于 1.67 億個細胞的觀察數據以及超過 1 億個細胞的擾動數據進行訓練,這些數據涵蓋了 70 種細胞系。該論文已于近期發表在了預印本平臺 bioRxiv 上。



STATE 的使用很簡單:給定一個初始轉錄組和一個干擾因素,STATE 就能預測 RNA 表達的變化。STATE 由兩個相互關聯的模塊組成——State Embedding(SE)模型和State Transition(ST)模型。SE 模型基于 1.67 億個細胞的觀測數據進行訓練,這些數據是細胞在未受干預情況下的行為測量值,而 ST 模型則基于超過 1 億個細胞的擾動數據進行訓練,即這些細胞對基因變化或小分子的反應情況。

SE 模型將轉錄組數據轉換為計算機更易于理解的平滑多維向量空間,并且對技術噪聲更具不變性。相同類型的細胞(比如白血病細胞或神經元)在這個向量空間中會聚集在一起。ST 模型預測細胞在受到給定干擾時如何在學習到的流形的不同部分之間進行轉換。該模型基于雙向 Transformer 架構構建,其獨特之處在于利用了對細胞集的自注意力機制,從而使 ST 模型能夠靈活地捕捉生物和技術異質性(例如細胞周期狀態或 RNA-seq 數據中的偏差),而無需依賴明確的分布假設。


STATE 是基于超過1 億個細胞的單細胞擾動數據(Tahoe-100M、Parse-PMBC、Replogle-Nadig)進行訓練的,訓練數據量超過了迄今為止的任何其他模型。它在預測新細胞環境中轉錄組在受到擾動后的變化方面,顯著優于現有的最先進的計算方法。在對 Tahoe-100M 進行基準測試時,STATE 在區分擾動效應方面表現出了50% 的提升,并且在識別真正差異表達基因的準確性方面是現有模型的2 倍。此外,STATE 也是首個在所有測試中都優于簡單線性基線模型的模型。

STATE 最初專注于單細胞 RNA 測序數據建模,因為這是目前研究人員能夠以合理成本大規模生成的唯一無偏倚的單細胞分辨率數據。遺憾的是,測序數據通常是純觀察性的,因此通常不足以推斷細胞生物學中的因果關系。即使有來自數百萬個細胞的觀察數據,虛擬細胞模型也無法確定導致觀察到的相關性出現的因果效應。了解因果關系對于構建基于生物學機制的真正的“虛擬細胞”模型至關重要。

Arc 研究所的研究團隊通過收集大規模的擾動數據來彌補單細胞 RNA 測序數據數據不足:即通過實驗(例如使用 CRISPR 基因編輯工具)生成的數據,在實驗中特意改變特定基因以觀察其對細胞的影響。與觀察性數據不同,擾動數據捕捉了基因之間的因果關系,直接反映了潛在的生物學機制。可能需要數萬次觀察才能推斷出兩個基因之間的直接相互作用關系,而擾動數據僅通過一次測量就能捕捉到相同的相互作用關系。研究團隊以獨特的方式將技術開發與機器學習相結合,從而能夠迅速擴大數據收集規模,并在建模方法上進行創新。

迄今為止,大多數單細胞數據來自規模較小的研究,其中技術和來源批次的差異降低了跨多個項目無縫整合數據的能力。研究團隊開發并推出了scBaseCount,這是該領域首個AI 智能體,旨在統一收集和分析單細胞數據,以最大程度減少分析誤差。scBaseCount 也是目前最大的單細胞數據開源庫。STATE 本身也能夠直接建模這些“混雜”因素,這使其能夠整合來自世界各地不同實驗室的大量不同數據集。

研究團隊表,盡管 STATE 只是未來將不斷改進的虛擬細胞模型中的第一個版本,但隨著虛擬細胞訓練數據的增長,其預測準確性也在提高。這似乎是一個顯而易見的結果——Scaling Laws(標度律),模型性能隨規模(例如參數、數據量、計算量)增長而遵循冪律關系。但實際上,Scaling Laws 在生物學領域直到最近才得以確立,Arc 研究所的研究團隊去年發布了 DNA 大語言模型Evo,首次揭示了 DNA 語言建模中的 Scaling Laws。

STATE 的使用案例可能遵循與蛋白質折疊模型類似的模式——AlphaFold不僅因為能夠準確預測蛋白質結構而變得有用,還因為研究人員找到了將其預測結果整合到工作流程中的方法。例如,通過快速預測蛋白質結構,研究人員能夠更快地發現可能與這些蛋白質結合的小分子。

同樣,研究人員不僅可以利用STATE 以及未來的其他模型來模擬細胞對干擾的反應,還可以利用這些預測來提名并實驗性地發現新藥


STATE:一種基于 Transfomer 的用于預測細胞集合中的擾動效應的虛擬細胞模型

構建虛擬細胞模型的最終愿景,是幫助科學家探索更廣闊的組合可能性空間。任何活細胞都可以通過無數種方式進行改變,而要測試每一種可能的基因突變或藥物治療(比如針對癌細胞的治療)是不可能的。一個高度預測性的虛擬細胞模型將解決這個問題。STATE 正是朝著這個方向邁出的第一步,其目標是通過未來的迭代的虛擬細胞模型最終達到實驗級精度。這將使科學家能夠進行數百萬次的計算機模擬干預,從而在進行原創性發現的過程中“縮小”他們的假設范圍。

為了助力這一愿景,研究團隊還推出了Cell_Eval,這是一個用于虛擬細胞建模的全面評估框架,它超越了該領域傳統的基于表達計數等指標的評估方法,納入了一系列具有生物學相關性和可解釋性的指標,重點關注差異表達預測和干擾強度估計。希望 Cell_Eval 能夠幫助透明地評估當前及未來各代虛擬細胞模型。此外,Arc 研究所還推出了一個虛擬細胞挑戰賽。詳情:


總的來說,Arc 研究所公布的這個虛擬細胞模型——STATE,希望生物學家們能夠使用它,并開始探索將其融入自身工作的途徑。

論文鏈接

https://www.biorxiv.org/content/10.1101/2025.06.26.661135v1

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
吳鎮宇姚笛酒店親密照曝光不像演的,網友夸很有意思畫面感滿滿

吳鎮宇姚笛酒店親密照曝光不像演的,網友夸很有意思畫面感滿滿

娛樂小丸子
2025-07-05 10:11:59
又虧大了?國產抗癌神藥被外資72億買入,轉手賣了800億

又虧大了?國產抗癌神藥被外資72億買入,轉手賣了800億

毒sir財經
2025-07-07 16:51:29
變了!是兩年1160萬!官方:獨行俠正式簽約拉塞爾

變了!是兩年1160萬!官方:獨行俠正式簽約拉塞爾

直播吧
2025-07-07 11:28:14
國足vs韓國首發年齡對比:25.1歲vs28.5歲,三名U21球員先發

國足vs韓國首發年齡對比:25.1歲vs28.5歲,三名U21球員先發

懂球帝
2025-07-07 18:46:05
驚喜!44分+8記三分!湖人小將夏聯連爆兩場,頂級射手已在陣中?

驚喜!44分+8記三分!湖人小將夏聯連爆兩場,頂級射手已在陣中?

球盲姐
2025-07-07 17:07:41
警惕!境外勢力入侵校園廣播

警惕!境外勢力入侵校園廣播

新京報
2025-07-07 14:57:25
大陸啟用W121航路,民進黨真急了;館長預告8月深圳行,綠營要慌

大陸啟用W121航路,民進黨真急了;館長預告8月深圳行,綠營要慌

愛下廚的阿釃
2025-07-07 17:23:36
曝麻六記發不起工資,多位骨干紛紛離職,小玥兒消費水平也下降!

曝麻六記發不起工資,多位骨干紛紛離職,小玥兒消費水平也下降!

古希臘掌管月桂的神
2025-07-07 13:52:09
10連敗!被打成業余!伊藤美誠被克星壓制,網友:既生瑜何生亮

10連敗!被打成業余!伊藤美誠被克星壓制,網友:既生瑜何生亮

體壇知道分子
2025-07-07 06:15:06
第二個烏克蘭已出現?俄后院起火,核心盟友倒戈北約,普京失算了

第二個烏克蘭已出現?俄后院起火,核心盟友倒戈北約,普京失算了

歷史求知所
2025-07-06 18:10:06
楊爍:離婚協議寫好,財產都給妻子的,他已經邁上另一條大道

楊爍:離婚協議寫好,財產都給妻子的,他已經邁上另一條大道

置身事內
2025-07-07 07:35:29
天水一幼兒園血鉛異常事件追蹤:至少70童超標,異地檢測值相差20倍

天水一幼兒園血鉛異常事件追蹤:至少70童超標,異地檢測值相差20倍

上游新聞
2025-07-07 12:23:07
國乒7月8日賽程出爐:林詩棟、王曼昱、王藝迪、林高遠等出戰

國乒7月8日賽程出爐:林詩棟、王曼昱、王藝迪、林高遠等出戰

懂球帝
2025-07-07 15:00:12
江蘇三對母女出行時間線曝光,本來可以避免遇險,當地文旅發聲

江蘇三對母女出行時間線曝光,本來可以避免遇險,當地文旅發聲

悠閑歷史
2025-07-07 12:29:28
自行車價格崩了!兩萬元的豪車,5000都賣不出

自行車價格崩了!兩萬元的豪車,5000都賣不出

毒sir財經
2025-07-07 06:16:17
特朗普回應馬斯克成立新政黨:“完全脫軌失控”

特朗普回應馬斯克成立新政黨:“完全脫軌失控”

新華社
2025-07-07 07:43:04
中山市古鎮鎮退役軍人服務中心副主任李金成被查

中山市古鎮鎮退役軍人服務中心副主任李金成被查

南方都市報
2025-07-07 18:09:06
媒體提問巔峰詹姆斯和巔峰約基奇選擇誰?絕對是巔峰詹姆斯!

媒體提問巔峰詹姆斯和巔峰約基奇選擇誰?絕對是巔峰詹姆斯!

氧氣是個地鐵
2025-07-07 18:03:36
隊報兩年前報道:梅西與沙特達口頭協議,年薪6億歐是C羅2.5倍

隊報兩年前報道:梅西與沙特達口頭協議,年薪6億歐是C羅2.5倍

直播吧
2025-07-07 16:36:25
3比2絕殺勁敵!20歲天才少女為中國隊立功,為孫穎莎掃清奪冠障礙

3比2絕殺勁敵!20歲天才少女為中國隊立功,為孫穎莎掃清奪冠障礙

體壇知道分子
2025-07-07 08:31:21
2025-07-07 19:08:49
生物世界 incentive-icons
生物世界
最前沿、最有趣的生命科學研究
7662文章數 144704關注度
往期回顧 全部

科技要聞

投資大佬一語扎心:中國機器人"可悲"現狀

頭條要聞

中央紀委又打一“虎” 其曾任企業高管多年

頭條要聞

中央紀委又打一“虎” 其曾任企業高管多年

體育要聞

不會再有第二個,快樂又偉大的托馬斯-穆勒

娛樂要聞

鹿晗狀態回升賬號恢復 演唱會公開表白

財經要聞

特朗普要發關稅函 美國貿易談判進展如何

汽車要聞

預售10.58萬起/6秒級加速 零跑B01將于7月下旬上市

態度原創

房產
手機
本地
家居
公開課

房產要聞

容積率1.0,這可能是海口近三年最猛的一塊地!

手機要聞

8300mAh手機行業最大電池!曝榮耀X70明天官宣

本地新聞

建筑地標如何成為城市人才匯聚的 “強磁場”?

家居要聞

醺光伴讀 品質兼顧實用

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 汝城县| 滨州市| 浮梁县| 楚雄市| 同心县| 凌云县| 南京市| 沐川县| 普定县| 封开县| 沅陵县| 清原| 什邡市| 积石山| 景谷| 沧源| 高陵县| 通许县| 周口市| 天水市| 鸡泽县| 东明县| 洞头县| 丹东市| 阿克陶县| 台东县| 米林县| 遂溪县| 肥城市| 达拉特旗| 文化| 贵州省| 乐昌市| 南通市| 栾城县| 旺苍县| 界首市| 盱眙县| 和静县| 黄梅县| 夏津县|