AI+生物學的關鍵瓶頸——數據,迎來重大進展!
近日,Basecamp Research宣布推出生物序列數據庫BaseData?,包含超過9.2萬億個Token的基因組數據以及98億條經過嚴格篩選與校對的蛋白質序列,其中許多來自公司所發現的超過100萬個新物種。
負責人表示,這是迄今為止規模最大、增長最快的生物序列數據庫,也是首個專為基礎模型(Foundation Model)訓練而構建的數據庫,采集自26個國家及地區的120多個站點。
Basecamp Research成立于2019年,專注于利用人工智能和全球生物多樣性數據來解決生命科學領域的重大挑戰,通過構建專有知識圖譜來發現和設計新型蛋白質及生物系統,以開發新的藥物、生物材料或優化工業酶,已與強生、寶潔、英偉達等公司建立合作。
其發表的預印本論文中分享了這項成果的更多細節,公司計劃向感興趣的生命科學研究人員提供早期訪問權限。
史上最強生物數據庫,專為AI打造
能夠捕捉整個生物領域通用表征的基礎模型有望徹底改變人類理解、編程和改造生物系統的能力。然而,最新研究表明相關模型的發展速度正在放緩。
造成這一情況的主要原因是缺乏足夠多樣化且經過整理的生物數據,當前生物領域的基礎模型(如AlphaFold、ESM)嚴重依賴公共數據庫進行訓練,但這些數據庫存在明顯局限性。
例如,68%的SRA數據僅來自5個物種,且70%的數據集中在10個國家,反映出嚴重的采樣偏差。更嚴峻的是,UniRef50等核心數據庫的年增長率已降至10%以下,規模長期停滯不前。
數據增長的受限與多樣性的匱乏已經成為阻礙當下生命科學研究的關鍵瓶頸。
為此,研究團隊推出BaseData?,這個專為基礎模型訓練而打造的生物序列數據庫擁有多項優勢:
規模最大
:在基因組和蛋白質數據規模上都達到了前所未有的水平,擁有
9.2
萬億個
token
的核苷酸,是此前最大公開數據集
OpenGenome2
1.04
倍;擁有
9.8
億條高質量蛋白序列,
UniRef21.5
圖: BaseData?規模 超過主流 基因組和蛋白質數據集
增長最快
BaseData
?的數據采集和更新速度遠超傳統數據庫,
每月新增20億條高質量蛋白序列多樣性強
:通過全球采樣網絡,
發現超過100萬個新物種,極大擴展了已知蛋白質和基因組的覆蓋范圍
信息豐富
:采用專門設計的提取和測序技術,產生的組裝序列更長,
18%
contigs
長度超過
100kb
每個序列還包含深層元數據層,記錄了環境、化學、物理參數及基因組宏基因組上下文
此外,BaseData?從底層架構就為AI訓練進行了專門優化,其數據組織形式顯著降低了冗余度,經過50%相似度聚類后仍保留2.0億個非冗余蛋白簇,是傳統數據庫的10倍以上。
數據庫還特別注重保留完整的生物學背景信息,如基因共表達網絡、水平基因轉移事件等,這些高階生物關系對于提升模型的泛化能力至關重要。
圖:BaseData?的全球采樣網絡
實踐證明,在相同參數規模下,使用BaseData?訓練的模型在ProteinGym等基準測試中展現出更優越的零樣本預測性能,特別是在處理遠緣物種和新型蛋白家族時優勢明顯。
牛津博士創業,打造生物版GPT
Basecamp Research成立于2019年,創始人為兩位牛津大學博士:合成生物學家Glen Gowers和生物醫學工程師Oliver Vince。
公司的核心理念——“超越已知生物學”,源于兩人一次共同的極地探險經歷。2018 年,兩位創始人在冰島的瓦特納冰川完成了人類歷史上首次在極地環境中完全離網的DNA測序。
圖:Glen Gowers(左)和Oliver Vince(右)
這次探險不僅驗證了在偏遠地區進行復雜生物實驗的可能性,更讓他們深刻認識到地球上仍有大量未被探索的生物多樣性,蘊藏著巨大的未知生物信息和潛力。
受到這次探險的啟發,Basecamp Research于2019 年在倫敦成立,迄今已累計獲得8500萬美元融資,投資者包括一些知名企業高管,如羅氏公司副董事長André Hoffmann、飛利浦公司董事長兼帝斯曼前首席執行官Feike Sijbesma和聯合利華前首席執行官Paul Polman。
兩位創始人認為,要訓練出真正強大的生物學GPT,首先需要一個龐大、多樣且高質量的生物數據基礎,公開可用的生物數據庫遠不足以捕捉自然界真正的生物復雜性。
Basecamp Research的愿景是構建一個前所未有的生物蛋白質序列知識圖譜,通過從地球上最極端、生物多樣性最豐富的環境中收集樣本,來發現和設計全新的蛋白質及生物系統。
為了構建BaseData?,公司采取了一種根本不同的方法。該方案建立在完全獨立、專門設計和可擴展的數據供應鏈基礎上,通過結構化的商業伙伴關系獲取生物多樣性,這些伙伴關系建立在公平的雙邊準入和惠益分享協議基礎上,覆蓋26個國家和自治區域的120多個實地站點。
圖:Basecamp Research圍繞生物數據建立了一種新的經濟模式
所有數據采集均通過預先談判的商業使用授權協議完成,并建立了透明的利益分配機制,通過嵌入式的數據溯源系統,能夠精確追蹤每個序列的商業化使用情況,并按照使用量比例向數據來源方分配收益。
這種模式不僅解決了傳統公共數據庫的法律模糊性問題,更創造了可持續的生物數據經濟生態。截至2024年底,BaseData?已向19個國家的52個受益方支付商業化分成。
模型層面,Basecamp Research開發了名為BaseFold?的深度學習模型,用于預測蛋白質的3D 結構,特別是針對大型和復雜的蛋白質。
公司表示BaseFold? 在準確性方面優于DeepMind的AlphaFold2,尤其是在處理公共數據集中代表性不足的蛋白質時,其準確性可達AlphaFold2的六倍。
Basecamp Research已經與英偉達建立合作關系,包括將BaseFold? 適配英偉達BioNeMo平臺,以及加入英偉達Inception計劃,以獲得最新開發工具、GPU計算資源以及專業技術支持。
此外,Basecamp Research還與巴塞羅那分子生物學研究所Ferruz實驗室合作,推出了ZymCTRL,這是首個基于文本的酶設計生成式AI模型。
ZymCTRL的突破性在于,它是一個端到端的蛋白質大型語言模型 (LLM),用戶只需通過簡單的文本輸入(例如,酶的識別碼或期望的催化活性),即可從頭生成全新的酶序列。
令人印象深刻的是,ZymCTRL能夠生成與訓練數據中已知序列僅有30%相似度,但仍具有功能活性的酶序列,這表明模型不僅僅是復制現有知識,而是具備真正的創造能力,能夠探索廣闊的蛋白質序列空間。
ZymCTRL已被證明能夠成功設計出用于工業實踐的酶,例如用于冷水洗滌的高效清潔酶,Basecamp Research還將ZymCTRL開源,以促進全球研究人員的合作和應用。
—The End—
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.