99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

史上最強生物數據庫震撼登場!近10萬億token專為AI而生,聯合英偉達打造生物版GPT!

0
分享至


AI+生物學的關鍵瓶頸——數據,迎來重大進展!

近日,Basecamp Research宣布推出生物序列數據庫BaseData?,包含超過9.2萬億個Token的基因組數據以及98億條經過嚴格篩選與校對的蛋白質序列,其中許多來自公司所發現的超過100萬個新物種。

負責人表示,這是迄今為止規模最大、增長最快的生物序列數據庫,也是首個專為基礎模型(Foundation Model)訓練而構建的數據庫,采集自26個國家及地區的120多個站點

Basecamp Research成立于2019年,專注于利用人工智能和全球生物多樣性數據來解決生命科學領域的重大挑戰,通過構建專有知識圖譜來發現和設計新型蛋白質及生物系統,以開發新的藥物、生物材料或優化工業酶,已與強生、寶潔、英偉達等公司建立合作。


其發表的預印本論文中分享了這項成果的更多細節,公司計劃向感興趣的生命科學研究人員提供早期訪問權限。


史上最強生物數據庫,專為AI打造

能夠捕捉整個生物領域通用表征的基礎模型有望徹底改變人類理解、編程和改造生物系統的能力。然而,最新研究表明相關模型的發展速度正在放緩。

造成這一情況的主要原因是缺乏足夠多樣化且經過整理的生物數據,當前生物領域的基礎模型(如AlphaFold、ESM)嚴重依賴公共數據庫進行訓練,但這些數據庫存在明顯局限性。

例如,68%的SRA數據僅來自5個物種,且70%的數據集中在10個國家,反映出嚴重的采樣偏差。更嚴峻的是,UniRef50等核心數據庫的年增長率已降至10%以下,規模長期停滯不前。

數據增長的受限與多樣性的匱乏已經成為阻礙當下生命科學研究的關鍵瓶頸。

為此,研究團隊推出BaseData?,這個專為基礎模型訓練而打造的生物序列數據庫擁有多項優勢:

  • 規模最大

    :在基因組和蛋白質數據規模上都達到了前所未有的水平,擁有
    9.2
    萬億個
    token
    的核苷酸,是此前最大公開數據集
    OpenGenome2
    1.04
    倍;擁有
    9.8
    億條高質量蛋白序列,
    UniRef21.5


圖: BaseData?規模 超過主流 基因組和蛋白質數據集

  • 增長最快

    BaseData
    ?的數據采集和更新速度遠超傳統數據庫,
    每月新增20億條高質量蛋白序列

  • 多樣性強

    :通過全球采樣網絡,
    發現超過100萬個新物種
    ,極大擴展了已知蛋白質和基因組的覆蓋范圍

  • 信息豐富

    :采用專門設計的提取和測序技術,產生的組裝序列更長,
    18%
    contigs
    長度超過
    100kb
    每個序列還包含深層元數據層,記錄了環境、化學、物理參數及基因組宏基因組上下文

此外,BaseData?從底層架構就為AI訓練進行了專門優化,其數據組織形式顯著降低了冗余度,經過50%相似度聚類后仍保留2.0億個非冗余蛋白簇,是傳統數據庫的10倍以上。

數據庫還特別注重保留完整的生物學背景信息,如基因共表達網絡、水平基因轉移事件等,這些高階生物關系對于提升模型的泛化能力至關重要。


圖:BaseData?的全球采樣網絡

實踐證明,在相同參數規模下,使用BaseData?訓練的模型在ProteinGym等基準測試中展現出更優越的零樣本預測性能,特別是在處理遠緣物種和新型蛋白家族時優勢明顯。


牛津博士創業,打造生物版GPT

Basecamp Research成立于2019年,創始人為兩位牛津大學博士:合成生物學家Glen Gowers和生物醫學工程師Oliver Vince。

公司的核心理念——“超越已知生物學”,源于兩人一次共同的極地探險經歷。2018 年,兩位創始人在冰島的瓦特納冰川完成了人類歷史上首次在極地環境中完全離網的DNA測序。


圖:Glen Gowers(左)和Oliver Vince(右)

這次探險不僅驗證了在偏遠地區進行復雜生物實驗的可能性,更讓他們深刻認識到地球上仍有大量未被探索的生物多樣性,蘊藏著巨大的未知生物信息和潛力。

受到這次探險的啟發,Basecamp Research于2019 年在倫敦成立,迄今已累計獲得8500萬美元融資,投資者包括一些知名企業高管,如羅氏公司副董事長André Hoffmann、飛利浦公司董事長兼帝斯曼前首席執行官Feike Sijbesma和聯合利華前首席執行官Paul Polman。

兩位創始人認為,要訓練出真正強大的生物學GPT,首先需要一個龐大、多樣且高質量的生物數據基礎,公開可用的生物數據庫遠不足以捕捉自然界真正的生物復雜性。

Basecamp Research的愿景是構建一個前所未有的生物蛋白質序列知識圖譜,通過從地球上最極端、生物多樣性最豐富的環境中收集樣本,來發現和設計全新的蛋白質及生物系統。

為了構建BaseData?,公司采取了一種根本不同的方法。該方案建立在完全獨立、專門設計和可擴展的數據供應鏈基礎上,通過結構化的商業伙伴關系獲取生物多樣性,這些伙伴關系建立在公平的雙邊準入和惠益分享協議基礎上,覆蓋26個國家和自治區域的120多個實地站點。


圖:Basecamp Research圍繞生物數據建立了一種新的經濟模式

所有數據采集均通過預先談判的商業使用授權協議完成,并建立了透明的利益分配機制,通過嵌入式的數據溯源系統,能夠精確追蹤每個序列的商業化使用情況,并按照使用量比例向數據來源方分配收益。

這種模式不僅解決了傳統公共數據庫的法律模糊性問題,更創造了可持續的生物數據經濟生態。截至2024年底,BaseData?已向19個國家的52個受益方支付商業化分成。

模型層面,Basecamp Research開發了名為BaseFold?的深度學習模型,用于預測蛋白質的3D 結構,特別是針對大型和復雜的蛋白質。

公司表示BaseFold? 在準確性方面優于DeepMind的AlphaFold2,尤其是在處理公共數據集中代表性不足的蛋白質時,其準確性可達AlphaFold2的六倍。

Basecamp Research已經與英偉達建立合作關系,包括將BaseFold? 適配英偉達BioNeMo平臺,以及加入英偉達Inception計劃,以獲得最新開發工具、GPU計算資源以及專業技術支持。

此外,Basecamp Research還與巴塞羅那分子生物學研究所Ferruz實驗室合作,推出了ZymCTRL,這是首個基于文本的酶設計生成式AI模型。

ZymCTRL的突破性在于,它是一個端到端的蛋白質大型語言模型 (LLM),用戶只需通過簡單的文本輸入(例如,酶的識別碼或期望的催化活性),即可從頭生成全新的酶序列。


令人印象深刻的是,ZymCTRL能夠生成與訓練數據中已知序列僅有30%相似度,但仍具有功能活性的酶序列,這表明模型不僅僅是復制現有知識,而是具備真正的創造能力,能夠探索廣闊的蛋白質序列空間。

ZymCTRL已被證明能夠成功設計出用于工業實踐的酶,例如用于冷水洗滌的高效清潔酶,Basecamp Research還將ZymCTRL開源,以促進全球研究人員的合作和應用。

—The End—


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
印度要將“象棋”申遺,申請6次皆被拒,聯合國的答復讓他們沉默

印度要將“象棋”申遺,申請6次皆被拒,聯合國的答復讓他們沉默

侃侃兒談
2025-07-16 08:39:43
吉林一村民因與被告同名遭查封凍結600萬元近一年,法院稱庭后會處理

吉林一村民因與被告同名遭查封凍結600萬元近一年,法院稱庭后會處理

澎湃新聞
2025-07-16 13:02:28
400萬粉絲網紅“張三嫂”宣布解散團隊,因兒子確診ADHD

400萬粉絲網紅“張三嫂”宣布解散團隊,因兒子確診ADHD

齊魯壹點
2025-07-14 11:30:13
610分,湖北唯一!聶海勝母校又將走出一位女飛行員

610分,湖北唯一!聶海勝母校又將走出一位女飛行員

極目新聞
2025-07-16 18:00:56
調查發現:活得久的糖尿病患者,大多在確診后,改掉了5個惡習

調查發現:活得久的糖尿病患者,大多在確診后,改掉了5個惡習

朗威游戲說
2025-07-17 02:15:23
6個交易日,暴漲超250%!3次停牌核查,2人被罰!

6個交易日,暴漲超250%!3次停牌核查,2人被罰!

證券時報e公司
2025-07-16 23:06:37
那個賽前“穿黑絲顛球”的女主持,看得人眼睛都直了!

那個賽前“穿黑絲顛球”的女主持,看得人眼睛都直了!

健身迷
2025-07-14 10:41:26
官宣!CBA夏聯賽程時間公布!8月8日正式開打,廣東遭遇兩強敵

官宣!CBA夏聯賽程時間公布!8月8日正式開打,廣東遭遇兩強敵

老吳說體育
2025-07-17 00:56:57
他怒批首長被閑置半年多,劉帥:到我這里干吧,后來成了開國上將

他怒批首長被閑置半年多,劉帥:到我這里干吧,后來成了開國上將

獵火照狼山
2025-07-16 21:35:14
東北小伙賣11套房,15年花450萬送孩子到加拿大讀書,如今咋樣?

東北小伙賣11套房,15年花450萬送孩子到加拿大讀書,如今咋樣?

曉林說娛
2025-07-16 10:37:35
年終獎50萬變成5000,我一聲不吭,客戶催款老板來求我,我:沒空

年終獎50萬變成5000,我一聲不吭,客戶催款老板來求我,我:沒空

白云故事
2025-07-02 21:10:06
導彈剛歇火,腳手架先立起!中國工人殺到以色列,效率驚呆本地人

導彈剛歇火,腳手架先立起!中國工人殺到以色列,效率驚呆本地人

荷蘭豆愛健康
2025-07-03 16:24:29
這菜不起眼,卻比黃芪補氣,比當歸補血,老人要常吃

這菜不起眼,卻比黃芪補氣,比當歸補血,老人要常吃

罐兒哥中醫自媒體
2025-07-15 18:36:58
看過來,江蘇公積金新政!有人笑醒有人愁,這波操作你站哪邊?

看過來,江蘇公積金新政!有人笑醒有人愁,這波操作你站哪邊?

眼界看視野
2025-07-15 09:19:21
笑點太低的不建議當律師!關注了陳律,被網友逼成了法律界段子手

笑點太低的不建議當律師!關注了陳律,被網友逼成了法律界段子手

墻頭草
2025-07-14 10:40:16
18歲世界第1正式加冕:披上巴薩10號球衣 續約6年+年薪達2000萬歐

18歲世界第1正式加冕:披上巴薩10號球衣 續約6年+年薪達2000萬歐

風過鄉
2025-07-17 06:09:15
為什么越南人寧可買比較貴的日本摩托也不買物美價廉的東大摩托?

為什么越南人寧可買比較貴的日本摩托也不買物美價廉的東大摩托?

古古聊軍事
2025-05-26 21:23:08
以色列軍隊襲擊敘利亞大馬士革:為德魯茲人復仇

以色列軍隊襲擊敘利亞大馬士革:為德魯茲人復仇

一種觀點
2025-07-17 07:00:29
博主談中甲榜首大戰:遼寧鐵人和重慶銅梁龍都在獎金上加碼了

博主談中甲榜首大戰:遼寧鐵人和重慶銅梁龍都在獎金上加碼了

懂球帝
2025-07-16 21:25:30
上海著名醫院換帥!享受國務院特殊津貼

上海著名醫院換帥!享受國務院特殊津貼

上觀新聞
2025-07-16 20:28:54
2025-07-17 08:23:00
智藥局 incentive-icons
智藥局
我們更懂藥物創新
734文章數 133關注度
往期回顧 全部

科技要聞

美團外賣大戰總指揮:不想卷 但不能不反擊

頭條要聞

媒體:黃楊鈿甜"耳環"事件 一場質疑與謠言茍合的鬧劇

頭條要聞

媒體:黃楊鈿甜"耳環"事件 一場質疑與謠言茍合的鬧劇

體育要聞

不給楊瀚森傳球,他有自己的理由

娛樂要聞

都美竹將參加綜藝,單身媽媽發文抵制

財經要聞

探究萬億市場的休閑零食

汽車要聞

理想i8內飾官圖公布 李想回應"被打臉"

態度原創

教育
藝術
數碼
房產
健康

教育要聞

全等三角形動點問題,方法大總結!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

數碼要聞

三星新一代平板電腦通過3C認證,支持25W快充

房產要聞

三亞又有好地要賣,起拍樓面價飆到了1.6萬/㎡!

呼吸科專家破解呼吸道九大謠言!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 中江县| 澄城县| 克山县| 新田县| 奉贤区| 惠来县| 沽源县| 廊坊市| 图片| 杭州市| 宜昌市| 海伦市| 大城县| 济南市| 枣庄市| 嘉禾县| 个旧市| 云林县| 洛浦县| 蒲城县| 固原市| 奎屯市| 修水县| 亳州市| 澳门| 永济市| 定日县| 金堂县| 精河县| 化州市| 桂平市| 腾冲县| 喜德县| 深泽县| 区。| 上高县| 巨野县| 施甸县| 濮阳市| 玉林市| 仁布县|