網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

智源全新悟界系列大模型亮相！劍指AI加速數(shù)字世界、物理世界融合

2025-06-06 22:04:27　來源: 智東西

北京舉報(bào)

分享至

智東西
作者程茜
編輯漠影

智東西6月6日?qǐng)?bào)道，今日，智源研究院重磅發(fā)布全新悟界系列大模型，是其對(duì)AI從數(shù)字世界邁向物理世界技術(shù)趨勢判斷交出的最新答卷。

智源研究院的悟道系列大模型拉開了中國大模型時(shí)代，如今AI加速從數(shù)字世界邁向物理世界，悟界系列大模型已然成為其面向AI下一階段發(fā)展的代表。

與此同時(shí)，智源研究院作為鏈接產(chǎn)業(yè)界和學(xué)術(shù)界的重要平臺(tái)，其舉辦的智源大會(huì)已經(jīng)發(fā)展成AI領(lǐng)域的頂級(jí)學(xué)術(shù)盛會(huì)。

今年第七屆智源大會(huì)更是頂級(jí)大咖云集，包含圖靈獎(jiǎng)得主、深度學(xué)習(xí)代表人物Yoshua Bengio，圖靈獎(jiǎng)得主、強(qiáng)化學(xué)習(xí)之父Richard S. Sutton，圖靈獎(jiǎng)得主Joseph Sifakis、姚期智4位圖靈獎(jiǎng)得主，30余位企業(yè)創(chuàng)始人或CEO、100余位青年科學(xué)家、200余位AI頂尖學(xué)者和產(chǎn)業(yè)專家，他們將開展180多場AI主題分享。

一、悟界系列4大模型亮相，橫貫微觀生命、具身智能

大模型正在經(jīng)歷從數(shù)字世界向物理世界的演進(jìn)，悟界系列大模型應(yīng)運(yùn)而生，以拓展AI與物理世界交互的邊界。

從微觀生命體到具身智能體，悟界系列大模型共包含4款大模型。

1、原生多模態(tài)世界模型Emu3、腦科學(xué)多模態(tài)通用基礎(chǔ)模型見微Brainμ

原生多模態(tài)世界模型Emu3，基于下一個(gè)token預(yù)測范式統(tǒng)一多模態(tài)學(xué)習(xí)，使模型更易擴(kuò)展至更多模態(tài)。同時(shí)其通過研發(fā)新型視覺tokenizer將圖像/視頻編碼為與文本同構(gòu)的離散符號(hào)序列，構(gòu)建模態(tài)無關(guān)的統(tǒng)一表征空間，可實(shí)現(xiàn)文本、圖像、視頻的任意組合理解與生成。

腦科學(xué)領(lǐng)域的多模態(tài)通用基礎(chǔ)模型見微Brainμ，基于Emu3的底層架構(gòu)，將fMRI、EEG、雙光子等神經(jīng)科學(xué)與腦醫(yī)學(xué)相關(guān)的腦信號(hào)統(tǒng)一token化，利用預(yù)訓(xùn)練模型多模態(tài)對(duì)齊的優(yōu)勢，可以實(shí)現(xiàn)多模態(tài)腦信號(hào)與文本、圖像等模態(tài)的多向映射，這使得單一模型就能完成多種神經(jīng)科學(xué)下游任務(wù)，實(shí)現(xiàn)跨模態(tài)、跨任務(wù)、跨個(gè)體的統(tǒng)一通用建模。

目前，Brainμ整合了神經(jīng)科學(xué)領(lǐng)域多個(gè)大型公開數(shù)據(jù)集和多個(gè)合作實(shí)驗(yàn)室的高質(zhì)量神經(jīng)科學(xué)數(shù)據(jù)，完成了超過100萬單位的神經(jīng)信號(hào)預(yù)訓(xùn)練。

智源研究院已經(jīng)與國內(nèi)頂尖腦科學(xué)團(tuán)隊(duì)、腦疾病研究團(tuán)隊(duì)、腦機(jī)接口應(yīng)用團(tuán)隊(duì)建立了合作，例如與腦機(jī)接口公司強(qiáng)腦科技合作實(shí)現(xiàn)了首次在便攜式消費(fèi)級(jí)腦電系統(tǒng)上重建感覺信號(hào)。

2、跨本體具身大小腦協(xié)作框架RoboOS 2.0與具身大腦RoboBrain 2.0

具身智能作為AI與宏觀物理世界交互的一個(gè)關(guān)鍵載體，智源研究院發(fā)布的跨本跨本體具身大小腦協(xié)作框架RoboOS 2.0是全球首個(gè)基于具身智能SaaS平臺(tái)、支持無服務(wù)器一站式輕量化機(jī)器人本體部署的開源框架。同時(shí)，RoboOS 2.0也是全球首個(gè)支持MCP的跨本體具身大小腦協(xié)作框架，旨在構(gòu)建具身智能領(lǐng)域的“應(yīng)用商店”生態(tài)。

RoboOS 2.0實(shí)現(xiàn)了小腦技能的免適配注冊(cè)機(jī)制，顯著降低開發(fā)門檻，典型場景下，相關(guān)代碼量僅為傳統(tǒng)手動(dòng)注冊(cè)方式的1/10。相比于1.0，RoboOS 2.0對(duì)端到端推理鏈路進(jìn)行了系統(tǒng)級(jí)優(yōu)化，整體性能提升達(dá)30%，全鏈路平均響應(yīng)時(shí)延低至3ms以下，端云通信效率提升27倍。

具身大腦RoboBrain 2.0是目前全球最強(qiáng)的開源具身大腦大模型，在多項(xiàng)空間推理與任務(wù)規(guī)劃指標(biāo)上超越主流大模型。

RoboOS 2.0與RoboBrain 2.0已全面開源，包括框架代碼、模型權(quán)重、數(shù)據(jù)集與評(píng)測基準(zhǔn)。

3、全原子微觀生命模型OpenComplex2

除了宏觀世界，物理世界還有一大重要組成部分是微觀世界。悟界系列的第四大模型正是全原子微觀生命模型OpenComplex2。

OpenComplex2實(shí)現(xiàn)了生物分子研究從靜態(tài)結(jié)構(gòu)預(yù)測到動(dòng)態(tài)構(gòu)象分布建模的重大突破。該模型能夠表征生物分子系統(tǒng)的連續(xù)演化能量景觀（Energy Landscape），并通過融合擴(kuò)散生成式建模與生物實(shí)驗(yàn)數(shù)據(jù)，在原子分辨率層面捕捉分子相互作用及平衡構(gòu)象分布。

二、從探索模型方法論到突破虛實(shí)世界邊界，智源研究院加速AI解決實(shí)際問題布局

從悟道到悟界系列大模型的發(fā)布，是智源研究院探索實(shí)現(xiàn)AGI的重要一步。

去年智源大會(huì)上，王仲遠(yuǎn)就談到了對(duì)大模型技術(shù)路徑演進(jìn)的看法：AGI可能的技術(shù)演化路徑將會(huì)從大語言模型到統(tǒng)一的多模態(tài)大模型，然后進(jìn)入物理世界、微觀世界形成世界模型，最終推動(dòng)AGI時(shí)代到來。

時(shí)至今日，這一判斷也在實(shí)踐中得到了驗(yàn)證。AI長遠(yuǎn)的目標(biāo)是被用來解決實(shí)際問題，如今大模型研發(fā)已經(jīng)進(jìn)入解構(gòu)現(xiàn)實(shí)世界的新階段。

可以看出，作為引領(lǐng)AI產(chǎn)業(yè)發(fā)展的頂尖機(jī)構(gòu)，智源研究院成立至今已經(jīng)多次預(yù)見AI的發(fā)展機(jī)遇。

2020年，智源研究院成立百人技術(shù)攻關(guān)團(tuán)隊(duì)，至今已先后發(fā)布悟道1.0、2.0、3.0系列模型，構(gòu)建了全棧大模型技術(shù)開源體系，并孵化出國內(nèi)數(shù)家知名大模型創(chuàng)企；如今站在AI產(chǎn)業(yè)發(fā)展的關(guān)鍵轉(zhuǎn)折點(diǎn)，悟界系列大模型應(yīng)運(yùn)而生。

從“悟道”與“悟界”命名也可以更為直觀感受到，悟道的“道”代表智源研究院對(duì)大語言模型系統(tǒng)化方法論的探索，悟界的“界”則代表對(duì)虛實(shí)世界邊界的不斷突破。

更為重要的是，即使AI產(chǎn)業(yè)發(fā)展的重心不斷變化，開源一直是智源研究院堅(jiān)持的底色。

智源研究院打造的覆蓋模型、算法、數(shù)據(jù)、評(píng)測、系統(tǒng)的大模型開源技術(shù)體系FlagOpen，截至目前已開源約200個(gè)模型和160個(gè)數(shù)據(jù)集，其中，模型全球總下載量超6.4億次，開源數(shù)據(jù)集下載量近113萬次，開源項(xiàng)目代碼下載量超140萬次。

其中，在開源模型方面，通用向量模型BGE于去年10月成為中國首個(gè)登頂 Hugging Face月度下載排行榜榜首的開源模型，同時(shí)也是截至去年年底的2023年所有發(fā)布模型的全球下載量冠軍；開源輕量長視頻理解模型Video-XL 2，支持在單張顯卡上高效處理長達(dá)萬幀的視頻輸入；開源全能視覺生成模型OmniGen，采用極簡架構(gòu)，僅由大模型基座和VAE模塊構(gòu)成，可降低了開發(fā)和部署成本，并通過廣泛的指令學(xué)習(xí)，實(shí)現(xiàn)了視覺生成能力的高度集成。

此外，智源研究院構(gòu)建的AI系統(tǒng)軟件棧FlagOS實(shí)現(xiàn)升級(jí)，新增了統(tǒng)一編譯器FlagTree、統(tǒng)一通信庫FlagCX、自動(dòng)發(fā)版平臺(tái)工具FlagRelease，實(shí)現(xiàn)對(duì)11家國內(nèi)外廠商的18款異構(gòu)AI硬件的統(tǒng)一支持。

將視野放大到整個(gè)AI產(chǎn)業(yè)，我們可以更為清晰的觀察到智源研究院當(dāng)下布局在產(chǎn)業(yè)中的重要性。

目前，諸多企業(yè)都在朝著多模態(tài)基礎(chǔ)模型、具身智能等方向進(jìn)行探索，但痛點(diǎn)在于技術(shù)路線多元且并不收斂。

因此，智源研究院在此基礎(chǔ)上，更看重對(duì)不同技術(shù)路線、方法的探索，當(dāng)其研究達(dá)到一定成果就會(huì)通過開源的方式讓企業(yè)來做。

結(jié)語：全球大模型先鋒集結(jié)

一直以來，智源研究院都走在AI產(chǎn)業(yè)技術(shù)路線探索的前沿，并通過構(gòu)建開源開放的生態(tài)推動(dòng)學(xué)術(shù)界與產(chǎn)業(yè)界的發(fā)展。如今，AI產(chǎn)業(yè)正經(jīng)歷從數(shù)字世界走向物理世界，智源研究院的角色進(jìn)一步凸顯。

而北京智源大會(huì)作為“AI內(nèi)行學(xué)術(shù)盛會(huì)”，不僅是智源研究院成果發(fā)布與探索的展現(xiàn)平臺(tái)，更承載著海內(nèi)外研究者分享研究成果、探尋前沿知識(shí)、交流實(shí)踐經(jīng)驗(yàn)的重要意義。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.