智東西
作者 程茜
編輯 漠影
智東西6月6日報道,今日,智源研究院重磅發(fā)布全新悟界系列大模型,是其對AI從數(shù)字世界邁向物理世界技術(shù)趨勢判斷交出的最新答卷。
智源研究院的悟道系列大模型拉開了中國大模型時代,如今AI加速從數(shù)字世界邁向物理世界,悟界系列大模型已然成為其面向AI下一階段發(fā)展的代表。
與此同時,智源研究院作為鏈接產(chǎn)業(yè)界和學(xué)術(shù)界的重要平臺,其舉辦的智源大會已經(jīng)發(fā)展成AI領(lǐng)域的頂級學(xué)術(shù)盛會。
今年第七屆智源大會更是頂級大咖云集,包含圖靈獎得主、深度學(xué)習(xí)代表人物Yoshua Bengio,圖靈獎得主、強化學(xué)習(xí)之父Richard S. Sutton,圖靈獎得主Joseph Sifakis、姚期智4位圖靈獎得主,30余位企業(yè)創(chuàng)始人或CEO、100余位青年科學(xué)家、200余位AI頂尖學(xué)者和產(chǎn)業(yè)專家,他們將開展180多場AI主題分享。
一、悟界系列4大模型亮相,橫貫微觀生命、具身智能
大模型正在經(jīng)歷從數(shù)字世界向物理世界的演進(jìn),悟界系列大模型應(yīng)運而生,以拓展AI與物理世界交互的邊界。
從微觀生命體到具身智能體,悟界系列大模型共包含4款大模型。
1、原生多模態(tài)世界模型Emu3、腦科學(xué)多模態(tài)通用基礎(chǔ)模型見微Brainμ
原生多模態(tài)世界模型Emu3,基于下一個token預(yù)測范式統(tǒng)一多模態(tài)學(xué)習(xí),使模型更易擴展至更多模態(tài)。同時其通過研發(fā)新型視覺tokenizer將圖像/視頻編碼為與文本同構(gòu)的離散符號序列,構(gòu)建模態(tài)無關(guān)的統(tǒng)一表征空間,可實現(xiàn)文本、圖像、視頻的任意組合理解與生成。
腦科學(xué)領(lǐng)域的多模態(tài)通用基礎(chǔ)模型見微Brainμ,基于Emu3的底層架構(gòu),將fMRI、EEG、雙光子等神經(jīng)科學(xué)與腦醫(yī)學(xué)相關(guān)的腦信號統(tǒng)一token化,利用預(yù)訓(xùn)練模型多模態(tài)對齊的優(yōu)勢,可以實現(xiàn)多模態(tài)腦信號與文本、圖像等模態(tài)的多向映射,這使得單一模型就能完成多種神經(jīng)科學(xué)下游任務(wù),實現(xiàn)跨模態(tài)、跨任務(wù)、跨個體的統(tǒng)一通用建模。
目前,Brainμ整合了神經(jīng)科學(xué)領(lǐng)域多個大型公開數(shù)據(jù)集和多個合作實驗室的高質(zhì)量神經(jīng)科學(xué)數(shù)據(jù),完成了超過100萬單位的神經(jīng)信號預(yù)訓(xùn)練。
智源研究院已經(jīng)與國內(nèi)頂尖腦科學(xué)團(tuán)隊、腦疾病研究團(tuán)隊、腦機接口應(yīng)用團(tuán)隊建立了合作,例如與腦機接口公司強腦科技合作實現(xiàn)了首次在便攜式消費級腦電系統(tǒng)上重建感覺信號。
2、跨本體具身大小腦協(xié)作框架RoboOS 2.0與具身大腦RoboBrain 2.0
具身智能作為AI與宏觀物理世界交互的一個關(guān)鍵載體,智源研究院發(fā)布的跨本跨本體具身大小腦協(xié)作框架RoboOS 2.0是全球首個基于具身智能SaaS平臺、支持無服務(wù)器一站式輕量化機器人本體部署的開源框架。同時,RoboOS 2.0也是全球首個支持MCP的跨本體具身大小腦協(xié)作框架,旨在構(gòu)建具身智能領(lǐng)域的“應(yīng)用商店”生態(tài)。
RoboOS 2.0實現(xiàn)了小腦技能的免適配注冊機制,顯著降低開發(fā)門檻,典型場景下,相關(guān)代碼量僅為傳統(tǒng)手動注冊方式的1/10。相比于1.0,RoboOS 2.0對端到端推理鏈路進(jìn)行了系統(tǒng)級優(yōu)化,整體性能提升達(dá)30%,全鏈路平均響應(yīng)時延低至3ms以下,端云通信效率提升27倍。
具身大腦RoboBrain 2.0是目前全球最強的開源具身大腦大模型,在多項空間推理與任務(wù)規(guī)劃指標(biāo)上超越主流大模型。
RoboOS 2.0與RoboBrain 2.0已全面開源,包括框架代碼、模型權(quán)重、數(shù)據(jù)集與評測基準(zhǔn)。
3、全原子微觀生命模型OpenComplex2
除了宏觀世界,物理世界還有一大重要組成部分是微觀世界。悟界系列的第四大模型正是全原子微觀生命模型OpenComplex2。
OpenComplex2實現(xiàn)了生物分子研究從靜態(tài)結(jié)構(gòu)預(yù)測到動態(tài)構(gòu)象分布建模的重大突破。該模型能夠表征生物分子系統(tǒng)的連續(xù)演化能量景觀(Energy Landscape),并通過融合擴散生成式建模與生物實驗數(shù)據(jù),在原子分辨率層面捕捉分子相互作用及平衡構(gòu)象分布。
二、從探索模型方法論到突破虛實世界邊界,智源研究院加速AI解決實際問題布局
從悟道到悟界系列大模型的發(fā)布,是智源研究院探索實現(xiàn)AGI的重要一步。
去年智源大會上,王仲遠(yuǎn)就談到了對大模型技術(shù)路徑演進(jìn)的看法:AGI可能的技術(shù)演化路徑將會從大語言模型到統(tǒng)一的多模態(tài)大模型,然后進(jìn)入物理世界、微觀世界形成世界模型,最終推動AGI時代到來。
時至今日,這一判斷也在實踐中得到了驗證。AI長遠(yuǎn)的目標(biāo)是被用來解決實際問題,如今大模型研發(fā)已經(jīng)進(jìn)入解構(gòu)現(xiàn)實世界的新階段。
可以看出,作為引領(lǐng)AI產(chǎn)業(yè)發(fā)展的頂尖機構(gòu),智源研究院成立至今已經(jīng)多次預(yù)見AI的發(fā)展機遇。
2020年,智源研究院成立百人技術(shù)攻關(guān)團(tuán)隊,至今已先后發(fā)布悟道1.0、2.0、3.0系列模型,構(gòu)建了全棧大模型技術(shù)開源體系,并孵化出國內(nèi)數(shù)家知名大模型創(chuàng)企;如今站在AI產(chǎn)業(yè)發(fā)展的關(guān)鍵轉(zhuǎn)折點,悟界系列大模型應(yīng)運而生。
從“悟道”與“悟界”命名也可以更為直觀感受到,悟道的“道”代表智源研究院對大語言模型系統(tǒng)化方法論的探索,悟界的“界”則代表對虛實世界邊界的不斷突破。
更為重要的是,即使AI產(chǎn)業(yè)發(fā)展的重心不斷變化,開源一直是智源研究院堅持的底色。
智源研究院打造的覆蓋模型、算法、數(shù)據(jù)、評測、系統(tǒng)的大模型開源技術(shù)體系FlagOpen,截至目前已開源約200個模型和160個數(shù)據(jù)集,其中,模型全球總下載量超6.4億次,開源數(shù)據(jù)集下載量近113萬次,開源項目代碼下載量超140萬次。
其中,在開源模型方面,通用向量模型BGE于去年10月成為中國首個登頂 Hugging Face月度下載排行榜榜首的開源模型,同時也是截至去年年底的2023年所有發(fā)布模型的全球下載量冠軍;開源輕量長視頻理解模型Video-XL 2,支持在單張顯卡上高效處理長達(dá)萬幀的視頻輸入;開源全能視覺生成模型OmniGen,采用極簡架構(gòu),僅由大模型基座和VAE模塊構(gòu)成,可降低了開發(fā)和部署成本,并通過廣泛的指令學(xué)習(xí),實現(xiàn)了視覺生成能力的高度集成。
此外,智源研究院構(gòu)建的AI系統(tǒng)軟件棧FlagOS實現(xiàn)升級,新增了統(tǒng)一編譯器FlagTree、統(tǒng)一通信庫FlagCX、自動發(fā)版平臺工具FlagRelease,實現(xiàn)對11家國內(nèi)外廠商的18款異構(gòu)AI硬件的統(tǒng)一支持。
將視野放大到整個AI產(chǎn)業(yè),我們可以更為清晰的觀察到智源研究院當(dāng)下布局在產(chǎn)業(yè)中的重要性。
目前,諸多企業(yè)都在朝著多模態(tài)基礎(chǔ)模型、具身智能等方向進(jìn)行探索,但痛點在于技術(shù)路線多元且并不收斂。
因此,智源研究院在此基礎(chǔ)上,更看重對不同技術(shù)路線、方法的探索,當(dāng)其研究達(dá)到一定成果就會通過開源的方式讓企業(yè)來做。
結(jié)語:全球大模型先鋒集結(jié)
一直以來,智源研究院都走在AI產(chǎn)業(yè)技術(shù)路線探索的前沿,并通過構(gòu)建開源開放的生態(tài)推動學(xué)術(shù)界與產(chǎn)業(yè)界的發(fā)展。如今,AI產(chǎn)業(yè)正經(jīng)歷從數(shù)字世界走向物理世界,智源研究院的角色進(jìn)一步凸顯。
而北京智源大會作為“AI內(nèi)行學(xué)術(shù)盛會”,不僅是智源研究院成果發(fā)布與探索的展現(xiàn)平臺,更承載著海內(nèi)外研究者分享研究成果、探尋前沿知識、交流實踐經(jīng)驗的重要意義。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.