智東西
作者 程茜
編輯 漠影
智東西6月6日?qǐng)?bào)道,今日,智源研究院重磅發(fā)布全新悟界系列大模型,是其對(duì)AI從數(shù)字世界邁向物理世界技術(shù)趨勢判斷交出的最新答卷。
智源研究院的悟道系列大模型拉開了中國大模型時(shí)代,如今AI加速從數(shù)字世界邁向物理世界,悟界系列大模型已然成為其面向AI下一階段發(fā)展的代表。
與此同時(shí),智源研究院作為鏈接產(chǎn)業(yè)界和學(xué)術(shù)界的重要平臺(tái),其舉辦的智源大會(huì)已經(jīng)發(fā)展成AI領(lǐng)域的頂級(jí)學(xué)術(shù)盛會(huì)。
今年第七屆智源大會(huì)更是頂級(jí)大咖云集,包含圖靈獎(jiǎng)得主、深度學(xué)習(xí)代表人物Yoshua Bengio,圖靈獎(jiǎng)得主、強(qiáng)化學(xué)習(xí)之父Richard S. Sutton,圖靈獎(jiǎng)得主Joseph Sifakis、姚期智4位圖靈獎(jiǎng)得主,30余位企業(yè)創(chuàng)始人或CEO、100余位青年科學(xué)家、200余位AI頂尖學(xué)者和產(chǎn)業(yè)專家,他們將開展180多場AI主題分享。
一、悟界系列4大模型亮相,橫貫微觀生命、具身智能
大模型正在經(jīng)歷從數(shù)字世界向物理世界的演進(jìn),悟界系列大模型應(yīng)運(yùn)而生,以拓展AI與物理世界交互的邊界。
從微觀生命體到具身智能體,悟界系列大模型共包含4款大模型。
1、原生多模態(tài)世界模型Emu3、腦科學(xué)多模態(tài)通用基礎(chǔ)模型見微Brainμ
原生多模態(tài)世界模型Emu3,基于下一個(gè)token預(yù)測范式統(tǒng)一多模態(tài)學(xué)習(xí),使模型更易擴(kuò)展至更多模態(tài)。同時(shí)其通過研發(fā)新型視覺tokenizer將圖像/視頻編碼為與文本同構(gòu)的離散符號(hào)序列,構(gòu)建模態(tài)無關(guān)的統(tǒng)一表征空間,可實(shí)現(xiàn)文本、圖像、視頻的任意組合理解與生成。
腦科學(xué)領(lǐng)域的多模態(tài)通用基礎(chǔ)模型見微Brainμ,基于Emu3的底層架構(gòu),將fMRI、EEG、雙光子等神經(jīng)科學(xué)與腦醫(yī)學(xué)相關(guān)的腦信號(hào)統(tǒng)一token化,利用預(yù)訓(xùn)練模型多模態(tài)對(duì)齊的優(yōu)勢,可以實(shí)現(xiàn)多模態(tài)腦信號(hào)與文本、圖像等模態(tài)的多向映射,這使得單一模型就能完成多種神經(jīng)科學(xué)下游任務(wù),實(shí)現(xiàn)跨模態(tài)、跨任務(wù)、跨個(gè)體的統(tǒng)一通用建模。
目前,Brainμ整合了神經(jīng)科學(xué)領(lǐng)域多個(gè)大型公開數(shù)據(jù)集和多個(gè)合作實(shí)驗(yàn)室的高質(zhì)量神經(jīng)科學(xué)數(shù)據(jù),完成了超過100萬單位的神經(jīng)信號(hào)預(yù)訓(xùn)練。
智源研究院已經(jīng)與國內(nèi)頂尖腦科學(xué)團(tuán)隊(duì)、腦疾病研究團(tuán)隊(duì)、腦機(jī)接口應(yīng)用團(tuán)隊(duì)建立了合作,例如與腦機(jī)接口公司強(qiáng)腦科技合作實(shí)現(xiàn)了首次在便攜式消費(fèi)級(jí)腦電系統(tǒng)上重建感覺信號(hào)。
2、跨本體具身大小腦協(xié)作框架RoboOS 2.0與具身大腦RoboBrain 2.0
具身智能作為AI與宏觀物理世界交互的一個(gè)關(guān)鍵載體,智源研究院發(fā)布的跨本跨本體具身大小腦協(xié)作框架RoboOS 2.0是全球首個(gè)基于具身智能SaaS平臺(tái)、支持無服務(wù)器一站式輕量化機(jī)器人本體部署的開源框架。同時(shí),RoboOS 2.0也是全球首個(gè)支持MCP的跨本體具身大小腦協(xié)作框架,旨在構(gòu)建具身智能領(lǐng)域的“應(yīng)用商店”生態(tài)。
RoboOS 2.0實(shí)現(xiàn)了小腦技能的免適配注冊(cè)機(jī)制,顯著降低開發(fā)門檻,典型場景下,相關(guān)代碼量僅為傳統(tǒng)手動(dòng)注冊(cè)方式的1/10。相比于1.0,RoboOS 2.0對(duì)端到端推理鏈路進(jìn)行了系統(tǒng)級(jí)優(yōu)化,整體性能提升達(dá)30%,全鏈路平均響應(yīng)時(shí)延低至3ms以下,端云通信效率提升27倍。
具身大腦RoboBrain 2.0是目前全球最強(qiáng)的開源具身大腦大模型,在多項(xiàng)空間推理與任務(wù)規(guī)劃指標(biāo)上超越主流大模型。
RoboOS 2.0與RoboBrain 2.0已全面開源,包括框架代碼、模型權(quán)重、數(shù)據(jù)集與評(píng)測基準(zhǔn)。
3、全原子微觀生命模型OpenComplex2
除了宏觀世界,物理世界還有一大重要組成部分是微觀世界。悟界系列的第四大模型正是全原子微觀生命模型OpenComplex2。
OpenComplex2實(shí)現(xiàn)了生物分子研究從靜態(tài)結(jié)構(gòu)預(yù)測到動(dòng)態(tài)構(gòu)象分布建模的重大突破。該模型能夠表征生物分子系統(tǒng)的連續(xù)演化能量景觀(Energy Landscape),并通過融合擴(kuò)散生成式建模與生物實(shí)驗(yàn)數(shù)據(jù),在原子分辨率層面捕捉分子相互作用及平衡構(gòu)象分布。
二、從探索模型方法論到突破虛實(shí)世界邊界,智源研究院加速AI解決實(shí)際問題布局
從悟道到悟界系列大模型的發(fā)布,是智源研究院探索實(shí)現(xiàn)AGI的重要一步。
去年智源大會(huì)上,王仲遠(yuǎn)就談到了對(duì)大模型技術(shù)路徑演進(jìn)的看法:AGI可能的技術(shù)演化路徑將會(huì)從大語言模型到統(tǒng)一的多模態(tài)大模型,然后進(jìn)入物理世界、微觀世界形成世界模型,最終推動(dòng)AGI時(shí)代到來。
時(shí)至今日,這一判斷也在實(shí)踐中得到了驗(yàn)證。AI長遠(yuǎn)的目標(biāo)是被用來解決實(shí)際問題,如今大模型研發(fā)已經(jīng)進(jìn)入解構(gòu)現(xiàn)實(shí)世界的新階段。
可以看出,作為引領(lǐng)AI產(chǎn)業(yè)發(fā)展的頂尖機(jī)構(gòu),智源研究院成立至今已經(jīng)多次預(yù)見AI的發(fā)展機(jī)遇。
2020年,智源研究院成立百人技術(shù)攻關(guān)團(tuán)隊(duì),至今已先后發(fā)布悟道1.0、2.0、3.0系列模型,構(gòu)建了全棧大模型技術(shù)開源體系,并孵化出國內(nèi)數(shù)家知名大模型創(chuàng)企;如今站在AI產(chǎn)業(yè)發(fā)展的關(guān)鍵轉(zhuǎn)折點(diǎn),悟界系列大模型應(yīng)運(yùn)而生。
從“悟道”與“悟界”命名也可以更為直觀感受到,悟道的“道”代表智源研究院對(duì)大語言模型系統(tǒng)化方法論的探索,悟界的“界”則代表對(duì)虛實(shí)世界邊界的不斷突破。
更為重要的是,即使AI產(chǎn)業(yè)發(fā)展的重心不斷變化,開源一直是智源研究院堅(jiān)持的底色。
智源研究院打造的覆蓋模型、算法、數(shù)據(jù)、評(píng)測、系統(tǒng)的大模型開源技術(shù)體系FlagOpen,截至目前已開源約200個(gè)模型和160個(gè)數(shù)據(jù)集,其中,模型全球總下載量超6.4億次,開源數(shù)據(jù)集下載量近113萬次,開源項(xiàng)目代碼下載量超140萬次。
其中,在開源模型方面,通用向量模型BGE于去年10月成為中國首個(gè)登頂 Hugging Face月度下載排行榜榜首的開源模型,同時(shí)也是截至去年年底的2023年所有發(fā)布模型的全球下載量冠軍;開源輕量長視頻理解模型Video-XL 2,支持在單張顯卡上高效處理長達(dá)萬幀的視頻輸入;開源全能視覺生成模型OmniGen,采用極簡架構(gòu),僅由大模型基座和VAE模塊構(gòu)成,可降低了開發(fā)和部署成本,并通過廣泛的指令學(xué)習(xí),實(shí)現(xiàn)了視覺生成能力的高度集成。
此外,智源研究院構(gòu)建的AI系統(tǒng)軟件棧FlagOS實(shí)現(xiàn)升級(jí),新增了統(tǒng)一編譯器FlagTree、統(tǒng)一通信庫FlagCX、自動(dòng)發(fā)版平臺(tái)工具FlagRelease,實(shí)現(xiàn)對(duì)11家國內(nèi)外廠商的18款異構(gòu)AI硬件的統(tǒng)一支持。
將視野放大到整個(gè)AI產(chǎn)業(yè),我們可以更為清晰的觀察到智源研究院當(dāng)下布局在產(chǎn)業(yè)中的重要性。
目前,諸多企業(yè)都在朝著多模態(tài)基礎(chǔ)模型、具身智能等方向進(jìn)行探索,但痛點(diǎn)在于技術(shù)路線多元且并不收斂。
因此,智源研究院在此基礎(chǔ)上,更看重對(duì)不同技術(shù)路線、方法的探索,當(dāng)其研究達(dá)到一定成果就會(huì)通過開源的方式讓企業(yè)來做。
結(jié)語:全球大模型先鋒集結(jié)
一直以來,智源研究院都走在AI產(chǎn)業(yè)技術(shù)路線探索的前沿,并通過構(gòu)建開源開放的生態(tài)推動(dòng)學(xué)術(shù)界與產(chǎn)業(yè)界的發(fā)展。如今,AI產(chǎn)業(yè)正經(jīng)歷從數(shù)字世界走向物理世界,智源研究院的角色進(jìn)一步凸顯。
而北京智源大會(huì)作為“AI內(nèi)行學(xué)術(shù)盛會(huì)”,不僅是智源研究院成果發(fā)布與探索的展現(xiàn)平臺(tái),更承載著海內(nèi)外研究者分享研究成果、探尋前沿知識(shí)、交流實(shí)踐經(jīng)驗(yàn)的重要意義。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.