機器之心報道
編輯:杜偉
AI 開始從理解文字,全面進化到建模世界、操控實體、模擬大腦、解構分子。
一晃 2025 年已經(jīng)快要過半了!AI 領域依然「熱鬧非凡」,令人目不暇接。
年初爆火的 DeepSeek R1 以及后續(xù)的 OpenAI o3,強化學習技術讓推理模型能力強勢增長;同時,智能體、世界模型、多模態(tài)大模型、具身智能與人形機器人、AI4S 等領域也不斷產(chǎn)出引爆社區(qū)的成果,比如最初一碼難求的智能體 Manus、CES 大會上英偉達的 Cosmos 世界基礎模型。
前沿 AI 技術的進步讓整個 AI 圈充滿了活力,并推動各個 AI 方向在當前行業(yè)最有前景的道路上狂奔。
6 月 6 日,一年一度的國內(nèi)「AI 內(nèi)行頂級盛會」——第七屆智源大會拉開了序幕!會上,Yoshua Bengio、Richard Sutton 等四位圖靈獎得主、三十余位大模型企業(yè)創(chuàng)始人及 CEO、一百多位青年科學家及學者集思廣益,從學界和產(chǎn)業(yè)界的多樣化視角出發(fā),圍繞上面這些 AI 課題進行了頭腦風暴,并針對下一代 AI 路徑等行業(yè)前景問題貢獻出了很多真知灼見。
作為主辦方的智源研究院(簡稱智源),重磅亮相了全新一代「悟界」系列大模型。從命名來看,「悟界」代表了智源對于虛實邊界的突破,通過深化對物理世界的賦能向著物理 AGI 方向邁進。這預示著這家人工智能領域的前沿科研機構對大模型的探索進入到了一個全新階段。
具體來講,「悟界」系列包含了多項重要成果,它們分別是原生多模態(tài)世界模型 Emu3、腦科學多模態(tài)通用基礎模型見微 Brainμ、跨本體具身大小腦協(xié)作框架 RoboOS 2.0 與具身大腦 RoboBrain 2.0以及全原子微觀生命模型 OpenComplex2。其中原生多模態(tài)世界模型實現(xiàn)了真正的可擴展性,從一開始便在底層結構中融合進文本、圖像、視頻、聲音甚至腦信號在內(nèi)的各種模態(tài),告別了簡單的模態(tài)拼接。
不難發(fā)現(xiàn),從 2021 年的悟道 1.0、2.0 到 2023 年的 3.0,智源引領并與行業(yè)主流發(fā)展趨勢保持一致。此后,隨著 Scaling Law 放緩等因素影響,拼參數(shù)的預訓練語言大模型和視覺大模型不再是關注的唯一重心,兩種顯著的趨勢開始開頭:一是大模型架構朝著統(tǒng)一建模、底層融合的方向進化;二是 AI 研究加速與科學建模(如物理與生物規(guī)律、神經(jīng)機制等)深度融合并演化成一種新范式。
智源全新「悟界」系列的出現(xiàn),正當其時,反映了其對大模型發(fā)展現(xiàn)狀和未來走向的合理研判與前瞻洞見。
這代表著:大模型開始從文圖視頻主導的數(shù)字世界進入到更加真實的物理世界,并且對物理世界的理解從宏觀跨越到了微觀尺度。
智源研究院院長王仲遠。
原生多模態(tài)
讓世界模型真正實現(xiàn)「一對多」
提到世界模型,它的提出與發(fā)展源自人工智能、認知科學領域?qū)Α咐斫馐澜纭沟幕咀穯枴?/p>
2018 年,David Ha 和 Jürgen Schmidhuber 的里程碑式工作《World Models》發(fā)表,此后世界模型開始成為一個更具類腦啟發(fā)性和統(tǒng)一框架意義的 AI 研究方向,尤其是與強化學習、多模態(tài)建模、機器人控制等領域的深度融合。
如今,世界模型已經(jīng)成為 AI 領域的一個「必爭之地」。從李飛飛世界模型首秀到英偉達、谷歌紛紛押注于此,再到國內(nèi)的自研世界模型,這一 AI 方向的重要性愈加凸顯,并成為實現(xiàn)通用智能、具身智能的關鍵基石。
從對行業(yè)的觀察中發(fā)現(xiàn),現(xiàn)有的世界模型多關注如何創(chuàng)建物理逼真、可交互并具備全局一致性的 3D 世界,落在了圖像視頻領域。「悟界」系列中的世界模型在關注圖像視頻之外,憑借其強大的底層架構將自身能力拓展到了與物理世界息息相關的應用場景。
此次,「悟界」系列中的Emu3 是全球首個原生多模態(tài)世界模型,它以下一個 token 預測作為核心范式,打通了多模態(tài)學習的路徑,擺脫了擴散模型或組合式架構的復雜性。
在執(zhí)行過程中,Emu3 通過引入新型視覺 tokenizer,將圖像與視頻編碼為與文本同構的離散符號序列,構建出了一個無需考慮模態(tài)的統(tǒng)一表征空間,最終讓文本、圖像、視頻任意模態(tài)組合的理解與生成變?yōu)楝F(xiàn)實。此外,Emu3 還支持多模態(tài)輸入與輸出的端到端映射,驗證了自回歸框架在多模態(tài)領域的通用性與先進性,為更自然、更強大的跨模態(tài)交互提供了堅實的技術基礎。
隨著當前以及未來多模態(tài)數(shù)據(jù)在現(xiàn)實世界中日益豐富,Emu3 展示出的統(tǒng)一建模能力有望推動 AI 系統(tǒng)從「理解與生成單一模態(tài)」向「無縫協(xié)同多模態(tài)」的躍遷,進而加速在創(chuàng)意生成、智能搜索等應用場景中的落地。王仲遠院長表示,Emu3 下個版本正在研發(fā)中,屆時將會更加強大。
Emu3 的強大不止于文圖視頻創(chuàng)作領域,此次更是推動了腦科學領域的科研范式變革,帶來全球首個腦科學多模態(tài)通用基礎模型「見微 Brainμ」
該模型基于 Emu3 的底層架構構建,首次實現(xiàn)了對 MRI(功能性磁共振成像)、EEG(腦電圖)、雙光子成像等多種神經(jīng)信號的統(tǒng)一 token 化,并借助預訓練模型的多模態(tài)對齊能力,建立起腦信號與文本、圖像等模態(tài)之間的多向映射。在數(shù)據(jù)層面,該模型的高質(zhì)量神經(jīng)科學數(shù)據(jù)來自多個大型公開數(shù)據(jù)集和多個合作實驗室,累計處理超過 100 萬單位的神經(jīng)信號數(shù)據(jù)。
因此,見微 Brainμ 模型支持跨任務、跨模態(tài)、跨個體的統(tǒng)一建模框架,能夠以單一模型完成包括信號解碼、感覺重建、腦疾病診斷在內(nèi)的多類型神經(jīng)科學下游任務,展出了強大的通用性與擴展性。而在基礎腦科學研究、臨床神經(jīng)應用、腦機接口等多個方向的廣泛適應能力,讓該模型有望成為「神經(jīng)科學領域的 AlphaFold」。
在跨模態(tài)、跨場景之外,見微 Brainμ 還具備了跨物種能力,從而加速腦疾病機制的跨物種驗證,進一步推動認知科學與比較神經(jīng)科學的協(xié)同發(fā)展。
該模型能夠同步處理多類編解碼任務,兼容了包括人類以及小鼠、狨猴、獼猴等多物種神經(jīng)數(shù)據(jù),支持科學數(shù)據(jù)自動注釋、交互式科學結論解讀、大腦感覺信號重建和模擬刺激信號生成等復雜任務。其中,在自動化睡眠分型、感覺信號重建與多種腦疾病診斷等任務中,見微 Brainμ 作為單一模型的性能顯著超越了現(xiàn)有的專用模型,并刷新 SOTA 表現(xiàn)。
此外,作為統(tǒng)一的大模型平臺,見微 Brainμ 為腦機接口提供了強大技術支撐,與腦機接口企業(yè)強腦科技 BrainCO 的合作首次實現(xiàn)在便攜式消費級腦電系統(tǒng)上重建感覺信號,推動腦機接口技術走向?qū)嵱没?/p>
可以說,見微 Brainμ 展示了原生多模態(tài)世界模型在腦科學領域的跨越式賦能潛力,有望成為類腦智能時代理解與模擬大腦活動的關鍵基礎設施,并進一步激發(fā)腦科學、認知科學與 AI 之間的深度融合。
具身領域的「Linux+GPT」式組合
加速大模型實體化落地
近年來,具身智能已經(jīng)演化成了最具戰(zhàn)略意義的 AI 技術突破口之一。現(xiàn)階段,機器學習、強化學習以及多模態(tài)技術與控制系統(tǒng)的深度融合,讓具身大模型百花齊放,尤其以人形機器人、四足機器人為代表的物理實體,不斷引爆 AI 社區(qū)甚至火出圈。
不過,不通用、不好用、不易用構成了具身智能的三大瓶頸,多數(shù)模型依賴特定硬件本體,感知、認知、決策能力不強并在大小腦與本體的適配層面存在較大難度。
面對這些挑戰(zhàn),今年 3 月,智源提出并開源全球首個跨本體具身大小腦協(xié)作框架 RoboOS 1.0 和首個跨本體具身大腦 RoboBrain 1.0,打破「專機專模」限制,構建真正的通用具身智能基礎模型,在實現(xiàn)極強遷移性的同時,極大降低了微調(diào)與適配成本。
今天,「悟界」系列迎來了跨本體具身大小腦協(xié)作框架 RoboOS 2.0 與具身大腦 RoboBrain 2.0,相較于 1.0 雙雙實現(xiàn)了性能的跨越式提升。
其中,RoboOS 2.0 創(chuàng)下了兩項全球第一:全球首個基于具身智能 SaaS 平臺、支持無服務器一站式輕量化機器人本體部署的開源框架以及全球首個兼容 MCP(模型上下文協(xié)議)的跨本體具身大小腦協(xié)作框架,通過將「應用商店」模式引入具身領域,既可以促進協(xié)作共享與生態(tài)繁榮,也將降低「重復造輪子」的成本。
開源的 RoboOS 2.0 框架對開發(fā)者非常友好,他們可以一鍵下載并部署全球開發(fā)者創(chuàng)建的同型號機器人本體的小腦技能,進而完成大小腦間的即插即用、無縫協(xié)同。該框架還實現(xiàn)了小腦技能的免適配注冊機制,將開發(fā)門檻打了下來,典型場景下所需代碼量僅為傳統(tǒng)手動注冊方式的 1/10。
此外,「高效、可靠、智能協(xié)同」成為此次 RoboOS 2.0 的代名詞。得益于端到端推理鏈路的系統(tǒng)級優(yōu)化,該框架的整體性能提升達30%,全鏈路平均響應時延壓縮至3 毫秒以下,端云通信效率提升高達27 倍。同時,新增多本體時空記憶場景圖共享機制,支持動態(tài)環(huán)境下的實時感知與建模;引入多粒度任務監(jiān)控與閉環(huán)反饋模塊,顯著提升任務執(zhí)行的穩(wěn)定性與成功率。
種種技術加持下,RoboOS 2.0 的工程可用性與商業(yè)落地能力也大大增強。
與 RoboOS 2.0 配套的具身大腦 RoboBrain 2.0 成為目前全球性能最強的開源具身智能大模型,在任務規(guī)劃、空間推理等多項關鍵指標上全面超越主流模型,進一步鞏固智源在具身智能生態(tài)中的領先地位。
對于任務規(guī)劃,RoboBrain 2.0 在 1.0 基礎上「脫胎換骨」,由原來依賴 Prompt 的多機任務規(guī)劃機制和初級空間理解能力,進化為基于多本體 - 環(huán)境動態(tài)建模的多機協(xié)同規(guī)劃系統(tǒng)。如此一來,該模型能夠?qū)崟r生成包含本體定位的場景圖并自動完成跨本體的任務規(guī)劃與調(diào)度。效果也非常顯著,任務規(guī)劃準確率相較于 1.0 實現(xiàn)了74%的大幅提升,展現(xiàn)出了多機協(xié)同執(zhí)行的智能性與穩(wěn)定性。
在空間智能方面,RoboBrain 2.0 在原有可操作區(qū)域(Affordance)感知與操作軌跡(Trajectory)生成能力的基礎上,實現(xiàn)了17%的性能提升。同時,RoboBrain 2.0 增加了空間推理能力(Spatial Referring),既包含機器人對相對空間位置(如前后、左右、遠近)及絕對距離的基礎感知與理解能力,也實現(xiàn)了對復雜空間的多步推理能力。
可以預見,機器人在復雜 3D 空間中更能「收放自如」,定位、避障、操作性不可同日而語。
另外,RoboBrain 2.0 像語言模型一樣,新增了深度思考能力以及閉環(huán)反饋能力,前者讓機器人可以對復雜任務進行推理分解以提升整體執(zhí)行準確率與任務完成準確率,后者讓機器人可以根據(jù)當前環(huán)境感知任務狀態(tài),實時調(diào)整任務規(guī)劃與操作策略以應對突發(fā)變化與擾動。
配備 RoboOS 2.0 與 RoboBrain 2.0 的機器人遵照指令制作面包三明治。
為人取放飲料。
隨著 RoboOS 2.0 與 RoboBrain 2.0 組合的到來,一個強大的「Linux+GPT」式平臺正在具身智能領域冉冉升起,為新一代 AI 原生機器人系統(tǒng)提供通用的技術底座與基礎架構。
目前,智源已經(jīng)全面開源了這兩大成果,與社區(qū)共享框架代碼、模型權重、數(shù)據(jù)集和評測基準,并與全球 20 多家具身智能企業(yè)建立戰(zhàn)略合作關系,在該領域繼續(xù)貫徹科技普惠與開放協(xié)同理念。
全原子級建模進化
大模型開始理解微觀生命的「靜動態(tài)」
隨著大模型深化在語言、圖像、視頻等宏觀世界建模層面的能力,AI 也逐漸從對人類可感知世界的理解拓展到對微觀世界的深層建構。
在這一趨勢下,智源在「悟界」系列中推出了全原子微觀生命模型 OpenComplex2, 標志著多模態(tài)大模型在科學領域突破了又一生命尺度。
從功能上來看,OpenComplex2 既可以預測蛋白質(zhì)、DNA、RNA 小分子結構的靜態(tài)結構,也能夠進行動態(tài)構象分布建模。這意味著,該模型在預測「生物分子某一瞬間形態(tài)」的同時,對它們在不同時間尺度下的動態(tài)變化規(guī)律也開始有了理解,更貼近真實生命系統(tǒng)的行為機制。
具體來講,現(xiàn)在該模型能夠描述生物分子系統(tǒng)的連續(xù)演化能量景觀,并在結合擴散生成式建模機制與真實生物實驗數(shù)據(jù)的基礎上,從原子分辨率層面精確捕捉分子間相互作用及平衡構象分布。這一能力進一步拓展了大模型在生命科學中的跨尺度建模能力。
究其原因,OpenComplex2 對生物分子研究范式的突破構建在兩大關鍵創(chuàng)新之上,一是基于 FloydNetwork 的圖擴散框架,二是多尺度原子級精度表示,二者結合可以更加真實地還原生物分子的構象多樣性和動態(tài)特性。
此外,OpenComplex2 還能捕捉原子級、殘基級和基序級的相關性,兼顧建模過程中的局部結構細節(jié)與全局構象演化,為理解分子功能機制提供了更加系統(tǒng)、完整的結構基礎。
OpenComplex2 的效果已經(jīng)得到了驗證,在 2024 年第 16 屆蛋白質(zhì)結構預測關鍵評估競賽 CASP16 中,OpenComplex2 成功預測了蛋白質(zhì) T1200/T1300 的空間構象分布(定性上與實驗數(shù)據(jù)一致),成為 23 支參賽隊伍中唯一取得該突破的團隊。
對于 AI for Science 而言,OpenComplex2 為原子級結構生物學開辟全新的建模路徑,通過在統(tǒng)一框架下精準解析生物分子系統(tǒng)的動態(tài)作用機制,為生命科學研究與應用帶來變革性進展。
隨著該模型的出現(xiàn),從基礎分子機制探索到新藥發(fā)現(xiàn)、靶點驗證等各個下游環(huán)節(jié)都有望實現(xiàn)加速,從而大幅縮短生物醫(yī)藥研發(fā)周期、降低研發(fā)成本并提升成果轉(zhuǎn)化率。
未來,AI for Science 將逐步進入深水區(qū),更早構建跨模態(tài)、跨學科、跨任務、跨物種、跨尺度的科學建模基礎設施,勢必會在競爭中獲得先發(fā)優(yōu)勢。
結語
今年 1 月,智源發(fā)布 2025 十大 AI 技術趨勢,其中就囊括了「悟界」系列大模型中的這些內(nèi)容。從行業(yè)趨勢預測到今天全新系列模型的問世,智源稱得上行動迅速,向整個 AI 社區(qū)宣告了自身范式的戰(zhàn)略性升級。
智源「悟界」系列不再只強調(diào)語言建模,轉(zhuǎn)而回到了 AI 的更本源問題 —— 如何建模這個世界。這一目標的牽引,會為原生多模態(tài)、世界模型、具身智能、AI for Science 等多個賽道注入新的活力。同時,這四大方向的協(xié)同布局,是現(xiàn)階段智源從認知智能走向具身智能與科學智能的關鍵一步。
當然,受益的不單單是智源自身,整個 AI 社區(qū)也會從「悟界」系列中得到一些啟發(fā)。在主流語言建模范式之外,一組面向科學認知、具身行為、神經(jīng)與生命模擬的基礎模型群鋪展開來。以物理世界為探索目標的 AI,為行業(yè)其他玩家提供了一種可借鑒的發(fā)展路徑。
未來,真正的大模型時代不會止步于提示框,而將深入到每一個理解世界、改變世界的系統(tǒng)中。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.