悟道 1.0 發布時,學術界對“大模型是通往 AGI 的技術路線”尚未得出統一結論。
現在的具身智能,也處于這個階段。
作者 | 王啟隆
出品丨AI 科技大本營(ID:rgznai100)
大模型的熱潮之下,一種微妙的瓶頸感,正成為行業共識。
“過往所說的 ‘百模大戰’,更多是大語言模型的競爭,” 智源大會前夕,智源研究院院長王仲遠在與 CSDN 的對話中,開門見山地指出了問題的核心,“而大語言模型受限于互聯網數據的使用,性能雖然還在提升,但速度已大不如前?!?/p>
出路何在?在王仲遠看來,AI 要突破天花板,就必須在“讀萬卷書”(互聯網數據)后,去“行萬里路”(物理世界)。
這并非孤立的判斷。今年三月,:打造“AI 工廠”,迎接“物理 AI”時代,讓 AI 走出屏幕,與現實世界交互。
思考趨于一致,行動便接踵而至。6 月 6 日,CSDN 在北京智源大會現場,見證了王仲遠在他的主題演講中給出的答案。如果說 2021 年的“悟道”系列代表著對技術路徑的探索(“道”),那么他所揭曉的全新“悟界”系列,則亮明了新的野心——用 AI 突破虛擬與現實的邊界(“界”)。
通往這個新世界的橋梁,是多模態。
“我們去年就預判,大模型會從語言模型走向多模態,尤其是「原生多模態世界模型」,它最終的目的,就是為了讓 AI 感知和理解物理世界,進而與這個世界交互,最終推動具身智能的發展?!?王仲遠在對話中,向我們揭示了這條技術路線的本質。
“悟界”并非單一模型,而是一套旨在全面解構、交互物理世界的組合拳:
原生多模態世界模型Emu3,這是一個試圖用統一架構理解文本、圖像、視頻的“通用感官”;
跨本體具身大小腦協作框架RoboOS 2.0與具身大腦RoboBrain 2.0,是智源打造“機器人安卓生態”的野心所在;
腦科學模型見微Brainμ,則堪稱最具科幻色彩的一筆,它將 AI 的觸角伸向了我們的大腦,試圖解碼腦電波這一全新的模態;
全原子生命模型OpenComplex2,則像一臺深入微觀世界的顯微鏡,在原子層面模擬生命的動態,探索其本質。
從原子到大腦,再到機器人,“悟界”系列是智源對物理世界下的一場全棧式豪賭。但這場豪賭背后,并非只有產品的發布,更有深度的哲學思考。在與王仲遠的對話中,我們得以一窺其藍圖的全貌。
具身智能的“循環悖論”,和一個小女孩的啟示
邁向物理世界,具身智能是繞不開的核心。然而,王仲遠坦言,這個領域正深陷一個棘手的“循環悖論”:硬件不成熟,導致高質量的真實數據稀缺;數據稀缺,使得模型能力羸弱;模型能力弱,又導致商業化落地困難,從而無法反哺硬件的迭代和量產。
這幾乎是一個死循環。如何打破它?
我再次想到了英偉達。今年除了黃仁勛的演講,GTC 還開設了一場,盛請四家歐美機器人龍頭企業老板對此展開激辯,有的認為需要十年,有的認為專用機器人會先行一步,還有人直指未來的星辰大海,聊起了星際旅行。
但王仲遠分享了一個更極具啟發性的觀察,他認為解法或許藏在我們的日常生活中。
“今年春節,我觀察到一個小女孩,沒有任何大人教她,她只是刷了很多短視頻,就學會了自己拆糖果、撕開包裝紙,甚至能把五顆藍莓精準地串在一根牙簽上。”
這個場景極具啟發性:小女孩通過觀看海量的視頻(互聯網數據),在大腦中形成了對任務的理解和規劃,然后再通過自己的小手去實踐(強化學習),失敗幾次,最終成功。這與大模型的發展路徑不謀而合——通過海量數據預訓練獲得基礎能力,再通過強化學習激發更高階的智能。
智源選擇的正是這樣一條路徑:讓機器人看“短視頻”學習技能。利用互聯網上取之不竭的人類活動視頻,讓模型學習如何與世界交互,再用有限但寶貴的真實機器人數據進行微調和強化。這或許是破解數據困境,以巧破千斤的關鍵一招。
當我們在對話中問及“世界模型”的內涵時,王仲遠用一個生動的例子再次強調了空間與時間的感知能力。“現在很多模型看到桌邊的咖啡杯,只會描述 ‘一個白色的杯子’。但人類會立刻意識到 ‘它在邊緣,很危險’,伸手去拿的時候會小心翼翼,因為我們能預測它跌落的后果。這種時空智能,正是 ‘悟界’ 所追求的。”
做具身智能的“安卓”,而非專用的“iOS”
在向物理世界進軍的道路上,智源亮出了自己的核心戰略。
王仲遠打了一個非常精妙的比方 :“你可以把它理解成具身智能領域的安卓(Android)系統,就好比 iOS 只能在 iPhone 上運行,但安卓系統能在不同品牌的手機上運行。”
許多機器人硬件廠商,尤其是創業公司,并不具備獨立研發大模型的雄厚資本和人才儲備。前文提到的 GTC 大會圓桌上,這同樣是英偉達目前最頭疼的問題——如何提供一個普惠的、 即插即用的“大腦”?
這不僅僅是一個商業策略,背后是更深層次的哲學思考。王仲遠在對話中進一步向我們解釋了“跨本體”的必要性?!皩τ谝患疑虡I公司而言,可能沒有跨本體的訴求,它的優勢在于用真實的場景和需求持續迭代自己的模型和本體。但是跨本體有沒有用?顯然是有的。人類的大腦和知識,本身就是跨本體的?!?/p>
他認為,人類可以通過語言、文字這些知識載體,將經驗傳遞給不同的人,這就是一種“跨本體”。AI 也應該如此。這種理念,也解釋了為什么是智源來做這件事。王仲遠重申了智源的定位:“做高校做不了,企業不愿意做的事”。商業公司需要聚焦于軟硬件結合的垂直整合,而智源作為科研機構,則可以承擔構建通用平臺、探索共通原理的使命。
這種開放的“安卓”模式,承載著智源的判斷:具身智能的“大腦”,不應被任何單一的硬件“身體”所束縛。它應該能適配機械臂、輪式機器人、人形機器人等萬千形態,將智能沉淀在一個通用的基座上。
“大小腦”之辯:融合尚早,協同先行
在具身智能的圈子里,“大小腦融合”是一個熱門甚至有些過熱的概念。許多人暢想一個統一的端到端大模型,能同時負責思考規劃(大腦)和運動控制(小腦)。但當我們問及王仲遠的看法時,他給出了一個非常務實和冷靜的回答。
“未來 5-10 年,大小腦融合的模型可能會成熟,但不是今天,”他對此有一個清醒的判斷,“原因很簡單,數據受限。當前具身智能的數據量,遠不足以支持一個強大的、融合的大小腦模型訓練。”
他認為,理想化的簡潔架構是所有人追求的目標,但不能脫離現實。在當前階段,強行融合反而會顧此失彼。因此,在采訪中他清晰地界定了智源當下的策略:讓“大腦”和“小腦”先協同工作。
“智源研發的具身大腦 RoboBrain,主要負責和人類交互、感知環境、規劃和拆解任務。然后,它再把拆解后的具體執行指令,交給機器人本體上訓練的‘小腦’去完成?!?/p>
這種端云協同的務實路線,一方面最大化了云端“大腦”的強大思考能力,另一方面也承認了本體端“小腦”在快速響應和精準控制上的重要性。這體現了一種工程智慧:在通往終極目標的路上,先用有效的協同方案解決當下問題,而不是空等一個尚不存在的“完美模型”。
那么,具身智能的這場競賽,究竟進行到了哪一步?
王仲遠將當前階段類比為大模型爆發前的技術探索期。“悟道 1.0 發布時,學術界對 ‘大模型是通往 AGI 的技術路線’ 尚未得出統一結論。現在的具身智能,也處于這個階段。”
技術路線尚未收斂,產業格局也遠未明朗。面對車企、大廠紛紛入局的激烈競爭,王仲遠拋出了一個生動的比喻:“具身智能的 ‘小組賽’ 還沒結束,遠沒有到 ‘淘汰賽’?,F在談誰會主導,為時過早?!?/p>
他認為,每一方都帶來了不同的視角和理念,思想的碰撞恰恰是產業發展最需要的。
對于未來,王仲遠在采訪的最后給出了他的預測。他認為,未來 3 年,具身智能最可能率先在工廠這樣的封閉場景實現規模化應用?!肮S環境有很多相對固定且枯燥的任務,不適合人類進行,而且能規避當前技術不成熟可能帶來的安全隱患。”他補充道,“很多人覺得機械臂已經很成熟了,但我們調研發現,還有大量比如物流分揀、激光打標等工作依然靠人,這些重復、枯燥甚至有危險的勞動,最適合具身智能第一波切入。”
從一個春節期間觀察到的小女孩,到“安卓”與“iOS”的產業思考;從對“大小腦”融合的冷靜判斷,到“小組賽”的格局比喻,王仲遠為我們描繪的,是一個充滿挑戰但也更加廣闊的物理世界。
這條路無疑是漫長的。
但當 AI 不再滿足于數字世界的符號游戲,而是開始真正地感知、理解并嘗試改變我們身處的物理世界時,一個更廣闊、也更激動人心的智能時代,才剛剛拉開序幕。
2025 全球產品經理大會
2025 年 8 月 15–16 日
北京·威斯汀酒店
2025 全球產品經理大會將匯聚互聯網大廠、AI 創業公司、ToB/ToC 實戰一線的產品人,圍繞產品設計、用戶體驗、增長運營、智能落地等核心議題,展開 12 大專題分享,洞察趨勢、拆解路徑、對話未來。
更多詳情與報名,請掃碼下方二維碼。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.