99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

統一框架下的具身多模態推理:自變量機器人讓AI放下海德格爾錘子

0
分享至



機器之心報道

自變量機器人

當 AI 放下海德格爾的錘子時,意味著機器人已經能夠熟練使用工具,工具會“隱退”成為本體的延伸,而不再是需要刻意思考的對象。

當一位熟練的木匠抓起錘子時,錘子消失了 —— 不是物理上的消失,而是無需思考便可自如使用。然而,當前最先進的機器人仍然無法“放下”這把“錘子”,它們被困在循環中 —— 識別錘子、規劃如何使用錘子,每一次交互都需要重新“拿起”工具作為認知對象,這種割裂式的處理方式讓 AI 永遠無法達到人類那種直覺的工具使用境界。

具身智能的突破,不會來自對現有基于視覺 - 語言基礎模型的修補,而將源于一場架構革命。

自變量機器人主張,必須放棄以“多模態模塊融合”為核心的拼湊式范式,轉向一個端到端的統一架構。該架構旨在徹底消解視覺、語言和行動之間的人為邊界,將它們還原為單一信息流進行處理。

當前范式的根本局限

現有主流方法將不同模態視為獨立模塊,如預訓練的 ViT 處理視覺信息,LLM 處理語言理解,然后通過融合層進行連接。這種“委員會”式的設計存在著本質缺陷。

首先是表征瓶頸問題。信息在不同模態的專屬編碼器之間傳遞時,會產生不可避免的壓縮損失,就像將一幅油畫描述給盲人,再讓盲人向聾人傳達畫面內容一樣,每次轉換都會丟失關鍵的細節和關聯。這種損失阻礙了模型對物理世界進行深層次的跨模態理解。

最關鍵的是無法涌現的問題。結構上的割裂使得模型難以學習到物理世界中跨越模態的、直覺式的因果規律。就像一個人無法僅通過閱讀教科書就學會騎自行車一樣,真正的物理智能需要的是整體性的、具身的理解,而不是模塊化的知識拼接。

統一架構:從分治到整合

自變量機器人提出的統一模態架構源于一個核心洞察:真正的具身智能不應該是多個專門模塊的協作,而應該像人類認知一樣,在統一的計算框架內同時處理感知、推理和行動。

架構的核心是統一表示學習。自變量機器人將所有模態信息 —— 視覺、語言、觸覺、動作 —— 轉換為共享的高維 token 序列,消除模態間的人為邊界。

關鍵突破在于采用多任務多模態生成作為監督機制:系統必須學會從任一模態生成其他模態的內容,這迫使模型建立起深層的跨模態對應關系。



具體而言,將所有輸入模態,包括多視角圖像、文本指令與機器人實時狀態,通過各自的編碼器轉化為統一的 token 序列,該序列被送入一個 Transformer 核心。其中,預訓練多模態理解模型負責整合信息以完成空間感知理解與任務推理規劃,而生成專家 (Gen. Expert) 則預測未來的圖像與視頻,以及直接生成可執行的機器人動作。兩者通過一個跨模態注意力 (Cross-Modal Attention) 層深度耦合,使得感知、推理和行為的信息流在每一個計算層都能無損地雙向交互與共同演進,從而實現了端到端的統一學習。

這種架構實現了具身多模態推理的涌現。當面對新任務時,系統能夠像人類一樣進行整體性認知處理 —— 視覺理解、語義推理、物理預測和動作規劃在統一空間內并行發生、相互影響,而非串行處理。

通過這種端到端的統一學習,系統最終能夠像人類一樣思考和工作:不再依賴模塊化的信息傳遞,而是在深層表示空間中直接進行跨模態的因果推理和行動決策。

涌現能力:具身多模態推理

這種統一架構旨在解鎖當前模塊化系統無法實現的全方位具身多模態推理能力。

第一個是符號-空間推理能力

當人類隨意畫出幾何形狀時,機器人首先通過理解復雜幾何圖案,然后在統一的表示空間中進行多層次推理:將抽象的二維圖形解構為具體的字母組合,理解這些字母的空間排列邏輯,并推斷出它們組合成的完整單詞。同時,機器人能夠將這種抽象的符號理解直接轉化為三維空間中的物理操作,用積木塊精確地重現字母的空間排布。

整個過程體現了視覺感知、因果推理和空間操作的深度融合。



視頻演示 1:機器人根據手繪圖形拼出對應單詞

第二個是物理空間推理能力

當向機器人展示積木的操作步驟時,機器人能夠在其統一的潛在空間中直接進行視覺的空間邏輯推理和因果關系推演。這個過程中,機器人理解每個積木的放置如何影響整體結構的穩定性,推斷操作順序背后的工程邏輯,并預測不同操作路徑可能導致的結果。同時,機器人能夠將這種物理推理過程外化為語言思考鏈,清晰地表達其對空間關系、重力約束和構建策略的理解。

最終,機器人能夠基于這種深層的物理理解,獨立完成復雜的三維結構搭建,展現了物理直覺與推理能力的有機結合。



視頻演示 2:觀察積木操作步驟并搭建對應空間形狀

第三個突破是具備推理鏈的自主探索能力

面對復雜的環境,系統能夠整合視覺觀察、空間記憶和常識知識,構建出連貫的推理鏈條。整個過程體現了感知、記憶、推理和行動的無縫整合,以及基于常識知識的靈活決策能力。

這種推理過程是端到端學習的自然涌現。



視頻演示 3:帶有推理過程的物品搜索

以上三個視頻, 機器人需要在操作中實時輸出推理過程,這要求模型在統一架構中實現物理操作、視覺和語言推理的精確同步。

最后一個展示了機器人從視頻中學習能力和協作推理能力

當觀察人類的操作視頻時,機器人從視頻中推斷行為背后的深層意圖和目標狀態。這種能力超越了簡單的動作模仿,體現了視頻學習、對人類意圖的理解、對協作目標的推斷,以及自主的協作決策能力,展現了真正的自主學習和人機協同能力。



視頻演示 4:從視頻中推斷動作意圖并自主執行

結語

這些演示背后體現的是一個根本性的范式轉換

傳統的多模態系統將世界分解為獨立的表征模塊,但物理世界的交互是連續的、實時的、多模態耦合的 —— 當機器人抓取一個易碎物品時,視覺判斷、力度控制和安全預測必須同時發生,任何模塊間的延遲或信息損失都可能導致失敗。自變量機器人的統一架構正是為滿足這種具身交互的要求生的。

這種轉變的意義在于,它讓機器人能夠像海德格爾描述的熟練工匠一樣,將感知、理解和行動無縫融合

機器人不再需要經歷 “視覺識別→語言規劃→動作執行” 的冗長串行處理,而是在統一的表征空間中被直接理解為實現特定意圖的媒介 —— 機器人能夠同時 “看到” 物理屬性、“理解” 其在任務中的作用、“感知” 操作的空間約束,并 “規劃” 相應的動作序列。

正是這種多模態信息的并行融合處理,使得具身多模態推理能力得以自然涌現,讓機器人最終能夠像人類一樣流暢地與物理世界交互

自變量機器人主張,具身智能的未來路徑是從設計“割裂式表征”的系統,轉向構建能夠進行真正具身多模態推理的統一系統。這并非一次增量改進,而是讓 AI 具備跨模態因果推理、空間邏輯推演和實現通用操作的具身智能所必需的架構進化。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
生涯砍下100次三雙有多難?NBA歷史僅6人,詹姆斯122次第五

生涯砍下100次三雙有多難?NBA歷史僅6人,詹姆斯122次第五

大衛的籃球故事
2025-06-17 20:27:34
西北頂級三甲醫院“明星院長”落馬,甘肅醫療反腐倒查13年

西北頂級三甲醫院“明星院長”落馬,甘肅醫療反腐倒查13年

南方都市報
2025-06-18 19:54:01
當汪峰牽起寧靜的手,終于明白了章子怡和森林北為何為他淪陷

當汪峰牽起寧靜的手,終于明白了章子怡和森林北為何為他淪陷

大笑江湖史
2025-06-18 15:34:49
重慶“好色院長”:約會女護士,情婦20多個,隨身攜帶安全套

重慶“好色院長”:約會女護士,情婦20多個,隨身攜帶安全套

就一點
2025-06-18 16:36:02
又一金融巨頭暴雷!比恒大還多1.14萬億,15萬富豪的財富被收割

又一金融巨頭暴雷!比恒大還多1.14萬億,15萬富豪的財富被收割

星光看娛樂
2025-06-18 15:45:03
文強死刑前交代兒子3句話,死后家人沒辦葬禮,骨灰遲遲不敢下葬

文強死刑前交代兒子3句話,死后家人沒辦葬禮,骨灰遲遲不敢下葬

紅色先驅
2025-06-17 21:15:03
大捷!伊朗宣布重大戰果,以色列“王牌”被廢?中俄都得去取經

大捷!伊朗宣布重大戰果,以色列“王牌”被廢?中俄都得去取經

睡什么起來嗨
2025-06-17 17:21:57
文胖:火箭不要提高報價,猛龍能得到倫納德只因他們是堅持到最后的球隊

文胖:火箭不要提高報價,猛龍能得到倫納德只因他們是堅持到最后的球隊

雷速體育
2025-06-18 20:05:30
女子因曬“老公撿物業扔的花盆”引圍觀,網友:好牛,高低值3000

女子因曬“老公撿物業扔的花盆”引圍觀,網友:好牛,高低值3000

林子說事
2025-06-17 09:15:23
金正恩手一揮,再給俄6000兵,接下來普京的操作,整個歐洲要看懵

金正恩手一揮,再給俄6000兵,接下來普京的操作,整個歐洲要看懵

梁訊
2025-06-18 09:19:18
愛奇藝首播!16集刑偵懸疑劇來襲,演員陣容雄厚,這次想不爆都難

愛奇藝首播!16集刑偵懸疑劇來襲,演員陣容雄厚,這次想不爆都難

影視快通車
2025-06-17 16:33:26
烏東四州徹底沒了

烏東四州徹底沒了

那山星火
2025-06-17 10:03:40
遼寧即將大雨!局部暴雨!最大風力可達11級!時間在……

遼寧即將大雨!局部暴雨!最大風力可達11級!時間在……

沈陽生活圈i
2025-06-18 13:19:38
當當網李國慶將再婚!女方戴著眼鏡氣質超好,兩人私下合影曝光

當當網李國慶將再婚!女方戴著眼鏡氣質超好,兩人私下合影曝光

星光看娛樂
2025-06-18 15:09:05
北京最下飯的駐京辦,都在這里了

北京最下飯的駐京辦,都在這里了

北京吃貨小分隊
2025-06-18 12:26:27
孫穎莎街頭騎共享單車被偶遇,網友盛贊:世界冠軍太接地氣!

孫穎莎街頭騎共享單車被偶遇,網友盛贊:世界冠軍太接地氣!

最愛乒乓球
2025-06-17 00:05:14
陳豪夫婦廣州提車,兩人都很開心笑容滿面,陳茵媺穿白西裝洋氣美

陳豪夫婦廣州提車,兩人都很開心笑容滿面,陳茵媺穿白西裝洋氣美

心靜物娛
2025-06-18 14:13:55
福建一姑娘把“荔枝核”泡水里,兩周長成“粉盆栽”,太治愈了

福建一姑娘把“荔枝核”泡水里,兩周長成“粉盆栽”,太治愈了

美家指南
2025-06-09 11:08:50
“臺獨”沒料到,75歲馬英九突然出山,曝光美臺秘密,信號不簡單

“臺獨”沒料到,75歲馬英九突然出山,曝光美臺秘密,信號不簡單

熒惑手心
2025-06-18 09:23:43
97個雨量站暴雨!重慶今年首場大范圍降雨來了

97個雨量站暴雨!重慶今年首場大范圍降雨來了

上游新聞
2025-06-18 17:49:02
2025-06-18 21:48:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10671文章數 142339關注度
往期回顧 全部

科技要聞

別叫我互聯網公司,京東的野心藏不住了

頭條要聞

廣東懷集出現55.22米洪峰水位 洪水已漫入周邊居民樓

頭條要聞

廣東懷集出現55.22米洪峰水位 洪水已漫入周邊居民樓

體育要聞

高僧下山了!文班結束少林寺10日修行

娛樂要聞

前老板舉報李雪琴欠190萬轉移公司財產

財經要聞

被爆添加毒原料后相宜本草高管先后出走

汽車要聞

燈光技術升級還有插混版本 全新奧迪Q3預計明年國產

態度原創

旅游
游戲
房產
家居
教育

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

《法環》電影導演正在打七周目:女武神最難 碎星簡單

房產要聞

創紀錄了!海南單日賣地44億!保利、方大瘋狂出手!

家居要聞

溫暖明亮 三代同堂之家

教育要聞

江西一中學宿舍堪比豬圈,家長發文投訴,教體局表示深感自責

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 霍山县| 洛隆县| 桐梓县| 手游| 新野县| 乐东| 黄陵县| 平定县| 城口县| 东安县| 冕宁县| 沙坪坝区| 来凤县| 奉节县| 舟山市| 怀远县| 康平县| 张家川| 江阴市| 新竹市| 泽普县| 延安市| 光泽县| 德安县| 开封市| 遂昌县| 边坝县| 延吉市| 岢岚县| 邻水| 科技| 全州县| 瑞金市| 从江县| 鄂尔多斯市| 新田县| 通州市| 商洛市| 乳山市| 寻甸| 旺苍县|