99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

自變量機(jī)器人:統(tǒng)一框架下的具身多模態(tài)推理

0
分享至

本文來自微信公眾號:具身研習(xí)社,作者:具身研習(xí)社,原文標(biāo)題:《自變量機(jī)器人|統(tǒng)一框架下的具身多模態(tài)推理:讓AI放下海德格爾的錘子》

當(dāng)一位熟練的木匠抓起錘子時(shí),錘子消失了——不是物理上的消失,而是無需思考便可自如使用。然而,當(dāng)前最先進(jìn)的機(jī)器人仍然無法"放下"這把“錘子”,它們被困在循環(huán)中——識別錘子、規(guī)劃如何使用錘子,每一次交互都需要重新"拿起"工具作為認(rèn)知對象,這種割裂式的處理方式讓AI永遠(yuǎn)無法達(dá)到人類那種直覺的工具使用境界。

具身智能的突破,不會(huì)來自對現(xiàn)有基于視覺-語言基礎(chǔ)模型的修補(bǔ),而將源于一場架構(gòu)革命。

自變量機(jī)器人主張,必須放棄以"多模態(tài)模塊融合"為核心的拼湊式范式,轉(zhuǎn)向一個(gè)端到端的統(tǒng)一架構(gòu)。該架構(gòu)旨在徹底消解視覺、語言和行動(dòng)之間的人為邊界,將它們還原為單一信息流進(jìn)行處理。

當(dāng)前范式的根本局限

現(xiàn)有主流方法將不同模態(tài)視為獨(dú)立模塊,如預(yù)訓(xùn)練的ViT處理視覺信息,LLM處理語言理解,然后通過融合層進(jìn)行連接。這種"委員會(huì)"式的設(shè)計(jì)存在著本質(zhì)缺陷。

首先是表征瓶頸問題。信息在不同模態(tài)的專屬編碼器之間傳遞時(shí),會(huì)產(chǎn)生不可避免的壓縮損失,就像將一幅油畫描述給盲人,再讓盲人向聾人傳達(dá)畫面內(nèi)容一樣,每次轉(zhuǎn)換都會(huì)丟失關(guān)鍵的細(xì)節(jié)和關(guān)聯(lián)。這種損失阻礙了模型對物理世界進(jìn)行深層次的跨模態(tài)理解。

最關(guān)鍵的是無法涌現(xiàn)的問題。結(jié)構(gòu)上的割裂使得模型難以學(xué)習(xí)到物理世界中跨越模態(tài)的、直覺式的因果規(guī)律。就像一個(gè)人無法僅通過閱讀教科書就學(xué)會(huì)騎自行車一樣,真正的物理智能需要的是整體性的、具身的理解,而不是模塊化的知識拼接。

統(tǒng)一架構(gòu):從分治到整合

自變量機(jī)器人提出的統(tǒng)一模態(tài)架構(gòu)源于一個(gè)核心洞察:真正的具身智能不應(yīng)該是多個(gè)專門模塊的協(xié)作,而應(yīng)該像人類認(rèn)知一樣,在統(tǒng)一的計(jì)算框架內(nèi)同時(shí)處理感知、推理和行動(dòng)。

架構(gòu)的核心是統(tǒng)一表示學(xué)習(xí)。自變量機(jī)器人將所有模態(tài)信息——視覺、語言、觸覺、動(dòng)作——轉(zhuǎn)換為共享的高維token序列,消除模態(tài)間的人為邊界。

關(guān)鍵突破在于采用多任務(wù)多模態(tài)生成作為監(jiān)督機(jī)制:系統(tǒng)必須學(xué)會(huì)從任一模態(tài)生成其他模態(tài)的內(nèi)容,這迫使模型建立起深層的跨模態(tài)對應(yīng)關(guān)系。


您目前設(shè)備暫不支持播放 [視頻演示1:機(jī)器人根據(jù)手繪圖形拼出對應(yīng)單詞]
您目前設(shè)備暫不支持播放 [視頻演示2:觀察積木操作步驟并搭建對應(yīng)空間形狀]
您目前設(shè)備暫不支持播放 [視頻演示3:帶有推理過程的物品搜索]
您目前設(shè)備暫不支持播放 [視頻演示4:從視頻中推斷動(dòng)作意圖并自主執(zhí)行]

具體而言,自變量機(jī)器人將所有輸入模態(tài),包括多視角圖像、文本指令與機(jī)器人實(shí)時(shí)狀態(tài),通過各自的編碼器轉(zhuǎn)化為統(tǒng)一的token序列,該序列被送入一個(gè)Transformer核心。其中,預(yù)訓(xùn)練多模態(tài)理解模型負(fù)責(zé)整合信息以完成空間感知理解與任務(wù)推理規(guī)劃,而生成專家 (Gen. Expert) 則預(yù)測未來的圖像與視頻,以及直接生成可執(zhí)行的機(jī)器人動(dòng)作。兩者通過一個(gè)跨模態(tài)注意力 (Cross-Modal Attention)層深度耦合,使得感知、推理和行為的信息流在每一個(gè)計(jì)算層都能無損地雙向交互與共同演進(jìn),從而實(shí)現(xiàn)了端到端的統(tǒng)一學(xué)習(xí)。

這種架構(gòu)實(shí)現(xiàn)了具身多模態(tài)推理的涌現(xiàn)。當(dāng)面對新任務(wù)時(shí),系統(tǒng)能夠像人類一樣進(jìn)行整體性認(rèn)知處理——視覺理解、語義推理、物理預(yù)測和動(dòng)作規(guī)劃在統(tǒng)一空間內(nèi)并行發(fā)生、相互影響,而非串行處理。

通過這種端到端的統(tǒng)一學(xué)習(xí),系統(tǒng)最終能夠像人類一樣思考和工作:不再依賴模塊化的信息傳遞,而是在深層表示空間中直接進(jìn)行跨模態(tài)的因果推理和行動(dòng)決策。

涌現(xiàn)能力:具身多模態(tài)推理

這種統(tǒng)一架構(gòu)旨在解鎖當(dāng)前模塊化系統(tǒng)無法實(shí)現(xiàn)的全方位具身多模態(tài)推理能力。

第一個(gè)是符號-空間推理能力。

當(dāng)人類隨意畫出幾何形狀時(shí),機(jī)器人首先通過理解復(fù)雜幾何圖案,然后在統(tǒng)一的表示空間中進(jìn)行多層次推理:將抽象的二維圖形解構(gòu)為具體的字母組合,理解這些字母的空間排列邏輯,并推斷出它們組合成的完整單詞。同時(shí),機(jī)器人能夠?qū)⑦@種抽象的符號理解直接轉(zhuǎn)化為三維空間中的物理操作,用積木塊精確地重現(xiàn)字母的空間排布。

整個(gè)過程體現(xiàn)了視覺感知、因果推理和空間操作的深度融合。

第二個(gè)是物理空間推理能力。

當(dāng)向機(jī)器人展示積木的操作步驟時(shí),機(jī)器人能夠在其統(tǒng)一的潛在空間中直接進(jìn)行視覺的空間邏輯推理和因果關(guān)系推演。這個(gè)過程中,機(jī)器人理解每個(gè)積木的放置如何影響整體結(jié)構(gòu)的穩(wěn)定性,推斷操作順序背后的工程邏輯,并預(yù)測不同操作路徑可能導(dǎo)致的結(jié)果。同時(shí),機(jī)器人能夠?qū)⑦@種物理推理過程外化為語言思考鏈,清晰地表達(dá)其對空間關(guān)系、重力約束和構(gòu)建策略的理解。

最終,機(jī)器人能夠基于這種深層的物理理解,獨(dú)立完成復(fù)雜的三維結(jié)構(gòu)搭建,展現(xiàn)了物理直覺與推理能力的有機(jī)結(jié)合。

第三個(gè)突破是具備推理鏈的自主探索能力。

面對復(fù)雜的環(huán)境,系統(tǒng)能夠整合視覺觀察、空間記憶和常識知識,構(gòu)建出連貫的推理鏈條。整個(gè)過程體現(xiàn)了感知、記憶、推理和行動(dòng)的無縫整合,以及基于常識知識的靈活決策能力。

這種推理過程是端到端學(xué)習(xí)的自然涌現(xiàn)。

注:以上三個(gè)視頻, 機(jī)器人需要在操作中實(shí)時(shí)輸出推理過程,這要求模型在統(tǒng)一架構(gòu)中實(shí)現(xiàn)物理操作、視覺和語言推理的精確同步。

最后一個(gè)展示了機(jī)器人從視頻中學(xué)習(xí)能力和協(xié)作推理能力。

當(dāng)觀察人類的操作視頻時(shí),機(jī)器人從視頻中推斷行為背后的深層意圖和目標(biāo)狀態(tài)。這種能力超越了簡單的動(dòng)作模仿,體現(xiàn)了視頻學(xué)習(xí)、對人類意圖的理解、對協(xié)作目標(biāo)的推斷,以及自主的協(xié)作決策能力,展現(xiàn)了真正的自主學(xué)習(xí)和人機(jī)協(xié)同能力。

結(jié)語

這些演示背后體現(xiàn)的是一個(gè)根本性的范式轉(zhuǎn)換。

傳統(tǒng)的多模態(tài)系統(tǒng)將世界分解為獨(dú)立的表征模塊,但物理世界的交互是連續(xù)的、實(shí)時(shí)的、多模態(tài)耦合的——當(dāng)機(jī)器人抓取一個(gè)易碎物品時(shí),視覺判斷、力度控制和安全預(yù)測必須同時(shí)發(fā)生,任何模塊間的延遲或信息損失都可能導(dǎo)致失敗。我們的統(tǒng)一架構(gòu)正是為滿足這種具身交互的要求而生的。

這種轉(zhuǎn)變的意義在于,它讓機(jī)器人能夠像海德格爾描述的熟練工匠一樣,將感知、理解和行動(dòng)無縫融合。

機(jī)器人不再需要經(jīng)歷“視覺識別→語言規(guī)劃→動(dòng)作執(zhí)行”的冗長串行處理,而是在統(tǒng)一的表征空間中被直接理解為實(shí)現(xiàn)特定意圖的媒介——機(jī)器人能夠同時(shí)“看到”物理屬性、“理解”其在任務(wù)中的作用、“感知”操作的空間約束,并“規(guī)劃”相應(yīng)的動(dòng)作序列。

正是這種多模態(tài)信息的并行融合處理,使得具身多模態(tài)推理能力得以自然涌現(xiàn),讓機(jī)器人最終能夠像人類一樣流暢地與物理世界交互。

自變量機(jī)器人主張,具身智能的未來路徑是從設(shè)計(jì)"割裂式表征"的系統(tǒng),轉(zhuǎn)向構(gòu)建能夠進(jìn)行真正具身多模態(tài)推理的統(tǒng)一系統(tǒng)。這并非一次增量改進(jìn),而是讓AI具備跨模態(tài)因果推理、空間邏輯推演和實(shí)現(xiàn)通用操作的具身智能所必需的架構(gòu)進(jìn)化。

本文來自微信公眾號:具身研習(xí)社,作者:具身研習(xí)社

本內(nèi)容為作者獨(dú)立觀點(diǎn),不代表虎嗅立場。未經(jīng)允許不得轉(zhuǎn)載,授權(quán)事宜請聯(lián)系 hezuo@huxiu.com

本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4487110.html?f=wyxwapp

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
俄專家:中國幫助俄羅斯突破西方的“鐵幕”

俄專家:中國幫助俄羅斯突破西方的“鐵幕”

俄羅斯衛(wèi)星通訊社
2025-06-24 15:13:30
葛斯齊:我最近要爆個(gè)很大的瓜!這瓜足以讓一個(gè)人直接離開演藝圈

葛斯齊:我最近要爆個(gè)很大的瓜!這瓜足以讓一個(gè)人直接離開演藝圈

小娛樂悠悠
2025-06-24 08:53:23
“夠舉報(bào)了”,無知母親曬兒子保送通知書,網(wǎng)友一眼發(fā)現(xiàn)不對勁

“夠舉報(bào)了”,無知母親曬兒子保送通知書,網(wǎng)友一眼發(fā)現(xiàn)不對勁

知曉科普
2025-06-23 11:23:17
嘖嘖嘖,現(xiàn)在的電風(fēng)扇把空調(diào)都卷死了!

嘖嘖嘖,現(xiàn)在的電風(fēng)扇把空調(diào)都卷死了!

貴圈真亂
2025-06-24 13:25:11
“志愿卡白買了”,家長試用教育部免費(fèi)志愿系統(tǒng),難怪張雪峰要涼了

“志愿卡白買了”,家長試用教育部免費(fèi)志愿系統(tǒng),難怪張雪峰要涼了

妍妍教育日記
2025-06-22 08:20:03
比美國還囂張的國家來了,“驅(qū)逐”境內(nèi)所有中國外交官,不準(zhǔn)統(tǒng)一

比美國還囂張的國家來了,“驅(qū)逐”境內(nèi)所有中國外交官,不準(zhǔn)統(tǒng)一

大白話瞰世界
2025-06-24 14:10:14
李家超:破壞性“軟對抗”在香港依然存在,提醒市民擦亮雙眼

李家超:破壞性“軟對抗”在香港依然存在,提醒市民擦亮雙眼

環(huán)球網(wǎng)資訊
2025-06-24 12:31:32
新買的項(xiàng)鏈好看嗎?

新買的項(xiàng)鏈好看嗎?

貴圈真亂
2025-06-24 08:29:53
以伊“12天戰(zhàn)爭”,結(jié)束了?

以伊“12天戰(zhàn)爭”,結(jié)束了?

中國新聞周刊
2025-06-24 12:13:57
A股收評:種種跡象說明,走勢有點(diǎn)不太正常,明天主力還有大動(dòng)作

A股收評:種種跡象說明,走勢有點(diǎn)不太正常,明天主力還有大動(dòng)作

悠然安晴
2025-06-24 12:28:00
林更新 曬自拍照,網(wǎng)友問“你誰啊你”,他回復(fù):“俺是焦恩俊”

林更新 曬自拍照,網(wǎng)友問“你誰啊你”,他回復(fù):“俺是焦恩俊”

情感大頭說說
2025-06-24 10:16:14
涉嫌嚴(yán)重違紀(jì)違法!黑龍江省無線電監(jiān)測站副站長王德鑫被查

涉嫌嚴(yán)重違紀(jì)違法!黑龍江省無線電監(jiān)測站副站長王德鑫被查

魯中晨報(bào)
2025-06-24 16:23:05
6月24日,2025年養(yǎng)老金調(diào)整通知為何遲遲不發(fā)?哪些人調(diào)的更多?

6月24日,2025年養(yǎng)老金調(diào)整通知為何遲遲不發(fā)?哪些人調(diào)的更多?

興史興談
2025-06-24 11:01:32
為什么,上海人對這些救命恩人般的外地人沒有感恩之心呢?

為什么,上海人對這些救命恩人般的外地人沒有感恩之心呢?

上海云河
2025-06-24 12:03:44
“復(fù)讀吧,讀不起!”633分被雙一流調(diào)劑,學(xué)費(fèi)漲了22倍家長犯難

“復(fù)讀吧,讀不起!”633分被雙一流調(diào)劑,學(xué)費(fèi)漲了22倍家長犯難

妍妍教育日記
2025-06-23 18:46:16
“30種姿勢高清無碼!”兄弟聊天分享的福利圖,居然把我看冒火了!

“30種姿勢高清無碼!”兄弟聊天分享的福利圖,居然把我看冒火了!

王根基
2025-05-08 20:54:13
蘋果上架大量新品,僅售 148 元

蘋果上架大量新品,僅售 148 元

果粉俱樂部
2025-06-24 11:37:53
一覺醒來,河南教培行業(yè)天塌了!暑期全省嚴(yán)禁任何形式學(xué)科類培訓(xùn)

一覺醒來,河南教培行業(yè)天塌了!暑期全省嚴(yán)禁任何形式學(xué)科類培訓(xùn)

小人物看盡人間百態(tài)
2025-06-24 09:11:36
4句彩虹屁,夸出孩子內(nèi)驅(qū)力,家長別不信(關(guān)于自律、毅力和…)

4句彩虹屁,夸出孩子內(nèi)驅(qū)力,家長別不信(關(guān)于自律、毅力和…)

諾媽家有男寶娃
2025-06-03 12:15:36
八路軍撤退時(shí),發(fā)現(xiàn)士兵路邊撒尿,楊成武立刻反應(yīng)過來:前方有埋伏

八路軍撤退時(shí),發(fā)現(xiàn)士兵路邊撒尿,楊成武立刻反應(yīng)過來:前方有埋伏

黃家湖的憂傷
2025-06-20 17:38:02
2025-06-24 17:32:49
虎嗅APP incentive-icons
虎嗅APP
個(gè)性化商業(yè)資訊與觀點(diǎn)交流平臺
24351文章數(shù) 686353關(guān)注度
往期回顧 全部

科技要聞

特斯拉股價(jià)飆漲8%,但Robotaxi小違章不斷

頭條要聞

以色列稱停火后伊朗再射導(dǎo)彈 恢復(fù)猛烈空襲德黑蘭

頭條要聞

以色列稱停火后伊朗再射導(dǎo)彈 恢復(fù)猛烈空襲德黑蘭

體育要聞

如果你喜歡籃球,你沒理由不喜歡步行者

娛樂要聞

范瑋琪淘汰!全網(wǎng)熱議她的演唱失誤

財(cái)經(jīng)要聞

以伊"12日戰(zhàn)爭"戛然而止:新博弈開啟

汽車要聞

7.98萬起 firefly螢火蟲推出電池租用購車方案

態(tài)度原創(chuàng)

教育
藝術(shù)
親子
家居
健康

教育要聞

河北2025高考分?jǐn)?shù)線公布

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

親子要聞

“0歲可用”?防曬霜向嬰幼兒下手突破底線 | 新京報(bào)快評

家居要聞

龍湖滟瀾 現(xiàn)代歐式混搭

呼吸科專家破解呼吸道九大謠言!

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 兴安县| 大荔县| 德保县| 稷山县| 漳平市| 双牌县| 泾阳县| 始兴县| 抚顺县| 大新县| 云和县| 临邑县| 八宿县| 大连市| 分宜县| 苍山县| 荆门市| 秭归县| 武隆县| 田阳县| 麻城市| 沭阳县| 萝北县| 额尔古纳市| 德州市| 乌拉特中旗| 铁岭县| 左权县| 临猗县| 华池县| 汉沽区| 南投县| 马龙县| 广汉市| 嘉禾县| 安平县| 和政县| 界首市| 曲阳县| 琼结县| 兰考县|