99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

機器人的GPT時刻?豐田研究院悄悄做了一場最嚴謹的VLA驗證實驗

0
分享至



機器之心報道

編輯:冷貓

提到機械臂,第一反應的關鍵詞是「抓取」,高級些的機械臂也就做做冰淇淋和咖啡之類的小任務。

但若要機械臂自主完成繁重且復雜的任務,如布置餐桌、組裝自行車,難度便呈指數級上升。這類任務對感知、理解與動作控制的協同提出了極高要求。

近年來,隨著視覺 - 語言 - 動作(VLA)模型的迅速發展,機器人已逐步具備整合多模態信息(如圖像、指令、場景語義)并執行復雜任務的能力,朝著更智能、更通用的方向邁進。

但是目前 VLA 的研究尚未達到里程碑式的成果,具身智能的「GPT」似乎離我們還很遙遠。

直到我看到了這兩段視頻:



機械臂在現實世界中已經能夠實現雙臂寫作,完成如此復雜的組合任務,并且還能夠在操作過程中糾錯。這相比過去的 VLA 研究成果有了非常明顯的提高。

深入探索了一下這份研究,作者在 VLA 的思路基礎上更進一步,在擴散模型策略的基礎上,完全構建了一個針對機器人的大型行為模型(Large Behavior Model,LBM),經過訓練和微調,便能夠實現機械臂自主執行復雜操作中如此令人驚艷的結果。



來自谷歌的研究者 Ted Xiao 說:

「如果你從事機器人技術和人工智能領域,最近在斯坦福大學關于擴展多任務機器人操作的視頻是必看的,毫無疑問。沒有營銷,沒有炒作。只有基于堅實假設的科學,有證據支持的斷言。 在當今的背景下,這是一個寶藏!」



前英偉達學者 Jiafei Duan 表示:

「我是 TRI 這項工作的忠實粉絲,嚴格的評估是機器人領域真正進步的催化劑。」

這份工作來自豐田研究院(TRI)的大型行為模型團隊。作者之一是麻省理工學院教授,豐田研究院機器人研究副總裁 Russ Tedrake。

據說,Russ 是一位低調但極其嚴謹的學者,對于這篇論文,僅在推特和領英各發了一則短文進行簡要介紹。然而,有限的宣傳并未掩蓋這項工作的卓越價值 —— 論文本身足以說明一切。

該論文通過在模擬與真實機器人數據集上擴展擴散(Diffusion)策略框架,系統性評估了一類多任務機器人操作策略,稱為大型行為模型。論文設計并驗證了一套嚴謹的評估流程,以統計置信的方式分析這些模型的能力。通過盲測與隨機試驗,在控制環境下將多任務策略與單任務基線模型進行了對比,涵蓋仿真與現實實驗。



  • 論文標題:A Careful Examination of Large Behavior Models for Multitask Dexterous Manipulation
  • 論文鏈接:https://arxiv.org/pdf/2507.05331
  • 項目鏈接:https://toyotaresearchinstitute.github.io/lbm1/



大型行為模型是一類視覺 - 運動策略,基于多樣化的模擬與真實世界操作數據進行訓練。

采取傳統的單任務行為策略的機器人在面對任務變化或訓練分布之外的環境時表現出有限的泛化能力。為了克服這種脆弱性,該領域正越來越多地采用 LBM —— 在包含動作級演示的大規模多任務數據集上訓練的視覺運動基礎模型。盡管 LBM 的研究與開發蓬勃發展,但關于觀察到的成功主要是否源于多任務預訓練,仍然存在重大不確定性。

為了嚴謹地研究多任務預訓練的影響,論文在近 1,700 小時的機器人數據上訓練了一系列基于擴散的 LBM,并進行了 1,800 次真實世界的評估部署和超過 47,000 次模擬部署,以嚴格研究它們的能力。

論文發現:

  • 相對于從頭開始的策略,LBM 提供一致的性能提升
  • 在具有挑戰性的環境中,LBM 使用3-5 倍更少的數據來學習新任務,并要求對各種環境因素具有魯棒性;
  • 隨著預訓練數據的增加,LBM 的性能穩步提高

即便只有數百小時多樣化的數據、每種行為僅有幾百條演示,模型的性能依然實現了顯著提升。預訓練在遠小于預期規模的條件下,便能帶來持續穩定的性能增益。雖然當前還沒有如同「互聯網級」的機器人數據量,但令人欣喜的是,性能收益在遠未達到那一規模時就已顯現—— 這是一個積極信號,預示著通過數據獲取與性能自舉的良性循環是完全可能實現的。

這樣積極的結論,似乎預示著機器人領域的通用大規模模型的到來,具身智能的「GPT 時刻」還有多遙遠?

LBM 架構



LBM 架構:論文采用了一種Diffusion Transformer架構,該模型以語言、視覺和本體感知(proprioception)作為條件輸入,并輸出 20 維動作序列,覆蓋未來 16 個時間步長。

在部署階段,策略以 10 Hz 的頻率運行,機器人會執行前 8 個時間步的預測動作,然后重新規劃后續動作。

本文的 LBM(Large Behavior Models)是一類擴展的多任務擴散策略模型,具備多模態的 ViT(視覺 Transformer)視覺 - 語言編碼器,并采用基于 AdaLN 的 Transformer 去噪頭對編碼觀察進行條件建模。這些模型能夠處理手腕攝像頭和場景攝像頭圖像、機器人本體狀態(proprioception)以及語言提示,并預測連續 16 步(1.6 秒)的動作片段(action chunks)。

論文在一個混合數據集上訓練 LBM,包含:

  • 468 小時的內部采集的雙臂機器人遙操作數據,
  • 45 小時的模擬環境中的遙操作數據,
  • 32 小時的通用操作接口(UMI)數據,
  • 以及約1,150 小時從 Open X-Embodiment 數據集中整理的互聯網數據。

盡管模擬數據所占比例較小,但它的納入確保了可以在模擬環境和真實世界中使用同一個 LBM 檢查點進行評估。

實驗細節

測試平臺

本文的 LBM 在采用 Franka Panda FR3 手臂和最多六個攝像頭的物理和 Drake 模擬的雙臂工作站上進行了評估 —— 每只手腕最多兩個攝像頭,以及兩個靜態場景攝像頭。



在雙手操作平臺上,在模擬和現實世界中,針對多種任務和環境條件,評估了的 LBM 模型。

評估指標

論文衡量策略性能的主要指標包括:成功率(Success Rate)任務完成度(Task Completion)。

其中,成功率是機器人學習領域的標準評估指標,能有效反映策略能否完成任務的整體表現,但它無法全面刻畫策略的細節表現。例如,一個策略「幾乎完成任務」與「完全沒有動作」在成功率上表現相同,然而實際能力差異極大。為了更細致地區分這些情況,論文引入了任務完成度指標。

具體來說:

  • 真實世界評估中,設計了打分量表(rubrics),用于基于任務的中間目標(milestones)來量化完成度。該評分過程由人工填寫,并引入了一套質量保證(QA)流程來確保量表評估結果的可靠性。
  • 仿真環境中,采用自動化謂詞(predicates)來判斷是否達到各個中間目標,進而計算任務完成度。

盡管報告了絕對成功率,但論文認為相對成功率才是對比不同方法性能的核心依據。因為絕對成功率高度依賴任務本身的設計 —— 例如起始條件的隨機性、演示數量的多少都能顯著改變任務難度,進而影響最終結果。

因此,論文研究者在實驗設計上刻意提高任務難度,期望策略成功率在 50% 左右,以便更清晰地區分方法之間的優劣。不過在實際運行中,成功率可能會顯著高于或低于這個目標值。

實驗結果

LBM 在「已見」任務上的性能



LBM 在真實世界和仿真環境中的「已見任務」表現:(a)無分布偏移,(b)有分布偏移。論文比較了單任務模型、預訓練的 LBM 以及微調后的 LBM。

在這一組實驗中,研究者們發現:

1. 微調后的 LBM 在「已見任務」上表現優于單任務基線模型

2. 微調后的 LBM 對「已見任務」的分布偏移更具魯棒性

3. 未經微調的 LBM 在「已見任務」中也有非零成功率,且性能與單任務模型相近。

LBM 在「未見」任務上的性能

對于「未見」任務,尤其是那些復雜任務,研究者并不指望預訓練的 LBM 能夠成功完成。因此只比較微調后的 LBM 與單任務基線模型的表現。

此外,針對這些復雜任務,預期其成功率較低,因此更側重于通過任務完成度(task completion)圖來獲得直觀見解。



LBM 在來自仿真訓練集場景的「未見」仿真任務上的表現。左圖:在正常條件下進行評估。右圖:在分布偏移條件下進行評估。



LBM 在現實世界和仿真環境中「未見」任務下的表現(在正常條件下評估)。論文將單任務基線方法與微調后的 LBM 進行對比。上排展示的是成功率結果,下排展示的是任務完成度結果。

在「未見」的任務評估中,研究者得出結論:

1、微調后的 LBM 在「未見」任務上優于單任務基線模型

2、微調 LBM 達到與單任務基線模型相似的性能所需的任務特定數據更少

綜合來看,通過插值可估算出,若對 LBM 進行微調,僅需不到 30%的任務特定數據即可達到從零開始訓練所需全部數據的效果。



并排比較設置早餐桌的模型:(左) 單任務基線,(右) LBM。

預訓練規模法則

這是這篇論文中作者最喜歡的圖表,它概括了所有內容。

這個圖表比較了在訓練新任務之前使用不同數量的預訓練數據時的性能:0%(即單任務),25%,50% 或 100% 的 TRI 數據,然后是 100% 的 TRI 數據加上整理的所有開源機器人數據(紅線)。

「任務完成分布如此緊密,而且隨著數據量的增加,趨勢如此一致,這真是太棒了。」

結果表明,通過預訓練,可以用更少的數據量訓練出新的技能,或者使用相同的數據量并獲得更好的任務性能。而且,隨著數據量的增加,這些優勢似乎會持續下去



在標準條件下對五個模擬環境中的「未見」任務進行評估,并報告所有任務的平均任務完成度指標。

論文用極其長篇的篇幅,系統地闡述了實驗流程、平臺設計、仿真與真實世界評估細節、數據分析方法以及數據集構建等各個方面,做了大量的完備的實驗,最終凝練成 Russ 推文中的:「LBM 有效!」



論文包含LBM完整架構與訓練策略,海量實驗細節與評估細節,請參閱原論文。

文中視頻鏈接:

https://mp.weixin.qq.com/s/VYpyjqTFH2-5z6_V_r_idA

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
女籃觀察|19歲入選亞洲杯一陣:田中心在日本聯賽屬于什么水平?

女籃觀察|19歲入選亞洲杯一陣:田中心在日本聯賽屬于什么水平?

狼叔評論
2025-07-21 12:00:45
貿易戰沒底牌,白宮氣急敗壞,連下三道對華禁令,反華行動擴大化

貿易戰沒底牌,白宮氣急敗壞,連下三道對華禁令,反華行動擴大化

掌青說歷史
2025-07-20 20:51:51
宗慶后DNA被調取,3個私生子力證血緣關系,宗慶后72歲生小兒子?

宗慶后DNA被調取,3個私生子力證血緣關系,宗慶后72歲生小兒子?

削桐作琴
2025-07-14 20:20:04
高速上女兒一直說車后有聲音,在服務區停下后,全家被抓進警局

高速上女兒一直說車后有聲音,在服務區停下后,全家被抓進警局

秋風專欄
2025-07-19 06:50:03
特別時髦的母女裝組合

特別時髦的母女裝組合

美女穿搭分享
2025-07-17 18:30:09
終于明白為啥人到中年要分床睡了,看了評論,大家的老公都這樣啊

終于明白為啥人到中年要分床睡了,看了評論,大家的老公都這樣啊

特約前排觀眾
2025-07-21 00:20:03
52歲阿姨網戀遇小鮮肉,對方要求試婚,試婚當晚阿姨當場懵圈

52歲阿姨網戀遇小鮮肉,對方要求試婚,試婚當晚阿姨當場懵圈

蘭姐說故事
2025-07-06 20:00:07
從NBA退役后還有錢領!王治郅62歲后每年70萬,姚明,易建聯呢?

從NBA退役后還有錢領!王治郅62歲后每年70萬,姚明,易建聯呢?

寒士之言本尊
2025-07-20 12:12:59
李家超:9月23日起 香港交易所實施“打風不停市”安排

李家超:9月23日起 香港交易所實施“打風不停市”安排

財聯社
2025-07-21 13:32:09
前國家隊主教練鄭薇有了新去處,女籃奪冠有望,宮魯鳴壓力大

前國家隊主教練鄭薇有了新去處,女籃奪冠有望,宮魯鳴壓力大

史行途
2025-07-03 17:27:58
CEO出軌女高管后續:CEO公開道歉,原配果斷回擊,野鴛鴦雙雙停職

CEO出軌女高管后續:CEO公開道歉,原配果斷回擊,野鴛鴦雙雙停職

鋭娛之樂
2025-07-20 14:35:43
歐冠資格賽第三輪抽簽結果:尼斯VS本菲卡 費耶諾德VS費內巴切

歐冠資格賽第三輪抽簽結果:尼斯VS本菲卡 費耶諾德VS費內巴切

直播吧
2025-07-21 20:38:04
盧卡庫:孔蒂要求越來越嚴格;德布勞內能來我非常開心

盧卡庫:孔蒂要求越來越嚴格;德布勞內能來我非常開心

懂球帝
2025-07-21 20:48:09
英格蘭球星帕爾默因女友逼婚,選擇分手

英格蘭球星帕爾默因女友逼婚,選擇分手

星耀國際足壇
2025-07-21 09:53:54
伊朗軍方:在沖突中受損的防空系統已經恢復

伊朗軍方:在沖突中受損的防空系統已經恢復

中國青年報
2025-07-21 15:28:55
程瀟活動亮相面部浮腫!網友:我差點認為是樸春

程瀟活動亮相面部浮腫!網友:我差點認為是樸春

失寵的小野豬
2025-07-21 11:54:11
北京工作一輩子,退休后定居大同,才發現這地方養老,太對味兒了

北京工作一輩子,退休后定居大同,才發現這地方養老,太對味兒了

牛鍋巴小釩
2025-07-21 14:40:05
阿莫西林是消炎藥?醫生提醒:真正的消炎藥只有這2種,別...

阿莫西林是消炎藥?醫生提醒:真正的消炎藥只有這2種,別...

袁醫生課堂
2025-07-21 13:22:06
大二學生睡夢中,被拉出宿舍,遭多人拳打腳踢,他拿起水果刀護身,反殺2名同學

大二學生睡夢中,被拉出宿舍,遭多人拳打腳踢,他拿起水果刀護身,反殺2名同學

坦然風云
2025-07-19 22:43:53
黃仁勛40分鐘央視專訪:拼命工作33年,總感覺要倒閉,自學中文,中國創新擋不住

黃仁勛40分鐘央視專訪:拼命工作33年,總感覺要倒閉,自學中文,中國創新擋不住

智東西
2025-07-21 12:20:04
2025-07-21 22:32:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10911文章數 142386關注度
往期回顧 全部

科技要聞

OpenAI自嗨“國際奧數金牌”遭官方怒斥

頭條要聞

女生打扮精致在重慶爬樓送外賣6天瘦10斤 當事人回應

頭條要聞

女生打扮精致在重慶爬樓送外賣6天瘦10斤 當事人回應

體育要聞

這四位大兄弟,你們真敢要3000萬吶

娛樂要聞

五哈全員為寶石老舅送祝福

財經要聞

炒港美股"補稅潮"突襲?一文了解始末

汽車要聞

勞斯萊斯前設計師全新力作 榮威M7正式亮相

態度原創

旅游
時尚
手機
數碼
公開課

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

比變老更可怕的是亂穿衣,50歲女人掌握這3個技巧,好得體

手機要聞

三星Galaxy Z Fold7折疊屏手機韓國預訂量超Z Flip7,占比達60%

數碼要聞

配臺燈風格支架,LG Smart Monitor Swing“閨蜜機”海外發布

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 哈尔滨市| 安福县| 邹平县| 济宁市| 东阳市| 怀化市| 三原县| 嘉鱼县| 岳阳市| 贞丰县| 沧州市| 兴仁县| 洛扎县| 白玉县| 凤凰县| 绍兴市| 南康市| 民县| 长宁区| 平山县| 西乌珠穆沁旗| 酒泉市| 鸡东县| 长治县| 西城区| 北川| 陇西县| 平邑县| 邳州市| 宝应县| 尚义县| 东城区| 巨野县| 浪卡子县| 元江| 子洲县| 炎陵县| 江阴市| 康定县| 连州市| 高台县|