99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

豐田研究院發布機器人大行為模型研究,單一模型掌握數百項任務

0
分享至

豐田研究院(TRI,Toyota Research Institute)近日發布了一項關于大行為模型(LBMs,Large Behavior Models)研究成果,這項技術或有望給機器人的學習方式重大變革。研究顯示,通過預訓練的 LBMs,機器人可以在學習新任務時減少高達80% 的數據需求,單一模型能夠掌握數百項不同的操作技能。相關論文以《大行為模型多任務靈巧操作的細致檢驗》(A Careful Examination of Large Behavior Models for Multitask Dexterous Manipulation)發表在arXiv上。


圖丨相關論文(來源:arXiv)

研究的作者之一,豐田研究院副總裁、美國麻省理工學院教授 Russ Tedrake 在社交媒體上表示:“LBMs 確實有效!隨著預訓練數據量的增加,我們看到了一致且具有統計學意義的改進。”


圖丨相關推文(來源:X)

傳統的機器人訓練方法存在諸多限制:每個任務都需要單獨編程,學習過程緩慢且不一致,往往局限于狹窄定義的任務和高度受限的環境。相比之下,LBMs 采用了類似于大語言模型(LLMs,Large Language Models)的架構思路,但專門針對機器人的物理操作行為進行優化。

TRI 此次研究采用的 LBM 架構,是一種基于擴散模型和 Transformer 的復雜神經網絡。它能夠整合來自多路攝像頭(包括機器人手腕和場景攝像頭)的視覺信息、機器人自身的姿態和位置等本體感知數據,以及人類通過自然語言下達的任務指令。這個多模態系統通過學習,直接輸出機器人需要執行的一系列連貫、精確的動作指令。具體來說,這些模型能夠一次性預測未來 16 個時間步(約 1.6 秒)的動作序列,從而實現平滑而具有預見性的操作。


(來源:arXiv)

為了驗證 LBMs 的有效性,研究團隊在近 1,700 小時的機器人演示數據上訓練了多個 LBMs,這些數據包括 468 小時的內部收集雙臂機器人遙操作數據、45 小時的仿真收集遙操作數據、32 小時的通用操作接口(UMI,Universal Manipulation Interface)數據,以及約 1,150 小時從 Open X-Embodiment 數據集中精選的互聯網數據。

在評估環節,研究團隊進行了 1,800 次真實世界評估試驗和超過 47,000 次仿真試驗,覆蓋 29個不同任務。為確保結果的可靠性,他們采用了盲測 A/B 測試方法,并建立了新的統計評估框架來確保跨不同任務和設置的結果置信度。


(來源:arXiv)

研究中使用的硬件平臺基于 Franka Panda FR3 機械臂的雙臂操作系統,配備多達六個攝像頭——每個手腕最多兩個,以及兩個靜態場景攝像頭。在感知層面,模型使用預訓練的 CLIP 視覺變換器提取圖像特征,并通過 CLIP 文本編碼器處理任務描述的語言特征。這些視覺和語言特征與本體感受信息以及擴散時間步編碼相結合,形成觀察特征。

在動作生成方面,LBMs 采用去噪擴散隱式模型(DDIM,Denoising Diffusion Implicit Models)來生成連續的機器人動作。通過 K 步迭代去噪過程,從高斯噪聲樣本開始,逐步生成精確的動作序列。

研究得出了三個關鍵發現。首先,微調后的 LBMs 在已見任務上的表現始終優于單任務基線模型。在名義條件和分布偏移條件下,無論是在仿真還是真實世界環境中,微調的 LBM 都表現出統計學上的顯著優勢。

其次,LBMs 展現出更強的魯棒性。當引入分布偏移時,雖然整體任務性能有所下降,但微調的 LBMs 比從零開始訓練的策略表現出更強的適應能力。在仿真環境中,LBMs 在分布偏移條件下統計上優于單任務策略的比例從名義條件下的 3/16 提升到 10/16。

第三,也是最重要的發現是,LBMs 能夠顯著減少學習新任務所需的數據量。研究表明,要在仿真中達到相似的性能水平,需對 LBM 進行微調。所需的數據量不到從零開始訓練所需數據的 30%。在真實世界任務中,這一優勢更加明顯——LBM 僅用 15% 的數據就能超越使用全部數據訓練的單任務基線模型。

研究還驗證了 LBM 的 Scaling Law。通過使用不同比例的預訓練數據,研究人員發現隨著預訓練數據量的增加,模型性能穩步提升。即使在當前的數據規模下,研究人員也沒有發現性能的不連續性或急劇拐點,這表明人工智能擴展在機器人學習領域同樣有效。


圖丨LBM 上的 Scaling Law(來源:arXiv)

為了測試 LBMs 的能力極限,研究團隊還設計了多種復雜的長期任務。例如,“切蘋果”任務要求機器人使用蘋果取芯器給蘋果去核,從器具架中取出刀具,拔出刀鞘將蘋果切成兩半,再將兩半切成片,最后用布擦拭刀具并重新裝鞘放回器具架。在這類復雜任務中,LBMs 同樣展現出了優于傳統方法的性能。

這項研究的一個重要貢獻是強調了統計嚴格性在機器人學習評估中的重要性。研究團隊指出,許多機器人學習論文可能由于統計功效不足而測量的是統計噪聲而非真實效果。他們展示了在不同試驗次數和真實成功率下的置信區間寬度:以 50 次試驗為例,得到的置信區間寬度通常為 20%-30% 的絕對成功率,這使得除了最大規模的效應之外,其他效應都無法可靠測量。

為了解決這一問題,研究團隊采用了貝葉斯分析方法,使用均勻 Beta 先驗計算成功率的后驗分布,并通過緊湊字母顯示(CLD,Compact Letter Display)方法指示統計顯著性。這種方法為機器人學習領域設立了新的評估標準。

研究結果表明,即使在數據規模相對較小的情況下,預訓練也能帶來一致的性能提升。這使得建立數據獲取和性能提升的良性循環得以可能。隨著更多任務被納入預訓練混合數據中,LBM 的整體性能將持續平穩改善。然而,研究也發現了一些局限性。非微調的預訓練 LBMs 表現參差不齊,這部分歸因于模型語言引導能力的局限性。

研究團隊表示,在內部測試中,更大的視覺-語言行為原型在克服這一困難方面顯示出良好前景,但需要更多工作來嚴格驗證這一效果。此外,數據標準化等看似次要的設計選擇對下游性能有重大影響,往往超過架構或算法改進的影響,提醒研究者在比較方法時需要仔細隔離這些設計選擇,避免混淆性能變化的來源。

參考資料:

1.https://arxiv.org/pdf/2507.05331

2.https://toyotaresearchinstitute.github.io/lbm1/

3.https://x.com/RussTedrake/status/1942931808422875640

運營/排版:何晨龍

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
央視主持人文清現狀:胖到不敢認,在桂林陪讀,老公在澳洲當院長

央視主持人文清現狀:胖到不敢認,在桂林陪讀,老公在澳洲當院長

容景談
2025-07-21 21:12:17
20多國領導人確定出席!中方正式宣布,特朗普也接到了邀請

20多國領導人確定出席!中方正式宣布,特朗普也接到了邀請

一個有靈魂的作者
2025-07-22 13:46:12
戰報?|?王子銘曹永競建功?侯森撲點?北京國安6-4青島西海岸晉級足協杯四強

戰報?|?王子銘曹永競建功?侯森撲點?北京國安6-4青島西海岸晉級足協杯四強

北京中赫國安足球俱樂部
2025-07-22 23:21:00
不要觀望了,趕緊賣房!

不要觀望了,趕緊賣房!

七叔東山再起
2025-07-22 21:16:11
記者:引進恩瓦內里失敗后,多特的前場引援工作從頭開始

記者:引進恩瓦內里失敗后,多特的前場引援工作從頭開始

懂球帝
2025-07-23 01:53:08
今夜!漲停!

今夜!漲停!

中國基金報
2025-07-23 00:16:27
威少落葉歸根?雷霆滿員了裁人再簽他要繳納奢侈稅

威少落葉歸根?雷霆滿員了裁人再簽他要繳納奢侈稅

直播吧
2025-07-22 17:12:16
中美元首是否會舉行會晤?外交部回應

中美元首是否會舉行會晤?外交部回應

新京報
2025-07-21 15:56:05
天津孫大爺遺產風波 姐弟倆為爭300萬遺產發現均非親生

天津孫大爺遺產風波 姐弟倆為爭300萬遺產發現均非親生

大象新聞
2025-07-22 07:16:03
蒙古西征大肆侵犯突厥女性, 意外造出一個新民族, 成了俄羅斯噩夢

蒙古西征大肆侵犯突厥女性, 意外造出一個新民族, 成了俄羅斯噩夢

文史達觀
2025-07-13 06:45:03
15年過去!斯巴達克斯15位主角今何在?有人退隱有人大紅

15年過去!斯巴達克斯15位主角今何在?有人退隱有人大紅

局勢維度
2025-07-22 12:33:39
記者:皇馬前鋒阿爾瓦羅-羅德里格斯今天將與埃爾切簽約

記者:皇馬前鋒阿爾瓦羅-羅德里格斯今天將與埃爾切簽約

懂球帝
2025-07-22 19:08:15
《掃毒風暴》大結局:這才是盧少驊送吳燕萍整棟樓的真相

《掃毒風暴》大結局:這才是盧少驊送吳燕萍整棟樓的真相

感影的世界
2025-07-20 18:49:10
隊記:比爾自愿將3號球衣給保羅穿 自己還沒決定穿幾號

隊記:比爾自愿將3號球衣給保羅穿 自己還沒決定穿幾號

直播吧
2025-07-23 01:22:08
俄羅斯升級多個核基地!美國將軍:開戰后將立即占領加里寧格勒

俄羅斯升級多個核基地!美國將軍:開戰后將立即占領加里寧格勒

鷹眼Defence
2025-07-21 17:56:00
突發!都美竹的節目被下架!

突發!都美竹的節目被下架!

嘻笑堂
2025-07-23 00:01:54
17年綠軍4換1得到歐文,后來這些球員發展如何?歐文輾轉多隊

17年綠軍4換1得到歐文,后來這些球員發展如何?歐文輾轉多隊

大衛的籃球故事
2025-07-21 22:50:39
肯揚·馬丁:不談冠軍只談打球,我可以列出200個比追夢更好的球員

肯揚·馬丁:不談冠軍只談打球,我可以列出200個比追夢更好的球員

雷速體育
2025-07-22 09:54:11
二十屆中央第六輪巡視完成進駐,被巡視地方首個廳官被查

二十屆中央第六輪巡視完成進駐,被巡視地方首個廳官被查

南方都市報
2025-07-22 12:24:21
斯諾克最新戰報!吳宜澤2-1逆轉奪賽點,領先70后冠軍,沖8強門票

斯諾克最新戰報!吳宜澤2-1逆轉奪賽點,領先70后冠軍,沖8強門票

劉姚堯的文字城堡
2025-07-22 21:15:14
2025-07-23 02:08:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15438文章數 513917關注度
往期回顧 全部

科技要聞

李開復推企業級Agent,誓要打造"超級員工"

頭條要聞

廣東確診已超2000例 傳染源是什么 如何控制

頭條要聞

廣東確診已超2000例 傳染源是什么 如何控制

體育要聞

哈利:受傷時想自己走下場但發現走不了 科比竟然還能去罰球

娛樂要聞

葉珂復播 自曝產女后與黃曉明徹底分手

財經要聞

宗馥莉掌控離岸公司 遺產爭奪或早有布局

汽車要聞

看著像保時捷?賓利首款純電動車諜照曝光

態度原創

數碼
健康
親子
旅游
藝術

數碼要聞

追覓小覓罐內衣洗烘機震撼上市,四大核心科技終結手洗時代

呼吸科專家破解呼吸道九大謠言!

親子要聞

拒絕毒友誼,給孩子講這個故事

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 海南省| 大田县| 铁力市| 乳源| 公安县| 稻城县| 康乐县| 长泰县| 德清县| 洛隆县| 长宁区| 抚松县| 富源县| 都江堰市| 临湘市| 岗巴县| 巴东县| 垦利县| 环江| 天气| 夹江县| 连江县| 兴业县| 麻栗坡县| 仙桃市| 望谟县| 视频| 宜兰市| 工布江达县| 黄石市| 酉阳| 七台河市| 濮阳市| 扶余县| 吉水县| 怀远县| 岚皋县| 龙井市| 乐都县| 通化市| 台南县|