99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

10%訓練數據超越100%表現,機器人學習領域迎來重要突破

0
分享至



第一作者陳昌和是美國密歇根大學的研究生,師從 Nima Fazeli 教授,研究方向包括基礎模型、機器人學習與具身人工智能,專注于機器人操控、物理交互與控制優化。

第二作者徐曉豪是美國密歇根大學機器人學院博士生,研究涵蓋3D 感知、視覺語言模型驅動的多模態異常檢測及魯棒三維重建。

共同第一作者 Quantao Yang 是瑞典皇家理工學院博士后,師從 Olov Andersson 教授,研究聚焦于利用視覺語言模型與大型語言模型提升自主系統在動態環境中的感知與導航能力。

密歇根大學和瑞典皇家理工學院的研究團隊提出了 ViSA-Flow 框架,這是一種革命性的機器人技能學習方法,能夠從大規模人類視頻中提取語義動作流,顯著提升機器人在數據稀缺情況下的學習效率。該方法在 CALVIN 基準測試中表現卓越,僅使用 10% 的訓練數據就超越了使用 100% 數據的現有最佳方法。



  • 作者: Changhe Chen, Quantao Yang, Xiaohao Xu, Nima Fazeli, Olov Andersson
  • 機構: 密歇根大學、瑞典皇家理工學院
  • 網頁: https://visaflow-web.github.io/ViSAFLOW
  • 論文鏈接:https://arxiv.org/abs/2505.01288
  • 代碼開源: 即將發布

研究背景與挑戰

機器人模仿學習在使機器人獲得復雜操作技能方面取得了顯著成功,但傳統方法面臨一個根本性限制:需要大量精心策劃的機器人數據集,收集成本極其昂貴。這已成為開發能夠執行多樣化現實世界任務的機器人的關鍵瓶頸。

相比之下,人類展現出通過觀察他人學習新技能的非凡能力。無論是面對面學習、觀看教學視頻還是體育轉播,人類本能地專注于語義相關的組件。例如,學習網球時,我們自然地關注球員的身體動作、球拍處理技巧和球的軌跡,同時有效過濾無關的背景信息。

核心創新:語義動作流表示



人類和機器人操作共享相似原子動作

ViSA-Flow 框架的核心創新在于引入了語義動作流(Semantic Action Flow)作為中間表示,捕捉操作器 - 物體交互的本質時空特征,且不受表面視覺差異影響。該框架包含以下關鍵組件:

1. 語義實體定位

利用預訓練的視覺語言模型(VLM)對操作器(如 "手"、"夾具")和任務相關物體(如 "紅色方塊")進行文本描述定位,然后使用分割模型(如 SAM)生成初始分割掩碼。

2. 手 - 物體交互跟蹤

由于語義分割在連續幀間的不穩定性,研究團隊提出跟蹤正確分割的手 - 物體交互掩碼。通過在初始掩碼內密集采樣點,使用點跟蹤器(如 CoTracker)估計這些點在序列中的 2D 圖像軌跡。

3. 流條件特征編碼

為產生最終的 ViSA-Flow 表示,研究團隊將流信息編碼為豐富的特征向量,同時保留視覺上下文。使用跟蹤點軌跡生成空間局部化放大掩碼,通過放大因子調制感興趣區域內的像素強度。



ViSA-Flow 架構和策略學習框架圖

兩階段學習框架

第一階段:預訓練 - 學習 ViSA-Flow 動態先驗

使用大規模人類視頻數據集,預訓練生成模型以建模 ViSA-Flow 空間內的動態。模型學習基于過去上下文和語言指令預測未來表示,目標函數為:

L_pretrain (ψ) = E [||g_ψ(z≤t, l)[OBS] - z_{t+1:t+n}||2]

第二階段:微調 - 策略適應

使用少量機器人演示數據集微調模型,學習目標策略。采用多任務目標函數,結合動作預測和持續動態建模:

L_finetune (ψ) = E [L_act + λ_fwd*L_obs + λ_prog*L_prog]

實驗評估

CALVIN 仿真實驗

研究團隊在 CALVIN 基準測試上進行了全面評估,使用 ABC→D 分割,在環境 A、B、C 上訓練,在未見環境 D 上進行零樣本評估。



預訓練,微調以及評估所使用數據集



CALVIN ABC→D 基準測試的對比評估結果

關鍵發現

1. 數據效率優勢:ViSA-Flow 僅使用 10% 的注釋機器人軌跡(1,768 個),就超越了所有基線方法,包括使用 100% 數據的方法。

2. 連續任務性能:在 5 個連續任務完成方面,ViSA-Flow 達到 31.4% 的成功率,幾乎是使用 10% 數據的次佳方法 GR-MG(16.2%)的兩倍,甚至超過了使用 100% 數據訓練的SuSIE(26.0%)。

3. 平均序列長度:2.96 的平均序列長度進一步證明了 ViSA-Flow 在處理長時程操作任務方面的有效性。

消融研究



評估 ViSA-Flow 關鍵組件貢獻的消融研究結果

消融研究結果表明:

  • 移除語義實體定位顯著降低性能,5 任務序列成功率從 31.4% 降至 9.6%
  • 省略時間跟蹤階段使平均成功長度從 2.96 降至 2.78
  • 排除操作器定位導致適度性能下降

真機實驗

研究團隊在真實世界環境中評估了 ViSA-Flow 的性能,包括兩個單階段操作任務和一個長時程操作任務。

實驗設置:

  • 使用 7 自由度 Franka Emika Panda 機械臂
  • 通過 Oculus 應用程序進行遙操作數據收集
  • 雙攝像頭設置(眼內、眼外)提供 RGB 觀察



真機實驗設置

結果分析:



真實世界實驗結果圖表

  • 單階段任務:ViSA-Flow 在 MoveContainer 和 PickEggplant 任務上顯著優于 GR-MG
  • 長時程任務:ViSA-Flow 達到 56.3% 的整體成功率,而 GR-MG 和 DP 分別僅達到 8.3% 和 13.8%

定性分析



真實世界長時程任務的定性結果可視化

定性結果顯示,ViSA-Flow 的單步預測在整個長時程執行過程中與真實流保持緊密對齊:

  • 模型持續聚焦于機器人夾具和任務相關物體
  • 空間支持隨場景轉換平滑連貫地演化
  • 在兩個連續子任務中保持相同的準確性水平

獎勵差異水平的性能分析

為評估 LLM 在不同難度水平下選擇更優設計的能力,研究團隊采用了難度加權準確率 (DWA) 指標進行分析。結果顯示,ViSA-Flow 在處理細微性能差異的任務時表現更穩定,證明了語義動作表示的有效性。

提示設計分析

研究還探索了不同組件對框架性能的影響:

1. 語義分割的重要性:準確的語義實體識別是框架成功的關鍵

2. 時間跟蹤的必要性:一致的點對應關系對保持時間動態至關重要

3. 跨域泛化能力:語義表示有效緩解了視覺外觀差異的影響

技術優勢與局限性

技術優勢

1. 數據效率:僅需少量機器人演示數據即可達到優異性能

2. 跨域泛化:有效利用人類視頻知識轉移到機器人執行

3. 長時程穩定性:在復雜序列任務中保持穩定表現

4. 語義一致性:關注任務關鍵交互而非視覺外觀

當前局限性

1.3D 幾何建模缺失:缺乏顯式的 3D 幾何和接觸動力學建模

2. 預訓練組件依賴:依賴預訓練 VLM 組件可能限制新領域適應性

3. 物理交互精度:在需要精細物理交互的任務中可能存在限制

未來發展方向

1. 物理建模增強:將接觸物理學整合到 ViSA-Flow 表示中

2. 端到端訓練:減少對預訓練組件的依賴,實現聯合訓練

3. 強化學習集成:將 ViSA-Flow 先驗與強化學習算法結合

4. 大規模預訓練:擴展到網絡規模的視頻語料庫進行預訓練

研究意義與展望

ViSA-Flow 為機器人學習領域帶來了重要突破,證明了從大規模人類視頻中提取語義表示進行機器人技能學習的可行性。該方法不僅在理論上具有創新性,在實際應用中也展現出強大的性能優勢。

通過引入語義動作流這一中間表示,ViSA-Flow 成功橋接了人類演示視頻觀察與機器人執行之間的差距,為構建更加智能、高效的機器人學習系統開辟了新的研究方向。

隨著技術的進一步發展和完善,ViSA-Flow 有望在工業自動化、家庭服務機器人、醫療輔助等多個領域發揮重要作用,推動機器人技術向更加智能化和普適化的方向發展。

參考文獻

本研究基于機器人操作、模仿學習和視頻學習等多個前沿領域的最新進展,為推動機器人智能化發展提供了重要的理論基礎和技術支撐。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
洞房夜新娘說上聯“兩座高山守玉門”,新郎對下聯后,她:沒羞沒臊

洞房夜新娘說上聯“兩座高山守玉門”,新郎對下聯后,她:沒羞沒臊

蕭竹輕語
2025-06-20 17:21:16
普京:已得到以色列的保證

普京:已得到以色列的保證

魯中晨報
2025-06-21 21:13:06
狂降14萬!又一中產“神車”跌成白菜價,老車主慘遭集體背刺!

狂降14萬!又一中產“神車”跌成白菜價,老車主慘遭集體背刺!

芳芳歷史燴
2025-06-21 16:32:59
伊朗突發5.5級地震,距福爾多核設施約280公里,專家:與所謂的核試驗無關,系自然發

伊朗突發5.5級地震,距福爾多核設施約280公里,專家:與所謂的核試驗無關,系自然發

魯中晨報
2025-06-21 19:41:09
太美了!夏思凝奪連奪季軍曬照:田徑女神穿旗袍訓練服又美又颯

太美了!夏思凝奪連奪季軍曬照:田徑女神穿旗袍訓練服又美又颯

李喜林籃球絕殺
2025-06-21 17:25:41
46歲殷桃與男友壓馬路,小腹隆起走路姿勢有孕味,男友長相普通

46歲殷桃與男友壓馬路,小腹隆起走路姿勢有孕味,男友長相普通

娛樂圈圈圓
2025-06-20 17:30:24
厚底跑鞋鼻祖,hoka 歐尼歐尼再現“一鞋難求”經典之作!

厚底跑鞋鼻祖,hoka 歐尼歐尼再現“一鞋難求”經典之作!

超級數學建模
2025-06-20 22:40:10
美女網紅律師“翻車”,線上線下“兩張臉”?網友:美顏開大了

美女網紅律師“翻車”,線上線下“兩張臉”?網友:美顏開大了

電影爛番茄
2025-06-19 20:58:44
罷免書已遞交,佩通坦開始自救,60萬泰軍作出選擇,中國不可不防

罷免書已遞交,佩通坦開始自救,60萬泰軍作出選擇,中國不可不防

獵火照狼山
2025-06-21 21:48:12
足協杯!2-1,奧斯卡、恩里克驚艷破門:率云南玉昆晉級八強

足協杯!2-1,奧斯卡、恩里克驚艷破門:率云南玉昆晉級八強

側身凌空斬
2025-06-21 20:56:31
郭碧婷自爆生產過程,為二胎吃盡苦頭,網友:絕對是個狠人

郭碧婷自爆生產過程,為二胎吃盡苦頭,網友:絕對是個狠人

魚樂大使
2025-06-19 15:26:19
“電報”創始人、億萬富翁帕維爾·杜羅夫立遺囑:30年后100多個孩子都可繼承財產

“電報”創始人、億萬富翁帕維爾·杜羅夫立遺囑:30年后100多個孩子都可繼承財產

現代快報
2025-06-21 15:46:24
費德勒追隨納達爾迷上新運動;德約:費德勒是三巨頭最有天賦的

費德勒追隨納達爾迷上新運動;德約:費德勒是三巨頭最有天賦的

網球之家
2025-06-21 23:07:20
經紀人金暢:王鈺棟身價在市場上毫無意義,出三倍浙江也不賣

經紀人金暢:王鈺棟身價在市場上毫無意義,出三倍浙江也不賣

懂球帝
2025-06-21 11:26:29
中方警告全球:不得配合!美媒直言:中國超越的“分水嶺”已到

中方警告全球:不得配合!美媒直言:中國超越的“分水嶺”已到

粵語音樂噴泉
2025-06-20 11:08:17
英媒獨家:貝蒂斯與曼聯商談安東尼轉會,球員愿降薪30%

英媒獨家:貝蒂斯與曼聯商談安東尼轉會,球員愿降薪30%

雷速體育
2025-06-21 21:47:38
剛剛,河南宣布:鳳凰傳奇洛陽站演唱會取消!超165萬人想看的天津站也已取消,“因曾毅身體原因”,鳳凰傳奇道歉

剛剛,河南宣布:鳳凰傳奇洛陽站演唱會取消!超165萬人想看的天津站也已取消,“因曾毅身體原因”,鳳凰傳奇道歉

每日經濟新聞
2025-06-21 20:21:17
4位名人炮轟郭德綱:欺詐觀眾,貪污公款,圈錢無下限,句句狠辣

4位名人炮轟郭德綱:欺詐觀眾,貪污公款,圈錢無下限,句句狠辣

一娛三分地
2025-06-19 20:34:17
中東局勢最新進展:6月21日下午最新消息

中東局勢最新進展:6月21日下午最新消息

第一校尉
2025-06-21 15:05:57
普京下最后通牒:烏方必須“無條件投降”,被俄羅斯全面控制

普京下最后通牒:烏方必須“無條件投降”,被俄羅斯全面控制

亡海中的彼岸花
2025-06-21 19:21:00
2025-06-21 23:51:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10687文章數 142343關注度
往期回顧 全部

科技要聞

Siri有救了?蘋果被曝正討論史上最大收購

頭條要聞

官方通報那爾那茜有關情況:涉嫌高考報名材料造假

頭條要聞

官方通報那爾那茜有關情況:涉嫌高考報名材料造假

體育要聞

王欣瑜:資格賽差點要退賽 夢幻般的一周

娛樂要聞

離婚7年,楊冪逆襲碾壓劉愷威

財經要聞

租金大撤退!房東正在批量跑路!

汽車要聞

扔掉"舊地圖”一汽-大眾大眾品牌要找"新大陸"

態度原創

家居
藝術
教育
游戲
數碼

家居要聞

山水之間 墨染風雨云間

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

2025北京高招變數大!這些志愿填報的坑,千萬別踩!

韓國虛幻5重磅動作新作來了!上架多平臺 2026發售

數碼要聞

電視“鴻蒙”時刻?疑似搭載旗艦手機芯片,革新百年電視產業!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 宁河县| 修水县| 驻马店市| 新野县| 广水市| 凉城县| 阜新市| 额尔古纳市| 泾川县| 新巴尔虎左旗| 岳阳市| 阿拉善左旗| 茶陵县| 婺源县| 东乌珠穆沁旗| 新龙县| 渝北区| 九台市| 惠水县| 扎赉特旗| 吉安县| 汉阴县| 宝清县| 永川市| 陆河县| 彩票| 伊春市| 铁岭市| 古蔺县| 罗城| 辽宁省| 荣成市| 晴隆县| 祥云县| 玛多县| 镇坪县| 教育| 旅游| 吴堡县| 江陵县| 阿拉善盟|