來源:GreateAMind
FOCUS: object-centric world models for robotic manipulation
焦點:以對象為中心的機器人操作世界模型
https://biblio.ugent.be/publication/01JVKRSDJA9TGBAAAV5NSH52V5
以對象為中心的世界模型與探索策略在強化學習中的應用
將世界理解為對象及其可能的交互關系是一項重要的認知能力。然而,當前強化學習中采用的世界模型通常缺乏這種結構,而是用全局潛在向量來表示世界狀態。為解決這一問題,我們提出了 FOCUS—— 一種基于模型的智能體,其學習以對象為中心的世界模型。這種新穎的表示方法還支持設計以對象為中心的探索機制,鼓勵智能體與對象交互并發現有用的互動方式。我們在多個機器人操作場景中對 FOCUS 進行了基準測試,發現該方法可用于提升操作技能。以對象為中心的世界模型能夠更準確地預測場景中的對象,并實現更高效的學習。對象中心探索策略促進了與環境中對象的交互(如抓取、移動和旋轉對象),并使智能體能夠快速適應稀疏獎勵的強化學習任務。我們還使用 Franka Emika 機械臂展示了 FOCUS 在實際應用中的有效性。相關網站:focus-manipulation.github.io。
關鍵詞: 世界模型、以對象為中心的表示、神經機器人學、對象中心探索、具身人工智能
1. 引言
在日常生活中,我們可以輕松地與對象交互以完成各種任務。通過這些交互,我們本能地推斷對象的身份、空間位置、三維結構、外觀和紋理,有效地構建了對象形成方式的生成模型(Parr 等人,2021)。對于機器人操作器而言,由于智能體與環境之間交互的復雜性和動態性,復制這些任務面臨重大挑戰。
近年來,深度強化學習(RL)已成為處理復雜操作場景的有前景的方法(Levine 等人,2016;OpenAI 等人,2019;Kalashnikov 等人,2018;Lu 等人,2021;Lee 等人,2021;Ferraro 等人,2022a)。在 RL 算法中,基于模型的方法相比無模型方法有望提供更高的數據效率(Fujimoto 等人,2018;Haarnoja 等人,2018)。通過采用世界模型(Ha 和 Schmidhuber,2018;Hafner 等人,2021)—— 即通過重建感官觀察來學習環境動態的生成模型 —— 基于模型的智能體已在多個領域(Hafner 等人,2021;Rajeswar 等人,2023;Hafner 等人,2023)展現出優異性能,包括機器人操作和運動等實際應用(Wu 等人,2022)。然而,無差別重建環境中所有信息的世界模型可能存在多種缺陷。例如,在視覺任務中,它們可能忽略對預測未來重要的小特征(如小物體)(Seo 等人,2022),還傾向于將模型容量浪費在視覺豐富但無關的特征(如靜態背景)上(Deng 等人,2022)。在機器人操作場景中,這一問題尤為突出,因為智能體迫切需要獲取關于待操作對象的信息以解決給定任務。
強化學習在操作任務中的另一個挑戰是設計驅動智能體學習完成任務的獎勵函數。嘗試設計密集獎勵函數容易導致獎勵設計錯誤(Amodei 等人,2016;Clark 和 Amodei,2016;Krakovna 等人,2020;Popov 等人,2017)。一種解決方案是采用稀疏獎勵反饋,僅在任務成功完成時提供正獎勵。然而,這類函數難以通過 RL 優化,因為在環境中難以找到此類獎勵。因此,它們需要合適的探索策略,此前的研究已采用人工好奇心機制(Oudeyer 等人,2007;Schmidhuber,1991)或熵最大化策略(Mutti 等人,2021;Liu 和 Abbeel,2021)。在 Liu 和 Abbeel(2021)的研究中,探索通過最大化整個潛在表示的熵來實現,這可能導致智能體專注于探索場景中無關的方面(Burda 等人,2018b)。
相比之下,人類傾向于通過與對象交互來建立結構化的世界心理模型,記錄與對象相關的特定特征(如形狀、顏色等)(Hawkins 等人,2017;Ferraro 等人,2023)。從嬰兒時期開始,幼兒通過主動接觸對象并用手操作它們來學習,發現以對象為中心的視角,從而構建準確的心理模型(Smith 等人,2018;Slone 等人,2019;Ferraro 等人,2022b)。
在這項工作中,我們提出的方法基于以下原則:對象應在智能體的世界模型中占據核心地位,同時受以下問題驅動:i)對環境中對象實體建模的復雜性;ii)自主發現與這些對象交互的必要性。我們引入 FOCUS—— 一種基于模型的 RL 智能體,其學習以對象為中心的世界表示。與整體場景表示不同,對象的潛在向量使智能體能夠優先處理關于對象的信息。利用以對象為中心的表示,可以設計專注于涉及對象交互的探索策略。關鍵在于,與最先進的方法相比,所提出的聚焦探索策略可在稀疏獎勵任務中提升性能。
我們在這項工作中的貢獻可總結為:
- 以對象為中心的世界模型:該模型學習環境的潛在動態,將關于對象的信息區分為不同的潛在向量;
- 以對象為中心的探索策略:通過最大化對象潛在表示的熵,鼓勵智能體與對象交互;
- 方法的實證評估:結果表明,以對象為中心的模型提升了智能體對場景中對象的理解,且對象中心探索策略促進了與對象的交互。這使得智能體在多種場景和任務中更高效地解決機器人操作問題,包括 ManiSkill2(Gu 等人,2023)、robosuite(Zhu 等人,2020)和 Metaworld(Yu 等人,2019)環境。
- 真實機器人平臺的部署:展示了將我們的方法成功應用于硬件系統的可能性。
2. 背景 2.1 強化學習與世界模型
2.2 探索
在強化學習中,解決稀疏獎勵任務是一個難題,因為智能體難以探索環境并識別產生獎勵的狀態。受人工好奇心理論(Schmidhuber,1991;Oudeyer 等人,2007)的啟發,已有多項研究為強化學習設計了探索策略(Pathak 等人,2017;Mazzaglia 等人,2022;Rajeswar 等人,2021)。其他取得顯著成功的探索策略基于最大化不確定性(Pathak 等人,2019;Sekar 等人,2020)或智能體狀態表示的熵(Liu 和 Abbeel,2021;Seo 等人,2021;Mutti 等人,2021)。在視覺環境中,這類探索方法存在一個問題:它們可能過度關注易于到達且能顯著改變環境視覺外觀的狀態(Burda 等人,2018a)。在機器人操作場景中,這會導致不良行為 —— 例如機械臂在相機附近探索不同姿勢,卻忽略與工作空間中對象的交互(Rajeswar 等人,2023)。相比之下,我們的方法利用以對象為中心的表示,鼓勵智能體與場景中的對象交互。通過設計對象中心探索策略,我們為機器人操作提供了比好奇心機制更優的選擇,后者在環境中缺乏明確的探索目標。
2.3 以對象為中心的表示
將場景分解為對象可支持智能體對高層級基礎元素進行高效推理,并確保其關注最相關的概念(Dittadi 等人,2021)。近期涌現出多種基于 “將對象作為模型中獨立實體表示” 原則的二維對象中心表示方法(Locatello 等人,2020;Greff 等人,2020;Burgess 等人,2019;Nakano 等人,2023)。由于計算能力和表示質量的限制,這些對象中心表示尚未擴展到更復雜的場景 —— 即需要同時建模智能體與環境交互的場景。相關研究探討了對象中心表示在控制任務中的實用性,采用無模型強化學習(Diuk 等人,2008;Janner 等人,2019;Kipf 等人,2020;Yoon 等人,2023)。受這些方法啟發,我們提出一種對象中心世界模型,通過結合基于模型的強化學習實現行為的高效學習。該表示方法提升了智能體對對象的預測能力,既可用于實現更精準的控制(如解決密集獎勵強化學習任務),也能通過新型對象中心探索策略促進與對象的交互(如在稀疏獎勵強化學習任務中)。與我們的方法最接近的現有研究(Sancaktar 等人,2022)提出了一種基于圖結構模型的對象中心探索策略用于控制,但該方法需要預先獲取對象的精確信息(如位置),而這類信息通常僅在仿真環境中可用。相比之下,我們的方法專為常見的視覺操作場景設計 —— 智能體僅通過相機圖像獲取場景信息。
3 以對象為中心的世界模型 3.1 世界模型
總體而言,所學習的世界模型由以下組件組成:
3.1 世界模型
總體而言,所學習的世界模型由以下組件組成:
3.2 以對象為中心的模塊
掩碼損失的分割掩碼目標如何獲取?
為了將對象信息區分為不同的潛在向量,以對象為中心的組件利用了對象判別過程,該過程需要學習分割場景觀測。一些模擬機器人環境可提供此信息,但在真實場景中,相同的過程并非易事。
大型預訓練分割模型的日益普及為避免該問題提供了機會。因此,在我們的實驗中,我們采用了 Segment Anything Model(fastSAM;Kirillov 等人,2023;Zhao 等人,2023)的高效實現。在每個 episodes 開始時,使用 fastSAM 通過邊界框或文本提示生成每個對象的分割實例。對于后續幀,分割圖由跟蹤模型生成,我們基于 XMem 模型(Yang 等人,2023)實現該跟蹤模型。這極大地簡化了在機器人工作空間中獲取分割掩碼的過程。
4 以對象為中心的探索
強化學習中的狀態最大熵方法(Mutti 等人,2021;Seo 等人,2021;Liu 和 Abbeel,2021)會學習一種環境表示,并在此基礎上計算熵估計值,智能體的策略會最大化該熵以促進探索。鑒于我們的以對象為中心的表示,我們可以通過讓智能體最大化對象潛在狀態表示的熵,來激勵針對對象交互和新對象視角發現的有向探索。
為了估計批量數據上的熵值,我們在對象潛在表示之上應用基于 K 近鄰粒子的估計器(Singh 等人,2003)。通過最大化場景中所有對象的總體熵,我們推導出以下用于以對象為中心探索的獎勵:
并通過最大化預測的期望獎勵來訓練。得益于世界模型,獎勵可在虛擬場景中推斷,因此任務演員 - 評論家的學習可完全在虛擬環境中進行,同時智能體持續探索真實環境(Sekar 等人,2020)。
5 實驗
我們認為,FOCUS 以對象為中心的世界模型和探索策略可用于改進機器人操作中的控制,尤其是在稀疏獎勵場景中。這些實驗旨在通過評估以下方面從經驗上驗證我們的論點:(i)FOCUS 與世界模型和探索領域最先進方法相比的探索性能;(ii)在探索階段后,FOCUS 在稀疏獎勵操作任務上的表現;(iii)我們驗證以對象為中心的世界模型在密集獎勵任務上的性能,并對模型進行額外分析,例如可視化世界模型的重建結果。最后,我們將 FOCUS 部署到真實世界的裝置中。
5.1 稀疏獎勵任務中的探索 - 適應
我們從三個機器人操作基準(如圖 2 所示)中選取了 10 個任務:ManiSkill2(Gu 等人,2023)、robosuite(Zhu 等人,2020)和 Metaworld(Yu 等人,2019)。ManiSkill 和 robosuite 都為智能體提供分割掩碼作為(可選)輸入,而 Metaworld 則不提供。因此,我們采用 fastSAM(Zhao 等人,2023)在這些任務中提取分割掩碼,該評估設置為我們提供了一個用于真實世界實驗的測試場。感興趣的對象通過文本提示(Cheng 等人,2023),提供場景中對象的名稱。由 SAM 模型生成的掩碼被視為對象掩碼,而其負值則被視為背景掩碼。
我們將 FOCUS 與三種探索策略進行比較:
- Plan2Explore (P2E)
(Sekar 等人,2020)
- Active Pre-training (APT)
(Liu 和 Abbeel,2021)
- 隨機動作
為確保與 P2E 和 FOCUS 的公平比較,APT 和隨機動作均基于 DreamerV2 世界模型的智能體實現(遵循 Rajeswar 等人,2023 的設置并使用其開源代碼)。除批量大小和序列長度均設為 32 外,超參數與 DreamerV2(Hafner 等人,2021)保持一致。
FOCUS 的實現細節:
- 對象潛在特征提取器:由一個 3 層 MLP 組成,維度為 512。
- 對象解碼器網絡:結構類似于 Dreamer 的解碼器,CNN 的深度因子設為 72。
- 熵近似的 K-NN 濾波器:采用 K=30 的 K 近鄰因子。
5.1.1 探索
為比較不同探索策略在操作任務中的表現,我們選擇了一組與對象交互相關的指標:
- 接觸率(%):每輪中機械爪與對象的接觸交互平均占比。
- 位置位移(米):每輪中所有對象的累計位置變化量。
- 角度位移(弧度):每輪中所有對象的累計角度變化量。
從圖 3 可見,FOCUS 與對象的交互頻率顯著高于其他方法,且探索性能隨時間持續提升。APT 和 P2E 表現相近,僅略優于隨機策略,這表明在機器人操作環境中探索時,聚焦對象具有重要性。
5.1.2 稀疏獎勵任務微調
在探索階段,所有智能體在環境中嘗試不同動作,學習給定任務的動態規律和獎勵函數,但此階段不使用任務獎勵。在環境中探索 200 萬步后,我們利用探索階段發現的獎勵來適配任務演員 - 評論家,并通過額外(較少)的環境交互對智能體進行微調以完善任務執行。圖 4 展示了六個任務的適配曲線(每輪獎勵隨時間的變化)。
結果表明,FOCUS 在所有任務中取得了最顯著的進展,證明該智能體能持續發現環境中的稀疏獎勵,使任務適配更輕松。支持這一結論的現象是:盡管獎勵稀疏,但所有任務的微調性能幾乎立即開始提升。對于其他方法,Plan2Explore 和 APT 僅在少數任務(如抽屜打開、門關閉)中能持續發現獎勵交互,且表現與 FOCUS 相近。在稀疏獎勵(而非密集獎勵)條件下,探索策略有限的方法難以在微調階段取得良好性能。而隨機策略作為最原始的探索方式,幾乎無法發現獎勵,導致稀疏獎勵場景下的微調極為困難。
5.2 額外分析
我們開發了以對象為中心的世界模型,通過結構化潛在表示改進對象信息在模型中的表征方式。為驗證這一設計,我們進行了額外分析,以證明:與使用 “扁平化” 潛在結構相比,采用對象中心結構化世界模型可提升對象預測精度,并驗證對象潛在狀態中包含的信息。
5.2.1 與 “扁平化” 世界模型的對比
工作空間中對象的尺寸通常小于其他元素(如機器人、桌面和背景)。當使用 Dreamer(Hafner 等人,2021)式的 “扁平化” 世界表示時,對象的視覺信息可能在世界模型的編解碼過程中因壓縮而丟失。圖 5 對比了 FOCUS 與 Dreamer 解碼器的定性重建結果:由于顯式的對象建模,FOCUS 能精確重建場景中的任意對象;而 Dreamer 在許多場景中失敗,尤其是在小對象或與背景視覺對比度低的情況下 —— 例如在 Master Chef Can 和 Banana 環境中,Dreamer 對每個對象的重建都呈現模糊形態,反映出其缺乏足夠誤差信號以實現細節重建。
為量化對象預測的性能差異,圖 6 展示了對象周圍圖像區域的預測誤差。FOCUS 始終能提供更精確的對象預測。
更好的對象預測是否帶來更好的操作性能?為將操作任務學習與探索問題分離,我們在六個密集獎勵任務(抽屜打開、門打開、門關閉、立方體提起、立方體堆疊、水龍頭旋轉)上對比了 FOCUS 和 Dreamer 的表現。該對比旨在驗證:改進的對象預測性能是否足以普遍提升任務表現(與探索性能無關)。我們為這些任務設置了三個基線:
- Dreamer:與 FOCUS 使用相同觀測輸入;
- Dreamer (w/ object pos):額外提供對象位置信息(x,y,z);
- Multi-CNNs(Yoon 等人,2023):基于 OCRL 實現的無模型 RL 基線,使用以對象為中心的表示。
其中,Multi-CNNs 從單幀觀測中提取對象中心表示(無時間信息),并用于訓練無模型 PPO 智能體(Schulman 等人,2017);Dreamer (w/object pos) 將對象位置與智能體本體感受信息拼接,并將本體感受損失項縮放 100 倍以平衡低維向量(本體感受 + 對象位置)與高維圖像矩陣(64×64×3)的維度差異。圖 7 對比了各方法以每輪獎勵衡量的最終歸一化性能。
結果顯示,FOCUS 取得了最高的中位數和平均性能,支持了 “對象中心世界模型普遍提升操作任務 RL 性能” 的假設。當 Dreamer 獲得位置信息時,其性能提升(因系統更易跟蹤對象位置),但 FOCUS 仍因隱含信息更豐富(如朝向、接觸狀態、顏色等)而表現更優。相比之下,Multi-CNNs 因表示缺乏時間一致性且采用效率較低的無模型學習策略,性能落后于其他方法。
5.2.2 信息劃分
我們評估 FOCUS 是否將每個對象的信息正確劃分到各自的潛在空間中,且不存儲場景中其他元素的額外信息。為了解 FOCUS 的信息分離效果,我們從對象潛在空間中解碼信息,并在圖 8 中展示了一些示例。
顯然,對象潛在空間存儲了關于對象的視覺信息,僅從圖像其余部分捕獲少量信息。“泄露” 的信息主要存在于對象周圍區域,我們認為這是由于分割掩碼的質量所致。在最后兩列中,我們還展示了機械臂遮擋行為的示例(部分遮擋和完全遮擋)。盡管無法完全看到對象,FOCUS 仍能將對象信息與機械臂分離,并從被遮擋的視圖中重建完整的未掩碼對象。
5.3 真實世界中以對象為中心的世界模型
我們將 FOCUS 部署在 Franka Emika 機械臂裝置上。真實場景中的主要挑戰在于缺乏分割掩碼。與 MetaWorld 實驗類似,我們采用 fastSAM 模型(Kirillov 等人,2023;Zhao 等人,2023),通過文本提示(Cheng 等人,2023)獲取分割掩碼。
為評估真實場景下對象中心世界模型的性能,我們設計了一個簡單環境:桌面放置一塊黃色磚塊,如圖 9 所示。立方體通過繩子連接到機器人末端執行器,作為主要交互對象。每輪持續 100 步,隨后機器人重置到指定位置,將立方體帶回工作空間中心附近。機械臂在二維平面內運動(圖 9 中藍色虛線區域),末端執行器高度固定在桌面上方,且夾具保持閉合狀態(僅能通過推擠動作與立方體交互)。這些限制既出于探索安全性考慮,也為了縮小動作空間、減少環境建模所需的數據收集量。
為預熱世界模型訓練,我們使用隨機動作收集的觀測數據集(5 萬次交互,約 24 小時機器人運行時間)對所有智能體進行預訓練。利用該數據集對每個世界模型和探索策略進行 50 萬步預訓練(世界模型和策略每步均更新)。
在圖 6(倒數第二個直方圖)中,我們對比了預訓練后 Dreamer 和 FOCUS 在真實場景中的對象重建誤差。總體而言,相比 Dreamer,FOCUS 的隱式分割知識使其重建結果在動態一致性上更優。Dreamer 在重建中偶爾會出現偽影(如圖 5 最后一列所示),尤其是在對象與機械臂交互的軌跡中。
5.3.1 探索能力評估
為評估 FOCUS 在真實機器人場景中的探索能力,我們對預訓練模型進行 1 萬步實時探索微調,每輪 100 步。對比對象與仿真實驗相同的基線策略(P2E、APT 和隨機動作),結果如圖 9 所示。與仿真實驗一致,FOCUS 的對象交互得分最高。由于真實場景設置更簡單,FOCUS 與其他基線的交互性能差距比仿真實驗更小。微調階段對象位置分布如圖 9 右上角所示:FOCUS 對工作空間的位置覆蓋范圍最大,且在中心區域集中度最高。
6 討論
我們提出了 FOCUS—— 一種以對象為中心的基于模型的智能體,其能主動發現與對象的交互,從而更高效地學習操作任務。在評估中,我們發現 FOCUS 不僅能解決更多稀疏獎勵任務,且以對象為中心的表示普遍提升了對象預測和操作性能。
6.1 局限性
訓練數據與計算成本:
在探索實驗中,智能體需與環境交互 200 萬步,所有方法均需先學習足夠的世界模型,使探索智能體能可靠地預測哪些動作可帶來最大探索收益。實際上,FOCUS 在 50 萬步探索后才開始展現優于其他方法的優勢。如此可觀的訓練步數使得在復雜真實環境中全面部署具有挑戰性。盡管如此,探索方法仍可通過大幅簡化環境(如限制動作空間(Pathak 等人,2019)或采用高層級動作(Mazzaglia 等人,2024))應用于真實場景。多對象場景的可擴展性:
FOCUS 的主要局限在于處理多目標對象場景(如超過 2 個對象)時的可擴展性。由于模型依賴分割掩碼分離每個對象的信息,每個對象的重建需要額外的輸出映射(包括分割權重和 RGB 通道),這導致計算和內存占用顯著增加。盡管性能提升,但該方案的可擴展性較差。未來研究可探索更高效的對象信息分離方法,例如深度潛在粒子(Daniel 和 Tamar,2022;Haramati 等人,2024),在保留對象中心方法優勢的同時降低計算需求。
無監督對象分割與動態建模:
當前依賴預訓練分割模型(如 fastSAM)獲取掩碼,未來可探索無監督或自監督對象分割技術,使模型在無人工標注的情況下自主學習對象邊界,進一步提升真實場景適應性。層次化對象交互規劃:
將對象中心表示與層次強化學習結合,實現從 “對象發現” 到 “任務規劃” 的分層決策,例如先識別可交互對象,再基于其物理特性規劃操作策略(如抓取優先級、力控制模式)。跨場景遷移學習:
利用對象中心表示的泛化性,探索不同操作任務間的知識遷移(如從積木堆疊遷移至餐具擺放),減少新任務的訓練樣本需求。
7 結論
FOCUS 通過將世界建模為對象及其交互關系,為強化學習中的機器人操作提供了新范式。實驗表明,以對象為中心的世界模型和探索策略顯著提升了稀疏獎勵場景下的學習效率,且在真實機器人平臺上驗證了其可行性。盡管存在計算復雜度和多對象擴展性挑戰,該方法為具身智能中 “如何讓機器像人類一樣理解對象” 提供了重要思路,有望推動機器人從 “執行預設動作” 向 “自主探索 - 推理 - 決策” 的進階。
閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”
https://wx.zsxq.com/group/454854145828
未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。
截止到3月31日 ”未來知識庫”精選的百部前沿科技趨勢報告
(加入未來知識庫,全部資料免費閱讀和下載)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.