網易首頁 > 網易號 > 正文申請入駐

關于機器人數據，強化學習大佬Sergey Levine剛剛寫了篇好文章

2025-07-22 14:07:08　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

機器之心編輯部

我們知道，訓練大模型本就極具挑戰，而隨著模型規模的擴大與應用領域的拓展，難度也在不斷增加，所需的數據更是海量。

大型語言模型（LLM）主要依賴大量文本數據，視覺語言模型（VLM）則需要同時包含文本與圖像的數據，而在機器人領域，視覺 - 語言 - 行動模型（VLA）則要求大量真實世界中機器人執行任務的數據。

目前而言，Agent 是我們走向通用人工智能（AGI）的重要過渡。訓練 Agent 則需要帶有行動標簽的真實交互數據，而獲取這類數據的成本遠比從網頁上獲取文本與圖像的成本高昂得多。

因此，研究者一直在嘗試尋找一種替代方案，來實現魚和熊掌兼得的效果：既能夠降低數據獲取成本，又能夠保證大模型訓練成果，保持基礎模型訓練中常見的大規模數據帶來的優勢。

加州大學伯克利分校副教授，Physical Intelligence 的聯合創始人，強化學習領域大牛 Sergey Levine為此撰寫了一篇文章，分析了訓練大模型的數據組合，但他卻認為，魚和熊掌不可兼得，叉子和勺子組合成的「叉勺」確實很難在通用場景稱得上好用。

博客標題：Sporks of AGI
博客鏈接：https://sergeylevine.substack.com/p/sporks-of-agi

替代數據

盡管在視覺感知和自然語言處理任務中，真實世界數據一直被視為首選，但在智能體領域，尤其是機器人智能體（如視覺 - 語言 - 動作模型，VLA）中，研究者們始終在嘗試尋找「替代方案」—— 即能以較低成本獲取的代理數據，來代替昂貴的真實交互數據，同時仍具備訓練基礎模型所需的泛化能力。本文聚焦于機器人領域，但其他任務也基本遵循類似思路，只是采用了不同形式的替代數據。

仿真是一種經典策略。設想我們可以在《黑客帝國》般的虛擬環境，或高保真的電子游戲中訓練機器人，就有可能避免對真實世界數據的依賴。

雖然這些方案產生了大量令人興奮且富有創意的研究成果，但若從結構上可以將它們統一描述為：人為構建一個廉價代理域與真實機器人系統之間的映射關系，并基于這一映射，用廉價數據替代真實任務域中的昂貴數據。主流的幾種方法如下：

仿真（Simulation）：

「仿真到現實」（sim-to-real）的方法依賴人類設計者指定機器人的訓練環境，并提供相應資源（如物理建模、視覺資產等）。機器人在仿真中學習到的行為很大程度上取決于這些人為設定。實際上，最有效的仿真往往并不追求對現實的高度還原（這本身極具挑戰），而是故意引入各種環境變化，如隨機的石板路或不同高度地形，以提高機器人魯棒性。這種設計方式不僅定義了任務「是什么」，也間接規定了任務應「如何完成」。

人類視頻（Human Videos）：

基于人類視頻訓練機器人技能的方法，通常需要在人體與機器人之間建立某種對應關系，例如手的位置或手指的抓取動作。這種映射方式預設了一種具體的任務完成策略（例如通過「握持 - 搬運」的方式），同時也必須跨越人類與機器人在動力學和外觀上的差異鴻溝。

手持式夾爪設備（Hand-held Gripper Devices）：

這種方法并非在訓練時構建映射關系，而是通過物理手段直接建立人機之間的映射。具體做法是讓人類使用手持設備來模仿機器人夾爪完成任務。這種方式頗具吸引力，因為參與者必須以類似機器人的方式執行任務。但這同樣隱含著一套「動作設定」前提：例如，設備默認機器人能在具有 6 自由度的操作空間中，僅使用手指完成任務，且不暴露機器人與人類在運動學結構或外觀上的差異。

以上方法都產生了大量有意義的研究成果，并在實踐中取得了諸多成功案例。然而，從長遠看，我認為這些方法在本質上都代表了一種妥協 —— 這種妥協可能會削弱大規模學習模型原本所具備的強大能力與泛化潛力。

交叉點

在數據采集過程中，人類的判斷顯然無法回避：即便是最真實、最純粹的「白板式」學習方法，也必須由我們來設定模型應完成的任務目標。然而，當我們試圖規避對真實數據的依賴而做出的一些設計決策，往往會帶來更大的問題，因為這些決策本身就限制了解決問題的方式。

每存在一個領域差異（如模擬環境、視頻等），我們所能采用的解決方案就被限定在一個交集之中：

隨著模型能力的不斷增強，其區分替代數據域與真實世界目標域的能力也在提升（即圖中黃色圓圈收縮），這就導致行為策略的交集區域不斷縮小。

我們可以嘗試通過隱藏信息來對抗這一問題，例如減少觀察空間、引入領域不變性損失、限制機器人可用的攝像頭視角等等。幾乎所有用于緩解領域差異的方法歸根結底都是某種形式的信息隱藏。

但這種做法再次削弱了基礎模型的最大優勢—— 即整合復雜信息來源、提取人類難以察覺的細微模式的能力。

換句話說，隨著模型變強，黃色圓圈變小，而任何試圖阻止這一趨勢的做法，最終都等同于削弱模型能力。我們只能通過「讓模型變傻」，來「欺騙」它不去意識到自己身處「矩陣」之中。

這個交集區域的大小，還嚴重依賴于我們在構建替代數據時所做的設計決策 —— 設計得越糟糕，綠色圓圈（真實世界中成功策略的空間）與紅色圓圈（可用于訓練的替代策略空間）之間的交集就越小。

實際操作中，我們往往圍繞某幾個特定應用場景，精心設計替代數據的獲取方式，以盡可能縮小在這些場景下與真實機器人的差異，使得「良好行為」在這兩個系統中盡量一致。

但這種一致性在這些應用場景之外并無任何保障。

本質上，當我們用人類的數據來訓練機器人基礎模型，再讓它面對新的任務時，它會試圖預測「人類會如何解決這個問題」，而不是預測一個「機器人能如何高效完成這個任務」的策略。

這再次背離了基礎模型的核心優勢 —— 即具備廣泛通用性和強泛化能力，能夠將訓練模式推廣到全新領域。

而如今，每進入一個新領域，我們就需要投入更多的人工工作來改善替代數據與真實世界之間的對應關系；模型原本的泛化能力，反而成了我們的負擔 —— 它會放大替代數據與真實機器人之間的差距，使得我們在應對新場景時更為艱難。

當我們真正希望優化機器人的最優行為（例如通過強化學習）時，以上所有問題都會進一步加劇。

真實世界數據

當我們試圖回避使用真實世界數據的需求時，實際上是在追求一種「魚與熊掌兼得」的方案：既希望像模擬或網絡視頻那樣成本低廉，又希望像在大規模真實數據上訓練出的基礎模型那樣高效。

但最終得到的，往往只是一個「叉勺」—— 在極少數符合我們假設的場景中，它既能當叉子用，也能當勺子用，但大多數時候，它只是一個布滿孔洞的蹩腳勺子，或一個遲鈍無力的叉子。

在機器學習中，一貫最有效的方法是讓訓練數據盡可能貼近測試環境。這才是「真實的」—— 能夠教會模型世界真實運行機制的數據，從而讓模型能勝任任務，提取出其中的潛在規律；這些規律往往復雜而微妙，連人類都難以察覺，而模型卻能從中進行歸納推理，解決復雜的新問題。

當我們用替代數據代替真實數據時，其實是在做「次優之選」：只有在某些特定條件下，它才能勉強模擬真實情況。

就像你不可能通過單靠對著墻打球，或者看費德勒打網球的錄像，就成為一名真正的網球高手 —— 盡管這兩者確實復制了部分專業體驗；同樣的，機器人如果從未在真實世界中「親自下場」，也無法真正掌握如何在真實世界中行動。

那么，我們應從中得到什么啟示？

最關鍵的一點是：如果我們希望構建能夠在真實物理世界中具備廣泛泛化能力的機器人基礎模型，真實世界的數據是不可或缺的，正如 LLM 和 VLM 在虛擬世界中所展示的強大泛化能力一樣。

在構建訓練集時，如果我們在廣泛而具代表性的真實機器人經驗之外，加入包括人類演示、甚至仿真在內的多樣化數據源，往往會帶來幫助。事實上，可以坦然地將替代數據視為補充知識的來源—— 它的意義在于輔助，而非替代真實的實踐經驗。

在這種視角下，我們對替代數據的要求也將發生根本性的轉變：我們不再追求它在形態上盡可能接近真實機器人（比如使用手持夾爪，或讓人模仿機器人動作錄視頻），而是將其視為類似于 LLM 預訓練數據的存在 —— 不是直接告訴智能體該做什么，而是提供關于「真實世界可能發生什么」的知識來源。

叉勺（Sporks）

在本文中，我探討了「替代數據」這一「叉勺」 —— 它試圖在避免大規模真實數據采集成本的前提下，獲得大規模訓練的收益。但在人工智能研究中，替代數據并不是唯一的一把「叉勺」。

其他「叉勺」還包括：結合手工設計與學習組件的混合系統，利用人為設定的約束來限制自主學習系統不良行為的方法，以及將我們對問題求解方式的直覺，直接嵌入神經網絡架構中的模型設計。

這些方法都試圖「兼得」：既要享受大規模機器學習帶來的優勢，又要規避其高數據需求或繁瑣目標設計的代價。這些方法有著相似的核心：它們都是通過某種手工設計的歸納偏置，來應對訓練數據不完全的問題。

因此，它們也都面臨同樣的根本性缺陷：

需要我們人為地將「我們以為我們是怎么思考的方式」編碼進系統中。

在任何可學習系統中，任何不是通過學習獲得的、而是人工設計的部分，最終都將成為系統性能的瓶頸。

「叉勺」之所以吸引人，是因為它們讓我們覺得：只要讓模型按我們設定的方式解決問題，就能克服人工智能中的重大挑戰。但事實是，這樣做反而讓我們的學習系統更難以擴展 —— 盡管我們最初的意圖正是為了提升其擴展性。

更多信息，請參閱原博客。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.