99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

關于機器人數據,強化學習大佬Sergey Levine剛剛寫了篇好文章

0
分享至



機器之心報道

機器之心編輯部

我們知道,訓練大模型本就極具挑戰,而隨著模型規模的擴大與應用領域的拓展,難度也在不斷增加,所需的數據更是海量。

大型語言模型(LLM)主要依賴大量文本數據,視覺語言模型(VLM)則需要同時包含文本與圖像的數據,而在機器人領域,視覺 - 語言 - 行動模型(VLA)則要求大量真實世界中機器人執行任務的數據。

目前而言,Agent 是我們走向通用人工智能(AGI)的重要過渡。訓練 Agent 則需要帶有行動標簽的真實交互數據,而獲取這類數據的成本遠比從網頁上獲取文本與圖像的成本高昂得多。

因此,研究者一直在嘗試尋找一種替代方案,來實現魚和熊掌兼得的效果:既能夠降低數據獲取成本,又能夠保證大模型訓練成果,保持基礎模型訓練中常見的大規模數據帶來的優勢。

加州大學伯克利分校副教授,Physical Intelligence 的聯合創始人,強化學習領域大牛 Sergey Levine為此撰寫了一篇文章,分析了訓練大模型的數據組合,但他卻認為,魚和熊掌不可兼得,叉子和勺子組合成的「叉勺」確實很難在通用場景稱得上好用。





  • 博客標題:Sporks of AGI
  • 博客鏈接:https://sergeylevine.substack.com/p/sporks-of-agi

替代數據

盡管在視覺感知和自然語言處理任務中,真實世界數據一直被視為首選,但在智能體領域,尤其是機器人智能體(如視覺 - 語言 - 動作模型,VLA)中,研究者們始終在嘗試尋找「替代方案」—— 即能以較低成本獲取的代理數據,來代替昂貴的真實交互數據,同時仍具備訓練基礎模型所需的泛化能力。本文聚焦于機器人領域,但其他任務也基本遵循類似思路,只是采用了不同形式的替代數據。

仿真是一種經典策略。設想我們可以在《黑客帝國》般的虛擬環境,或高保真的電子游戲中訓練機器人,就有可能避免對真實世界數據的依賴。

雖然這些方案產生了大量令人興奮且富有創意的研究成果,但若從結構上可以將它們統一描述為:人為構建一個廉價代理域與真實機器人系統之間的映射關系,并基于這一映射,用廉價數據替代真實任務域中的昂貴數據。主流的幾種方法如下:

仿真(Simulation):

「仿真到現實」(sim-to-real)的方法依賴人類設計者指定機器人的訓練環境,并提供相應資源(如物理建模、視覺資產等)。機器人在仿真中學習到的行為很大程度上取決于這些人為設定。實際上,最有效的仿真往往并不追求對現實的高度還原(這本身極具挑戰),而是故意引入各種環境變化,如隨機的石板路或不同高度地形,以提高機器人魯棒性。這種設計方式不僅定義了任務「是什么」,也間接規定了任務應「如何完成」。

人類視頻(Human Videos):

基于人類視頻訓練機器人技能的方法,通常需要在人體與機器人之間建立某種對應關系,例如手的位置或手指的抓取動作。這種映射方式預設了一種具體的任務完成策略(例如通過「握持 - 搬運」的方式),同時也必須跨越人類與機器人在動力學和外觀上的差異鴻溝。

手持式夾爪設備(Hand-held Gripper Devices):

這種方法并非在訓練時構建映射關系,而是通過物理手段直接建立人機之間的映射。具體做法是讓人類使用手持設備來模仿機器人夾爪完成任務。這種方式頗具吸引力,因為參與者必須以類似機器人的方式執行任務。但這同樣隱含著一套「動作設定」前提:例如,設備默認機器人能在具有 6 自由度的操作空間中,僅使用手指完成任務,且不暴露機器人與人類在運動學結構或外觀上的差異。

以上方法都產生了大量有意義的研究成果,并在實踐中取得了諸多成功案例。然而,從長遠看,我認為這些方法在本質上都代表了一種妥協 —— 這種妥協可能會削弱大規模學習模型原本所具備的強大能力與泛化潛力。

交叉點

在數據采集過程中,人類的判斷顯然無法回避:即便是最真實、最純粹的「白板式」學習方法,也必須由我們來設定模型應完成的任務目標。然而,當我們試圖規避對真實數據的依賴而做出的一些設計決策,往往會帶來更大的問題,因為這些決策本身就限制了解決問題的方式。

每存在一個領域差異(如模擬環境、視頻等),我們所能采用的解決方案就被限定在一個交集之中:



隨著模型能力的不斷增強,其區分替代數據域與真實世界目標域的能力也在提升(即圖中黃色圓圈收縮),這就導致行為策略的交集區域不斷縮小。

我們可以嘗試通過隱藏信息來對抗這一問題,例如減少觀察空間、引入領域不變性損失、限制機器人可用的攝像頭視角等等。幾乎所有用于緩解領域差異的方法歸根結底都是某種形式的信息隱藏。

但這種做法再次削弱了基礎模型的最大優勢—— 即整合復雜信息來源、提取人類難以察覺的細微模式的能力。

換句話說,隨著模型變強,黃色圓圈變小,而任何試圖阻止這一趨勢的做法,最終都等同于削弱模型能力。我們只能通過「讓模型變傻」,來「欺騙」它不去意識到自己身處「矩陣」之中。

這個交集區域的大小,還嚴重依賴于我們在構建替代數據時所做的設計決策 —— 設計得越糟糕,綠色圓圈(真實世界中成功策略的空間)與紅色圓圈(可用于訓練的替代策略空間)之間的交集就越小。

實際操作中,我們往往圍繞某幾個特定應用場景,精心設計替代數據的獲取方式,以盡可能縮小在這些場景下與真實機器人的差異,使得「良好行為」在這兩個系統中盡量一致。

但這種一致性在這些應用場景之外并無任何保障。

本質上,當我們用人類的數據來訓練機器人基礎模型,再讓它面對新的任務時,它會試圖預測「人類會如何解決這個問題」,而不是預測一個「機器人能如何高效完成這個任務」的策略。

這再次背離了基礎模型的核心優勢 —— 即具備廣泛通用性和強泛化能力,能夠將訓練模式推廣到全新領域。

而如今,每進入一個新領域,我們就需要投入更多的人工工作來改善替代數據與真實世界之間的對應關系;模型原本的泛化能力,反而成了我們的負擔 —— 它會放大替代數據與真實機器人之間的差距,使得我們在應對新場景時更為艱難。



當我們真正希望優化機器人的最優行為(例如通過強化學習)時,以上所有問題都會進一步加劇。

真實世界數據

當我們試圖回避使用真實世界數據的需求時,實際上是在追求一種「魚與熊掌兼得」的方案:既希望像模擬或網絡視頻那樣成本低廉,又希望像在大規模真實數據上訓練出的基礎模型那樣高效。

但最終得到的,往往只是一個「叉勺」—— 在極少數符合我們假設的場景中,它既能當叉子用,也能當勺子用,但大多數時候,它只是一個布滿孔洞的蹩腳勺子,或一個遲鈍無力的叉子。

在機器學習中,一貫最有效的方法是讓訓練數據盡可能貼近測試環境。這才是「真實的」—— 能夠教會模型世界真實運行機制的數據,從而讓模型能勝任任務,提取出其中的潛在規律;這些規律往往復雜而微妙,連人類都難以察覺,而模型卻能從中進行歸納推理,解決復雜的新問題。

當我們用替代數據代替真實數據時,其實是在做「次優之選」:只有在某些特定條件下,它才能勉強模擬真實情況。

就像你不可能通過單靠對著墻打球,或者看費德勒打網球的錄像,就成為一名真正的網球高手 —— 盡管這兩者確實復制了部分專業體驗;同樣的,機器人如果從未在真實世界中「親自下場」,也無法真正掌握如何在真實世界中行動。

那么,我們應從中得到什么啟示?

最關鍵的一點是:如果我們希望構建能夠在真實物理世界中具備廣泛泛化能力的機器人基礎模型,真實世界的數據是不可或缺的,正如 LLM 和 VLM 在虛擬世界中所展示的強大泛化能力一樣。

在構建訓練集時,如果我們在廣泛而具代表性的真實機器人經驗之外,加入包括人類演示、甚至仿真在內的多樣化數據源,往往會帶來幫助。事實上,可以坦然地將替代數據視為補充知識的來源—— 它的意義在于輔助,而非替代真實的實踐經驗。

在這種視角下,我們對替代數據的要求也將發生根本性的轉變:我們不再追求它在形態上盡可能接近真實機器人(比如使用手持夾爪,或讓人模仿機器人動作錄視頻),而是將其視為類似于 LLM 預訓練數據的存在 —— 不是直接告訴智能體該做什么,而是提供關于「真實世界可能發生什么」的知識來源。

叉勺(Sporks)

在本文中,我探討了「替代數據」這一「叉勺」 —— 它試圖在避免大規模真實數據采集成本的前提下,獲得大規模訓練的收益。但在人工智能研究中,替代數據并不是唯一的一把「叉勺」。

其他「叉勺」還包括:結合手工設計與學習組件的混合系統,利用人為設定的約束來限制自主學習系統不良行為的方法,以及將我們對問題求解方式的直覺,直接嵌入神經網絡架構中的模型設計。

這些方法都試圖「兼得」:既要享受大規模機器學習帶來的優勢,又要規避其高數據需求或繁瑣目標設計的代價。這些方法有著相似的核心:它們都是通過某種手工設計的歸納偏置,來應對訓練數據不完全的問題。

因此,它們也都面臨同樣的根本性缺陷:

需要我們人為地將「我們以為我們是怎么思考的方式」編碼進系統中。

在任何可學習系統中,任何不是通過學習獲得的、而是人工設計的部分,最終都將成為系統性能的瓶頸。

「叉勺」之所以吸引人,是因為它們讓我們覺得:只要讓模型按我們設定的方式解決問題,就能克服人工智能中的重大挑戰。但事實是,這樣做反而讓我們的學習系統更難以擴展 —— 盡管我們最初的意圖正是為了提升其擴展性。

更多信息,請參閱原博客。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
同樣是華誼王中磊的孩子,王文也和王元也一對比,差距不是一般大

同樣是華誼王中磊的孩子,王文也和王元也一對比,差距不是一般大

新語愛八卦
2025-07-24 15:54:57
吃飯了,開始了

吃飯了,開始了

捭闔相濟
2025-07-24 11:37:20
妻子晉升后提出離婚,我收拾行李接受調任,再見面她懊悔我暢快

妻子晉升后提出離婚,我收拾行李接受調任,再見面她懊悔我暢快

紅豆講堂
2025-07-23 08:20:09
不合影不知道,一合影全露餡!原來這些明星都是潛藏的“小土豆”

不合影不知道,一合影全露餡!原來這些明星都是潛藏的“小土豆”

科學發掘
2025-07-24 02:43:53
中核集團總經理調整

中核集團總經理調整

老楊說光伏
2025-07-24 14:30:41
宣傳公職人員下班送外賣快樂又賺錢,這就是殺人誅心

宣傳公職人員下班送外賣快樂又賺錢,這就是殺人誅心

大何日拱一卒
2025-07-24 09:03:03
吳孟達去世才4年,他私下那點不堪,全讓50年老友王晶抖落出來了

吳孟達去世才4年,他私下那點不堪,全讓50年老友王晶抖落出來了

東方不敗然多多
2025-07-24 03:40:57
那年我結婚繼父給我一張卡,10年后去取錢,卡里的余額讓我看傻眼

那年我結婚繼父給我一張卡,10年后去取錢,卡里的余額讓我看傻眼

球場的看客
2025-06-12 00:14:07
這是希島あいり(希島愛里)最初也是最后的傳奇共演!

這是希島あいり(希島愛里)最初也是最后的傳奇共演!

孤獨的獨角獸影視
2025-06-09 09:55:15
不是想跳,是真沒活路了!53歲老板的絕望誰懂?員工:他是個好人

不是想跳,是真沒活路了!53歲老板的絕望誰懂?員工:他是個好人

夢史
2025-07-23 09:26:35
吃辣椒對糖尿病有好處?醫生:一旦患上糖尿病,建議常吃這6樣

吃辣椒對糖尿病有好處?醫生:一旦患上糖尿病,建議常吃這6樣

健身狂人
2025-07-24 14:18:48
2025年上半年SUV中國銷量TOP10出爐:特斯拉Model Y奪冠

2025年上半年SUV中國銷量TOP10出爐:特斯拉Model Y奪冠

FM93浙江交通之聲
2025-07-22 20:46:32
三伏天,這5種蔬菜再貴也要買,農藥殘留為“0”,大人小孩放心吃

三伏天,這5種蔬菜再貴也要買,農藥殘留為“0”,大人小孩放心吃

阿龍美食記
2025-07-24 14:12:07
美貌的天敵不是發福而是發腮!從林青霞到劉亦菲都因發腮顏值暴跌

美貌的天敵不是發福而是發腮!從林青霞到劉亦菲都因發腮顏值暴跌

上官晚安
2025-07-24 04:32:49
郵政銀行 大額存單最新變化:2025年7月,20萬存一年利息最劃算

郵政銀行 大額存單最新變化:2025年7月,20萬存一年利息最劃算

錘不倒的拖油瓶
2025-07-24 08:18:38
第二個立陶宛出現了,主動邀請賴清德訪問,中國68年的友誼喂了狗

第二個立陶宛出現了,主動邀請賴清德訪問,中國68年的友誼喂了狗

奧字侃娛
2025-07-23 16:28:03
成都迎機遇,三市若合并成功,或將崛起為新一線城市!

成都迎機遇,三市若合并成功,或將崛起為新一線城市!

行走的知識庫
2025-07-24 08:20:59
蘋果官宣,新功能太炸了!

蘋果官宣,新功能太炸了!

果粉俱樂部
2025-07-24 11:37:31
前國足主帥伊萬:中國隊選帥背后很多利益集團,我推薦了斯提馬克

前國足主帥伊萬:中國隊選帥背后很多利益集團,我推薦了斯提馬克

雷速體育
2025-07-23 14:37:21
特朗普終于打中要害?法新社曝出猛料:25年中國船廠訂單量暴跌?

特朗普終于打中要害?法新社曝出猛料:25年中國船廠訂單量暴跌?

掌青說歷史
2025-07-23 17:55:37
2025-07-24 17:16:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10933文章數 142393關注度
往期回顧 全部

科技要聞

利潤暴跌42%,馬斯克坦言:特斯拉正處難關

頭條要聞

佩通坦含淚譴責柬方:軍方做好準備 當前不是談判階段

頭條要聞

佩通坦含淚譴責柬方:軍方做好準備 當前不是談判階段

體育要聞

兒薩夢成真!巴薩曬視頻 拉什福德笑得合不攏嘴

娛樂要聞

梓渝又翻車!正宮2號說他約P共同好友

財經要聞

中國,這一步棋實在太厲害

汽車要聞

體驗全新一代博越 標配智慧座艙 還有新中式設計

態度原創

游戲
時尚
本地
家居
軍事航空

對話騰訊探索“定義品類”的項目:玩家有一直未被滿足的需求

到了中年,夏天穿褲子最好避開這兩種,選對了氣質立馬不一樣

本地新聞

換個城市過夏天|風拂鹽湖,躲進格爾木的盛夏清涼

家居要聞

山水豪庭 自然靈動空間

軍事要聞

泰國軍方稱已出動F-16戰機 摧毀柬方兩處軍事設施

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 寿阳县| 平远县| 策勒县| 磐安县| 盱眙县| 福州市| 灌南县| 上犹县| 丰顺县| 岳池县| 马山县| 宁波市| 南丰县| 会理县| 怀安县| 江陵县| 方正县| 大名县| 浦北县| 望城县| 泗水县| 鸡西市| 太康县| 哈巴河县| 隆尧县| 汨罗市| 延津县| 喀喇| 钟山县| 清河县| 闵行区| 连云港市| 乳山市| 漳州市| 江北区| 荣成市| 开远市| 梨树县| 湘潭县| 综艺| 长垣县|