99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

關于機器人數據,強化學習大佬Sergey Levine剛剛寫了篇好文章

0
分享至



機器之心報道

機器之心編輯部

我們知道,訓練大模型本就極具挑戰,而隨著模型規模的擴大與應用領域的拓展,難度也在不斷增加,所需的數據更是海量。

大型語言模型(LLM)主要依賴大量文本數據,視覺語言模型(VLM)則需要同時包含文本與圖像的數據,而在機器人領域,視覺 - 語言 - 行動模型(VLA)則要求大量真實世界中機器人執行任務的數據。

目前而言,Agent 是我們走向通用人工智能(AGI)的重要過渡。訓練 Agent 則需要帶有行動標簽的真實交互數據,而獲取這類數據的成本遠比從網頁上獲取文本與圖像的成本高昂得多。

因此,研究者一直在嘗試尋找一種替代方案,來實現魚和熊掌兼得的效果:既能夠降低數據獲取成本,又能夠保證大模型訓練成果,保持基礎模型訓練中常見的大規模數據帶來的優勢。

加州大學伯克利分校副教授,Physical Intelligence 的聯合創始人,強化學習領域大牛 Sergey Levine為此撰寫了一篇文章,分析了訓練大模型的數據組合,但他卻認為,魚和熊掌不可兼得,叉子和勺子組合成的「叉勺」確實很難在通用場景稱得上好用。





  • 博客標題:Sporks of AGI
  • 博客鏈接:https://sergeylevine.substack.com/p/sporks-of-agi

替代數據

盡管在視覺感知和自然語言處理任務中,真實世界數據一直被視為首選,但在智能體領域,尤其是機器人智能體(如視覺 - 語言 - 動作模型,VLA)中,研究者們始終在嘗試尋找「替代方案」—— 即能以較低成本獲取的代理數據,來代替昂貴的真實交互數據,同時仍具備訓練基礎模型所需的泛化能力。本文聚焦于機器人領域,但其他任務也基本遵循類似思路,只是采用了不同形式的替代數據。

仿真是一種經典策略。設想我們可以在《黑客帝國》般的虛擬環境,或高保真的電子游戲中訓練機器人,就有可能避免對真實世界數據的依賴。

雖然這些方案產生了大量令人興奮且富有創意的研究成果,但若從結構上可以將它們統一描述為:人為構建一個廉價代理域與真實機器人系統之間的映射關系,并基于這一映射,用廉價數據替代真實任務域中的昂貴數據。主流的幾種方法如下:

仿真(Simulation):

「仿真到現實」(sim-to-real)的方法依賴人類設計者指定機器人的訓練環境,并提供相應資源(如物理建模、視覺資產等)。機器人在仿真中學習到的行為很大程度上取決于這些人為設定。實際上,最有效的仿真往往并不追求對現實的高度還原(這本身極具挑戰),而是故意引入各種環境變化,如隨機的石板路或不同高度地形,以提高機器人魯棒性。這種設計方式不僅定義了任務「是什么」,也間接規定了任務應「如何完成」。

人類視頻(Human Videos):

基于人類視頻訓練機器人技能的方法,通常需要在人體與機器人之間建立某種對應關系,例如手的位置或手指的抓取動作。這種映射方式預設了一種具體的任務完成策略(例如通過「握持 - 搬運」的方式),同時也必須跨越人類與機器人在動力學和外觀上的差異鴻溝。

手持式夾爪設備(Hand-held Gripper Devices):

這種方法并非在訓練時構建映射關系,而是通過物理手段直接建立人機之間的映射。具體做法是讓人類使用手持設備來模仿機器人夾爪完成任務。這種方式頗具吸引力,因為參與者必須以類似機器人的方式執行任務。但這同樣隱含著一套「動作設定」前提:例如,設備默認機器人能在具有 6 自由度的操作空間中,僅使用手指完成任務,且不暴露機器人與人類在運動學結構或外觀上的差異。

以上方法都產生了大量有意義的研究成果,并在實踐中取得了諸多成功案例。然而,從長遠看,我認為這些方法在本質上都代表了一種妥協 —— 這種妥協可能會削弱大規模學習模型原本所具備的強大能力與泛化潛力。

交叉點

在數據采集過程中,人類的判斷顯然無法回避:即便是最真實、最純粹的「白板式」學習方法,也必須由我們來設定模型應完成的任務目標。然而,當我們試圖規避對真實數據的依賴而做出的一些設計決策,往往會帶來更大的問題,因為這些決策本身就限制了解決問題的方式。

每存在一個領域差異(如模擬環境、視頻等),我們所能采用的解決方案就被限定在一個交集之中:



隨著模型能力的不斷增強,其區分替代數據域與真實世界目標域的能力也在提升(即圖中黃色圓圈收縮),這就導致行為策略的交集區域不斷縮小。

我們可以嘗試通過隱藏信息來對抗這一問題,例如減少觀察空間、引入領域不變性損失、限制機器人可用的攝像頭視角等等。幾乎所有用于緩解領域差異的方法歸根結底都是某種形式的信息隱藏。

但這種做法再次削弱了基礎模型的最大優勢—— 即整合復雜信息來源、提取人類難以察覺的細微模式的能力。

換句話說,隨著模型變強,黃色圓圈變小,而任何試圖阻止這一趨勢的做法,最終都等同于削弱模型能力。我們只能通過「讓模型變傻」,來「欺騙」它不去意識到自己身處「矩陣」之中。

這個交集區域的大小,還嚴重依賴于我們在構建替代數據時所做的設計決策 —— 設計得越糟糕,綠色圓圈(真實世界中成功策略的空間)與紅色圓圈(可用于訓練的替代策略空間)之間的交集就越小。

實際操作中,我們往往圍繞某幾個特定應用場景,精心設計替代數據的獲取方式,以盡可能縮小在這些場景下與真實機器人的差異,使得「良好行為」在這兩個系統中盡量一致。

但這種一致性在這些應用場景之外并無任何保障。

本質上,當我們用人類的數據來訓練機器人基礎模型,再讓它面對新的任務時,它會試圖預測「人類會如何解決這個問題」,而不是預測一個「機器人能如何高效完成這個任務」的策略。

這再次背離了基礎模型的核心優勢 —— 即具備廣泛通用性和強泛化能力,能夠將訓練模式推廣到全新領域。

而如今,每進入一個新領域,我們就需要投入更多的人工工作來改善替代數據與真實世界之間的對應關系;模型原本的泛化能力,反而成了我們的負擔 —— 它會放大替代數據與真實機器人之間的差距,使得我們在應對新場景時更為艱難。



當我們真正希望優化機器人的最優行為(例如通過強化學習)時,以上所有問題都會進一步加劇。

真實世界數據

當我們試圖回避使用真實世界數據的需求時,實際上是在追求一種「魚與熊掌兼得」的方案:既希望像模擬或網絡視頻那樣成本低廉,又希望像在大規模真實數據上訓練出的基礎模型那樣高效。

但最終得到的,往往只是一個「叉勺」—— 在極少數符合我們假設的場景中,它既能當叉子用,也能當勺子用,但大多數時候,它只是一個布滿孔洞的蹩腳勺子,或一個遲鈍無力的叉子。

在機器學習中,一貫最有效的方法是讓訓練數據盡可能貼近測試環境。這才是「真實的」—— 能夠教會模型世界真實運行機制的數據,從而讓模型能勝任任務,提取出其中的潛在規律;這些規律往往復雜而微妙,連人類都難以察覺,而模型卻能從中進行歸納推理,解決復雜的新問題。

當我們用替代數據代替真實數據時,其實是在做「次優之選」:只有在某些特定條件下,它才能勉強模擬真實情況。

就像你不可能通過單靠對著墻打球,或者看費德勒打網球的錄像,就成為一名真正的網球高手 —— 盡管這兩者確實復制了部分專業體驗;同樣的,機器人如果從未在真實世界中「親自下場」,也無法真正掌握如何在真實世界中行動。

那么,我們應從中得到什么啟示?

最關鍵的一點是:如果我們希望構建能夠在真實物理世界中具備廣泛泛化能力的機器人基礎模型,真實世界的數據是不可或缺的,正如 LLM 和 VLM 在虛擬世界中所展示的強大泛化能力一樣。

在構建訓練集時,如果我們在廣泛而具代表性的真實機器人經驗之外,加入包括人類演示、甚至仿真在內的多樣化數據源,往往會帶來幫助。事實上,可以坦然地將替代數據視為補充知識的來源—— 它的意義在于輔助,而非替代真實的實踐經驗。

在這種視角下,我們對替代數據的要求也將發生根本性的轉變:我們不再追求它在形態上盡可能接近真實機器人(比如使用手持夾爪,或讓人模仿機器人動作錄視頻),而是將其視為類似于 LLM 預訓練數據的存在 —— 不是直接告訴智能體該做什么,而是提供關于「真實世界可能發生什么」的知識來源。

叉勺(Sporks)

在本文中,我探討了「替代數據」這一「叉勺」 —— 它試圖在避免大規模真實數據采集成本的前提下,獲得大規模訓練的收益。但在人工智能研究中,替代數據并不是唯一的一把「叉勺」。

其他「叉勺」還包括:結合手工設計與學習組件的混合系統,利用人為設定的約束來限制自主學習系統不良行為的方法,以及將我們對問題求解方式的直覺,直接嵌入神經網絡架構中的模型設計。

這些方法都試圖「兼得」:既要享受大規模機器學習帶來的優勢,又要規避其高數據需求或繁瑣目標設計的代價。這些方法有著相似的核心:它們都是通過某種手工設計的歸納偏置,來應對訓練數據不完全的問題。

因此,它們也都面臨同樣的根本性缺陷:

需要我們人為地將「我們以為我們是怎么思考的方式」編碼進系統中。

在任何可學習系統中,任何不是通過學習獲得的、而是人工設計的部分,最終都將成為系統性能的瓶頸。

「叉勺」之所以吸引人,是因為它們讓我們覺得:只要讓模型按我們設定的方式解決問題,就能克服人工智能中的重大挑戰。但事實是,這樣做反而讓我們的學習系統更難以擴展 —— 盡管我們最初的意圖正是為了提升其擴展性。

更多信息,請參閱原博客。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
DeepSeek月均下載量暴跌72.2%!周鴻祎:梁文鋒不屑于做APP,他把技術全都開源免費【附大模型行業市場分析】

DeepSeek月均下載量暴跌72.2%!周鴻祎:梁文鋒不屑于做APP,他把技術全都開源免費【附大模型行業市場分析】

前瞻網
2025-07-25 09:17:51
宗慶后杜建英曝出新大瓜,網傳杜建英趁宗慶后重病,逼迫他立遺囑

宗慶后杜建英曝出新大瓜,網傳杜建英趁宗慶后重病,逼迫他立遺囑

花哥扒娛樂
2025-07-25 23:08:30
“抽打臀部、模擬性愛相關動作……”微信公告:或永久封號

“抽打臀部、模擬性愛相關動作……”微信公告:或永久封號

南方都市報
2025-07-25 19:46:14
因吃了繼母瓜子被父親毒打3年,老年求和時,兒子:你我生死無關

因吃了繼母瓜子被父親毒打3年,老年求和時,兒子:你我生死無關

浩舞默畫
2025-07-26 09:22:18
洪森喊保家衛國,家人卻早已撤離:1700萬民眾在為誰的戰爭買單?

洪森喊保家衛國,家人卻早已撤離:1700萬民眾在為誰的戰爭買單?

流年拾光
2025-07-25 13:11:16
國家為什么會強力保護私生子的繼承權?

國家為什么會強力保護私生子的繼承權?

伊歷史
2025-07-24 16:26:01
馬克龍稱法國將承認巴勒斯坦國,特朗普表態

馬克龍稱法國將承認巴勒斯坦國,特朗普表態

環球網資訊
2025-07-25 22:37:24
舊衣不送人,舊鞋不亂扔,這3個處理方法,讓你守住自己的財氣

舊衣不送人,舊鞋不亂扔,這3個處理方法,讓你守住自己的財氣

第四思維
2025-07-23 13:09:45
福耀科技大學分數公布僅2天,惡心一幕上演,錄取考生回應太解氣

福耀科技大學分數公布僅2天,惡心一幕上演,錄取考生回應太解氣

小丸子的娛樂圈
2025-07-26 07:36:25
太悲痛了!東北大學遇難者的母親來接孩子了,她們的淚水早已哭干

太悲痛了!東北大學遇難者的母親來接孩子了,她們的淚水早已哭干

火山詩話
2025-07-26 06:01:01
英特爾首次警告考慮放棄研發下一代尖端芯片,美媒:可能是美芯片制造業末日的開端

英特爾首次警告考慮放棄研發下一代尖端芯片,美媒:可能是美芯片制造業末日的開端

環球網資訊
2025-07-25 12:50:43
女飛行員劉憶北風波發酵!女孩被質疑齙牙和斗雞眼,知情人回應!

女飛行員劉憶北風波發酵!女孩被質疑齙牙和斗雞眼,知情人回應!

古希臘掌管松餅的神
2025-07-25 19:21:45
河北女生用通知書“切西瓜”,視頻還沒火,北化工表態:明年停用

河北女生用通知書“切西瓜”,視頻還沒火,北化工表態:明年停用

妍妍教育日記
2025-07-25 19:50:15
42歲伊萬卡遇26歲姆巴佩:1次晚餐,交集只因孩子?

42歲伊萬卡遇26歲姆巴佩:1次晚餐,交集只因孩子?

超級圣迷
2025-07-26 08:50:03
72年來首次!中國“最神秘軍校”招錄本科女學員

72年來首次!中國“最神秘軍校”招錄本科女學員

上觀新聞
2025-07-26 06:32:05
關鍵時刻,王毅會見東盟秘書長

關鍵時刻,王毅會見東盟秘書長

新民晚報
2025-07-26 09:21:49
中科院楊俊杰博士去世,年僅42歲,死因曝光,老同學:她太辛苦了

中科院楊俊杰博士去世,年僅42歲,死因曝光,老同學:她太辛苦了

叨嘮
2025-07-25 23:22:14
三個姑姑分掉女孩父親遺產后續:二姑身份被扒,瓜分百萬遭起訴

三個姑姑分掉女孩父親遺產后續:二姑身份被扒,瓜分百萬遭起訴

阿纂看事
2025-07-25 17:28:52
德國專家帶團隊首次來中國實地走訪,出了機場全愣住:這是中國?

德國專家帶團隊首次來中國實地走訪,出了機場全愣住:這是中國?

今天說故事
2025-07-25 10:20:14
關于佛山的新型疫情,網友們有了這樣一個聯想

關于佛山的新型疫情,網友們有了這樣一個聯想

清暉有墨
2025-07-25 14:11:25
2025-07-26 13:03:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10945文章數 142394關注度
往期回顧 全部

科技要聞

AI教父辛頓現身上海:人類如何不被AI殺掉

頭條要聞

3元面館因"48元一杯茅臺"爆火 店主:身心俱疲 已下架

頭條要聞

3元面館因"48元一杯茅臺"爆火 店主:身心俱疲 已下架

體育要聞

3年過去了,她還是歐洲杯上最酷的姐

娛樂要聞

王菲近況惹人憂!謝霆鋒疑似重操“老本行”?

財經要聞

劉煜輝:當下重要不是找確定性而是轉折點

汽車要聞

"得房率"超90% 全新嵐圖知音空間信息曝光

態度原創

家居
時尚
手機
健康
軍事航空

家居要聞

環繞設計 空間動線合理

00小花,怎么不算人均母胎美人呢?

手機要聞

華為Mate XTs消息現身,升級點非常多

呼吸科專家破解呼吸道九大謠言!

軍事要聞

吳謙少將任中國駐埃及使館國防武官

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 丰城市| 宣城市| 万宁市| 腾冲县| 屯昌县| 抚顺县| 白沙| 宁河县| 连云港市| 临西县| 城固县| 高淳县| 佛教| 鄢陵县| 磴口县| 崇信县| 罗江县| 仙居县| 遂宁市| 军事| 观塘区| 靖安县| 玉环县| 石门县| 宁陕县| 集贤县| 响水县| 花垣县| 加查县| 富顺县| 盐亭县| 黄大仙区| 龙海市| 阿鲁科尔沁旗| 灌阳县| 白城市| 土默特左旗| 垣曲县| 开鲁县| 应用必备| 图们市|