99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

關(guān)于機(jī)器人數(shù)據(jù),強(qiáng)化學(xué)習(xí)大佬Sergey Levine剛剛寫了篇好文章

0
分享至



機(jī)器之心報(bào)道

機(jī)器之心編輯部

我們知道,訓(xùn)練大模型本就極具挑戰(zhàn),而隨著模型規(guī)模的擴(kuò)大與應(yīng)用領(lǐng)域的拓展,難度也在不斷增加,所需的數(shù)據(jù)更是海量。

大型語(yǔ)言模型(LLM)主要依賴大量文本數(shù)據(jù),視覺(jué)語(yǔ)言模型(VLM)則需要同時(shí)包含文本與圖像的數(shù)據(jù),而在機(jī)器人領(lǐng)域,視覺(jué) - 語(yǔ)言 - 行動(dòng)模型(VLA)則要求大量真實(shí)世界中機(jī)器人執(zhí)行任務(wù)的數(shù)據(jù)。

目前而言,Agent 是我們走向通用人工智能(AGI)的重要過(guò)渡。訓(xùn)練 Agent 則需要帶有行動(dòng)標(biāo)簽的真實(shí)交互數(shù)據(jù),而獲取這類數(shù)據(jù)的成本遠(yuǎn)比從網(wǎng)頁(yè)上獲取文本與圖像的成本高昂得多。

因此,研究者一直在嘗試尋找一種替代方案,來(lái)實(shí)現(xiàn)魚和熊掌兼得的效果:既能夠降低數(shù)據(jù)獲取成本,又能夠保證大模型訓(xùn)練成果,保持基礎(chǔ)模型訓(xùn)練中常見(jiàn)的大規(guī)模數(shù)據(jù)帶來(lái)的優(yōu)勢(shì)。

加州大學(xué)伯克利分校副教授,Physical Intelligence 的聯(lián)合創(chuàng)始人,強(qiáng)化學(xué)習(xí)領(lǐng)域大牛 Sergey Levine為此撰寫了一篇文章,分析了訓(xùn)練大模型的數(shù)據(jù)組合,但他卻認(rèn)為,魚和熊掌不可兼得,叉子和勺子組合成的「叉勺」確實(shí)很難在通用場(chǎng)景稱得上好用。





  • 博客標(biāo)題:Sporks of AGI
  • 博客鏈接:https://sergeylevine.substack.com/p/sporks-of-agi

替代數(shù)據(jù)

盡管在視覺(jué)感知和自然語(yǔ)言處理任務(wù)中,真實(shí)世界數(shù)據(jù)一直被視為首選,但在智能體領(lǐng)域,尤其是機(jī)器人智能體(如視覺(jué) - 語(yǔ)言 - 動(dòng)作模型,VLA)中,研究者們始終在嘗試尋找「替代方案」—— 即能以較低成本獲取的代理數(shù)據(jù),來(lái)代替昂貴的真實(shí)交互數(shù)據(jù),同時(shí)仍具備訓(xùn)練基礎(chǔ)模型所需的泛化能力。本文聚焦于機(jī)器人領(lǐng)域,但其他任務(wù)也基本遵循類似思路,只是采用了不同形式的替代數(shù)據(jù)。

仿真是一種經(jīng)典策略。設(shè)想我們可以在《黑客帝國(guó)》般的虛擬環(huán)境,或高保真的電子游戲中訓(xùn)練機(jī)器人,就有可能避免對(duì)真實(shí)世界數(shù)據(jù)的依賴。

雖然這些方案產(chǎn)生了大量令人興奮且富有創(chuàng)意的研究成果,但若從結(jié)構(gòu)上可以將它們統(tǒng)一描述為:人為構(gòu)建一個(gè)廉價(jià)代理域與真實(shí)機(jī)器人系統(tǒng)之間的映射關(guān)系,并基于這一映射,用廉價(jià)數(shù)據(jù)替代真實(shí)任務(wù)域中的昂貴數(shù)據(jù)。主流的幾種方法如下:

仿真(Simulation):

「仿真到現(xiàn)實(shí)」(sim-to-real)的方法依賴人類設(shè)計(jì)者指定機(jī)器人的訓(xùn)練環(huán)境,并提供相應(yīng)資源(如物理建模、視覺(jué)資產(chǎn)等)。機(jī)器人在仿真中學(xué)習(xí)到的行為很大程度上取決于這些人為設(shè)定。實(shí)際上,最有效的仿真往往并不追求對(duì)現(xiàn)實(shí)的高度還原(這本身極具挑戰(zhàn)),而是故意引入各種環(huán)境變化,如隨機(jī)的石板路或不同高度地形,以提高機(jī)器人魯棒性。這種設(shè)計(jì)方式不僅定義了任務(wù)「是什么」,也間接規(guī)定了任務(wù)應(yīng)「如何完成」。

人類視頻(Human Videos):

基于人類視頻訓(xùn)練機(jī)器人技能的方法,通常需要在人體與機(jī)器人之間建立某種對(duì)應(yīng)關(guān)系,例如手的位置或手指的抓取動(dòng)作。這種映射方式預(yù)設(shè)了一種具體的任務(wù)完成策略(例如通過(guò)「握持 - 搬運(yùn)」的方式),同時(shí)也必須跨越人類與機(jī)器人在動(dòng)力學(xué)和外觀上的差異鴻溝。

手持式夾爪設(shè)備(Hand-held Gripper Devices):

這種方法并非在訓(xùn)練時(shí)構(gòu)建映射關(guān)系,而是通過(guò)物理手段直接建立人機(jī)之間的映射。具體做法是讓人類使用手持設(shè)備來(lái)模仿機(jī)器人夾爪完成任務(wù)。這種方式頗具吸引力,因?yàn)閰⑴c者必須以類似機(jī)器人的方式執(zhí)行任務(wù)。但這同樣隱含著一套「動(dòng)作設(shè)定」前提:例如,設(shè)備默認(rèn)機(jī)器人能在具有 6 自由度的操作空間中,僅使用手指完成任務(wù),且不暴露機(jī)器人與人類在運(yùn)動(dòng)學(xué)結(jié)構(gòu)或外觀上的差異。

以上方法都產(chǎn)生了大量有意義的研究成果,并在實(shí)踐中取得了諸多成功案例。然而,從長(zhǎng)遠(yuǎn)看,我認(rèn)為這些方法在本質(zhì)上都代表了一種妥協(xié) —— 這種妥協(xié)可能會(huì)削弱大規(guī)模學(xué)習(xí)模型原本所具備的強(qiáng)大能力與泛化潛力。

交叉點(diǎn)

在數(shù)據(jù)采集過(guò)程中,人類的判斷顯然無(wú)法回避:即便是最真實(shí)、最純粹的「白板式」學(xué)習(xí)方法,也必須由我們來(lái)設(shè)定模型應(yīng)完成的任務(wù)目標(biāo)。然而,當(dāng)我們?cè)噲D規(guī)避對(duì)真實(shí)數(shù)據(jù)的依賴而做出的一些設(shè)計(jì)決策,往往會(huì)帶來(lái)更大的問(wèn)題,因?yàn)檫@些決策本身就限制了解決問(wèn)題的方式。

每存在一個(gè)領(lǐng)域差異(如模擬環(huán)境、視頻等),我們所能采用的解決方案就被限定在一個(gè)交集之中:



隨著模型能力的不斷增強(qiáng),其區(qū)分替代數(shù)據(jù)域與真實(shí)世界目標(biāo)域的能力也在提升(即圖中黃色圓圈收縮),這就導(dǎo)致行為策略的交集區(qū)域不斷縮小。

我們可以嘗試通過(guò)隱藏信息來(lái)對(duì)抗這一問(wèn)題,例如減少觀察空間、引入領(lǐng)域不變性損失、限制機(jī)器人可用的攝像頭視角等等。幾乎所有用于緩解領(lǐng)域差異的方法歸根結(jié)底都是某種形式的信息隱藏。

但這種做法再次削弱了基礎(chǔ)模型的最大優(yōu)勢(shì)—— 即整合復(fù)雜信息來(lái)源、提取人類難以察覺(jué)的細(xì)微模式的能力。

換句話說(shuō),隨著模型變強(qiáng),黃色圓圈變小,而任何試圖阻止這一趨勢(shì)的做法,最終都等同于削弱模型能力。我們只能通過(guò)「讓模型變傻」,來(lái)「欺騙」它不去意識(shí)到自己身處「矩陣」之中。

這個(gè)交集區(qū)域的大小,還嚴(yán)重依賴于我們?cè)跇?gòu)建替代數(shù)據(jù)時(shí)所做的設(shè)計(jì)決策 —— 設(shè)計(jì)得越糟糕,綠色圓圈(真實(shí)世界中成功策略的空間)與紅色圓圈(可用于訓(xùn)練的替代策略空間)之間的交集就越小。

實(shí)際操作中,我們往往圍繞某幾個(gè)特定應(yīng)用場(chǎng)景,精心設(shè)計(jì)替代數(shù)據(jù)的獲取方式,以盡可能縮小在這些場(chǎng)景下與真實(shí)機(jī)器人的差異,使得「良好行為」在這兩個(gè)系統(tǒng)中盡量一致。

但這種一致性在這些應(yīng)用場(chǎng)景之外并無(wú)任何保障。

本質(zhì)上,當(dāng)我們用人類的數(shù)據(jù)來(lái)訓(xùn)練機(jī)器人基礎(chǔ)模型,再讓它面對(duì)新的任務(wù)時(shí),它會(huì)試圖預(yù)測(cè)「人類會(huì)如何解決這個(gè)問(wèn)題」,而不是預(yù)測(cè)一個(gè)「機(jī)器人能如何高效完成這個(gè)任務(wù)」的策略。

這再次背離了基礎(chǔ)模型的核心優(yōu)勢(shì) —— 即具備廣泛通用性和強(qiáng)泛化能力,能夠?qū)⒂?xùn)練模式推廣到全新領(lǐng)域。

而如今,每進(jìn)入一個(gè)新領(lǐng)域,我們就需要投入更多的人工工作來(lái)改善替代數(shù)據(jù)與真實(shí)世界之間的對(duì)應(yīng)關(guān)系;模型原本的泛化能力,反而成了我們的負(fù)擔(dān) —— 它會(huì)放大替代數(shù)據(jù)與真實(shí)機(jī)器人之間的差距,使得我們?cè)趹?yīng)對(duì)新場(chǎng)景時(shí)更為艱難。



當(dāng)我們真正希望優(yōu)化機(jī)器人的最優(yōu)行為(例如通過(guò)強(qiáng)化學(xué)習(xí))時(shí),以上所有問(wèn)題都會(huì)進(jìn)一步加劇。

真實(shí)世界數(shù)據(jù)

當(dāng)我們?cè)噲D回避使用真實(shí)世界數(shù)據(jù)的需求時(shí),實(shí)際上是在追求一種「魚與熊掌兼得」的方案:既希望像模擬或網(wǎng)絡(luò)視頻那樣成本低廉,又希望像在大規(guī)模真實(shí)數(shù)據(jù)上訓(xùn)練出的基礎(chǔ)模型那樣高效。

但最終得到的,往往只是一個(gè)「叉勺」—— 在極少數(shù)符合我們假設(shè)的場(chǎng)景中,它既能當(dāng)叉子用,也能當(dāng)勺子用,但大多數(shù)時(shí)候,它只是一個(gè)布滿孔洞的蹩腳勺子,或一個(gè)遲鈍無(wú)力的叉子。

在機(jī)器學(xué)習(xí)中,一貫最有效的方法是讓訓(xùn)練數(shù)據(jù)盡可能貼近測(cè)試環(huán)境。這才是「真實(shí)的」—— 能夠教會(huì)模型世界真實(shí)運(yùn)行機(jī)制的數(shù)據(jù),從而讓模型能勝任任務(wù),提取出其中的潛在規(guī)律;這些規(guī)律往往復(fù)雜而微妙,連人類都難以察覺(jué),而模型卻能從中進(jìn)行歸納推理,解決復(fù)雜的新問(wèn)題。

當(dāng)我們用替代數(shù)據(jù)代替真實(shí)數(shù)據(jù)時(shí),其實(shí)是在做「次優(yōu)之選」:只有在某些特定條件下,它才能勉強(qiáng)模擬真實(shí)情況。

就像你不可能通過(guò)單靠對(duì)著墻打球,或者看費(fèi)德勒打網(wǎng)球的錄像,就成為一名真正的網(wǎng)球高手 —— 盡管這兩者確實(shí)復(fù)制了部分專業(yè)體驗(yàn);同樣的,機(jī)器人如果從未在真實(shí)世界中「親自下場(chǎng)」,也無(wú)法真正掌握如何在真實(shí)世界中行動(dòng)。

那么,我們應(yīng)從中得到什么啟示?

最關(guān)鍵的一點(diǎn)是:如果我們希望構(gòu)建能夠在真實(shí)物理世界中具備廣泛泛化能力的機(jī)器人基礎(chǔ)模型,真實(shí)世界的數(shù)據(jù)是不可或缺的,正如 LLM 和 VLM 在虛擬世界中所展示的強(qiáng)大泛化能力一樣。

在構(gòu)建訓(xùn)練集時(shí),如果我們?cè)趶V泛而具代表性的真實(shí)機(jī)器人經(jīng)驗(yàn)之外,加入包括人類演示、甚至仿真在內(nèi)的多樣化數(shù)據(jù)源,往往會(huì)帶來(lái)幫助。事實(shí)上,可以坦然地將替代數(shù)據(jù)視為補(bǔ)充知識(shí)的來(lái)源—— 它的意義在于輔助,而非替代真實(shí)的實(shí)踐經(jīng)驗(yàn)。

在這種視角下,我們對(duì)替代數(shù)據(jù)的要求也將發(fā)生根本性的轉(zhuǎn)變:我們不再追求它在形態(tài)上盡可能接近真實(shí)機(jī)器人(比如使用手持夾爪,或讓人模仿機(jī)器人動(dòng)作錄視頻),而是將其視為類似于 LLM 預(yù)訓(xùn)練數(shù)據(jù)的存在 —— 不是直接告訴智能體該做什么,而是提供關(guān)于「真實(shí)世界可能發(fā)生什么」的知識(shí)來(lái)源。

叉勺(Sporks)

在本文中,我探討了「替代數(shù)據(jù)」這一「叉勺」 —— 它試圖在避免大規(guī)模真實(shí)數(shù)據(jù)采集成本的前提下,獲得大規(guī)模訓(xùn)練的收益。但在人工智能研究中,替代數(shù)據(jù)并不是唯一的一把「叉勺」。

其他「叉勺」還包括:結(jié)合手工設(shè)計(jì)與學(xué)習(xí)組件的混合系統(tǒng),利用人為設(shè)定的約束來(lái)限制自主學(xué)習(xí)系統(tǒng)不良行為的方法,以及將我們對(duì)問(wèn)題求解方式的直覺(jué),直接嵌入神經(jīng)網(wǎng)絡(luò)架構(gòu)中的模型設(shè)計(jì)。

這些方法都試圖「兼得」:既要享受大規(guī)模機(jī)器學(xué)習(xí)帶來(lái)的優(yōu)勢(shì),又要規(guī)避其高數(shù)據(jù)需求或繁瑣目標(biāo)設(shè)計(jì)的代價(jià)。這些方法有著相似的核心:它們都是通過(guò)某種手工設(shè)計(jì)的歸納偏置,來(lái)應(yīng)對(duì)訓(xùn)練數(shù)據(jù)不完全的問(wèn)題。

因此,它們也都面臨同樣的根本性缺陷:

需要我們?nèi)藶榈貙ⅰ肝覀円詾槲覀兪窃趺此伎嫉姆绞健咕幋a進(jìn)系統(tǒng)中。

在任何可學(xué)習(xí)系統(tǒng)中,任何不是通過(guò)學(xué)習(xí)獲得的、而是人工設(shè)計(jì)的部分,最終都將成為系統(tǒng)性能的瓶頸。

「叉勺」之所以吸引人,是因?yàn)樗鼈冏屛覀冇X(jué)得:只要讓模型按我們?cè)O(shè)定的方式解決問(wèn)題,就能克服人工智能中的重大挑戰(zhàn)。但事實(shí)是,這樣做反而讓我們的學(xué)習(xí)系統(tǒng)更難以擴(kuò)展 —— 盡管我們最初的意圖正是為了提升其擴(kuò)展性。

更多信息,請(qǐng)參閱原博客。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
步入60歲之后才明白,只有女兒的家庭,晚年通常會(huì)面臨這五大難題

步入60歲之后才明白,只有女兒的家庭,晚年通常會(huì)面臨這五大難題

十指說(shuō)情
2025-07-21 17:33:44
“消失的嘴唇”,年紀(jì)一大嘴唇就變薄,顯老沒(méi)氣質(zhì),男神也變路人

“消失的嘴唇”,年紀(jì)一大嘴唇就變薄,顯老沒(méi)氣質(zhì),男神也變路人

上官晚安
2025-07-16 17:48:03
華附文科生撿漏北大!深圳高校全面吊打廣州

華附文科生撿漏北大!深圳高校全面吊打廣州

房頻
2025-07-22 10:35:12
日本女籃主帥:田中心出色完成任務(wù),下次再戰(zhàn)我們會(huì)完全不同

日本女籃主帥:田中心出色完成任務(wù),下次再戰(zhàn)我們會(huì)完全不同

懂球帝
2025-07-22 22:30:17
中央?yún)R金二季度2000億元 增持10只寬基ETF

中央?yún)R金二季度2000億元 增持10只寬基ETF

每日經(jīng)濟(jì)新聞
2025-07-22 06:36:22
王小波:人有無(wú)尊嚴(yán),有一個(gè)簡(jiǎn)單的判據(jù)

王小波:人有無(wú)尊嚴(yán),有一個(gè)簡(jiǎn)單的判據(jù)

尚曦讀史
2025-06-12 20:35:03
美近700萬(wàn)家庭或遭遇“糧食危機(jī)”

美近700萬(wàn)家庭或遭遇“糧食危機(jī)”

環(huán)球時(shí)報(bào)國(guó)際
2025-07-22 10:50:39
事發(fā)寧波!“砰”一聲巨響,只剩一條30厘米生死縫……

事發(fā)寧波!“砰”一聲巨響,只剩一條30厘米生死縫……

環(huán)球網(wǎng)資訊
2025-07-21 21:15:20
汪小菲邀請(qǐng)S媽來(lái)北京看孩子,費(fèi)用他全包,馬筱梅趕緊跟了一句話

汪小菲邀請(qǐng)S媽來(lái)北京看孩子,費(fèi)用他全包,馬筱梅趕緊跟了一句話

萱小蕾o
2025-07-21 12:20:07
包工頭與食堂大姐相好5年,項(xiàng)目完工提分開(kāi),這才意識(shí)到晚了

包工頭與食堂大姐相好5年,項(xiàng)目完工提分開(kāi),這才意識(shí)到晚了

磊子講史
2025-06-28 16:28:57
前業(yè)委會(huì)主任曝撬盤新套路:業(yè)主察覺(jué)上當(dāng)時(shí),這幫人早已賣房走人

前業(yè)委會(huì)主任曝撬盤新套路:業(yè)主察覺(jué)上當(dāng)時(shí),這幫人早已賣房走人

水泥土的搞笑
2025-07-21 18:04:22
普京終于找到3年多打不贏烏克蘭原因,俄不再忍讓,大戰(zhàn)即將爆發(fā)

普京終于找到3年多打不贏烏克蘭原因,俄不再忍讓,大戰(zhàn)即將爆發(fā)

探史
2025-07-20 15:37:51
36歲博士生,偷稅1200多萬(wàn)

36歲博士生,偷稅1200多萬(wàn)

極目新聞
2025-07-22 21:58:30
新航母比福建艦寬8米?專家:中國(guó)第4艘航母,作戰(zhàn)能力達(dá)到新高度

新航母比福建艦寬8米?專家:中國(guó)第4艘航母,作戰(zhàn)能力達(dá)到新高度

墨羽怪談
2025-07-21 14:35:08
我?guī)屠瞎冢怀粤司海泻γ?>
    </a>
        <h3>
      <a href=說(shuō)點(diǎn)事
2025-07-15 16:08:38
血戰(zhàn)北陽(yáng)堡:“子彈管夠”,500老八路殺紅眼,一天殺死600鬼子兵

血戰(zhàn)北陽(yáng)堡:“子彈管夠”,500老八路殺紅眼,一天殺死600鬼子兵

顧史
2025-07-18 20:35:23
狗明明比貓聽(tīng)話的多,為何如今養(yǎng)貓的反而比狗多了?

狗明明比貓聽(tīng)話的多,為何如今養(yǎng)貓的反而比狗多了?

心中的麥田
2025-07-21 18:34:32
曾志偉合影辱華藝人風(fēng)波升級(jí)!致歉評(píng)論區(qū)控不住,多次涉爭(zhēng)議事件

曾志偉合影辱華藝人風(fēng)波升級(jí)!致歉評(píng)論區(qū)控不住,多次涉爭(zhēng)議事件

萌神木木
2025-07-21 16:42:06
浙江高校招生大洗牌:寧大逆襲,杭電超越浙工大,溫醫(yī)排名暴跌

浙江高校招生大洗牌:寧大逆襲,杭電超越浙工大,溫醫(yī)排名暴跌

特特農(nóng)村生活
2025-07-22 16:38:01
宗慶后再被曝猛料,魔爪伸向多名女員工,還有浙大高材生為他生子

宗慶后再被曝猛料,魔爪伸向多名女員工,還有浙大高材生為他生子

寒士之言本尊
2025-07-18 01:15:03
2025-07-23 03:55:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
10916文章數(shù) 142391關(guān)注度
往期回顧 全部

科技要聞

李開(kāi)復(fù)推企業(yè)級(jí)Agent,誓要打造"超級(jí)員工"

頭條要聞

特朗普想讓美國(guó)版可樂(lè)用蔗糖 可口可樂(lè):今秋推出

頭條要聞

特朗普想讓美國(guó)版可樂(lè)用蔗糖 可口可樂(lè):今秋推出

體育要聞

迪馬:米蘭和布萊頓將處理文書工作,預(yù)計(jì)埃斯圖皮尼安明日抵達(dá)

娛樂(lè)要聞

葉珂復(fù)播 自曝產(chǎn)女后與黃曉明徹底分手

財(cái)經(jīng)要聞

宗馥莉掌控離岸公司 遺產(chǎn)爭(zhēng)奪或早有布局

汽車要聞

看著像保時(shí)捷?賓利首款純電動(dòng)車諜照曝光

態(tài)度原創(chuàng)

游戲
藝術(shù)
本地
手機(jī)
軍事航空

你可能已經(jīng)忘了,但在童年你就打過(guò)你老婆屁股了

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

換個(gè)城市過(guò)夏天 | 躲進(jìn)18℃的綠野仙蹤

手機(jī)要聞

一加15與一加Ace 6系列:或雙機(jī)齊發(fā),且配置規(guī)格也懸念不大了

軍事要聞

25國(guó)發(fā)聯(lián)合聲明呼吁立即結(jié)束加沙戰(zhàn)爭(zhēng) 以色列嚴(yán)正拒絕

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 青神县| 秦安县| 甘肃省| 龙海市| 赤城县| 咸宁市| 台山市| 清涧县| 德州市| 乌兰县| 同仁县| 都昌县| 高淳县| 嘉定区| 泰州市| 桦甸市| 新平| 腾冲县| 崇礼县| 孟州市| 绿春县| 拜泉县| 沅陵县| 行唐县| 枞阳县| 岐山县| 天峨县| 三门县| 昌平区| 北碚区| 临沧市| 临武县| 望江县| 岑巩县| 唐河县| 松江区| 云龙县| 灵石县| 大理市| 台安县| 呼玛县|