99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

用動(dòng)作分塊突破RL極限,伯克利引入模仿學(xué)習(xí),超越離線/在線SOTA

0
分享至



機(jī)器之心報(bào)道

編輯:杜偉、冷貓

如今,強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)在多個(gè)領(lǐng)域已取得顯著成果。

在實(shí)際應(yīng)用中,具有長(zhǎng)時(shí)間跨度和稀疏獎(jiǎng)勵(lì)特征的任務(wù)非常常見,而強(qiáng)化學(xué)習(xí)方法在這類任務(wù)中的表現(xiàn)仍難令人滿意。

傳統(tǒng)強(qiáng)化學(xué)習(xí)方法在此類任務(wù)中的探索能力常常不足,因?yàn)橹挥性趫?zhí)行一系列較長(zhǎng)的動(dòng)作序列后才能獲得獎(jiǎng)勵(lì),這導(dǎo)致合理時(shí)間內(nèi)找到有效策略變得極其困難。

假如將模仿學(xué)習(xí)(Imitation Learning, IL)的思路引入強(qiáng)化學(xué)習(xí)方法,能否改善這一情況呢?

模仿學(xué)習(xí)通過觀察專家的行為并模仿其策略來學(xué)習(xí),通常用于強(qiáng)化學(xué)習(xí)的早期階段,尤其是在狀態(tài)空間和動(dòng)作空間巨大且難以設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)的場(chǎng)景。

近年來,模仿學(xué)習(xí)不僅在傳統(tǒng)的強(qiáng)化學(xué)習(xí)中取得了進(jìn)展,也開始對(duì)大語言模型(LLM)產(chǎn)生一定影響。近日,加州大學(xué)伯克利分校的研究者提出了一種名為Q-chunking的方法,該方法將動(dòng)作分塊(action chunking)—— 一種在模仿學(xué)習(xí)中取得成功的技術(shù) —— 引入到基于時(shí)序差分(Temporal Difference, TD)的強(qiáng)化學(xué)習(xí)中。

該方法主要解決兩個(gè)核心問題:一是通過時(shí)間上連貫的動(dòng)作序列提升探索效率;二是在避免傳統(tǒng) n 步回報(bào)引入偏差的前提下,實(shí)現(xiàn)更快速的值傳播。



  • 論文標(biāo)題:Reinforcement Learning with Action Chunking
  • 論文地址:https://www.alphaxiv.org/overview/2507.07969v1
  • 代碼地址:https://github.com/ColinQiyangLi/qc

如下圖 1 左所示,Q-chunking(1)使用動(dòng)作分塊來實(shí)現(xiàn)快速的價(jià)值回傳,(2)通過時(shí)間連貫的動(dòng)作進(jìn)行有效探索。圖 1 右中,本文方法首先在離線數(shù)據(jù)集上進(jìn)行 100 萬步的預(yù)訓(xùn)練(灰色部分),然后使用在線數(shù)據(jù)更新,再進(jìn)行另外 100 萬步的訓(xùn)練(白色部分)。



問題表述與研究動(dòng)機(jī)

Q-chunking 旨在解決標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)方法在復(fù)雜操作任務(wù)中存在的關(guān)鍵局限性。

在傳統(tǒng)強(qiáng)化學(xué)習(xí)中,智能體在每一個(gè)時(shí)間步上逐一選擇動(dòng)作,這常常導(dǎo)致探索策略效率低下,表現(xiàn)為抖動(dòng)、時(shí)間不連貫的動(dòng)作序列。這一問題在稀疏獎(jiǎng)勵(lì)環(huán)境中尤為嚴(yán)重 —— 在此類環(huán)境中,智能體必須執(zhí)行較長(zhǎng)的、協(xié)調(diào)一致的動(dòng)作序列才能獲得有效反饋。

研究者提出了一個(gè)關(guān)鍵見解:盡管馬爾可夫決策過程中的最優(yōu)策略本質(zhì)上是馬爾可夫性的,但探索過程卻可以從非馬爾可夫性、時(shí)間上擴(kuò)展的動(dòng)作中顯著受益。這一觀察促使他們將「動(dòng)作分塊」這一原本主要用于模仿學(xué)習(xí)的策略引入到時(shí)序差分學(xué)習(xí)中。

該方法特別面向離線到在線的強(qiáng)化學(xué)習(xí)場(chǎng)景(offline-to-online RL),即智能體先從預(yù)先收集的數(shù)據(jù)集中進(jìn)行學(xué)習(xí),再通過在線交互進(jìn)行微調(diào)。這一設(shè)定在機(jī)器人應(yīng)用中尤為重要,因?yàn)樵诰€數(shù)據(jù)采集成本高且可能存在安全風(fēng)險(xiǎn)。

方法概覽

Q-chunking 將標(biāo)準(zhǔn)的 Q-learning 擴(kuò)展至時(shí)間擴(kuò)展的動(dòng)作空間,使策略不再僅預(yù)測(cè)單一步驟的動(dòng)作,而是預(yù)測(cè)連續(xù) h 步的動(dòng)作序列。該方法主要包含兩個(gè)核心組成部分:

擴(kuò)展動(dòng)作空間學(xué)習(xí)



算法實(shí)現(xiàn)

研究者展示了Q-chunking框架的兩種實(shí)現(xiàn)方式:

QC(帶有隱式 KL 約束的 Q-chunking)

該分支通過「從 N 個(gè)中選擇最優(yōu)」(best-of-N)的采樣策略,隱式地施加 KL 散度約束。其方法如下:

1. 在離線數(shù)據(jù)上訓(xùn)練一個(gè)流匹配行為策略 f_ξ(?|s)

2. 對(duì)于每個(gè)狀態(tài),從該策略中采樣 N 個(gè)動(dòng)作序列(action chunks)

3. 選擇具有最大 Q 值的動(dòng)作序列:a* = arg max_i Q (s, a_i)

4. 使用該動(dòng)作序列進(jìn)行環(huán)境交互與 TD 更新

QC-FQL(帶有 2-Wasserstein 距離約束的 Q-chunking)

該實(shí)現(xiàn)基于 FQL(Flow Q-learning)框架:

1. 保持一個(gè)獨(dú)立的噪聲條件策略 μ_ψ(s, z)

2. 訓(xùn)練該策略以最大化 Q 值,并通過正則項(xiàng)使其靠近行為策略

3. 使用一種蒸餾損失函數(shù),對(duì)平方的 2-Wasserstein 距離進(jìn)行上界估計(jì)

4. 引入正則化參數(shù) α 來控制約束強(qiáng)度

實(shí)驗(yàn)設(shè)置及結(jié)果

關(guān)于實(shí)驗(yàn)環(huán)境和數(shù)據(jù)集,研究者首先考慮 6 個(gè)稀疏獎(jiǎng)勵(lì)的機(jī)器人操作任務(wù)域,任務(wù)難度各不相同,包括如下:

來自 OGBench 基準(zhǔn)的 5 個(gè)任務(wù)域:scene-sparse、puzzle-3x3-sparse,以及 cube-double、cube-triple 和 cube-quadruple,每個(gè)任務(wù)域包含 5 個(gè)任務(wù);來自 robomimic 基準(zhǔn)中的 3 個(gè)任務(wù)。

對(duì)于 OGBench,研究者使用默認(rèn)的「play-style」數(shù)據(jù)集,唯獨(dú)在 cube-quadruple 任務(wù)中,使用了一個(gè)規(guī)模為 1 億大小的數(shù)據(jù)集。

關(guān)于基線方法比較,研究者主要使用了以加速「價(jià)值回傳」為目標(biāo)的已有方法,以及此前表現(xiàn)最好的「離線到在線」強(qiáng)化學(xué)習(xí)方法,包括BFN(best-of-N)、FQL、BFN-n / FQL-n 以及 LPD、RLPD-AC

下圖 3 中展示了 Q-chunking 與基線方法在 5 個(gè) OGBench 任務(wù)域上的整體性能表現(xiàn),下圖 4 中展示了在 3 個(gè) robomimic 任務(wù)上的單獨(dú)性能表現(xiàn)。其中在離線階段(圖中為灰色),QC 表現(xiàn)出具有競(jìng)爭(zhēng)力的性能,通??梢员燃缟踔劣袝r(shí)超越了以往最優(yōu)方法。而在在線階段(圖中為白色),QC 表現(xiàn)出極高的樣本效率,尤其是在 2 個(gè)最難的 OGBench 任務(wù)域(cube-triple 和 quadruple)中,其性能遠(yuǎn)超以往所有方法(特別是 cube-quadruple 任務(wù))。

下圖 5 為消融實(shí)驗(yàn),比較了 QC 與其變體 QC-FQL、以及 2 種 n 步回報(bào)的基線方法(BFN-n 和 FQL-n)。這些 n 步回報(bào)基線方法沒有利用時(shí)間擴(kuò)展的 critic 或 policy,因此其性能顯著低于 QC 和 QC-FQL。實(shí)際上,它們的表現(xiàn)甚至常常不如 1 步回報(bào)的基線方法 BFN 和 FQL,這進(jìn)一步突顯了在時(shí)間擴(kuò)展動(dòng)作空間中進(jìn)行學(xué)習(xí)的重要性。



接下來探討的問題是:為什么動(dòng)作分塊有助于探索?研究者在前文提出了一個(gè)假設(shè):動(dòng)作分塊策略能夠生成在時(shí)間上更連貫的動(dòng)作,從而帶來更好的狀態(tài)覆蓋和探索效果。

為了進(jìn)行實(shí)證,他們首先可視化了訓(xùn)練早期 QC 與 BFN 的末端執(zhí)行器運(yùn)動(dòng)軌跡,具體如下圖 7 所示??梢钥吹?,BFN 的軌跡中存在大量停頓(在圖像中心區(qū)域形成了一個(gè)大而密集的簇),特別是在末端執(zhí)行器下壓準(zhǔn)備抓取方塊時(shí)。而 QC 的軌跡中則明顯停頓較少(形成的簇更少且更淺),并且其在末端執(zhí)行器空間中的狀態(tài)覆蓋更加多樣化。

為了對(duì)動(dòng)作的時(shí)間連貫性進(jìn)行定量評(píng)估,研究者在訓(xùn)練過程中每 5 個(gè)時(shí)間步記錄一次 3D 末端執(zhí)行器位置,并計(jì)算相鄰兩次位置差向量的平均 L2 范數(shù)。如果存在較多停頓或抖動(dòng)動(dòng)作,該平均范數(shù)會(huì)變得較小,因此可以作為衡量動(dòng)作時(shí)間連貫性的有效指標(biāo)。

正如圖 7(右)所示,在整個(gè)訓(xùn)練過程中,QC 的動(dòng)作時(shí)間連貫性明顯高于 BFN。這一發(fā)現(xiàn)表明,QC 能夠提高動(dòng)作的時(shí)間連貫性,從而解釋了其更高的樣本效率。



更多細(xì)節(jié)內(nèi)容請(qǐng)參考原論文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
敢不敢爆出自己勁爆的瓜?網(wǎng)友:為了錢同時(shí)跟倆富婆在一起兩個(gè)月

敢不敢爆出自己勁爆的瓜?網(wǎng)友:為了錢同時(shí)跟倆富婆在一起兩個(gè)月

解讀熱點(diǎn)事件
2025-07-14 00:05:03
曝杜建英與前夫有一兒子,婚內(nèi)出軌宗慶后,知三當(dāng)三,擠走原配

曝杜建英與前夫有一兒子,婚內(nèi)出軌宗慶后,知三當(dāng)三,擠走原配

180視角
2025-07-14 18:31:00
這是希島あいり(希島愛里)最初也是最后的傳奇共演!

這是希島あいり(希島愛里)最初也是最后的傳奇共演!

孤獨(dú)的獨(dú)角獸影視
2025-06-09 09:55:15
習(xí)慣就好帕爾默更衣室慵懶坐姿,腳踩世俱杯金球&胯下MVP獎(jiǎng)杯

習(xí)慣就好帕爾默更衣室慵懶坐姿,腳踩世俱杯金球&胯下MVP獎(jiǎng)杯

直播吧
2025-07-14 10:23:21
中共中央:加強(qiáng)金融審判工作 , 嚴(yán)懲操縱市場(chǎng)、內(nèi)幕交易、非法集資、貸款詐騙、洗錢等金融領(lǐng)域違法犯罪

中共中央:加強(qiáng)金融審判工作 , 嚴(yán)懲操縱市場(chǎng)、內(nèi)幕交易、非法集資、貸款詐騙、洗錢等金融領(lǐng)域違法犯罪

每日經(jīng)濟(jì)新聞
2025-07-14 18:39:01
3換1!交易正式達(dá)成!王哲林三年頂薪續(xù)約

3換1!交易正式達(dá)成!王哲林三年頂薪續(xù)約

籃球?qū)崙?zhàn)寶典
2025-07-14 05:25:56
瓜迪奧拉看走眼 賣掉了德布勞內(nèi)最佳接班人 帕爾默2年漲1億歐

瓜迪奧拉看走眼 賣掉了德布勞內(nèi)最佳接班人 帕爾默2年漲1億歐

智道足球
2025-07-14 20:04:28
賣掉 “純電車” 換到了增程,才發(fā)現(xiàn)這兩者 “真正的差別”,太大了

賣掉 “純電車” 換到了增程,才發(fā)現(xiàn)這兩者 “真正的差別”,太大了

小李子體育
2025-07-14 01:33:10
英記者:世俱杯決賽中場(chǎng)休息24分鐘,F(xiàn)IFA公然違反足球規(guī)則

英記者:世俱杯決賽中場(chǎng)休息24分鐘,F(xiàn)IFA公然違反足球規(guī)則

雷速體育
2025-07-14 09:36:50
想不到吧?核武器的最終極技術(shù)秘密竟然是一根銅絲

想不到吧?核武器的最終極技術(shù)秘密竟然是一根銅絲

軍武數(shù)據(jù)庫
2025-07-14 13:48:23
恩佐淚奔!24歲已成人生贏家:6進(jìn)決賽全奪冠,雙料世界冠軍首人

恩佐淚奔!24歲已成人生贏家:6進(jìn)決賽全奪冠,雙料世界冠軍首人

我愛英超
2025-07-14 07:46:30
突厥戰(zhàn)矛VS斯拉夫長(zhǎng)劍,阿塞拜疆“圖蘭”軍團(tuán)殲滅俄軍一個(gè)連

突厥戰(zhàn)矛VS斯拉夫長(zhǎng)劍,阿塞拜疆“圖蘭”軍團(tuán)殲滅俄軍一個(gè)連

史政先鋒
2025-07-13 13:30:26
7月17日生效,又一國將與中國互免簽證!

7月17日生效,又一國將與中國互免簽證!

深圳本地寶
2025-07-14 22:14:35
塞斯庫里生涯合同,12年換了9隊(duì),實(shí)現(xiàn)逆襲,薪水不如哥哥1年

塞斯庫里生涯合同,12年換了9隊(duì),實(shí)現(xiàn)逆襲,薪水不如哥哥1年

大西體育
2025-07-14 22:02:43
清朝唯一因馬屁拍得太肉麻被斬首的人,頭顱菜市口掛12年才準(zhǔn)下葬

清朝唯一因馬屁拍得太肉麻被斬首的人,頭顱菜市口掛12年才準(zhǔn)下葬

清風(fēng)文史
2025-07-12 17:50:03
積塔半導(dǎo)體工程師在意大利被逮捕!

積塔半導(dǎo)體工程師在意大利被逮捕!

中國半導(dǎo)體論壇
2025-07-14 22:19:38
外媒:疑因允許在“里根”號(hào)航母上舉辦女裝變裝秀,美軍第七艦隊(duì)司令提名被撤

外媒:疑因允許在“里根”號(hào)航母上舉辦女裝變裝秀,美軍第七艦隊(duì)司令提名被撤

環(huán)球網(wǎng)資訊
2025-07-14 14:31:47
貝佐斯夫婦紐約街拍 簡(jiǎn)約裝扮顯恩愛

貝佐斯夫婦紐約街拍 簡(jiǎn)約裝扮顯恩愛

述家娛記
2025-07-14 18:40:26
1975年,甘肅5個(gè)孩子在大佛寺玩,一孩童藏身佛像時(shí)發(fā)現(xiàn)一道暗門

1975年,甘肅5個(gè)孩子在大佛寺玩,一孩童藏身佛像時(shí)發(fā)現(xiàn)一道暗門

南權(quán)先生
2025-07-14 12:01:54
凡爾賽,朱雨玲富豪父親回應(yīng)女兒奪冠:打完回來上班,別過度宣傳

凡爾賽,朱雨玲富豪父親回應(yīng)女兒奪冠:打完回來上班,別過度宣傳

二哥聊球
2025-07-14 19:47:46
2025-07-15 00:28:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
10856文章數(shù) 142376關(guān)注度
往期回顧 全部

科技要聞

DeepSeek流量下滑,這半年梁文鋒都干了啥

頭條要聞

學(xué)者:九三閱兵不但要請(qǐng)?zhí)乩势?最好把日本首相也叫上

頭條要聞

學(xué)者:九三閱兵不但要請(qǐng)?zhí)乩势?最好把日本首相也叫上

體育要聞

高考數(shù)學(xué)滿分的他,說要成為1/3個(gè)鄧肯

娛樂要聞

秦嵐辛芷蕾聚餐熱聊 結(jié)束直奔魏大勛家

財(cái)經(jīng)要聞

探究新茶飲賽道爆發(fā)的“內(nèi)核”

汽車要聞

余承東親發(fā)預(yù)告:鴻蒙智行首款旅行車享界S9T來了

態(tài)度原創(chuàng)

時(shí)尚
健康
藝術(shù)
公開課
軍事航空

為什么她身材不好,依然把吊帶裙穿的很高級(jí)

呼吸科專家破解呼吸道九大謠言!

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

烏軍:史上首次 俄軍向機(jī)器人部隊(duì)投降

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 普安县| 深圳市| 长垣县| 万宁市| 隆尧县| 成安县| 阿巴嘎旗| 宁乡县| 酒泉市| 泽州县| 尉氏县| 揭西县| 三门峡市| 丰顺县| 获嘉县| 扶沟县| 虞城县| 鄱阳县| 黔江区| 渝中区| 石城县| 蕲春县| 明星| 育儿| 三穗县| 武隆县| 襄城县| 新巴尔虎右旗| 桂平市| 鄂托克前旗| 枣强县| 彰化市| 郁南县| 龙口市| 读书| 和政县| 蓬安县| 荣昌县| 岢岚县| 卓尼县| 盘山县|