機(jī)器之心報(bào)道
編輯:杜偉、冷貓
如今,強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)在多個(gè)領(lǐng)域已取得顯著成果。
在實(shí)際應(yīng)用中,具有長(zhǎng)時(shí)間跨度和稀疏獎(jiǎng)勵(lì)特征的任務(wù)非常常見,而強(qiáng)化學(xué)習(xí)方法在這類任務(wù)中的表現(xiàn)仍難令人滿意。
傳統(tǒng)強(qiáng)化學(xué)習(xí)方法在此類任務(wù)中的探索能力常常不足,因?yàn)橹挥性趫?zhí)行一系列較長(zhǎng)的動(dòng)作序列后才能獲得獎(jiǎng)勵(lì),這導(dǎo)致合理時(shí)間內(nèi)找到有效策略變得極其困難。
假如將模仿學(xué)習(xí)(Imitation Learning, IL)的思路引入強(qiáng)化學(xué)習(xí)方法,能否改善這一情況呢?
模仿學(xué)習(xí)通過觀察專家的行為并模仿其策略來學(xué)習(xí),通常用于強(qiáng)化學(xué)習(xí)的早期階段,尤其是在狀態(tài)空間和動(dòng)作空間巨大且難以設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)的場(chǎng)景。
近年來,模仿學(xué)習(xí)不僅在傳統(tǒng)的強(qiáng)化學(xué)習(xí)中取得了進(jìn)展,也開始對(duì)大語言模型(LLM)產(chǎn)生一定影響。近日,加州大學(xué)伯克利分校的研究者提出了一種名為Q-chunking的方法,該方法將動(dòng)作分塊(action chunking)—— 一種在模仿學(xué)習(xí)中取得成功的技術(shù) —— 引入到基于時(shí)序差分(Temporal Difference, TD)的強(qiáng)化學(xué)習(xí)中。
該方法主要解決兩個(gè)核心問題:一是通過時(shí)間上連貫的動(dòng)作序列提升探索效率;二是在避免傳統(tǒng) n 步回報(bào)引入偏差的前提下,實(shí)現(xiàn)更快速的值傳播。
- 論文標(biāo)題:Reinforcement Learning with Action Chunking
- 論文地址:https://www.alphaxiv.org/overview/2507.07969v1
- 代碼地址:https://github.com/ColinQiyangLi/qc
如下圖 1 左所示,Q-chunking(1)使用動(dòng)作分塊來實(shí)現(xiàn)快速的價(jià)值回傳,(2)通過時(shí)間連貫的動(dòng)作進(jìn)行有效探索。圖 1 右中,本文方法首先在離線數(shù)據(jù)集上進(jìn)行 100 萬步的預(yù)訓(xùn)練(灰色部分),然后使用在線數(shù)據(jù)更新,再進(jìn)行另外 100 萬步的訓(xùn)練(白色部分)。
問題表述與研究動(dòng)機(jī)
Q-chunking 旨在解決標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)方法在復(fù)雜操作任務(wù)中存在的關(guān)鍵局限性。
在傳統(tǒng)強(qiáng)化學(xué)習(xí)中,智能體在每一個(gè)時(shí)間步上逐一選擇動(dòng)作,這常常導(dǎo)致探索策略效率低下,表現(xiàn)為抖動(dòng)、時(shí)間不連貫的動(dòng)作序列。這一問題在稀疏獎(jiǎng)勵(lì)環(huán)境中尤為嚴(yán)重 —— 在此類環(huán)境中,智能體必須執(zhí)行較長(zhǎng)的、協(xié)調(diào)一致的動(dòng)作序列才能獲得有效反饋。
研究者提出了一個(gè)關(guān)鍵見解:盡管馬爾可夫決策過程中的最優(yōu)策略本質(zhì)上是馬爾可夫性的,但探索過程卻可以從非馬爾可夫性、時(shí)間上擴(kuò)展的動(dòng)作中顯著受益。這一觀察促使他們將「動(dòng)作分塊」這一原本主要用于模仿學(xué)習(xí)的策略引入到時(shí)序差分學(xué)習(xí)中。
該方法特別面向離線到在線的強(qiáng)化學(xué)習(xí)場(chǎng)景(offline-to-online RL),即智能體先從預(yù)先收集的數(shù)據(jù)集中進(jìn)行學(xué)習(xí),再通過在線交互進(jìn)行微調(diào)。這一設(shè)定在機(jī)器人應(yīng)用中尤為重要,因?yàn)樵诰€數(shù)據(jù)采集成本高且可能存在安全風(fēng)險(xiǎn)。
方法概覽
Q-chunking 將標(biāo)準(zhǔn)的 Q-learning 擴(kuò)展至時(shí)間擴(kuò)展的動(dòng)作空間,使策略不再僅預(yù)測(cè)單一步驟的動(dòng)作,而是預(yù)測(cè)連續(xù) h 步的動(dòng)作序列。該方法主要包含兩個(gè)核心組成部分:
擴(kuò)展動(dòng)作空間學(xué)習(xí)
算法實(shí)現(xiàn)
研究者展示了Q-chunking框架的兩種實(shí)現(xiàn)方式:
QC(帶有隱式 KL 約束的 Q-chunking)
該分支通過「從 N 個(gè)中選擇最優(yōu)」(best-of-N)的采樣策略,隱式地施加 KL 散度約束。其方法如下:
1. 在離線數(shù)據(jù)上訓(xùn)練一個(gè)流匹配行為策略 f_ξ(?|s)
2. 對(duì)于每個(gè)狀態(tài),從該策略中采樣 N 個(gè)動(dòng)作序列(action chunks)
3. 選擇具有最大 Q 值的動(dòng)作序列:a* = arg max_i Q (s, a_i)
4. 使用該動(dòng)作序列進(jìn)行環(huán)境交互與 TD 更新
QC-FQL(帶有 2-Wasserstein 距離約束的 Q-chunking)
該實(shí)現(xiàn)基于 FQL(Flow Q-learning)框架:
1. 保持一個(gè)獨(dú)立的噪聲條件策略 μ_ψ(s, z)
2. 訓(xùn)練該策略以最大化 Q 值,并通過正則項(xiàng)使其靠近行為策略
3. 使用一種蒸餾損失函數(shù),對(duì)平方的 2-Wasserstein 距離進(jìn)行上界估計(jì)
4. 引入正則化參數(shù) α 來控制約束強(qiáng)度
實(shí)驗(yàn)設(shè)置及結(jié)果
關(guān)于實(shí)驗(yàn)環(huán)境和數(shù)據(jù)集,研究者首先考慮 6 個(gè)稀疏獎(jiǎng)勵(lì)的機(jī)器人操作任務(wù)域,任務(wù)難度各不相同,包括如下:
來自 OGBench 基準(zhǔn)的 5 個(gè)任務(wù)域:scene-sparse、puzzle-3x3-sparse,以及 cube-double、cube-triple 和 cube-quadruple,每個(gè)任務(wù)域包含 5 個(gè)任務(wù);來自 robomimic 基準(zhǔn)中的 3 個(gè)任務(wù)。
對(duì)于 OGBench,研究者使用默認(rèn)的「play-style」數(shù)據(jù)集,唯獨(dú)在 cube-quadruple 任務(wù)中,使用了一個(gè)規(guī)模為 1 億大小的數(shù)據(jù)集。
關(guān)于基線方法比較,研究者主要使用了以加速「價(jià)值回傳」為目標(biāo)的已有方法,以及此前表現(xiàn)最好的「離線到在線」強(qiáng)化學(xué)習(xí)方法,包括BFN(best-of-N)、FQL、BFN-n / FQL-n 以及 LPD、RLPD-AC
下圖 3 中展示了 Q-chunking 與基線方法在 5 個(gè) OGBench 任務(wù)域上的整體性能表現(xiàn),下圖 4 中展示了在 3 個(gè) robomimic 任務(wù)上的單獨(dú)性能表現(xiàn)。其中在離線階段(圖中為灰色),QC 表現(xiàn)出具有競(jìng)爭(zhēng)力的性能,通??梢员燃缟踔劣袝r(shí)超越了以往最優(yōu)方法。而在在線階段(圖中為白色),QC 表現(xiàn)出極高的樣本效率,尤其是在 2 個(gè)最難的 OGBench 任務(wù)域(cube-triple 和 quadruple)中,其性能遠(yuǎn)超以往所有方法(特別是 cube-quadruple 任務(wù))。
下圖 5 為消融實(shí)驗(yàn),比較了 QC 與其變體 QC-FQL、以及 2 種 n 步回報(bào)的基線方法(BFN-n 和 FQL-n)。這些 n 步回報(bào)基線方法沒有利用時(shí)間擴(kuò)展的 critic 或 policy,因此其性能顯著低于 QC 和 QC-FQL。實(shí)際上,它們的表現(xiàn)甚至常常不如 1 步回報(bào)的基線方法 BFN 和 FQL,這進(jìn)一步突顯了在時(shí)間擴(kuò)展動(dòng)作空間中進(jìn)行學(xué)習(xí)的重要性。
接下來探討的問題是:為什么動(dòng)作分塊有助于探索?研究者在前文提出了一個(gè)假設(shè):動(dòng)作分塊策略能夠生成在時(shí)間上更連貫的動(dòng)作,從而帶來更好的狀態(tài)覆蓋和探索效果。
為了進(jìn)行實(shí)證,他們首先可視化了訓(xùn)練早期 QC 與 BFN 的末端執(zhí)行器運(yùn)動(dòng)軌跡,具體如下圖 7 所示??梢钥吹?,BFN 的軌跡中存在大量停頓(在圖像中心區(qū)域形成了一個(gè)大而密集的簇),特別是在末端執(zhí)行器下壓準(zhǔn)備抓取方塊時(shí)。而 QC 的軌跡中則明顯停頓較少(形成的簇更少且更淺),并且其在末端執(zhí)行器空間中的狀態(tài)覆蓋更加多樣化。
為了對(duì)動(dòng)作的時(shí)間連貫性進(jìn)行定量評(píng)估,研究者在訓(xùn)練過程中每 5 個(gè)時(shí)間步記錄一次 3D 末端執(zhí)行器位置,并計(jì)算相鄰兩次位置差向量的平均 L2 范數(shù)。如果存在較多停頓或抖動(dòng)動(dòng)作,該平均范數(shù)會(huì)變得較小,因此可以作為衡量動(dòng)作時(shí)間連貫性的有效指標(biāo)。
正如圖 7(右)所示,在整個(gè)訓(xùn)練過程中,QC 的動(dòng)作時(shí)間連貫性明顯高于 BFN。這一發(fā)現(xiàn)表明,QC 能夠提高動(dòng)作的時(shí)間連貫性,從而解釋了其更高的樣本效率。
更多細(xì)節(jié)內(nèi)容請(qǐng)參考原論文。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.