近日,美國哥倫比亞大學(xué)李明軒博士和團(tuán)隊(duì)提出一種因果貝爾曼方程,它能使用可能包含有混雜變量的觀測數(shù)據(jù)計(jì)算出最優(yōu)價(jià)值函數(shù)的理論上界。而如果使用這一理論上界設(shè)計(jì)獎勵函數(shù)的話,在一些特定的線上學(xué)習(xí)算法中可以更快速地訓(xùn)練得到最優(yōu)的智能體。
圖 | 李明軒(來源:李明軒)
研究團(tuán)隊(duì)預(yù)期這一成果可以被擴(kuò)展到更高維的、更接近現(xiàn)實(shí)應(yīng)用的機(jī)器人問題中,幫助自動化設(shè)計(jì)一些獎勵函數(shù)用于訓(xùn)練機(jī)器人完成復(fù)雜的任務(wù)。而用于設(shè)計(jì)獎勵函數(shù)的數(shù)據(jù)集可以不再囿于采集自同類機(jī)器人成功完成任務(wù)的數(shù)據(jù),而是可以采集任何具有相似能力的智能體的視頻數(shù)據(jù),甚至采集人類示范的視頻數(shù)據(jù)。
在訓(xùn)練智能體完成一些缺乏明確任務(wù)進(jìn)度評價(jià)的任務(wù)時,人們往往需要增加很多額外的監(jiān)督信號來幫助訓(xùn)練。比如,使用強(qiáng)化學(xué)習(xí)算法訓(xùn)練控制機(jī)械手解決一個魔方時,最直觀的任務(wù)完成信號只有是否能在指定時間內(nèi)完成魔方這一非常宏觀的評價(jià)指標(biāo),任務(wù)完成過程中沒有任何具體定義步驟對錯的簡單標(biāo)準(zhǔn)。
而直接使用“任務(wù)完成與否”這一單一指標(biāo)會導(dǎo)致強(qiáng)化學(xué)習(xí)算法幾乎無法得到有效的訓(xùn)練數(shù)據(jù),因?yàn)樵陔S機(jī)探索過程中算法偶然碰撞出正確控制機(jī)械手解決魔方的概率幾乎為零。
也正因此,在 Open AI 早期訓(xùn)練機(jī)械手解決魔方的論文中,他們添加了很多額外的獎勵信號用于監(jiān)督諸如機(jī)械手的手指動作是否合理,以及魔方當(dāng)前狀態(tài)是否符合算法規(guī)劃的解決方案等。
另一個例子是人們在玩電子游戲的時候如果中途沒有任何任務(wù)指引或者分?jǐn)?shù)反饋,只有在游戲結(jié)束才能知道是否勝利的話,人們就會覺得這個游戲很難通關(guān),或者需要嘗試很久才能猜出正確的勝利條件。
所以,在訓(xùn)練智能體過程中,研究人員往往需要針對特定任務(wù)增加很多額外的獎懲信號作為過程監(jiān)督幫助智能體學(xué)習(xí)。這樣一種增加額外獎勵信號并且不影響智能體最終能學(xué)會的最優(yōu)策略的算法叫 PBRS(Potential Based Reward Shaping),由華人學(xué)者吳恩達(dá)于 1999 年提出。
但是,這樣就會導(dǎo)致每碰到一個新的任務(wù),都需要花費(fèi)大量時間和人力來設(shè)計(jì)并調(diào)整獎勵信號。這樣的解決方案在現(xiàn)代社會日益增長的智能體需求下完全不具有可持續(xù)性。
所以,本次研究團(tuán)隊(duì)考慮的是能否直接從現(xiàn)有數(shù)據(jù)中學(xué)習(xí)到一個合理的額外獎勵信號呢?直觀來講是可以的,即使用蒙特卡洛法估算價(jià)值函數(shù)。而每兩個狀態(tài)之間的價(jià)值差就可以作為一個額外的獎勵信號(智能體從低價(jià)值狀態(tài)轉(zhuǎn)移到高價(jià)值狀態(tài)就會得到一個正向的獎勵,反之則是懲罰)。
但是,如果數(shù)據(jù)集不是由一個性能很好的智能體產(chǎn)生的,又或者數(shù)據(jù)集里包含一些沒有被觀測到的混雜偏差呢?這時直接用蒙特卡洛法估計(jì)出來的價(jià)值函數(shù)就不再是無偏的,并且可能會和最優(yōu)價(jià)值函數(shù)相去甚遠(yuǎn)。
于是,在本次論文里研究團(tuán)隊(duì)探索了如何使用一些因果推斷的工具來自動地從多個可能有混雜偏差的數(shù)據(jù)集里學(xué)習(xí)到合理的獎勵函數(shù),并從理論上證明解釋了為何此類獎勵函數(shù)能夠顯著提高特定智能體訓(xùn)練的效率,大量實(shí)驗(yàn)結(jié)果也證明了本次發(fā)現(xiàn)。
(來源:https://arxiv.org/pdf/2505.11478)
曾經(jīng),李明軒并不覺得這一算法上的改進(jìn)能帶來多少樣本復(fù)雜度上的改善,因?yàn)楹芏嗲拜呎撐囊呀?jīng)論證過使用吳恩達(dá)提出的 PBRS 這一特定方式增加額外獎勵信號在很多情況下并不會影響樣本復(fù)雜度。對此,李明軒的導(dǎo)師也曾表示感到遺憾,因?yàn)檫@完全解釋不了他們在實(shí)驗(yàn)上觀測到的大幅性能提升。
不過在李明軒即將放棄之前,他又再次重溫了近年來一些線上探索算法的復(fù)雜度分析論文,同時這次他著重閱讀了相關(guān)論文附錄中的證明細(xì)節(jié)。就在這時,李明軒突然發(fā)現(xiàn)幾個不同論文里用到的中間結(jié)論聯(lián)系在一起,似乎正好可以幫他證明自己想要的樣本復(fù)雜度結(jié)論。
“這一瞬間的直覺后來被證明是正確的,并且結(jié)論也非常的整潔漂亮,讓我有種難以言說的巧合感。有時,偶爾能在寫代碼的間隙,體會到類似于剛找到最后一塊拼圖的證明的快樂。”他表示。
日前,相關(guān)論文以《從混雜離線數(shù)據(jù)中自動實(shí)現(xiàn)獎勵塑造》(Automatic Reward Shaping from Confounded Offline Data)為題被 2025 國際機(jī)器學(xué)習(xí)大會(ICML,International Conference on Machine Learning)收錄 [1]。
圖 | 相關(guān)論文(來源:https://arxiv.org/pdf/2505.11478)
目前,研究團(tuán)隊(duì)正在探索如何把這一理論工作拓展到更大規(guī)模的問題中如電子游戲(atari games)以及一些需要連續(xù)狀態(tài)和動作空間的機(jī)器人控制問題之中。
參考資料:
1.https://arxiv.org/pdf/2505.11478
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.