一項由高校團隊研發(fā)的新型強化學(xué)習(xí)算法,從理論上解決了現(xiàn)有算法價值估計不準(zhǔn)、對獎勵尺度敏感等問題。該算法通過提供穩(wěn)定可靠的決策支持,為自動駕駛的安全運行提供了堅實的技術(shù)保障。
近期,清華大學(xué)李克強院士、李升波教授團隊提出了一種改進的強化學(xué)習(xí)算法——DSAC-T(Distributional Soft Actor-Critic with Three Refinements)。該研究基于團隊此前提出的第一代算法 DSAC 的框架,通過引入期望值替代、雙值分布學(xué)習(xí)和基于方差的梯度調(diào)整三項關(guān)鍵技術(shù),顯著提升了算法的穩(wěn)定性和性能表現(xiàn)。
其創(chuàng)新之處在于采用了分布式的策略評價函數(shù),而非傳統(tǒng)算法中單一的標(biāo)量評估。這種分布式評價不僅考慮當(dāng)前行為的即時得分,還建模了未來所有可能得分的概率分布,從而為策略優(yōu)化提供了更豐富的信息維度。經(jīng)多項基準(zhǔn)測試驗證,DSAC-T 算法在性能上超越當(dāng)前主流無模型強化學(xué)習(xí)算法,達到 SOTA 水平。
需要了解的是,該團隊的技術(shù)輸出并非單一算法,而是構(gòu)建了完整的訓(xùn)練工具鏈體系。“通過為企業(yè)提供整套訓(xùn)練工具解決方案,不僅能支持 demo 驗證,更能幫助完成特定場景下的自動駕駛策略開發(fā)。”該論文第一作者、北京科技大學(xué)副教授段京良對 DeepTech 表示。
圖丨段京良(左)與李升波(右)(來源:段京良)
這套技術(shù)方案具有廣泛的應(yīng)用前景,可支持多個領(lǐng)域的智能系統(tǒng)模型訓(xùn)練,包括端到端自動駕駛、具身智能機器人以及工程機械無人作業(yè)等場景。目前,研究團隊已與滴滴、廣汽、東風(fēng)、一汽、寶武等多家大型企業(yè)建立了合作關(guān)系。特別是在汽車產(chǎn)業(yè)智能化轉(zhuǎn)型的背景下,該技術(shù)有望推動自動駕駛技術(shù)向更高水平發(fā)展。
此外,該算法還有望應(yīng)用于更廣泛的領(lǐng)域:在外賣行業(yè),可通過派單優(yōu)化算法為訂單匹配最佳騎手;在工業(yè)領(lǐng)域,可優(yōu)化工廠和倉儲超市的制冷系統(tǒng)分配,在滿足各區(qū)域溫度需求的同時實現(xiàn)節(jié)能降耗;在交通領(lǐng)域,還能應(yīng)用于混合動力汽車的能量管理系統(tǒng)優(yōu)化。
目前,研究團隊已將 DSAC 系列兩代算法開源,并集成在其自主開發(fā)的工具鏈平臺 GOPS 中,方便學(xué)術(shù)界和工業(yè)界進行算法訓(xùn)練、性能驗證及快速部署。
近日,相關(guān)論文以《融合三項改進的分布式 Soft Actor-Critic 算法》(Distributional Soft Actor-Critic with Three Refinements)為題發(fā)表在IEEE Transactions on Pattern Analysis and Machine Intelligence[1]。北京科技大學(xué)段京良副教授是第一作者,清華大學(xué)博士生王文軒為共同一作,清華大學(xué)李升波教授擔(dān)任通訊作者。
(來源:IEEE Transactions on Pattern Analysis and Machine)
在多項任務(wù)性能超主流算法達 SOTA 水平
強化學(xué)習(xí)(RL,Reinforcement Learning)作為人工智能領(lǐng)域的重要分支,因其在復(fù)雜決策和控制任務(wù)中的卓越表現(xiàn)而備受研究者關(guān)注。這種算法模擬了人類通過試錯進行學(xué)習(xí)的過程,本質(zhì)上是一種廣泛適用于決策和控制任務(wù)的通用框架。其核心機制是通過精心設(shè)計的獎勵函數(shù)引導(dǎo)智能體(如自動駕駛系統(tǒng)或棋類 AI)自主探索環(huán)境,并根據(jù)獎勵反饋優(yōu)化其行為策略。這一過程的關(guān)鍵在于,構(gòu)建能夠準(zhǔn)確評估行為價值的評價體系。
然而,傳統(tǒng)強化學(xué)習(xí)算法普遍面臨價值估計不準(zhǔn)確的瓶頸問題,特別是動作價值(Q 值)的高估現(xiàn)象。這往往導(dǎo)致最終學(xué)習(xí)到的策略性能欠佳。不同強化學(xué)習(xí)算法效果的差異,很大程度上取決于其評價函數(shù)對行為價值判斷的準(zhǔn)確性。
圖丨值分布強化學(xué)習(xí)算法 DSAC(來源:該團隊)
盡管團隊此前開發(fā)的第一代算法 DSAC 已通過建模連續(xù)高斯分布改進了價值估計,緩解了過估計問題,但由于分布函數(shù)本身的不確定性,其更新過程極易失穩(wěn)。
此外,DSAC 算法存在明顯的參數(shù)敏感性問題,需要精細(xì)調(diào)參才能達到理想效果。段京良指出,成熟的通用算法應(yīng)具備跨任務(wù)的穩(wěn)定性,并盡可能減少對參數(shù)調(diào)整的依賴。
圖丨DSAC 算法核心架構(gòu)和關(guān)鍵技術(shù)(來源:該團隊)
為了解決上述問題,研究團隊在第二代算法中嵌入了三項核心技術(shù):期望值替代(EVS,Expected Value Substituting)、雙值分布學(xué)習(xí)(TVDL,Twin Value Distribution Learning)和基于方差的梯度調(diào)整(VCGA,Variance-Based Critic Gradient Adjustment)。
首先,EVS 針對平穩(wěn)性問題,在網(wǎng)絡(luò)更新的目標(biāo)函數(shù)中,找到可以被無損替換的隨機項,然后用非隨機量進行替代,通過從源頭減少不確定性使穩(wěn)定性提高,就像“用固定的靶子替代移動的靶標(biāo)”。
其次,TVDL 借鑒強化學(xué)習(xí)中的雙 Q 學(xué)習(xí)(Double Q-learning)的思路,將單一值分布學(xué)習(xí)擴展為學(xué)習(xí)兩個獨立對稱的值分布,相當(dāng)于設(shè)置兩位“裁判”各自打分后交叉驗證,從而為策略優(yōu)化提供一個更穩(wěn)定的優(yōu)化目標(biāo)。
段京良解釋說道:“在強化學(xué)習(xí)中,單一 Q 函數(shù)可能導(dǎo)致優(yōu)化偏差,因此引入雙 Q 學(xué)習(xí)機制,通過兩個 Q 函數(shù)交叉驗證來提升策略優(yōu)化的穩(wěn)定性。我們進一步擴展該思路,采用雙分布學(xué)習(xí)使優(yōu)化目標(biāo)更可靠,從而提高系統(tǒng)整體性能。”
最后,VCGA 針對參數(shù)敏感的問題,建立了依基于方差的梯度調(diào)節(jié)機制,根據(jù)對當(dāng)前動作價值函數(shù)估計的不確定程度,即值函數(shù)的方差,動態(tài)調(diào)整值分布函數(shù)梯度的大小。該機制有效提升了更新梯度的穩(wěn)定性,大幅降低了算法對超參數(shù)調(diào)整的依賴。
這三項技術(shù)的協(xié)同作用使 DSAC-T 能夠?qū)W習(xí)到高度準(zhǔn)確的策略評價指標(biāo),進而訓(xùn)練出更優(yōu)越的控制策略。該算法的特點是實現(xiàn)了“一對多”的通用性能力:同一組超參數(shù)可以在 12 類不同任務(wù)(包括基于圖像輸入的復(fù)雜任務(wù))中都保持良好性能,顯著降低了實際應(yīng)用中的部署成本。
(來源:IEEE Transactions on Pattern Analysis and Machine In)
為了驗證 DSAC-T 的性能,研究團隊在多個基準(zhǔn)任務(wù)上進行了測試,包括 Humanoid、Ant、HalfCheetah 等復(fù)雜控制任務(wù)。值得注意的是,DSAC-T 的性能優(yōu)勢隨任務(wù)復(fù)雜度提升而愈加明顯:在簡單任務(wù)(如六維狀態(tài)倒立擺)中,各算法表現(xiàn)近似;但在高維復(fù)雜任務(wù)(如 376 維狀態(tài)×17 維動作)中,其性能優(yōu)勢顯著。
表丨算法性能對比(來源:IEEE Transactions on Pattern Analys)
實驗結(jié)果顯示,DSAC-T 在所有任務(wù)中均優(yōu)于或至少與主流強化學(xué)習(xí)算法持平,包括 SAC、TD3、DDPG、TRPO 和 PPO。值得關(guān)注的是,在 Humanoid-v3 任務(wù)中,DSAC-T 的性能比 OpenAI 的 PPO 算法和 DeepMind 的 DDPG 算法高出 50% 以上。此外,DSAC-T 還表現(xiàn)出更高的學(xué)習(xí)穩(wěn)定性和對獎勵尺度的魯棒性。
圖丨基準(zhǔn)測試訓(xùn)練曲線(來源:IEEE Transactions on Pattern An)
更重要的是,團隊在輪式機器人的實際控制任務(wù)(包括路徑跟蹤和動態(tài)避障)中驗證了算法的實用性,證明其能夠有效處理現(xiàn)實環(huán)境中的復(fù)雜決策問題,展現(xiàn)出從仿真到實際應(yīng)用的強大遷移能力。
從仿真到實車,為自動駕駛的安全行駛提供技術(shù)保障
將強化學(xué)習(xí)算法從理論研究轉(zhuǎn)化為實際應(yīng)用,其難度超過算法開發(fā)本身。作為全球率先實現(xiàn)強化學(xué)習(xí)實車應(yīng)用的團隊之一,他們始終堅持“工程化思維”的研究導(dǎo)向。這不僅依賴于單個算法的突破,更需要一套包含軟件架構(gòu)、工具鏈開發(fā)、工程適配以及針對具體任務(wù)的獎勵函數(shù)設(shè)計等在內(nèi)的完整技術(shù)體系作為支撐。
圖丨研究團隊強化學(xué)習(xí)決控技術(shù)的發(fā)展歷程(來源:該團隊)
據(jù)介紹,該團隊的核心成員多數(shù)是工科背景,這使其研究能始終聚焦于實際應(yīng)用場景。基于深厚的工程實踐積累,團隊對車輛和機器人控制領(lǐng)域的需求具有精準(zhǔn)把握,能夠有效識別技術(shù)落地的關(guān)鍵因素。
兩代算法共經(jīng)歷 5 年多的探索與迭代。第一代算法 DSAC 的研究工作始于 2018 年底,當(dāng)時段京良正在清華大學(xué)攻讀博士學(xué)位。2019 年,他與團隊成功開發(fā)出 DSAC,相關(guān)論文于 2021 年正式發(fā)表 [2]。在此期間,段京良赴新加坡國立大學(xué)從事博士后研究。
2022 年回國加入北京科技大學(xué)后,段京良與其研究團隊針對第一代算法 DSAC 存在的穩(wěn)定性不足、調(diào)參依賴性強等局限性,進一步開發(fā)出更具通用性的第二代算法 DSAC-T。該算法于 2023 年底完成研發(fā),重點提升了訓(xùn)練穩(wěn)定性和參數(shù)魯棒性,致力于構(gòu)建適用于自動駕駛、機器人等控制領(lǐng)域的強化學(xué)習(xí)工具鏈。
然而,強化學(xué)習(xí)在實際應(yīng)用中面臨的一個關(guān)鍵挑戰(zhàn)在于獎勵函數(shù)的設(shè)計。以圍棋為例,其獎勵函數(shù)相對簡單明確,勝負(fù)結(jié)果可以直接作為獎勵信號。但在自動駕駛等復(fù)雜場景中,車輛需要處理各種交通博弈,包括與其他道路使用者的交互、交通規(guī)則遵守、駕駛效率、乘坐舒適度以及潛在的動力學(xué)限制等多重因素。
如何權(quán)衡這些復(fù)雜因素,設(shè)計出合理的獎勵函數(shù)以適應(yīng)現(xiàn)實場景,是一個極具挑戰(zhàn)性的問題。研究團隊?wèi){借豐富的項目經(jīng)驗,逐步攻克了這些難題。段京良表示:“將強化學(xué)習(xí)算法與具體任務(wù)相結(jié)合,關(guān)鍵在于針對該任務(wù)設(shè)計合理的獎勵函數(shù)。這需要研究人員既精通算法原理,又深入理解被控對象和任務(wù)特性,才能實現(xiàn)二者的有機結(jié)合,設(shè)計出最符合任務(wù)需求的獎勵函數(shù)。”
在工程化實踐方面,團隊也積累了豐富的經(jīng)驗。自 2020 年起,段京良的博士課題就專注于實現(xiàn)強化學(xué)習(xí)在實車上的應(yīng)用。雖然初期場景相對簡單,但通過持續(xù)努力,團隊成功將技術(shù)推進到開放道路場景,并在此過程中積累了寶貴的研究經(jīng)驗。
2024 年,他們在實車應(yīng)用方面取得了突破性成果。特別值得一提的是,研究團隊通過自主研發(fā)的強化學(xué)習(xí)算法實現(xiàn)了車輛在各種道路條件下的安全行駛,不僅覆蓋了多種復(fù)雜場景,還適配了不同車型平臺。
除自動駕駛外,團隊還正在積極推進強化學(xué)習(xí)端到端控制技術(shù)在多個工業(yè)場景的產(chǎn)業(yè)化應(yīng)用,包含工程機械自主作業(yè)、機器人巡檢作業(yè)等任務(wù)。從系統(tǒng)平穩(wěn)性、運行效率到控制精度,團隊建立了一套完整的量化評估體系,能夠與熟練的人類操作員進行客觀比較。
在未來的研究中,該團隊計劃持續(xù)優(yōu)化和迭代 DSAC-T 算法,進一步提升其性能表現(xiàn)。目前,強化學(xué)習(xí)領(lǐng)域尚無算法能夠?qū)W習(xí)到近乎全局最優(yōu)的策略,因此在算法設(shè)計與優(yōu)化方面仍存在較大的提升空間。更重要的是,面向?qū)嶋H應(yīng)用場景,安全強化學(xué)習(xí)(Safe RL)將成為其重點研究方向之一。同時,他們還將持續(xù)探索多模態(tài)控制技術(shù),以提升算法在復(fù)雜任務(wù)中的表現(xiàn)。
參考資料:
1.Jingliang Duan, Wenxuan Wang, Liming Xiao, Jiaxin Gao, Shengbo Eben Li, Chang Liu, Ya-Qin Zhang, Bo Cheng, Keqiang Li, Distributional Soft Actor-Critic with Three Refinements.IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 47, no. 5, pp. 3935-3946, 2025. https://ieeexplore.ieee.org/document/10858686.
2.Jingliang Duan, Yang Guan, Shengbo Eben Li, Yangang Ren, Qi Sun, Bo Cheng, Distributional soft actor-critic: off-policy reinforcement learning for addressing value estimation errors.IEEE Transactions on Neural Networks and Learning Systems, vol. 33, no. 11, pp. 6584-6598, 2022. https://ieeexplore.ieee.org/document/9448360.
3.DSAC 開源鏈接:https://github.com/Jingliang-Duan/DSAC-v2
4.GOPS 開源鏈接:https://gops.readthedocs.io/
運營/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.