一項由高校團隊研發的新型強化學習算法,從理論上解決了現有算法價值估計不準、對獎勵尺度敏感等問題。該算法通過提供穩定可靠的決策支持,為自動駕駛的安全運行提供了堅實的技術保障。
近期,清華大學李克強院士、李升波教授團隊提出了一種改進的強化學習算法——DSAC-T(Distributional Soft Actor-Critic with Three Refinements)。該研究基于團隊此前提出的第一代算法 DSAC 的框架,通過引入期望值替代、雙值分布學習和基于方差的梯度調整三項關鍵技術,顯著提升了算法的穩定性和性能表現。
其創新之處在于采用了分布式的策略評價函數,而非傳統算法中單一的標量評估。這種分布式評價不僅考慮當前行為的即時得分,還建模了未來所有可能得分的概率分布,從而為策略優化提供了更豐富的信息維度。經多項基準測試驗證,DSAC-T 算法在性能上超越當前主流無模型強化學習算法,達到 SOTA 水平。
需要了解的是,該團隊的技術輸出并非單一算法,而是構建了完整的訓練工具鏈體系。“通過為企業提供整套訓練工具解決方案,不僅能支持 demo 驗證,更能幫助完成特定場景下的自動駕駛策略開發。”該論文第一作者、北京科技大學副教授段京良對 DeepTech 表示。
圖丨段京良(左)與李升波(右)(來源:段京良)
這套技術方案具有廣泛的應用前景,可支持多個領域的智能系統模型訓練,包括端到端自動駕駛、具身智能機器人以及工程機械無人作業等場景。目前,研究團隊已與滴滴、廣汽、東風、一汽、寶武等多家大型企業建立了合作關系。特別是在汽車產業智能化轉型的背景下,該技術有望推動自動駕駛技術向更高水平發展。
此外,該算法還有望應用于更廣泛的領域:在外賣行業,可通過派單優化算法為訂單匹配最佳騎手;在工業領域,可優化工廠和倉儲超市的制冷系統分配,在滿足各區域溫度需求的同時實現節能降耗;在交通領域,還能應用于混合動力汽車的能量管理系統優化。
目前,研究團隊已將 DSAC 系列兩代算法開源,并集成在其自主開發的工具鏈平臺 GOPS 中,方便學術界和工業界進行算法訓練、性能驗證及快速部署。
近日,相關論文以《融合三項改進的分布式 Soft Actor-Critic 算法》(Distributional Soft Actor-Critic with Three Refinements)為題發表在IEEE Transactions on Pattern Analysis and Machine Intelligence[1]。北京科技大學段京良副教授是第一作者,清華大學博士生王文軒為共同一作,清華大學李升波教授擔任通訊作者。
(來源:IEEE Transactions on Pattern Analysis and Machine)
在多項任務性能超主流算法達 SOTA 水平
強化學習(RL,Reinforcement Learning)作為人工智能領域的重要分支,因其在復雜決策和控制任務中的卓越表現而備受研究者關注。這種算法模擬了人類通過試錯進行學習的過程,本質上是一種廣泛適用于決策和控制任務的通用框架。其核心機制是通過精心設計的獎勵函數引導智能體(如自動駕駛系統或棋類 AI)自主探索環境,并根據獎勵反饋優化其行為策略。這一過程的關鍵在于,構建能夠準確評估行為價值的評價體系。
然而,傳統強化學習算法普遍面臨價值估計不準確的瓶頸問題,特別是動作價值(Q 值)的高估現象。這往往導致最終學習到的策略性能欠佳。不同強化學習算法效果的差異,很大程度上取決于其評價函數對行為價值判斷的準確性。
圖丨值分布強化學習算法 DSAC(來源:該團隊)
盡管團隊此前開發的第一代算法 DSAC 已通過建模連續高斯分布改進了價值估計,緩解了過估計問題,但由于分布函數本身的不確定性,其更新過程極易失穩。
此外,DSAC 算法存在明顯的參數敏感性問題,需要精細調參才能達到理想效果。段京良指出,成熟的通用算法應具備跨任務的穩定性,并盡可能減少對參數調整的依賴。
圖丨DSAC 算法核心架構和關鍵技術(來源:該團隊)
為了解決上述問題,研究團隊在第二代算法中嵌入了三項核心技術:期望值替代(EVS,Expected Value Substituting)、雙值分布學習(TVDL,Twin Value Distribution Learning)和基于方差的梯度調整(VCGA,Variance-Based Critic Gradient Adjustment)。
首先,EVS 針對平穩性問題,在網絡更新的目標函數中,找到可以被無損替換的隨機項,然后用非隨機量進行替代,通過從源頭減少不確定性使穩定性提高,就像“用固定的靶子替代移動的靶標”。
其次,TVDL 借鑒強化學習中的雙 Q 學習(Double Q-learning)的思路,將單一值分布學習擴展為學習兩個獨立對稱的值分布,相當于設置兩位“裁判”各自打分后交叉驗證,從而為策略優化提供一個更穩定的優化目標。
段京良解釋說道:“在強化學習中,單一 Q 函數可能導致優化偏差,因此引入雙 Q 學習機制,通過兩個 Q 函數交叉驗證來提升策略優化的穩定性。我們進一步擴展該思路,采用雙分布學習使優化目標更可靠,從而提高系統整體性能。”
最后,VCGA 針對參數敏感的問題,建立了依基于方差的梯度調節機制,根據對當前動作價值函數估計的不確定程度,即值函數的方差,動態調整值分布函數梯度的大小。該機制有效提升了更新梯度的穩定性,大幅降低了算法對超參數調整的依賴。
這三項技術的協同作用使 DSAC-T 能夠學習到高度準確的策略評價指標,進而訓練出更優越的控制策略。該算法的特點是實現了“一對多”的通用性能力:同一組超參數可以在 12 類不同任務(包括基于圖像輸入的復雜任務)中都保持良好性能,顯著降低了實際應用中的部署成本。
(來源:IEEE Transactions on Pattern Analysis and Machine In)
為了驗證 DSAC-T 的性能,研究團隊在多個基準任務上進行了測試,包括 Humanoid、Ant、HalfCheetah 等復雜控制任務。值得注意的是,DSAC-T 的性能優勢隨任務復雜度提升而愈加明顯:在簡單任務(如六維狀態倒立擺)中,各算法表現近似;但在高維復雜任務(如 376 維狀態×17 維動作)中,其性能優勢顯著。
表丨算法性能對比(來源:IEEE Transactions on Pattern Analys)
實驗結果顯示,DSAC-T 在所有任務中均優于或至少與主流強化學習算法持平,包括 SAC、TD3、DDPG、TRPO 和 PPO。值得關注的是,在 Humanoid-v3 任務中,DSAC-T 的性能比 OpenAI 的 PPO 算法和 DeepMind 的 DDPG 算法高出 50% 以上。此外,DSAC-T 還表現出更高的學習穩定性和對獎勵尺度的魯棒性。
圖丨基準測試訓練曲線(來源:IEEE Transactions on Pattern An)
更重要的是,團隊在輪式機器人的實際控制任務(包括路徑跟蹤和動態避障)中驗證了算法的實用性,證明其能夠有效處理現實環境中的復雜決策問題,展現出從仿真到實際應用的強大遷移能力。
從仿真到實車,為自動駕駛的安全行駛提供技術保障
將強化學習算法從理論研究轉化為實際應用,其難度超過算法開發本身。作為全球率先實現強化學習實車應用的團隊之一,他們始終堅持“工程化思維”的研究導向。這不僅依賴于單個算法的突破,更需要一套包含軟件架構、工具鏈開發、工程適配以及針對具體任務的獎勵函數設計等在內的完整技術體系作為支撐。
圖丨研究團隊強化學習決控技術的發展歷程(來源:該團隊)
據介紹,該團隊的核心成員多數是工科背景,這使其研究能始終聚焦于實際應用場景。基于深厚的工程實踐積累,團隊對車輛和機器人控制領域的需求具有精準把握,能夠有效識別技術落地的關鍵因素。
兩代算法共經歷 5 年多的探索與迭代。第一代算法 DSAC 的研究工作始于 2018 年底,當時段京良正在清華大學攻讀博士學位。2019 年,他與團隊成功開發出 DSAC,相關論文于 2021 年正式發表 [2]。在此期間,段京良赴新加坡國立大學從事博士后研究。
2022 年回國加入北京科技大學后,段京良與其研究團隊針對第一代算法 DSAC 存在的穩定性不足、調參依賴性強等局限性,進一步開發出更具通用性的第二代算法 DSAC-T。該算法于 2023 年底完成研發,重點提升了訓練穩定性和參數魯棒性,致力于構建適用于自動駕駛、機器人等控制領域的強化學習工具鏈。
然而,強化學習在實際應用中面臨的一個關鍵挑戰在于獎勵函數的設計。以圍棋為例,其獎勵函數相對簡單明確,勝負結果可以直接作為獎勵信號。但在自動駕駛等復雜場景中,車輛需要處理各種交通博弈,包括與其他道路使用者的交互、交通規則遵守、駕駛效率、乘坐舒適度以及潛在的動力學限制等多重因素。
如何權衡這些復雜因素,設計出合理的獎勵函數以適應現實場景,是一個極具挑戰性的問題。研究團隊憑借豐富的項目經驗,逐步攻克了這些難題。段京良表示:“將強化學習算法與具體任務相結合,關鍵在于針對該任務設計合理的獎勵函數。這需要研究人員既精通算法原理,又深入理解被控對象和任務特性,才能實現二者的有機結合,設計出最符合任務需求的獎勵函數。”
在工程化實踐方面,團隊也積累了豐富的經驗。自 2020 年起,段京良的博士課題就專注于實現強化學習在實車上的應用。雖然初期場景相對簡單,但通過持續努力,團隊成功將技術推進到開放道路場景,并在此過程中積累了寶貴的研究經驗。
2024 年,他們在實車應用方面取得了突破性成果。特別值得一提的是,研究團隊通過自主研發的強化學習算法實現了車輛在各種道路條件下的安全行駛,不僅覆蓋了多種復雜場景,還適配了不同車型平臺。
除自動駕駛外,團隊還正在積極推進強化學習端到端控制技術在多個工業場景的產業化應用,包含工程機械自主作業、機器人巡檢作業等任務。從系統平穩性、運行效率到控制精度,團隊建立了一套完整的量化評估體系,能夠與熟練的人類操作員進行客觀比較。
在未來的研究中,該團隊計劃持續優化和迭代 DSAC-T 算法,進一步提升其性能表現。目前,強化學習領域尚無算法能夠學習到近乎全局最優的策略,因此在算法設計與優化方面仍存在較大的提升空間。更重要的是,面向實際應用場景,安全強化學習(Safe RL)將成為其重點研究方向之一。同時,他們還將持續探索多模態控制技術,以提升算法在復雜任務中的表現。
參考資料:
1.Jingliang Duan, Wenxuan Wang, Liming Xiao, Jiaxin Gao, Shengbo Eben Li, Chang Liu, Ya-Qin Zhang, Bo Cheng, Keqiang Li, Distributional Soft Actor-Critic with Three Refinements.IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 47, no. 5, pp. 3935-3946, 2025. https://ieeexplore.ieee.org/document/10858686.
2.Jingliang Duan, Yang Guan, Shengbo Eben Li, Yangang Ren, Qi Sun, Bo Cheng, Distributional soft actor-critic: off-policy reinforcement learning for addressing value estimation errors.IEEE Transactions on Neural Networks and Learning Systems, vol. 33, no. 11, pp. 6584-6598, 2022. https://ieeexplore.ieee.org/document/9448360.
3.DSAC 開源鏈接:https://github.com/Jingliang-Duan/DSAC-v2
4.GOPS 開源鏈接:https://gops.readthedocs.io/
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.