清華團推出強化學(xué)習(xí)SOTA新算法，確保實現(xiàn)AI可靠決策

2025-07-09 15:30:40　來源: DeepTech深科技

北京舉報

分享至

一項由高校團隊研發(fā)的新型強化學(xué)習(xí)算法，從理論上解決了現(xiàn)有算法價值估計不準(zhǔn)、對獎勵尺度敏感等問題。該算法通過提供穩(wěn)定可靠的決策支持，為自動駕駛的安全運行提供了堅實的技術(shù)保障。

近期，清華大學(xué)李克強院士、李升波教授團隊提出了一種改進的強化學(xué)習(xí)算法——DSAC-T（Distributional Soft Actor-Critic with Three Refinements）。該研究基于團隊此前提出的第一代算法 DSAC 的框架，通過引入期望值替代、雙值分布學(xué)習(xí)和基于方差的梯度調(diào)整三項關(guān)鍵技術(shù)，顯著提升了算法的穩(wěn)定性和性能表現(xiàn)。

其創(chuàng)新之處在于采用了分布式的策略評價函數(shù)，而非傳統(tǒng)算法中單一的標(biāo)量評估。這種分布式評價不僅考慮當(dāng)前行為的即時得分，還建模了未來所有可能得分的概率分布，從而為策略優(yōu)化提供了更豐富的信息維度。經(jīng)多項基準(zhǔn)測試驗證，DSAC-T 算法在性能上超越當(dāng)前主流無模型強化學(xué)習(xí)算法，達到 SOTA 水平。

需要了解的是，該團隊的技術(shù)輸出并非單一算法，而是構(gòu)建了完整的訓(xùn)練工具鏈體系。“通過為企業(yè)提供整套訓(xùn)練工具解決方案，不僅能支持 demo 驗證，更能幫助完成特定場景下的自動駕駛策略開發(fā)。”該論文第一作者、北京科技大學(xué)副教授段京良對 DeepTech 表示。

圖丨段京良（左）與李升波（右）（來源：段京良）

這套技術(shù)方案具有廣泛的應(yīng)用前景，可支持多個領(lǐng)域的智能系統(tǒng)模型訓(xùn)練，包括端到端自動駕駛、具身智能機器人以及工程機械無人作業(yè)等場景。目前，研究團隊已與滴滴、廣汽、東風(fēng)、一汽、寶武等多家大型企業(yè)建立了合作關(guān)系。特別是在汽車產(chǎn)業(yè)智能化轉(zhuǎn)型的背景下，該技術(shù)有望推動自動駕駛技術(shù)向更高水平發(fā)展。

此外，該算法還有望應(yīng)用于更廣泛的領(lǐng)域：在外賣行業(yè)，可通過派單優(yōu)化算法為訂單匹配最佳騎手；在工業(yè)領(lǐng)域，可優(yōu)化工廠和倉儲超市的制冷系統(tǒng)分配，在滿足各區(qū)域溫度需求的同時實現(xiàn)節(jié)能降耗；在交通領(lǐng)域，還能應(yīng)用于混合動力汽車的能量管理系統(tǒng)優(yōu)化。

目前，研究團隊已將 DSAC 系列兩代算法開源，并集成在其自主開發(fā)的工具鏈平臺 GOPS 中，方便學(xué)術(shù)界和工業(yè)界進行算法訓(xùn)練、性能驗證及快速部署。

近日，相關(guān)論文以《融合三項改進的分布式 Soft Actor-Critic 算法》（Distributional Soft Actor-Critic with Three Refinements）為題發(fā)表在IEEE Transactions on Pattern Analysis and Machine Intelligence[1]。北京科技大學(xué)段京良副教授是第一作者，清華大學(xué)博士生王文軒為共同一作，清華大學(xué)李升波教授擔(dān)任通訊作者。

（來源：IEEE Transactions on Pattern Analysis and Machine)

在多項任務(wù)性能超主流算法達 SOTA 水平

強化學(xué)習(xí)（RL，Reinforcement Learning）作為人工智能領(lǐng)域的重要分支，因其在復(fù)雜決策和控制任務(wù)中的卓越表現(xiàn)而備受研究者關(guān)注。這種算法模擬了人類通過試錯進行學(xué)習(xí)的過程，本質(zhì)上是一種廣泛適用于決策和控制任務(wù)的通用框架。其核心機制是通過精心設(shè)計的獎勵函數(shù)引導(dǎo)智能體（如自動駕駛系統(tǒng)或棋類 AI）自主探索環(huán)境，并根據(jù)獎勵反饋優(yōu)化其行為策略。這一過程的關(guān)鍵在于，構(gòu)建能夠準(zhǔn)確評估行為價值的評價體系。

然而，傳統(tǒng)強化學(xué)習(xí)算法普遍面臨價值估計不準(zhǔn)確的瓶頸問題，特別是動作價值（Q 值）的高估現(xiàn)象。這往往導(dǎo)致最終學(xué)習(xí)到的策略性能欠佳。不同強化學(xué)習(xí)算法效果的差異，很大程度上取決于其評價函數(shù)對行為價值判斷的準(zhǔn)確性。

圖丨值分布強化學(xué)習(xí)算法 DSAC（來源：該團隊）

盡管團隊此前開發(fā)的第一代算法 DSAC 已通過建模連續(xù)高斯分布改進了價值估計，緩解了過估計問題，但由于分布函數(shù)本身的不確定性，其更新過程極易失穩(wěn)。

此外，DSAC 算法存在明顯的參數(shù)敏感性問題，需要精細(xì)調(diào)參才能達到理想效果。段京良指出，成熟的通用算法應(yīng)具備跨任務(wù)的穩(wěn)定性，并盡可能減少對參數(shù)調(diào)整的依賴。

圖丨DSAC 算法核心架構(gòu)和關(guān)鍵技術(shù)（來源：該團隊）

為了解決上述問題，研究團隊在第二代算法中嵌入了三項核心技術(shù)：期望值替代（EVS，Expected Value Substituting）、雙值分布學(xué)習(xí)（TVDL，Twin Value Distribution Learning）和基于方差的梯度調(diào)整（VCGA，Variance-Based Critic Gradient Adjustment）。

首先，EVS 針對平穩(wěn)性問題，在網(wǎng)絡(luò)更新的目標(biāo)函數(shù)中，找到可以被無損替換的隨機項，然后用非隨機量進行替代，通過從源頭減少不確定性使穩(wěn)定性提高，就像“用固定的靶子替代移動的靶標(biāo)”。

其次，TVDL 借鑒強化學(xué)習(xí)中的雙 Q 學(xué)習(xí)（Double Q-learning）的思路，將單一值分布學(xué)習(xí)擴展為學(xué)習(xí)兩個獨立對稱的值分布，相當(dāng)于設(shè)置兩位“裁判”各自打分后交叉驗證，從而為策略優(yōu)化提供一個更穩(wěn)定的優(yōu)化目標(biāo)。

段京良解釋說道：“在強化學(xué)習(xí)中，單一 Q 函數(shù)可能導(dǎo)致優(yōu)化偏差，因此引入雙 Q 學(xué)習(xí)機制，通過兩個 Q 函數(shù)交叉驗證來提升策略優(yōu)化的穩(wěn)定性。我們進一步擴展該思路，采用雙分布學(xué)習(xí)使優(yōu)化目標(biāo)更可靠，從而提高系統(tǒng)整體性能。”

最后，VCGA 針對參數(shù)敏感的問題，建立了依基于方差的梯度調(diào)節(jié)機制，根據(jù)對當(dāng)前動作價值函數(shù)估計的不確定程度，即值函數(shù)的方差，動態(tài)調(diào)整值分布函數(shù)梯度的大小。該機制有效提升了更新梯度的穩(wěn)定性，大幅降低了算法對超參數(shù)調(diào)整的依賴。

這三項技術(shù)的協(xié)同作用使 DSAC-T 能夠?qū)W習(xí)到高度準(zhǔn)確的策略評價指標(biāo)，進而訓(xùn)練出更優(yōu)越的控制策略。該算法的特點是實現(xiàn)了“一對多”的通用性能力：同一組超參數(shù)可以在 12 類不同任務(wù)（包括基于圖像輸入的復(fù)雜任務(wù)）中都保持良好性能，顯著降低了實際應(yīng)用中的部署成本。

（來源：IEEE Transactions on Pattern Analysis and Machine In)

為了驗證 DSAC-T 的性能，研究團隊在多個基準(zhǔn)任務(wù)上進行了測試，包括 Humanoid、Ant、HalfCheetah 等復(fù)雜控制任務(wù)。值得注意的是，DSAC-T 的性能優(yōu)勢隨任務(wù)復(fù)雜度提升而愈加明顯：在簡單任務(wù)（如六維狀態(tài)倒立擺）中，各算法表現(xiàn)近似；但在高維復(fù)雜任務(wù)（如 376 維狀態(tài)×17 維動作）中，其性能優(yōu)勢顯著。

表丨算法性能對比（來源：IEEE Transactions on Pattern Analys)

實驗結(jié)果顯示，DSAC-T 在所有任務(wù)中均優(yōu)于或至少與主流強化學(xué)習(xí)算法持平，包括 SAC、TD3、DDPG、TRPO 和 PPO。值得關(guān)注的是，在 Humanoid-v3 任務(wù)中，DSAC-T 的性能比 OpenAI 的 PPO 算法和 DeepMind 的 DDPG 算法高出 50% 以上。此外，DSAC-T 還表現(xiàn)出更高的學(xué)習(xí)穩(wěn)定性和對獎勵尺度的魯棒性。

圖丨基準(zhǔn)測試訓(xùn)練曲線（來源：IEEE Transactions on Pattern An)

更重要的是，團隊在輪式機器人的實際控制任務(wù)（包括路徑跟蹤和動態(tài)避障）中驗證了算法的實用性，證明其能夠有效處理現(xiàn)實環(huán)境中的復(fù)雜決策問題，展現(xiàn)出從仿真到實際應(yīng)用的強大遷移能力。

從仿真到實車，為自動駕駛的安全行駛提供技術(shù)保障

將強化學(xué)習(xí)算法從理論研究轉(zhuǎn)化為實際應(yīng)用，其難度超過算法開發(fā)本身。作為全球率先實現(xiàn)強化學(xué)習(xí)實車應(yīng)用的團隊之一，他們始終堅持“工程化思維”的研究導(dǎo)向。這不僅依賴于單個算法的突破，更需要一套包含軟件架構(gòu)、工具鏈開發(fā)、工程適配以及針對具體任務(wù)的獎勵函數(shù)設(shè)計等在內(nèi)的完整技術(shù)體系作為支撐。

圖丨研究團隊強化學(xué)習(xí)決控技術(shù)的發(fā)展歷程（來源：該團隊）

據(jù)介紹，該團隊的核心成員多數(shù)是工科背景，這使其研究能始終聚焦于實際應(yīng)用場景。基于深厚的工程實踐積累，團隊對車輛和機器人控制領(lǐng)域的需求具有精準(zhǔn)把握，能夠有效識別技術(shù)落地的關(guān)鍵因素。

兩代算法共經(jīng)歷 5 年多的探索與迭代。第一代算法 DSAC 的研究工作始于 2018 年底，當(dāng)時段京良正在清華大學(xué)攻讀博士學(xué)位。2019 年，他與團隊成功開發(fā)出 DSAC，相關(guān)論文于 2021 年正式發(fā)表 [2]。在此期間，段京良赴新加坡國立大學(xué)從事博士后研究。

2022 年回國加入北京科技大學(xué)后，段京良與其研究團隊針對第一代算法 DSAC 存在的穩(wěn)定性不足、調(diào)參依賴性強等局限性，進一步開發(fā)出更具通用性的第二代算法 DSAC-T。該算法于 2023 年底完成研發(fā)，重點提升了訓(xùn)練穩(wěn)定性和參數(shù)魯棒性，致力于構(gòu)建適用于自動駕駛、機器人等控制領(lǐng)域的強化學(xué)習(xí)工具鏈。

然而，強化學(xué)習(xí)在實際應(yīng)用中面臨的一個關(guān)鍵挑戰(zhàn)在于獎勵函數(shù)的設(shè)計。以圍棋為例，其獎勵函數(shù)相對簡單明確，勝負(fù)結(jié)果可以直接作為獎勵信號。但在自動駕駛等復(fù)雜場景中，車輛需要處理各種交通博弈，包括與其他道路使用者的交互、交通規(guī)則遵守、駕駛效率、乘坐舒適度以及潛在的動力學(xué)限制等多重因素。

如何權(quán)衡這些復(fù)雜因素，設(shè)計出合理的獎勵函數(shù)以適應(yīng)現(xiàn)實場景，是一個極具挑戰(zhàn)性的問題。研究團隊?wèi){借豐富的項目經(jīng)驗，逐步攻克了這些難題。段京良表示：“將強化學(xué)習(xí)算法與具體任務(wù)相結(jié)合，關(guān)鍵在于針對該任務(wù)設(shè)計合理的獎勵函數(shù)。這需要研究人員既精通算法原理，又深入理解被控對象和任務(wù)特性，才能實現(xiàn)二者的有機結(jié)合，設(shè)計出最符合任務(wù)需求的獎勵函數(shù)。”

在工程化實踐方面，團隊也積累了豐富的經(jīng)驗。自 2020 年起，段京良的博士課題就專注于實現(xiàn)強化學(xué)習(xí)在實車上的應(yīng)用。雖然初期場景相對簡單，但通過持續(xù)努力，團隊成功將技術(shù)推進到開放道路場景，并在此過程中積累了寶貴的研究經(jīng)驗。

2024 年，他們在實車應(yīng)用方面取得了突破性成果。特別值得一提的是，研究團隊通過自主研發(fā)的強化學(xué)習(xí)算法實現(xiàn)了車輛在各種道路條件下的安全行駛，不僅覆蓋了多種復(fù)雜場景，還適配了不同車型平臺。

除自動駕駛外，團隊還正在積極推進強化學(xué)習(xí)端到端控制技術(shù)在多個工業(yè)場景的產(chǎn)業(yè)化應(yīng)用，包含工程機械自主作業(yè)、機器人巡檢作業(yè)等任務(wù)。從系統(tǒng)平穩(wěn)性、運行效率到控制精度，團隊建立了一套完整的量化評估體系，能夠與熟練的人類操作員進行客觀比較。

在未來的研究中，該團隊計劃持續(xù)優(yōu)化和迭代 DSAC-T 算法，進一步提升其性能表現(xiàn)。目前，強化學(xué)習(xí)領(lǐng)域尚無算法能夠?qū)W習(xí)到近乎全局最優(yōu)的策略，因此在算法設(shè)計與優(yōu)化方面仍存在較大的提升空間。更重要的是，面向?qū)嶋H應(yīng)用場景，安全強化學(xué)習(xí)（Safe RL）將成為其重點研究方向之一。同時，他們還將持續(xù)探索多模態(tài)控制技術(shù)，以提升算法在復(fù)雜任務(wù)中的表現(xiàn)。

參考資料：

1.Jingliang Duan, Wenxuan Wang, Liming Xiao, Jiaxin Gao, Shengbo Eben Li, Chang Liu, Ya-Qin Zhang, Bo Cheng, Keqiang Li, Distributional Soft Actor-Critic with Three Refinements.IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 47, no. 5, pp. 3935-3946, 2025. https://ieeexplore.ieee.org/document/10858686.

2.Jingliang Duan, Yang Guan, Shengbo Eben Li, Yangang Ren, Qi Sun, Bo Cheng, Distributional soft actor-critic: off-policy reinforcement learning for addressing value estimation errors.IEEE Transactions on Neural Networks and Learning Systems, vol. 33, no. 11, pp. 6584-6598, 2022. https://ieeexplore.ieee.org/document/9448360.

3.DSAC 開源鏈接：https://github.com/Jingliang-Duan/DSAC-v2

4.GOPS 開源鏈接：https://gops.readthedocs.io/

運營/排版：何晨龍

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.