99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

清華團推出強化學習SOTA新算法,確保實現AI可靠決策

0
分享至

一項由高校團隊研發的新型強化學習算法,從理論上解決了現有算法價值估計不準、對獎勵尺度敏感等問題。該算法通過提供穩定可靠的決策支持,為自動駕駛的安全運行提供了堅實的技術保障。

近期,清華大學李克強院士、李升波教授團隊提出了一種改進的強化學習算法——DSAC-T(Distributional Soft Actor-Critic with Three Refinements)。該研究基于團隊此前提出的第一代算法 DSAC 的框架,通過引入期望值替代、雙值分布學習和基于方差的梯度調整三項關鍵技術,顯著提升了算法的穩定性和性能表現。

其創新之處在于采用了分布式的策略評價函數,而非傳統算法中單一的標量評估。這種分布式評價不僅考慮當前行為的即時得分,還建模了未來所有可能得分的概率分布,從而為策略優化提供了更豐富的信息維度。經多項基準測試驗證,DSAC-T 算法在性能上超越當前主流無模型強化學習算法,達到 SOTA 水平。

需要了解的是,該團隊的技術輸出并非單一算法,而是構建了完整的訓練工具鏈體系。“通過為企業提供整套訓練工具解決方案,不僅能支持 demo 驗證,更能幫助完成特定場景下的自動駕駛策略開發。”該論文第一作者、北京科技大學副教授段京良對 DeepTech 表示。


圖丨段京良(左)與李升波(右)(來源:段京良)

這套技術方案具有廣泛的應用前景,可支持多個領域的智能系統模型訓練,包括端到端自動駕駛、具身智能機器人以及工程機械無人作業等場景。目前,研究團隊已與滴滴、廣汽、東風、一汽、寶武等多家大型企業建立了合作關系。特別是在汽車產業智能化轉型的背景下,該技術有望推動自動駕駛技術向更高水平發展。

此外,該算法還有望應用于更廣泛的領域:在外賣行業,可通過派單優化算法為訂單匹配最佳騎手;在工業領域,可優化工廠和倉儲超市的制冷系統分配,在滿足各區域溫度需求的同時實現節能降耗;在交通領域,還能應用于混合動力汽車的能量管理系統優化。

目前,研究團隊已將 DSAC 系列兩代算法開源,并集成在其自主開發的工具鏈平臺 GOPS 中,方便學術界和工業界進行算法訓練、性能驗證及快速部署。

近日,相關論文以《融合三項改進的分布式 Soft Actor-Critic 算法》(Distributional Soft Actor-Critic with Three Refinements)為題發表在IEEE Transactions on Pattern Analysis and Machine Intelligence[1]。北京科技大學段京良副教授是第一作者,清華大學博士生王文軒為共同一作,清華大學李升波教授擔任通訊作者。


(來源:IEEE Transactions on Pattern Analysis and Machine)



在多項任務性能超主流算法達 SOTA 水平

強化學習(RL,Reinforcement Learning)作為人工智能領域的重要分支,因其在復雜決策和控制任務中的卓越表現而備受研究者關注。這種算法模擬了人類通過試錯進行學習的過程,本質上是一種廣泛適用于決策和控制任務的通用框架。其核心機制是通過精心設計的獎勵函數引導智能體(如自動駕駛系統或棋類 AI)自主探索環境,并根據獎勵反饋優化其行為策略。這一過程的關鍵在于,構建能夠準確評估行為價值的評價體系。

然而,傳統強化學習算法普遍面臨價值估計不準確的瓶頸問題,特別是動作價值(Q 值)的高估現象。這往往導致最終學習到的策略性能欠佳。不同強化學習算法效果的差異,很大程度上取決于其評價函數對行為價值判斷的準確性。


圖丨值分布強化學習算法 DSAC(來源:該團隊)

盡管團隊此前開發的第一代算法 DSAC 已通過建模連續高斯分布改進了價值估計,緩解了過估計問題,但由于分布函數本身的不確定性,其更新過程極易失穩。

此外,DSAC 算法存在明顯的參數敏感性問題,需要精細調參才能達到理想效果。段京良指出,成熟的通用算法應具備跨任務的穩定性,并盡可能減少對參數調整的依賴。


圖丨DSAC 算法核心架構和關鍵技術(來源:該團隊)

為了解決上述問題,研究團隊在第二代算法中嵌入了三項核心技術:期望值替代(EVS,Expected Value Substituting)、雙值分布學習(TVDL,Twin Value Distribution Learning)和基于方差的梯度調整(VCGA,Variance-Based Critic Gradient Adjustment)。

首先,EVS 針對平穩性問題,在網絡更新的目標函數中,找到可以被無損替換的隨機項,然后用非隨機量進行替代,通過從源頭減少不確定性使穩定性提高,就像“用固定的靶子替代移動的靶標”。

其次,TVDL 借鑒強化學習中的雙 Q 學習(Double Q-learning)的思路,將單一值分布學習擴展為學習兩個獨立對稱的值分布,相當于設置兩位“裁判”各自打分后交叉驗證,從而為策略優化提供一個更穩定的優化目標。

段京良解釋說道:“在強化學習中,單一 Q 函數可能導致優化偏差,因此引入雙 Q 學習機制,通過兩個 Q 函數交叉驗證來提升策略優化的穩定性。我們進一步擴展該思路,采用雙分布學習使優化目標更可靠,從而提高系統整體性能。”

最后,VCGA 針對參數敏感的問題,建立了依基于方差的梯度調節機制,根據對當前動作價值函數估計的不確定程度,即值函數的方差,動態調整值分布函數梯度的大小。該機制有效提升了更新梯度的穩定性,大幅降低了算法對超參數調整的依賴。

這三項技術的協同作用使 DSAC-T 能夠學習到高度準確的策略評價指標,進而訓練出更優越的控制策略。該算法的特點是實現了“一對多”的通用性能力:同一組超參數可以在 12 類不同任務(包括基于圖像輸入的復雜任務)中都保持良好性能,顯著降低了實際應用中的部署成本。


(來源:IEEE Transactions on Pattern Analysis and Machine In)

為了驗證 DSAC-T 的性能,研究團隊在多個基準任務上進行了測試,包括 Humanoid、Ant、HalfCheetah 等復雜控制任務。值得注意的是,DSAC-T 的性能優勢隨任務復雜度提升而愈加明顯:在簡單任務(如六維狀態倒立擺)中,各算法表現近似;但在高維復雜任務(如 376 維狀態×17 維動作)中,其性能優勢顯著。


表丨算法性能對比(來源:IEEE Transactions on Pattern Analys)

實驗結果顯示,DSAC-T 在所有任務中均優于或至少與主流強化學習算法持平,包括 SAC、TD3、DDPG、TRPO 和 PPO。值得關注的是,在 Humanoid-v3 任務中,DSAC-T 的性能比 OpenAI 的 PPO 算法和 DeepMind 的 DDPG 算法高出 50% 以上。此外,DSAC-T 還表現出更高的學習穩定性和對獎勵尺度的魯棒性。


圖丨基準測試訓練曲線(來源:IEEE Transactions on Pattern An)

更重要的是,團隊在輪式機器人的實際控制任務(包括路徑跟蹤和動態避障)中驗證了算法的實用性,證明其能夠有效處理現實環境中的復雜決策問題,展現出從仿真到實際應用的強大遷移能力。



從仿真到實車,為自動駕駛的安全行駛提供技術保障

將強化學習算法從理論研究轉化為實際應用,其難度超過算法開發本身。作為全球率先實現強化學習實車應用的團隊之一,他們始終堅持“工程化思維”的研究導向。這不僅依賴于單個算法的突破,更需要一套包含軟件架構、工具鏈開發、工程適配以及針對具體任務的獎勵函數設計等在內的完整技術體系作為支撐。


圖丨研究團隊強化學習決控技術的發展歷程(來源:該團隊)

據介紹,該團隊的核心成員多數是工科背景,這使其研究能始終聚焦于實際應用場景。基于深厚的工程實踐積累,團隊對車輛和機器人控制領域的需求具有精準把握,能夠有效識別技術落地的關鍵因素。

兩代算法共經歷 5 年多的探索與迭代。第一代算法 DSAC 的研究工作始于 2018 年底,當時段京良正在清華大學攻讀博士學位。2019 年,他與團隊成功開發出 DSAC,相關論文于 2021 年正式發表 [2]。在此期間,段京良赴新加坡國立大學從事博士后研究。

2022 年回國加入北京科技大學后,段京良與其研究團隊針對第一代算法 DSAC 存在的穩定性不足、調參依賴性強等局限性,進一步開發出更具通用性的第二代算法 DSAC-T。該算法于 2023 年底完成研發,重點提升了訓練穩定性和參數魯棒性,致力于構建適用于自動駕駛、機器人等控制領域的強化學習工具鏈。

然而,強化學習在實際應用中面臨的一個關鍵挑戰在于獎勵函數的設計。以圍棋為例,其獎勵函數相對簡單明確,勝負結果可以直接作為獎勵信號。但在自動駕駛等復雜場景中,車輛需要處理各種交通博弈,包括與其他道路使用者的交互、交通規則遵守、駕駛效率、乘坐舒適度以及潛在的動力學限制等多重因素。

如何權衡這些復雜因素,設計出合理的獎勵函數以適應現實場景,是一個極具挑戰性的問題。研究團隊憑借豐富的項目經驗,逐步攻克了這些難題。段京良表示:“將強化學習算法與具體任務相結合,關鍵在于針對該任務設計合理的獎勵函數。這需要研究人員既精通算法原理,又深入理解被控對象和任務特性,才能實現二者的有機結合,設計出最符合任務需求的獎勵函數。”

在工程化實踐方面,團隊也積累了豐富的經驗。自 2020 年起,段京良的博士課題就專注于實現強化學習在實車上的應用。雖然初期場景相對簡單,但通過持續努力,團隊成功將技術推進到開放道路場景,并在此過程中積累了寶貴的研究經驗。

2024 年,他們在實車應用方面取得了突破性成果。特別值得一提的是,研究團隊通過自主研發的強化學習算法實現了車輛在各種道路條件下的安全行駛,不僅覆蓋了多種復雜場景,還適配了不同車型平臺。

除自動駕駛外,團隊還正在積極推進強化學習端到端控制技術在多個工業場景的產業化應用,包含工程機械自主作業、機器人巡檢作業等任務。從系統平穩性、運行效率到控制精度,團隊建立了一套完整的量化評估體系,能夠與熟練的人類操作員進行客觀比較。

在未來的研究中,該團隊計劃持續優化和迭代 DSAC-T 算法,進一步提升其性能表現。目前,強化學習領域尚無算法能夠學習到近乎全局最優的策略,因此在算法設計與優化方面仍存在較大的提升空間。更重要的是,面向實際應用場景,安全強化學習(Safe RL)將成為其重點研究方向之一。同時,他們還將持續探索多模態控制技術,以提升算法在復雜任務中的表現。

參考資料:

1.Jingliang Duan, Wenxuan Wang, Liming Xiao, Jiaxin Gao, Shengbo Eben Li, Chang Liu, Ya-Qin Zhang, Bo Cheng, Keqiang Li, Distributional Soft Actor-Critic with Three Refinements.IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 47, no. 5, pp. 3935-3946, 2025. https://ieeexplore.ieee.org/document/10858686.

2.Jingliang Duan, Yang Guan, Shengbo Eben Li, Yangang Ren, Qi Sun, Bo Cheng, Distributional soft actor-critic: off-policy reinforcement learning for addressing value estimation errors.IEEE Transactions on Neural Networks and Learning Systems, vol. 33, no. 11, pp. 6584-6598, 2022. https://ieeexplore.ieee.org/document/9448360.

3.DSAC 開源鏈接:https://github.com/Jingliang-Duan/DSAC-v2

4.GOPS 開源鏈接:https://gops.readthedocs.io/

運營/排版:何晨龍

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
親人去世你會害怕嗎?網友:閻王爺都知道,疼你的人舍不得嚇你!

親人去世你會害怕嗎?網友:閻王爺都知道,疼你的人舍不得嚇你!

墻頭草
2025-07-09 13:04:57
倫敦兩名罪犯將運往烏克蘭的“星鏈”通信設備燒毀,價值10萬英鎊

倫敦兩名罪犯將運往烏克蘭的“星鏈”通信設備燒毀,價值10萬英鎊

歐羅巴手記
2025-07-09 07:52:25
再見姆巴佩!球迷送噓聲!加盟皇馬,耽誤三大巨星,佛爺后悔了

再見姆巴佩!球迷送噓聲!加盟皇馬,耽誤三大巨星,佛爺后悔了

阿泰希特
2025-07-10 11:33:16
全國理發店陷入倒閉潮,不是沒客人,而是自己把自己玩黃了!

全國理發店陷入倒閉潮,不是沒客人,而是自己把自己玩黃了!

哄動一時啊
2025-06-24 06:55:03
一群工人在深圳地鐵乘涼,引網友熱議!

一群工人在深圳地鐵乘涼,引網友熱議!

深圳晚報
2025-07-10 12:37:45
維護國家安全利益,打擊“臺獨”勢力幫兇,商務部出口管制名單震動島內

維護國家安全利益,打擊“臺獨”勢力幫兇,商務部出口管制名單震動島內

環球網資訊
2025-07-10 07:08:18
身價暴漲100億!李澤楷拿下4家上市公司,梁洛施仨兒子卻成大贏家

身價暴漲100億!李澤楷拿下4家上市公司,梁洛施仨兒子卻成大贏家

擔撲
2025-07-10 15:34:25
全班48人,46人過600分,班主任被教育局約談,結局令人意外

全班48人,46人過600分,班主任被教育局約談,結局令人意外

五元講堂
2025-07-02 10:36:58
水果姐與開花宣布分手后一起度假!帶倆孩子出海游玩

水果姐與開花宣布分手后一起度假!帶倆孩子出海游玩

阿廢冷眼觀察所
2025-07-10 14:20:28
中使館就以色列有關議員涉臺錯誤言行向以方提出嚴正交涉

中使館就以色列有關議員涉臺錯誤言行向以方提出嚴正交涉

澎湃新聞
2025-07-09 21:35:20
我國人均預期壽命提高到79歲

我國人均預期壽命提高到79歲

新京報
2025-07-09 11:11:02
這是希島あいり(希島愛里)最初也是最后的傳奇共演!

這是希島あいり(希島愛里)最初也是最后的傳奇共演!

孤獨的獨角獸影視
2025-06-09 09:55:15
廣東屏蔽生放棄清北!選了港大牙科:獎學金加生活費168萬港元…

廣東屏蔽生放棄清北!選了港大牙科:獎學金加生活費168萬港元…

明月雜談
2025-07-08 13:10:07
普京智囊做出預言:下一個爆發戰爭的地方不是臺海,也不是南海

普京智囊做出預言:下一個爆發戰爭的地方不是臺海,也不是南海

Ck的蜜糖
2025-07-10 14:33:40
比特幣升破11.2萬美元,刷新歷史新高!超10萬人爆倉

比特幣升破11.2萬美元,刷新歷史新高!超10萬人爆倉

21世紀經濟報道
2025-07-10 09:36:16
為什么要壓南京紅老頭的新聞熱度

為什么要壓南京紅老頭的新聞熱度

名字是浮云
2025-07-09 12:30:05
“牡丹花下死,做鬼也風流”!如今,誰也救不了44歲的宋小寶

“牡丹花下死,做鬼也風流”!如今,誰也救不了44歲的宋小寶

墨印齋
2025-07-08 05:24:55
你給我走!名記:科林斯太能贏了 爵士編了很多理由讓他休戰

你給我走!名記:科林斯太能贏了 爵士編了很多理由讓他休戰

直播吧
2025-07-10 07:42:05
汪小菲夫妻回臺北,馬筱梅身上好多淤青,玥兒黏著后媽感情好

汪小菲夫妻回臺北,馬筱梅身上好多淤青,玥兒黏著后媽感情好

二妹扯娛
2025-07-10 15:58:19
中國開始測試等離子體發動機, 外媒:這更像22 世紀的技術

中國開始測試等離子體發動機, 外媒:這更像22 世紀的技術

一個有靈魂的作者
2025-07-09 09:09:07
2025-07-10 18:23:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15396文章數 513876關注度
往期回顧 全部

科技要聞

Grok4最貴訂閱月費2千,會不會三觀不正?

頭條要聞

武漢男子斥不拴繩遛狗被打傷 次日送娃上學遭挑釁尾隨

頭條要聞

武漢男子斥不拴繩遛狗被打傷 次日送娃上學遭挑釁尾隨

體育要聞

北美四大職業聯盟 又多了一位中國球員

娛樂要聞

宋佳,真的好叛逆!

財經要聞

潮玩規模破千億的幕后故事

汽車要聞

靠譜奶爸的底氣 樂道L90靜態體驗

態度原創

親子
本地
數碼
公開課
軍事航空

親子要聞

幼兒血鉛后續:家長23年就開始吃,疑后廚親屬喊冤,懷孕老師中招

本地新聞

換個城市過夏天 | 楓葉之都的22℃清涼秘境

數碼要聞

16GB 599 元、32GB 1199 元,英睿達 DDR5-6400 CUDIMM 內存上市

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

內塔尼亞胡贈特朗普美軍B-2轟炸機造型“特別禮物”

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 富宁县| 大新县| 云龙县| 加查县| 什邡市| 封开县| 墨江| 汶川县| 凤山市| 闽侯县| 新郑市| 靖边县| 海晏县| 裕民县| 许昌市| 方城县| 吴旗县| 楚雄市| 庆元县| 拜泉县| 龙岩市| 青田县| 北安市| 清水河县| 东方市| 如皋市| 怀来县| 景东| 新化县| 师宗县| 桑植县| 绍兴市| 镶黄旗| 叙永县| 秦皇岛市| 高雄市| 琼海市| 南开区| 皋兰县| 象山县| 汕头市|