99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

清華團推出強化學(xué)習(xí)SOTA新算法,確保實現(xiàn)AI可靠決策

0
分享至

一項由高校團隊研發(fā)的新型強化學(xué)習(xí)算法,從理論上解決了現(xiàn)有算法價值估計不準(zhǔn)、對獎勵尺度敏感等問題。該算法通過提供穩(wěn)定可靠的決策支持,為自動駕駛的安全運行提供了堅實的技術(shù)保障。

近期,清華大學(xué)李克強院士、李升波教授團隊提出了一種改進的強化學(xué)習(xí)算法——DSAC-T(Distributional Soft Actor-Critic with Three Refinements)。該研究基于團隊此前提出的第一代算法 DSAC 的框架,通過引入期望值替代、雙值分布學(xué)習(xí)和基于方差的梯度調(diào)整三項關(guān)鍵技術(shù),顯著提升了算法的穩(wěn)定性和性能表現(xiàn)。

其創(chuàng)新之處在于采用了分布式的策略評價函數(shù),而非傳統(tǒng)算法中單一的標(biāo)量評估。這種分布式評價不僅考慮當(dāng)前行為的即時得分,還建模了未來所有可能得分的概率分布,從而為策略優(yōu)化提供了更豐富的信息維度。經(jīng)多項基準(zhǔn)測試驗證,DSAC-T 算法在性能上超越當(dāng)前主流無模型強化學(xué)習(xí)算法,達到 SOTA 水平。

需要了解的是,該團隊的技術(shù)輸出并非單一算法,而是構(gòu)建了完整的訓(xùn)練工具鏈體系。“通過為企業(yè)提供整套訓(xùn)練工具解決方案,不僅能支持 demo 驗證,更能幫助完成特定場景下的自動駕駛策略開發(fā)。”該論文第一作者、北京科技大學(xué)副教授段京良對 DeepTech 表示。


圖丨段京良(左)與李升波(右)(來源:段京良)

這套技術(shù)方案具有廣泛的應(yīng)用前景,可支持多個領(lǐng)域的智能系統(tǒng)模型訓(xùn)練,包括端到端自動駕駛、具身智能機器人以及工程機械無人作業(yè)等場景。目前,研究團隊已與滴滴、廣汽、東風(fēng)、一汽、寶武等多家大型企業(yè)建立了合作關(guān)系。特別是在汽車產(chǎn)業(yè)智能化轉(zhuǎn)型的背景下,該技術(shù)有望推動自動駕駛技術(shù)向更高水平發(fā)展。

此外,該算法還有望應(yīng)用于更廣泛的領(lǐng)域:在外賣行業(yè),可通過派單優(yōu)化算法為訂單匹配最佳騎手;在工業(yè)領(lǐng)域,可優(yōu)化工廠和倉儲超市的制冷系統(tǒng)分配,在滿足各區(qū)域溫度需求的同時實現(xiàn)節(jié)能降耗;在交通領(lǐng)域,還能應(yīng)用于混合動力汽車的能量管理系統(tǒng)優(yōu)化。

目前,研究團隊已將 DSAC 系列兩代算法開源,并集成在其自主開發(fā)的工具鏈平臺 GOPS 中,方便學(xué)術(shù)界和工業(yè)界進行算法訓(xùn)練、性能驗證及快速部署。

近日,相關(guān)論文以《融合三項改進的分布式 Soft Actor-Critic 算法》(Distributional Soft Actor-Critic with Three Refinements)為題發(fā)表在IEEE Transactions on Pattern Analysis and Machine Intelligence[1]。北京科技大學(xué)段京良副教授是第一作者,清華大學(xué)博士生王文軒為共同一作,清華大學(xué)李升波教授擔(dān)任通訊作者。


(來源:IEEE Transactions on Pattern Analysis and Machine)



在多項任務(wù)性能超主流算法達 SOTA 水平

強化學(xué)習(xí)(RL,Reinforcement Learning)作為人工智能領(lǐng)域的重要分支,因其在復(fù)雜決策和控制任務(wù)中的卓越表現(xiàn)而備受研究者關(guān)注。這種算法模擬了人類通過試錯進行學(xué)習(xí)的過程,本質(zhì)上是一種廣泛適用于決策和控制任務(wù)的通用框架。其核心機制是通過精心設(shè)計的獎勵函數(shù)引導(dǎo)智能體(如自動駕駛系統(tǒng)或棋類 AI)自主探索環(huán)境,并根據(jù)獎勵反饋優(yōu)化其行為策略。這一過程的關(guān)鍵在于,構(gòu)建能夠準(zhǔn)確評估行為價值的評價體系。

然而,傳統(tǒng)強化學(xué)習(xí)算法普遍面臨價值估計不準(zhǔn)確的瓶頸問題,特別是動作價值(Q 值)的高估現(xiàn)象。這往往導(dǎo)致最終學(xué)習(xí)到的策略性能欠佳。不同強化學(xué)習(xí)算法效果的差異,很大程度上取決于其評價函數(shù)對行為價值判斷的準(zhǔn)確性。


圖丨值分布強化學(xué)習(xí)算法 DSAC(來源:該團隊)

盡管團隊此前開發(fā)的第一代算法 DSAC 已通過建模連續(xù)高斯分布改進了價值估計,緩解了過估計問題,但由于分布函數(shù)本身的不確定性,其更新過程極易失穩(wěn)。

此外,DSAC 算法存在明顯的參數(shù)敏感性問題,需要精細(xì)調(diào)參才能達到理想效果。段京良指出,成熟的通用算法應(yīng)具備跨任務(wù)的穩(wěn)定性,并盡可能減少對參數(shù)調(diào)整的依賴。


圖丨DSAC 算法核心架構(gòu)和關(guān)鍵技術(shù)(來源:該團隊)

為了解決上述問題,研究團隊在第二代算法中嵌入了三項核心技術(shù):期望值替代(EVS,Expected Value Substituting)、雙值分布學(xué)習(xí)(TVDL,Twin Value Distribution Learning)和基于方差的梯度調(diào)整(VCGA,Variance-Based Critic Gradient Adjustment)。

首先,EVS 針對平穩(wěn)性問題,在網(wǎng)絡(luò)更新的目標(biāo)函數(shù)中,找到可以被無損替換的隨機項,然后用非隨機量進行替代,通過從源頭減少不確定性使穩(wěn)定性提高,就像“用固定的靶子替代移動的靶標(biāo)”。

其次,TVDL 借鑒強化學(xué)習(xí)中的雙 Q 學(xué)習(xí)(Double Q-learning)的思路,將單一值分布學(xué)習(xí)擴展為學(xué)習(xí)兩個獨立對稱的值分布,相當(dāng)于設(shè)置兩位“裁判”各自打分后交叉驗證,從而為策略優(yōu)化提供一個更穩(wěn)定的優(yōu)化目標(biāo)。

段京良解釋說道:“在強化學(xué)習(xí)中,單一 Q 函數(shù)可能導(dǎo)致優(yōu)化偏差,因此引入雙 Q 學(xué)習(xí)機制,通過兩個 Q 函數(shù)交叉驗證來提升策略優(yōu)化的穩(wěn)定性。我們進一步擴展該思路,采用雙分布學(xué)習(xí)使優(yōu)化目標(biāo)更可靠,從而提高系統(tǒng)整體性能。”

最后,VCGA 針對參數(shù)敏感的問題,建立了依基于方差的梯度調(diào)節(jié)機制,根據(jù)對當(dāng)前動作價值函數(shù)估計的不確定程度,即值函數(shù)的方差,動態(tài)調(diào)整值分布函數(shù)梯度的大小。該機制有效提升了更新梯度的穩(wěn)定性,大幅降低了算法對超參數(shù)調(diào)整的依賴。

這三項技術(shù)的協(xié)同作用使 DSAC-T 能夠?qū)W習(xí)到高度準(zhǔn)確的策略評價指標(biāo),進而訓(xùn)練出更優(yōu)越的控制策略。該算法的特點是實現(xiàn)了“一對多”的通用性能力:同一組超參數(shù)可以在 12 類不同任務(wù)(包括基于圖像輸入的復(fù)雜任務(wù))中都保持良好性能,顯著降低了實際應(yīng)用中的部署成本。


(來源:IEEE Transactions on Pattern Analysis and Machine In)

為了驗證 DSAC-T 的性能,研究團隊在多個基準(zhǔn)任務(wù)上進行了測試,包括 Humanoid、Ant、HalfCheetah 等復(fù)雜控制任務(wù)。值得注意的是,DSAC-T 的性能優(yōu)勢隨任務(wù)復(fù)雜度提升而愈加明顯:在簡單任務(wù)(如六維狀態(tài)倒立擺)中,各算法表現(xiàn)近似;但在高維復(fù)雜任務(wù)(如 376 維狀態(tài)×17 維動作)中,其性能優(yōu)勢顯著。


表丨算法性能對比(來源:IEEE Transactions on Pattern Analys)

實驗結(jié)果顯示,DSAC-T 在所有任務(wù)中均優(yōu)于或至少與主流強化學(xué)習(xí)算法持平,包括 SAC、TD3、DDPG、TRPO 和 PPO。值得關(guān)注的是,在 Humanoid-v3 任務(wù)中,DSAC-T 的性能比 OpenAI 的 PPO 算法和 DeepMind 的 DDPG 算法高出 50% 以上。此外,DSAC-T 還表現(xiàn)出更高的學(xué)習(xí)穩(wěn)定性和對獎勵尺度的魯棒性。


圖丨基準(zhǔn)測試訓(xùn)練曲線(來源:IEEE Transactions on Pattern An)

更重要的是,團隊在輪式機器人的實際控制任務(wù)(包括路徑跟蹤和動態(tài)避障)中驗證了算法的實用性,證明其能夠有效處理現(xiàn)實環(huán)境中的復(fù)雜決策問題,展現(xiàn)出從仿真到實際應(yīng)用的強大遷移能力。



從仿真到實車,為自動駕駛的安全行駛提供技術(shù)保障

將強化學(xué)習(xí)算法從理論研究轉(zhuǎn)化為實際應(yīng)用,其難度超過算法開發(fā)本身。作為全球率先實現(xiàn)強化學(xué)習(xí)實車應(yīng)用的團隊之一,他們始終堅持“工程化思維”的研究導(dǎo)向。這不僅依賴于單個算法的突破,更需要一套包含軟件架構(gòu)、工具鏈開發(fā)、工程適配以及針對具體任務(wù)的獎勵函數(shù)設(shè)計等在內(nèi)的完整技術(shù)體系作為支撐。


圖丨研究團隊強化學(xué)習(xí)決控技術(shù)的發(fā)展歷程(來源:該團隊)

據(jù)介紹,該團隊的核心成員多數(shù)是工科背景,這使其研究能始終聚焦于實際應(yīng)用場景。基于深厚的工程實踐積累,團隊對車輛和機器人控制領(lǐng)域的需求具有精準(zhǔn)把握,能夠有效識別技術(shù)落地的關(guān)鍵因素。

兩代算法共經(jīng)歷 5 年多的探索與迭代。第一代算法 DSAC 的研究工作始于 2018 年底,當(dāng)時段京良正在清華大學(xué)攻讀博士學(xué)位。2019 年,他與團隊成功開發(fā)出 DSAC,相關(guān)論文于 2021 年正式發(fā)表 [2]。在此期間,段京良赴新加坡國立大學(xué)從事博士后研究。

2022 年回國加入北京科技大學(xué)后,段京良與其研究團隊針對第一代算法 DSAC 存在的穩(wěn)定性不足、調(diào)參依賴性強等局限性,進一步開發(fā)出更具通用性的第二代算法 DSAC-T。該算法于 2023 年底完成研發(fā),重點提升了訓(xùn)練穩(wěn)定性和參數(shù)魯棒性,致力于構(gòu)建適用于自動駕駛、機器人等控制領(lǐng)域的強化學(xué)習(xí)工具鏈。

然而,強化學(xué)習(xí)在實際應(yīng)用中面臨的一個關(guān)鍵挑戰(zhàn)在于獎勵函數(shù)的設(shè)計。以圍棋為例,其獎勵函數(shù)相對簡單明確,勝負(fù)結(jié)果可以直接作為獎勵信號。但在自動駕駛等復(fù)雜場景中,車輛需要處理各種交通博弈,包括與其他道路使用者的交互、交通規(guī)則遵守、駕駛效率、乘坐舒適度以及潛在的動力學(xué)限制等多重因素。

如何權(quán)衡這些復(fù)雜因素,設(shè)計出合理的獎勵函數(shù)以適應(yīng)現(xiàn)實場景,是一個極具挑戰(zhàn)性的問題。研究團隊?wèi){借豐富的項目經(jīng)驗,逐步攻克了這些難題。段京良表示:“將強化學(xué)習(xí)算法與具體任務(wù)相結(jié)合,關(guān)鍵在于針對該任務(wù)設(shè)計合理的獎勵函數(shù)。這需要研究人員既精通算法原理,又深入理解被控對象和任務(wù)特性,才能實現(xiàn)二者的有機結(jié)合,設(shè)計出最符合任務(wù)需求的獎勵函數(shù)。”

在工程化實踐方面,團隊也積累了豐富的經(jīng)驗。自 2020 年起,段京良的博士課題就專注于實現(xiàn)強化學(xué)習(xí)在實車上的應(yīng)用。雖然初期場景相對簡單,但通過持續(xù)努力,團隊成功將技術(shù)推進到開放道路場景,并在此過程中積累了寶貴的研究經(jīng)驗。

2024 年,他們在實車應(yīng)用方面取得了突破性成果。特別值得一提的是,研究團隊通過自主研發(fā)的強化學(xué)習(xí)算法實現(xiàn)了車輛在各種道路條件下的安全行駛,不僅覆蓋了多種復(fù)雜場景,還適配了不同車型平臺。

除自動駕駛外,團隊還正在積極推進強化學(xué)習(xí)端到端控制技術(shù)在多個工業(yè)場景的產(chǎn)業(yè)化應(yīng)用,包含工程機械自主作業(yè)、機器人巡檢作業(yè)等任務(wù)。從系統(tǒng)平穩(wěn)性、運行效率到控制精度,團隊建立了一套完整的量化評估體系,能夠與熟練的人類操作員進行客觀比較。

在未來的研究中,該團隊計劃持續(xù)優(yōu)化和迭代 DSAC-T 算法,進一步提升其性能表現(xiàn)。目前,強化學(xué)習(xí)領(lǐng)域尚無算法能夠?qū)W習(xí)到近乎全局最優(yōu)的策略,因此在算法設(shè)計與優(yōu)化方面仍存在較大的提升空間。更重要的是,面向?qū)嶋H應(yīng)用場景,安全強化學(xué)習(xí)(Safe RL)將成為其重點研究方向之一。同時,他們還將持續(xù)探索多模態(tài)控制技術(shù),以提升算法在復(fù)雜任務(wù)中的表現(xiàn)。

參考資料:

1.Jingliang Duan, Wenxuan Wang, Liming Xiao, Jiaxin Gao, Shengbo Eben Li, Chang Liu, Ya-Qin Zhang, Bo Cheng, Keqiang Li, Distributional Soft Actor-Critic with Three Refinements.IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 47, no. 5, pp. 3935-3946, 2025. https://ieeexplore.ieee.org/document/10858686.

2.Jingliang Duan, Yang Guan, Shengbo Eben Li, Yangang Ren, Qi Sun, Bo Cheng, Distributional soft actor-critic: off-policy reinforcement learning for addressing value estimation errors.IEEE Transactions on Neural Networks and Learning Systems, vol. 33, no. 11, pp. 6584-6598, 2022. https://ieeexplore.ieee.org/document/9448360.

3.DSAC 開源鏈接:https://github.com/Jingliang-Duan/DSAC-v2

4.GOPS 開源鏈接:https://gops.readthedocs.io/

運營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
李斌豁出去了!5米大車預(yù)售不到20萬,為銷量和四季度盈利拼了

李斌豁出去了!5米大車預(yù)售不到20萬,為銷量和四季度盈利拼了

車東西
2025-07-11 00:30:35
46歲陳喬恩公開回應(yīng)不生育原因

46歲陳喬恩公開回應(yīng)不生育原因

東方不敗然多多
2025-07-11 12:10:31
2025高考錄取:清華已跌落神壇,公費師范生殺瘋了,985大學(xué)爆冷

2025高考錄取:清華已跌落神壇,公費師范生殺瘋了,985大學(xué)爆冷

二月侃事
2025-07-10 08:32:40
《淬火年代》大結(jié)局!錢宏明自殺,崔冰冰才徹底看清柳鈞的真面目

《淬火年代》大結(jié)局!錢宏明自殺,崔冰冰才徹底看清柳鈞的真面目

比利
2025-07-11 13:36:25
反轉(zhuǎn)!女孩因男友開車癱瘓,對方消失含淚控訴,她卻被扒個底朝天

反轉(zhuǎn)!女孩因男友開車癱瘓,對方消失含淚控訴,她卻被扒個底朝天

削桐作琴
2025-07-09 18:06:12
還記得嗎?八年前周琦夏聯(lián)首秀驚艷 24分鐘13中7砍17+6填滿數(shù)據(jù)欄

還記得嗎?八年前周琦夏聯(lián)首秀驚艷 24分鐘13中7砍17+6填滿數(shù)據(jù)欄

直播吧
2025-07-11 11:00:16
厄爾-克拉克:我打得好布朗把我換下 回來后詹姆斯跟我說不理解

厄爾-克拉克:我打得好布朗把我換下 回來后詹姆斯跟我說不理解

直播吧
2025-07-11 11:43:15
70年代的漢字二次簡化,雖然失敗,但很多人的姓氏由此改變

70年代的漢字二次簡化,雖然失敗,但很多人的姓氏由此改變

阿器談史
2025-06-11 01:30:32
2025暑期保護月取消,國產(chǎn)片3連撲,觀眾集體倒戈,進口片殺瘋了

2025暑期保護月取消,國產(chǎn)片3連撲,觀眾集體倒戈,進口片殺瘋了

電影票房預(yù)告片
2025-07-10 15:57:21
2.07米德明打控衛(wèi)0助:賽后直言想得太簡單 美媒炮轟籃網(wǎng)選秀眼光

2.07米德明打控衛(wèi)0助:賽后直言想得太簡單 美媒炮轟籃網(wǎng)選秀眼光

顏小白的籃球夢
2025-07-11 10:48:27
假牙泡水白發(fā)稀疏!72歲趙雅芝啃泡面吸氧養(yǎng)全家,兒子開豪車炫富

假牙泡水白發(fā)稀疏!72歲趙雅芝啃泡面吸氧養(yǎng)全家,兒子開豪車炫富

一盅情懷
2025-07-11 14:53:57
央媒官宣!46歲霍啟剛再升職,級別有些高,背后是誰在為他鋪路?

央媒官宣!46歲霍啟剛再升職,級別有些高,背后是誰在為他鋪路?

白面書誏
2025-07-11 16:58:12
中國工商銀行(澳門)股份有限公司原董事長姜壹盛接受審查調(diào)查

中國工商銀行(澳門)股份有限公司原董事長姜壹盛接受審查調(diào)查

界面新聞
2025-07-11 17:02:03
女籃14人名單正式公布!6后衛(wèi)5鋒線3內(nèi)線,裁掉2鋒線,2核心退賽

女籃14人名單正式公布!6后衛(wèi)5鋒線3內(nèi)線,裁掉2鋒線,2核心退賽

星Xin辰大海
2025-07-11 04:54:18
69歲大媽稱71歲老伴天天過夫妻生活,老伴給的原因讓人瞠目結(jié)舌

69歲大媽稱71歲老伴天天過夫妻生活,老伴給的原因讓人瞠目結(jié)舌

娛樂洞察點點
2025-07-08 04:28:23
以法之名:同樣拿了護照,為何孫飛跑不掉而王華山能成功出逃?

以法之名:同樣拿了護照,為何孫飛跑不掉而王華山能成功出逃?

情感大頭說說
2025-07-11 12:42:29
激光照射事件真相大白,德國鬧出烏龍,中國軍艦根本沒去紅海

激光照射事件真相大白,德國鬧出烏龍,中國軍艦根本沒去紅海

說說史事
2025-07-11 11:54:36
楊少華住院照曝光!大兒子透露送醫(yī)過程,孫子和老汪哭到泣不成聲

楊少華住院照曝光!大兒子透露送醫(yī)過程,孫子和老汪哭到泣不成聲

興史興談
2025-07-10 15:42:24
甘肅天水“幼兒血鉛異常”事件應(yīng)由中央層面的調(diào)查組提級調(diào)查

甘肅天水“幼兒血鉛異常”事件應(yīng)由中央層面的調(diào)查組提級調(diào)查

煮酒論法
2025-07-11 12:05:47
演員陳龍上父母家突擊檢查,40多度不開空調(diào),爸媽一起抹汗還嘴硬

演員陳龍上父母家突擊檢查,40多度不開空調(diào),爸媽一起抹汗還嘴硬

娛圈小愚
2025-07-11 11:57:14
2025-07-11 18:03:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15399文章數(shù) 513880關(guān)注度
往期回顧 全部

科技要聞

稚暉君神操作 宇樹痛失"人形機器人第一股"

頭條要聞

特朗普對援烏態(tài)度"巨大轉(zhuǎn)變" 或動用"總統(tǒng)特別撥款權(quán)"

頭條要聞

特朗普對援烏態(tài)度"巨大轉(zhuǎn)變" 或動用"總統(tǒng)特別撥款權(quán)"

體育要聞

從無畏金蘭到薪火相傳,中國女籃新的花期來了

娛樂要聞

新聞聯(lián)播鏡頭下的宋佳面相變了

財經(jīng)要聞

管濤:百年美元信用將崩塌?

汽車要聞

最便宜滿血版華為智駕和鴻蒙座艙 嵐圖FREE+閉眼沖

態(tài)度原創(chuàng)

時尚
旅游
親子
教育
本地

今日熱點:賈斯汀比伯回歸;宋佳回應(yīng)獲獎感言出圈……

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

親子要聞

#匯樂玩具 新品的翻蓋手機終于是補貨了,家里寶寶老愛搶手機,或者一坐車就鬧騰的一定要安排一個!#益智...

教育要聞

公安大學(xué)歷史類645,物理類642!警察大學(xué)物理類625!2025四川高考提前批A段部分調(diào)檔線更新!

本地新聞

換個城市過夏天 | 楓葉之都的22℃清涼秘境

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 五河县| 库尔勒市| 宽甸| 贵德县| 浪卡子县| 仲巴县| 呼玛县| 越西县| 剑河县| 庄浪县| 太和县| 定日县| 洛隆县| 宝坻区| 长乐市| 铜陵市| 孟连| 河北省| 城步| 蓬安县| 凭祥市| 宁南县| 庆云县| 金坛市| 北宁市| 墨江| 黄陵县| 榕江县| 舞钢市| 肇东市| 房产| 康马县| 高密市| 江都市| 高雄市| 紫金县| 信阳市| 巴林右旗| 边坝县| 昆山市| 天峨县|