99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

強化學習的兩個「大坑」,終于被兩篇ICLR論文給解決了

0
分享至

機器之心報道

編輯:陳陳

實時強化學習來了!AI 再也不怕「卡頓」。

設想這樣一個未來場景:多個廚師機器人正在協作制作煎蛋卷。雖然我們希望這些機器人能使用最強大可靠的智能模型,但更重要的是它們必須跟上瞬息萬變的節奏 —— 食材需要在精準時機添加,煎蛋過程需要實時監控以確保受熱均勻。只要機器人動作稍有延遲,蛋卷必定焦糊。它們還必須應對協作伙伴動作的不確定性,并做出即時適應性調整。



實時強化學習

然而,現有的強化學習算法多基于一種理想化的交互模式:環境與智能體輪流「暫停」以等待對方完成計算或響應。具體表現為:

環境暫停假設:當智能體進行計算決策和經驗學習時,環境狀態保持靜止;

智能體暫停假設:當環境狀態發生轉移時,智能體暫停其決策過程。

這種類似「回合制游戲」的假設,嚴重脫離現實,難以應對持續變化、延遲敏感的真實環境。



下圖突出顯示了智能體在實時環境中出現的兩個關鍵困難,而這些在標準的回合制 RL 研究中是不會遇到的。

首先,由于動作推理時間較長,智能體可能不會在環境的每一步都采取動作。這可能導致智能體采用一種新的次優性策略,稱之為無動作遺憾(inaction regret)。

第二個困難是,動作是基于過去的狀態計算的,因而動作會在環境中產生延遲影響。這導致另一個新的次優性來源,這在隨機環境中尤為突出,稱之為延遲遺憾(delay regret)。

在這樣的背景下,Mila 實驗室兩篇 ICLR 2025 論文提出了一種全新的實時強化學習框架,旨在解決當前強化學習系統在部署過程中面臨的推理延遲和動作缺失問題,使得大模型也能在高頻、連續的任務中實現即時響應。

第一篇論文提出了一種最小化無動作遺憾的解決方案,第二篇提出了一種最小化延遲遺憾的解決方案。



最小化無動作:交錯推理

第一篇論文基于這樣一個事實:在標準的回合制強化學習交互范式中,隨著模型參數數量的增加,智能體無動作的程度也會隨之增加。因此,強化學習社區必須考慮一種新的部署框架,以便在現實世界中實現基礎模型規模化的強化學習。為此,本文提出了一個用于異步多過程推理和學習的框架。



  • 論文地址:https://openreview.net/pdf?id=fXb9BbuyAD
  • 代碼地址 https://github.com/CERC-AAI/realtime_rl
  • 論文標題: ENABLING REALTIME REINFORCEMENT LEARNING AT SCALE WITH STAGGERED ASYNCHRONOUS INFERENCE



在該框架中,允許智能體充分利用其可用算力進行異步推理與學習。具體而言,本文提出了兩種交錯式推理算法,其核心思想是通過自適應調整并行推理過程的時序偏移,使智能體能夠以更快的固定間隔在環境中執行動作。

本文證明:只要計算資源足夠,無論模型有多大、推理時間有多長,使用任意一種算法都可以做到在每一個環境步都執行動作,從而完全消除無動作遺憾。

本文在 Game Boy 和 Atari 實時模擬中測試了提出的新框架,這些模擬的幀率和交互協議與人類在主機上實際玩這些游戲時所體驗到的幀率和交互協議同步。

論文重點介紹了異步推理和學習在《寶可夢:藍》游戲中使用一個擁有 1 億參數的模型成功捕捉寶可夢時所展現的卓越性能。需要注意的是,智能體不僅必須快速行動,還必須不斷適應新的場景才能取得進展。



此外,論文還重點介紹了該框架在像俄羅斯方塊這樣注重反應時間的實時游戲中的表現。結果證明,在使用異步推理和學習時,模型規模越大,性能下降的速度就越慢。然而,大模型性能下降的根本原因是延遲遺憾效應尚未得到解決。

用單個神經網絡最小化無動作和延遲遺憾



  • 論文地址:https://openreview.net/pdf?id=YOc5t8PHf2
  • 項目地址:https://github.com/avecplezir/realtime-agent
  • 論文標題: HANDLING DELAY IN REAL-TIME REINFORCEMENT LEARNING

第二篇論文提出了一種架構解決方案,用于在實時環境中部署神經網絡時最大限度地減少無響應和延遲,因為在實時環境中,交錯推理并非可行。順序計算在深度網絡中效率低下,因為深度網絡中每一層的執行時間大致相同。因此,總延遲會隨著網絡深度的增加而成比例增加,從而導致響應緩慢。

這一局限性與早期 CPU 架構的缺陷如出一轍 —— 當指令只能串行處理時,會導致計算資源利用率低下且執行時間延長。現代 CPU 采用 pipelining 技術成功解決了這一問題,該技術允許多條指令的不同階段并行執行。

受此啟發,本文在神經網絡中引入了并行計算機制:通過一次計算所有網絡層,有效降低了無動作遺憾。

為了進一步減少延遲,本文引入了時序跳躍連接(temporal skip connections),使得新的觀測信息可以更快地傳遞到更深的網絡層,而無需逐層傳遞。

該研究的核心貢獻在于:將并行計算與時序跳躍連接相結合,從而在實時系統中同時降低無動作遺憾和延遲遺憾。

下圖對此進行了說明。圖中縱軸表示網絡層的深度,從初始觀測開始,依次經過第一層、第二層的表示,最終到達動作輸出;橫軸表示時間。因此,每一條箭頭代表一層的計算過程,所需時間為 δ 秒。

在基線方法中(左圖),一個新的觀測必須依次穿過全部 N 層網絡,因此動作的輸出需要 N × δ 秒才能獲得。

通過對各層進行并行計算(中圖),可以將推理吞吐量從每 Nδ 秒一次提高到每 δ 秒一次,從而減少無動作遺憾。

最終,時序跳躍連接(如右圖所示)將總延遲從 Nδ 降低至 δ—— 其機制是讓最新觀測值僅需單次 δ 延遲即可傳遞至輸出層。從設計理念來看,該方案通過在網絡表達能力與時效信息整合需求之間進行權衡,從根本上解決了延遲問題。



此外,用過去的動作 / 狀態來增強輸入可以恢復馬爾可夫特性,即使在存在延遲的情況下也能提高學習穩定性。正如結果所示,這既減少了延遲,也減少了與優化相關的遺憾。



兩者結合使用

交錯式異步推理與時序跳躍連接是彼此獨立的技術,但具有互補性。時序跳躍連接可減少模型內部從觀測到動作之間的延遲,而交錯推理則確保即使在使用大模型時,也能持續穩定地輸出動作。

兩者結合使用,可以將模型規模與交互延遲解耦,從而使在實時環境中部署既具有強表達能力、又響應迅速的智能體成為可能。這對于機器人、自動駕駛、金融交易等高度依賴響應速度的關鍵領域具有重要意義。

通過使大模型在不犧牲表達能力的前提下實現高頻率決策,這些方法為強化學習在現實世界的延遲敏感型應用中落地邁出了關鍵一步。

https://mila.quebec/en/article/real-time-reinforcement-learning

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
最高院前法官:很多無罪的都被判刑入獄了

最高院前法官:很多無罪的都被判刑入獄了

法經網
2025-07-13 16:55:24
要么不出手,出手就要命!美歐最想要的東西,中國即日起列入管制

要么不出手,出手就要命!美歐最想要的東西,中國即日起列入管制

時尚的弄潮
2025-07-17 02:17:12
我退休后住女兒家5年,正在樓下跳舞,被女兒喊回家送去車站

我退休后住女兒家5年,正在樓下跳舞,被女兒喊回家送去車站

面包夾知識
2025-02-23 14:42:18
1951年,毛主席夜宿保定郊外,汪東興發現了有幾挺機槍對準了專列

1951年,毛主席夜宿保定郊外,汪東興發現了有幾挺機槍對準了專列

豆包史館
2025-07-11 16:39:50
《陸小鳳》系列,修仙級別高手1位,超一流高手1位,一流高手7位

《陸小鳳》系列,修仙級別高手1位,超一流高手1位,一流高手7位

武俠新世界
2025-07-17 11:55:34
甘肅白銀一國企60多人多次或長期曠工,公告要求返工否則解除勞動關系,公司回應

甘肅白銀一國企60多人多次或長期曠工,公告要求返工否則解除勞動關系,公司回應

瀟湘晨報
2025-07-17 13:23:13
臺海還沒開戰,另一場惡仗已逼近中國,美撕下偽裝,基辛格沒說錯

臺海還沒開戰,另一場惡仗已逼近中國,美撕下偽裝,基辛格沒說錯

荷蘭豆愛健康
2025-07-17 10:34:25
43歲王寶強也沒想到,15歲兒子和14歲女兒,已經開始為他爭光了

43歲王寶強也沒想到,15歲兒子和14歲女兒,已經開始為他爭光了

橘子大娛社
2025-06-23 20:25:03
遵義會議生死24小時:毛澤東力挽狂瀾,周恩來投出最關鍵一票

遵義會議生死24小時:毛澤東力挽狂瀾,周恩來投出最關鍵一票

燦爛夏天
2025-07-14 12:11:19
熱依扎在機場穿吊帶秀身材,這身材和顏值簡直就是頂級的存在

熱依扎在機場穿吊帶秀身材,這身材和顏值簡直就是頂級的存在

喜歡歷史的阿繁
2025-07-17 07:28:11
高峰:拋棄那英和剛出生的兒子,20年過去了,他如今過得怎樣了?

高峰:拋棄那英和剛出生的兒子,20年過去了,他如今過得怎樣了?

動物奇奇怪怪
2025-07-10 09:54:56
辦公室的瓜能有多下飯?網友:還我純潔的眼睛,純潔的內心!

辦公室的瓜能有多下飯?網友:還我純潔的眼睛,純潔的內心!

娛樂圈人物大賞
2025-05-10 00:15:06
永州一女子被打還手后被處拘留,起訴公安局,法院:屬正當防衛,撤銷處罰

永州一女子被打還手后被處拘留,起訴公安局,法院:屬正當防衛,撤銷處罰

三湘都市報
2025-07-17 10:14:56
躺平?全紅嬋又出去玩!頭戴草帽劃竹筏 網友:胖了一圈,陳若琳生氣

躺平?全紅嬋又出去玩!頭戴草帽劃竹筏 網友:胖了一圈,陳若琳生氣

手工制作阿殲
2025-07-17 11:08:07
沈飛殲50細節首次曝光,美軍擔心事情發生:全球首款艦載六代機

沈飛殲50細節首次曝光,美軍擔心事情發生:全球首款艦載六代機

墨羽怪談
2025-07-17 11:11:06
楊議曝隨禮名單相聲圈的人情冷暖,在楊少華身上體現得淋漓盡致

楊議曝隨禮名單相聲圈的人情冷暖,在楊少華身上體現得淋漓盡致

黃小仙的搞笑視頻
2025-07-17 22:14:54
上海又發福利了!1000萬元“夢享券”明起開搶,可買迪士尼門票,也可用于餐飲、零售,還能“折上折”

上海又發福利了!1000萬元“夢享券”明起開搶,可買迪士尼門票,也可用于餐飲、零售,還能“折上折”

新民晚報
2025-07-17 19:55:22
太幸運!火箭后衛補強震驚聯盟,杜蘭特笑了,哈登只能羨慕

太幸運!火箭后衛補強震驚聯盟,杜蘭特笑了,哈登只能羨慕

山河入畫屏
2025-07-17 13:34:03
娃哈哈財產爭奪迎來反轉!原來是宗馥莉先下手的,大小姐真不簡單

娃哈哈財產爭奪迎來反轉!原來是宗馥莉先下手的,大小姐真不簡單

草莓解說體育
2025-07-17 04:58:57
鮑威爾裝修大樓多花6億美元,特朗普稱要對其展開司法調查

鮑威爾裝修大樓多花6億美元,特朗普稱要對其展開司法調查

遠方青木
2025-07-18 00:08:16
2025-07-18 02:52:50
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10889文章數 142384關注度
往期回顧 全部

科技要聞

沒有老黃不夸的中國公司了吧??

頭條要聞

遺產大戰細節:宗慶后逝世半年3人起訴 矛盾早已發生

頭條要聞

遺產大戰細節:宗慶后逝世半年3人起訴 矛盾早已發生

體育要聞

楊力維和楊舒予,是姐妹,也是戰友

娛樂要聞

又相信愛情了,董璇二婚現場照曝光!

財經要聞

杭州成立專班介入宗慶后遺產糾紛

汽車要聞

有望年內上市 奧迪A6L e-tron申報信息曝光

態度原創

藝術
手機
房產
本地
公開課

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

手機要聞

小米16外觀曝光,或9月發?

房產要聞

突發!海航陳峰被判12年,罰2.2億!

本地新聞

換個城市過夏天 | 誰打翻了濰坊的調色盤?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 新营市| 嘉峪关市| 寿宁县| 奉新县| 潼关县| 井冈山市| 犍为县| 祁阳县| 延长县| 栾城县| 万山特区| 杭锦旗| 洛阳市| 庄浪县| 隆尧县| 芮城县| 宁德市| 奉新县| 武夷山市| 九江县| 安阳县| 佛山市| 龙州县| 临沭县| 方城县| 方正县| 涟水县| 安达市| 瓦房店市| 长寿区| 增城市| 沂源县| 通化市| 阿拉善盟| 平顺县| 广河县| 壤塘县| 安福县| 望都县| 玉门市| 通州市|