99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

DeepSeek 前成員聯手李飛飛等大佬發布開源新框架,訓練智能體在行動中學會思考

0
分享至


作者 | Tina

很多人都覺得 2025 年會是“AI 智能體元年”,也就是基于 OpenAI、Anthropic、Google 和 DeepSeek 等機構提供的大語言模型,打造專注特定任務的智能體系統。

但是,最近在社交平臺 X 上有個調查顯示,現在大部分 Agent 都在“玩票”階段,還沒真正走出實驗室,普遍滯留在“企業試點”的狀態中。


不過,李飛飛所在的一支團隊或許即將帶來改變:他們與西北大學、微軟、斯坦福大學和華盛頓大學的研究人員合作,最近推出了一套名為 RAGEN 的新系統。這個系統旨在提升人工智能在真實世界,尤其是在企業應用中的穩定性和可靠性。


據悉,該項目由前 DeepSeek 研究員、現就讀于西北大學計算機科學博士的王子涵主導。王子涵研究聚焦于大語言模型(Foundation Models)的自主性、效率以及長文本理解。此前,王子涵曾在 DeepSeek 擔任研究員,并參與了 DeepSeek-V2 等重要項目。


推理智能體訓練框架已開源

與解題或代碼生成等靜態任務不同,RAGEN 聚焦在多輪交互場景中訓練智能體,要求它們能在不確定性中進行推理、記憶歷史對話并靈活應對變化。

RAGEN 構建于一個名為 StarPO(State-Thinking-Actions-Reward Policy Optimization,即“狀態 - 思維 - 動作 - 獎勵 策略優化”)的定制強化學習框架之上,核心思想是讓 LLM 通過“經驗”學習而非“死記硬背”。系統重點在于訓練智能體完成完整的決策路徑,而不是僅僅優化某一次回答。


StarPO 包括兩個交替進行的階段:在 rollout 階段,LLM 基于推理生成完整的交互序列;而在 update 階段,模型根據歸一化后的累計獎勵進行參數更新。相比傳統的策略優化方法,這種設計讓訓練過程更加穩定,學習結果也更易于解釋。


研究團隊在實驗中使用了阿里巴巴開源的 Qwen 系列模型(包括 Qwen 1.5 和 Qwen 2.5)作為基礎語言模型進行微調。這些模型具有開放權重、指令執行能力強等優點,有助于確保實驗結果的可復現性,并支持在符號任務上的一致性對比。

這一系統為有志于開發更具“思考力、規劃能力和自我進化能力”的 AI 智能體提供了堅實基礎。RAGEN 不只是關注任務是否完成,更重視模型是否真正經歷了學習與推理過程。隨著 AI 技術朝著更高程度的自主性發展,像 RAGEN 這樣的項目正在幫助我們理解:如何訓練出不僅依賴數據、還能從自身行為后果中學習的模型。

RAGEN 及其配套的 StarPO 和 StarPO-S 框架現已開源,項目托管于 GitHub 上,采用的是 MIT 協議。


GitHub 地址:https://github.com/RAGEN-AI/RAGEN

Agent 強化學習訓練

如何才能不崩潰?

王子涵在一條廣泛傳播的 X 貼文中指出了訓練中的核心難題:為什么 RL(強化學習)訓練總是會“崩”?

團隊發現,訓練初期的智能體通常能生成結構清晰、邏輯合理的回答,但隨著訓練推進,強化學習系統更傾向于獎勵“捷徑式”回答,最終導致模型反復輸出相似內容、推理能力逐漸退化。這種現象被他們稱為“回聲陷阱(Echo Trap)”。

這種退化通常由反饋回路驅動:某些回答在早期獲得高獎勵,從而被模型頻繁復制使用,抑制了探索其他可能性的動機。

但這種問題有明確的跡象可循:比如獎勵波動劇烈、梯度異常增大、推理痕跡逐漸消失等。


為了在可控環境中系統性研究智能體的行為,RAGEN 設計了三個符號化測試環境,用于評估智能體的決策能力:

  • Bandit(老虎機):一個單輪的隨機任務,用于測試智能體在不確定條件下的符號化風險 - 收益推理能力;

  • Sokoban(推箱子):一個多輪、確定性的益智任務,涉及不可逆決策,考驗智能體的規劃能力;

  • Frozen Lake(冰湖):一個具有隨機性的多輪任務,要求智能體具備適應性和前瞻性思考能力。

這些測試環境的共同特點是:盡量剝離現實世界中的先驗知識干擾,讓智能體僅依賴訓練中學到的策略進行決策。


以 Bandit 為例,智能體會被告知“龍”和“鳳凰”代表不同的獎勵分布,但不會直接獲得概率信息。它必須進行類比式推理,比如把“龍”理解為“力量”、將“鳳凰”理解為“希望”,并據此預測潛在結果。這類設定鼓勵模型生成可解釋、具備抽象類比能力的推理路徑。

為解決訓練過程中模型容易“崩潰”的問題,研究團隊在原有 StarPO 框架的基礎上提出了增強版本StarPO-S,引入了三項關鍵機制來提升訓練穩定性:

  • 基于不確定性的 rollout 篩選:優先選用那些智能體對結果感到“猶豫”的交互序列,提升訓練數據的有效性;

  • 移除 KL 懲罰項:放寬模型對初始策略的約束,讓它更自由地探索新的行為方式;

  • 非對稱 PPO 剪裁:對高獎勵路徑加大學習力度,相對降低對低獎勵路徑的關注,從而提升整體學習效率。

這些策略顯著減緩甚至避免了訓練過程中的崩潰問題,同時在所有三個任務環境中均帶來了更好的表現。正如王子涵所說:“StarPO-S 在三個任務上都表現不錯,不僅解決了訓練崩潰問題,獎勵水平也更高。”


落地企業應用,

還有哪些現實難題?

強化學習的效果不僅依賴模型本身的結構,還與智能體在訓練過程中所生成的數據質量密切相關。團隊總結了三個對訓練效果影響最大的關鍵因素:

  • 任務多樣性:讓模型接觸更多樣的起始情境,有助于提升泛化能力;

  • 交互粒度:支持每輪多個動作,能夠帶來更細致的計劃和更豐富的策略;

  • rollout 新鮮度:確保訓練數據與當前模型策略保持一致,避免舊策略“過時”的學習信號干擾訓練。

這三個維度共同提升了訓練過程的穩定性與實用性。

盡管顯式推理在 Bandit 這類簡單的單輪任務中表現出色,但在多輪任務的訓練中,推理能力往往會隨著訓練進度逐漸減弱甚至消失。即使采用了結構化提示詞或 等顯式標記,推理過程仍可能無法維持,除非模型在訓練中直接因推理質量獲得獎勵。

這暴露出當前獎勵機制的一大短板:它更多聚焦于“結果對不對”,而忽視了“過程好不好”。

為此,團隊嘗試通過格式懲罰等方式,引導模型生成結構更清晰的推理過程,但他們也指出,要真正解決這個問題,仍需進一步優化獎勵設計邏輯。

盡管 RAGEN 論文提出了清晰的技術方向,但要真正將其應用到真實的企業環境中,仍然存在不少實際的挑戰。例如,RAGEN 目前主要處理的是高度抽象的符號類問題。那么,它的方法是否能順利應用到像發票處理、客戶支持這類真實的業務流程中呢?企業是否需要為每個具體的應用場景重新設計任務環境和獎勵機制?

另一個核心問題是可擴展性。即便引入了 StarPO-S 等穩定性優化機制,論文仍坦承:當任務長度足夠長時,模型訓練最終仍可能崩潰。這不禁讓人反思,是否存在某種理論或工程路徑,能讓智能體在開放式、持續演進的任務中始終維持推理能力?

RAGEN 的意義,實際遠不止于技術上的突破。它不僅是對強化學習技術的一次重要嘗試,更標志著我們向“具備自主推理能力的智能體”的目標邁進了一步。雖然現在還不能確定它是否會成為未來企業人工智能技術的重要組成部分,但它在智能體學習機制上的新穎見解,已經悄然改變著我們對大型模型訓練邊界的理解和想象。

https://x.com/wzihanw/status/1915052871474712858

https://venturebeat.com/ai/former-deepseeker-and-collaborators-release-new-method-for-training-reliable-ai-agents-ragen/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
鄧文迪最高明之處,就是和70多歲默多克生下倆女兒,保住一生富貴

鄧文迪最高明之處,就是和70多歲默多克生下倆女兒,保住一生富貴

南南說娛
2025-06-02 09:48:22
羅伯特·帕丁森|霍格沃茲嚴選

羅伯特·帕丁森|霍格沃茲嚴選

仙味少女心
2025-06-01 13:57:23
美國零售商要求中國供應商承擔66%關稅成本

美國零售商要求中國供應商承擔66%關稅成本

小鬼頭體育
2025-05-31 17:06:44
鄭欽文:雖然去年奧運奪金,但不會把自己視為羅蘭加洛斯衛冕冠軍

鄭欽文:雖然去年奧運奪金,但不會把自己視為羅蘭加洛斯衛冕冠軍

直播吧
2025-06-02 10:49:15
觀眾席打傘后續:知情人透露喊過五次就是不聽,老師回復惹爭議

觀眾席打傘后續:知情人透露喊過五次就是不聽,老師回復惹爭議

夢史
2025-06-01 22:33:34
胡杏兒在上海浦東嘉里城,給小眾品牌做代言,站在店門口像售貨員

胡杏兒在上海浦東嘉里城,給小眾品牌做代言,站在店門口像售貨員

南南說娛
2025-06-02 11:49:34
鄭欽文第二盤1-6脆敗內幕:汗流浹背跑不動 衛生間換衣后逆襲

鄭欽文第二盤1-6脆敗內幕:汗流浹背跑不動 衛生間換衣后逆襲

隱于山海
2025-06-02 08:41:55
降息后存款大逃亡? 90 后搬空銀行,錢都去哪兒了?

降息后存款大逃亡? 90 后搬空銀行,錢都去哪兒了?

平說財經
2025-06-02 11:47:36
花4萬體驗子宮激活療法,能持續高潮兩小時,治療方法:有手就行

花4萬體驗子宮激活療法,能持續高潮兩小時,治療方法:有手就行

社會醬
2025-06-01 09:51:58
上海迪士尼情侶打1家3口:摳眼睛、摟脖子,知情人透露,部門回應

上海迪士尼情侶打1家3口:摳眼睛、摟脖子,知情人透露,部門回應

漣漪讀史
2025-06-02 08:31:46
沒料到中方出手會這么重!2記鐵拳就被打懵,莫迪急派團赴華求援

沒料到中方出手會這么重!2記鐵拳就被打懵,莫迪急派團赴華求援

智觀科技
2025-06-02 00:02:14
塞德里克??新蝙蝠俠

塞德里克??新蝙蝠俠

仙味少女心
2025-06-01 13:51:54
3天徹查結果公布:“大魚”終于浮出水面,但船已經沒有挽救可能

3天徹查結果公布:“大魚”終于浮出水面,但船已經沒有挽救可能

小lu侃侃而談
2025-06-01 20:46:45
雷霆和步行者的主場相距688.4公里 自1971年來總決賽雙方最短距離

雷霆和步行者的主場相距688.4公里 自1971年來總決賽雙方最短距離

直播吧
2025-06-02 07:27:05
6月起,養老金調整通知將迎來公布,工齡20-35年,漲100-200元嗎

6月起,養老金調整通知將迎來公布,工齡20-35年,漲100-200元嗎

虎哥閑聊
2025-06-02 08:23:54
CCTV5全程直播!鄭欽文再戰薩巴倫卡,對方撂狠話,8番戰誰能贏?

CCTV5全程直播!鄭欽文再戰薩巴倫卡,對方撂狠話,8番戰誰能贏?

逍遙史記
2025-06-02 11:47:43
汪小菲帶孩子過六一 一家四口整整齊齊!吃高級烤肉黑松露魚子醬

汪小菲帶孩子過六一 一家四口整整齊齊!吃高級烤肉黑松露魚子醬

漣漪讀史
2025-06-02 10:12:48
太陽報:貝林厄姆在西班牙度假時,被一名準新娘抓了屁股

太陽報:貝林厄姆在西班牙度假時,被一名準新娘抓了屁股

懂球帝
2025-06-02 08:22:47
美記:尼克斯搞砸爭冠機會,押注布里奇斯送走5個首輪簽成全籃網

美記:尼克斯搞砸爭冠機會,押注布里奇斯送走5個首輪簽成全籃網

雷速體育
2025-06-02 10:38:14
20歲少女影院接客,擦拭紙巾扔一地,價格曝光,一細節信息量大

20歲少女影院接客,擦拭紙巾扔一地,價格曝光,一細節信息量大

博士觀察
2025-06-01 18:33:11
2025-06-02 16:15:00
InfoQ incentive-icons
InfoQ
有內容的技術社區媒體
11142文章數 51279關注度
往期回顧 全部

科技要聞

新造車5月再洗牌:問界回前三,小米守第五

頭條要聞

美財長放話:美國永不會債務違約 我們不會公布"X日"

頭條要聞

美財長放話:美國永不會債務違約 我們不會公布"X日"

體育要聞

傲了一輩子的恩里克,心中永遠住著一個小天使

娛樂要聞

章子怡深夜曬娃,兒女正面照曝光

財經要聞

三大利空,突襲!

汽車要聞

吉利汽車5月銷量23.52萬輛 同比增長46%

態度原創

家居
游戲
藝術
公開課
軍事航空

家居要聞

原木純白 邂逅自然本真

《符文工房:龍之天地》總監采訪 歡迎來到東之國

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

中國記者拿著美菲勾結證據對質 菲律賓防長當場急了

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 湛江市| 镇江市| 洱源县| 衡阳市| 安国市| 虹口区| 防城港市| 海晏县| 昌乐县| 长寿区| 托克托县| 开化县| 义乌市| 平和县| 广昌县| 云和县| 浙江省| 阜新市| 襄汾县| 大兴区| 紫云| 潼关县| 中卫市| 九台市| 清水河县| 勐海县| 许昌县| 图木舒克市| 奉新县| 乌海市| 达日县| 中方县| 庆元县| 永丰县| 北京市| 左贡县| 北碚区| 泗洪县| 巴塘县| 永德县| 芜湖市|