99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Meta-Think ≠ 記套路,多智能體強化學習解鎖大模型元思考泛化

0
分享至



本文第一作者為上海交通大學計算機科學四年級博士生萬梓煜,主要研究方向為強化學習、基礎(chǔ)模型的復(fù)雜推理,通訊作者為上海交通大學人工智能學院溫穎副教授和上海人工智能實驗室胡舒悅老師。團隊其他成員包括來自英屬哥倫比亞大學的共同第一作者李云想、Mark Schmidt 教授,倫敦大學學院的宋研、楊林易和汪軍教授,上海交通大學的溫瀟雨,王翰竟和張偉楠教授。

引言

最近,關(guān)于大模型推理的測試時間擴展(Test time scaling law )的探索不斷涌現(xiàn)出新的范式,包括① 結(jié)構(gòu)化搜索結(jié)(如 MCTS),② 過程獎勵模型(Process Reward Model )+ PPO,③ 可驗證獎勵 (Verifiable Reward)+ GRPO(DeepSeek?R1)。然而,大模型何時產(chǎn)生 “頓悟(Aha?Moment)” 的機理仍未明晰。近期多項研究提出推理模式(reasoning pattern)對于推理能力的重要作用。類似的,本研究認為

大模型復(fù)雜推理的能力強弱本質(zhì)在于元思維能力的強弱。

所謂 “元思維” (meta-thinking),即監(jiān)控、評估和控制自身的推理過程,以實現(xiàn)更具適應(yīng)性和有效性的問題解決,是智能體完成長時間復(fù)雜任務(wù)的必要手段。大語言模型(LLM)雖展現(xiàn)出強大推理能力,但如何實現(xiàn)類似人類更深層次、更有條理的 "元思維" 仍是關(guān)鍵挑戰(zhàn)



上圖通過兩臺機器人求三角形高線的截距的解決樣例,直觀展示了元思維與推理的分工:推理機器人執(zhí)行計算,元思維機器人則在關(guān)鍵節(jié)點介入進行規(guī)劃、拆解或糾錯。基于這個動機,本研究提出從多智能體的角度建模并解決這個問題并引入強化元思維智能體(Reinforced Meta-thinking Agents, 簡稱 ReMA)框架,利用多智能體間的交互來建模大模型推理時的元思維和推理步驟,并通過強化學習鼓勵整個系統(tǒng)協(xié)同思考如何思考,以兼顧探索效率與分布外泛化能力。



  • 論文題目:
  • ReMA: Learning to Meta-think for LLMs withMulti-agent Reinforcement Learning
  • 論文鏈接:
  • https://arxiv.org/abs/2503.09501
  • Github 代碼鏈接:
  • https://github.com/ziyuwan/ReMA-public

當前,提升大模型推理能力的研究主要分為兩種思路:

一是構(gòu)造式的方法:通過在結(jié)構(gòu)化的元思維模板上采樣與搜索構(gòu)造數(shù)據(jù)進行監(jiān)督微調(diào),但這類方法往往只是讓模型記住了這種回答范式,而沒有利用模型內(nèi)在的推理能力進行靈活探索以發(fā)現(xiàn)模型本身最適合的元思維模式,因此難以泛化到分布外的問題集上;

二是 Deepseek R1 式的單智能體強化學習(SARL)方法:通過引入高質(zhì)量退火數(shù)據(jù)獲得具備一定的混合思維能力的基礎(chǔ)模型后,直接使用規(guī)則獎勵函數(shù)進行強化學習微調(diào),習得混合元思維和詳細推理步驟。但這類方法通常依賴強大的基礎(chǔ)模型,對于能力欠缺的基礎(chǔ)模型來說在過大的動作空間內(nèi)無法進行高效探索,且不用說可能導致的可讀性差等問題。



圖一:ReMA框架與現(xiàn)有大模型復(fù)雜推理訓練框架對比

針對這些挑戰(zhàn),ReMA 框架采取了一套全新的解決思路,將復(fù)雜的推理過程解耦為兩個層級化的智能體:



這兩個智能體通過具有一致目標的迭代強化學習過程進行探索和協(xié)作學習。這種多智能體系統(tǒng)(MAS)的設(shè)計,將單智能體強化學習的探索空間分散到多個智能體中,使得每個智能體都能在訓練中更結(jié)構(gòu)化、更有效地進行探索。ReMA 通過這種方式來平衡了泛化能力和探索效率之間的權(quán)衡。

方法

ReMA 的生成建模

本研究首先給出單輪多智能體元思維推理過程(Multi-Agent Meta-thinking reasoning process,MAMRP)的定義。

在單輪交互場景下,當給定一個任務(wù)問題時,元思維智能體會對問題進行宏觀分析和必要拆解,產(chǎn)生求解計劃,而推理智能體會根據(jù)元思維的逐步指令完成任務(wù)內(nèi)容。具體來說,給定問題,元思維智能體首先給出元思維,接著推理智能體給出問題求解,該過程如下所示:



而在多輪交互場景中,元思維智能體給出的元思維可以以一種更加均勻的方式加入到整個思考過程中,元思維智能體可以顯式地對求解的過程進行計劃、拆解、反思、回溯和修正,其交互歷史會不斷疊加直至結(jié)束。類似的,本研究可以給出多輪 MAMRP 的定義,該過程如下所示:



整個系統(tǒng)的求解過程可以用以下有向圖來直觀理解:





圖二:不同算法框架的訓練方式對比

單輪 ReMA 的訓練

單輪場景下,考慮兩個智能體和 ,團隊通過迭代優(yōu)化的方式最大化兩個智能體各自的獎勵,從而更新智能體們各自的權(quán)重:



其中每個智能體的獎勵函數(shù)分別考慮了總體回答正確性與各自的格式正確性。對于策略梯度的更新算法,本研究使用目前主流的 GRPO 和 REINFORCE++ 來節(jié)省顯存和加速訓練。

多輪 ReMA 的訓練

在擴展到多輪場景下時,為了提升計算效率和系統(tǒng)可擴展性,團隊做了如下改變:

(1)首先是通過共享參數(shù)的方式降低維護兩份模型參數(shù)的部署開銷,同時簡化調(diào)度兩份模型參數(shù)的依賴關(guān)系,提高效率。具體來說,本研究使用不同的角色的系統(tǒng)提示詞來表示不同智能體的策略





,在優(yōu)化時同時使用兩個智能體的采樣數(shù)據(jù)進行訓練,更新一份參數(shù)。

(2)其次是針對多輪交互場景的強化學習,不同于本研究將每一輪的完整輸出定義為一個動作,通過引入輪次級比率(turn-level ratio)來進行 loss 歸一化與剪切, 具體優(yōu)化目標如下所示:



其中:



通過這樣的方式,在多輪訓練的過程中,能夠消除 token-level loss 對于長度的 bias,另外通過考慮單輪所有 token 的整體裁切,可以一定程度上穩(wěn)定訓練過程。

實驗結(jié)果

單輪 ReMA 的實驗

首先團隊在單輪設(shè)定上對比了一般 CoT 的 Vanila Reasoning Process (VRP),以及其 RL 訓練后的結(jié)果 VRP_RL, MRP_RL。團隊在多個數(shù)學推理基準(如 MATH, GSM8K, AIME24, AMC23 等)和 LLM-as-a-Judge 基準(如 RewardBench, JudgeBench)上對 ReMA 進行了領(lǐng)域內(nèi)外泛化的廣泛評估。在數(shù)學問題上,團隊使用了 MATH 的訓練集(7.5k)進行訓練,在 LLM-as-a-Judge 任務(wù)上則將 RewardBench 按子類比例劃分為了 5k 訓練樣本和 970 個測試樣本進行訓練和領(lǐng)域內(nèi)測試。



表一:單輪ReMA的實驗對比

結(jié)果顯示,在多種骨干預(yù)訓練模型(如 Llama-3-8B-Instruct, Llama-3.1-8B-Instruct, Qwen2.5-7B-Instruct)上,ReMA 在平均性能上一致優(yōu)于所有基線方法。特別是在分布外數(shù)據(jù)集上,ReMA 在大多數(shù)基準測試中都取得了最佳性能,充分證明了其元思索機制帶來的卓越泛化能力。例如,在使用 Llama3-8B-Instruct 模型時,ReMA 在 AMC23 數(shù)據(jù)集上的性能提升高達 20%。

消融實驗

為了證明 ReMA 中多智能體系統(tǒng)的引入對于推理能力的訓練有益,團隊在單輪設(shè)定下分別對二者的強化學習訓練機制進行了消融實驗。

問題一:元思維是否可以幫助推理智能體進行強化學習訓練?



團隊分別對比了三種強化學習訓練策略,RL from base 采用了基礎(chǔ)模型直接進行 RL 訓練;RL from SFT 在 RL 訓練開始前先用 GPT-4o 的專家數(shù)據(jù)進行 SFT 作為初始化;RL under Meta-thinking 則在 RL 訓練時使用從 GPT-4o 生成的元思維數(shù)據(jù) SFT 過后的元思維智能體提供高層指導。

圖三展示了訓練過程中三種不同難度的測試集上的準確率變化趨勢,實驗結(jié)果證明了元思維對于推理模型的強化學習具有促進作用,尤其是在更困難的任務(wù)上具有更好的泛化性。

問題二:LLM 是否能夠通過強化學習演化出多樣的元思維?



圖四:不同規(guī)模的元思維智能體的強化學習訓練演化過程

接著團隊探索了不同規(guī)模的元思維智能體的強化學習訓練演化過程,團隊設(shè)計了一個可解釋性動作集合。通過讓模型輸出 JSON 格式的動作(先確定動作類型(DECOMPOSE,REWRITE,EMPTY),再輸出相應(yīng)的內(nèi)容),以實現(xiàn)對模型輸出動作類型的監(jiān)控。圖四展示了三種動作類型對應(yīng)的問題難度在訓練中的變化,實驗發(fā)現(xiàn),在小模型上進行訓練時(Llama3.2-1B-Instruct),元思維策略會快速收斂到輸出簡單策略,即 “什么都不做”;而稍大一些的模型(如 Llama3.1-8B-Instruct)則能夠?qū)W會根據(jù)問題難度自適應(yīng)的選擇不同的元思維動作。這個結(jié)果也意味著,現(xiàn)在越來越受到關(guān)注的自主快慢思考選擇的問題,一定程度上可以被 ReMA 有效解決。

多輪 ReMA 的實驗



圖五:多輪ReMA的實驗結(jié)果

最后,團隊擴展到多輪設(shè)定下進行了實驗。首先,由于大多數(shù)語言模型本身不具備將問題拆解成多輪對話來完成的能力,團隊先從 LIMO 數(shù)據(jù)集中轉(zhuǎn)換了 800 條多輪 MAMRP 的樣本作為冷啟動數(shù)據(jù),接著使用 SFT 后的權(quán)重進行強化學習訓練。圖五左側(cè)展示了在 MATH level 3-5 (8.5k)數(shù)據(jù)集上的訓練曲線和在七個測試集上的平均準確率。團隊發(fā)現(xiàn)了以下結(jié)論:

  • 1. 多輪 ReMA 訓練在訓練集上可以進一步提升,但是在測試集上的提升不明顯。
  • 2. 訓練具有不穩(wěn)定性,并且對超參數(shù)很敏感,不同的采樣設(shè)定(單輪最大 token 數(shù)和最大對話輪數(shù))間會有不同的訓練趨勢。

圖五右側(cè)展示了前文中提出的兩個改進(共享參數(shù)更新和輪次級比率)對于多輪訓練的影響,團隊采樣了一個包含所有問題類型的小數(shù)據(jù)集以觀察算法在其上的收斂速度和樣本效率。不同采樣設(shè)定下的實驗結(jié)果均表明該方案能夠有效提升樣本效率。

總結(jié)

總的來說,團隊嘗試了一種新的復(fù)雜推理范式,即使用兩個層次化的智能體來顯式區(qū)分推理過程中的元思維,并通過強化學習促使他們協(xié)作完成復(fù)雜推理任務(wù)。團隊在單輪與多輪的實驗上取得了一定的效果,但是在多輪訓練的中還需要進一步解決訓練崩潰的問題。這表明目前基于 Deterministic MDP 的訓練流程也許并不適用于 Stochastic/Non-stationary MDP,對于這類問題的數(shù)據(jù)、模型方面還需要有更多的探索。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
教育局通報:情況屬實,2名老師已被刑拘!

教育局通報:情況屬實,2名老師已被刑拘!

大愛三湘
2025-07-03 21:01:08
北大校長丁石孫:拒收毛新宇讀北大

北大校長丁石孫:拒收毛新宇讀北大

深度報
2025-06-29 23:36:38
李煜眾生前遺言曝光,一年前就有預(yù)兆,是cos愛好者,事情不簡單

李煜眾生前遺言曝光,一年前就有預(yù)兆,是cos愛好者,事情不簡單

小人物看盡人間百態(tài)
2025-07-04 05:40:03
霍福德退役還是去勇士?美記:勇士已盡最大努力 他最終將三選一

霍福德退役還是去勇士?美記:勇士已盡最大努力 他最終將三選一

直播吧
2025-07-03 23:08:08
日本的啤酒早已是“世界頂級水平”,他們也太幸福了吧~~~

日本的啤酒早已是“世界頂級水平”,他們也太幸福了吧~~~

日本物語
2025-07-02 21:02:03
第二次對抗國家審查,李嘉誠女友出山,外交部16字狠話,把路堵上

第二次對抗國家審查,李嘉誠女友出山,外交部16字狠話,把路堵上

科技處長
2025-05-10 23:03:05
曝崔康熙渴望逃離泰山!已與高層攤牌:給我1000萬 立馬拿錢走人

曝崔康熙渴望逃離泰山!已與高層攤牌:給我1000萬 立馬拿錢走人

風過鄉(xiāng)
2025-07-04 06:36:23
絕不妥協(xié)!馬斯克籌建新黨,特朗普想將他驅(qū)逐,奧巴馬小布什出山

絕不妥協(xié)!馬斯克籌建新黨,特朗普想將他驅(qū)逐,奧巴馬小布什出山

阿天愛旅行
2025-07-03 11:31:34
審計報告一出全傻眼!16省175縣截用惠農(nóng)補貼超40億,全還債了!

審計報告一出全傻眼!16省175縣截用惠農(nóng)補貼超40億,全還債了!

青青子衿
2025-06-30 16:55:52
當山東艦駛?cè)刖S港,所有關(guān)于“香港”的曖昧都該結(jié)束了

當山東艦駛?cè)刖S港,所有關(guān)于“香港”的曖昧都該結(jié)束了

離離言幾許
2025-07-03 18:42:10
為何很多女性如此渴望性生活?無非是這4個原因,男性也無需害怕

為何很多女性如此渴望性生活?無非是這4個原因,男性也無需害怕

特約前排觀眾
2025-07-02 07:18:22
疑機長李某向弟弟坦誠:他拼搏過,但30年來活得很累!妻子也發(fā)聲

疑機長李某向弟弟坦誠:他拼搏過,但30年來活得很累!妻子也發(fā)聲

凡知
2025-07-03 21:03:05
交車,前中國女足國門趙麗娜正式成為第100萬輛比亞迪漢車主

交車,前中國女足國門趙麗娜正式成為第100萬輛比亞迪漢車主

懂球帝
2025-07-03 23:08:09
卡巴耶娃:普京的緋聞女友,傳聞為他生下二子,普京卻不承認再婚

卡巴耶娃:普京的緋聞女友,傳聞為他生下二子,普京卻不承認再婚

科學發(fā)掘
2025-07-04 01:24:57
《鏢人》沒有換那爾那茜的說法,不是強行上映,就是直接放棄作品

《鏢人》沒有換那爾那茜的說法,不是強行上映,就是直接放棄作品

芊手若
2025-07-02 16:46:21
曝張繼科曾與機車女網(wǎng)紅同居!多張不雅照流出,女方男友怒提分手

曝張繼科曾與機車女網(wǎng)紅同居!多張不雅照流出,女方男友怒提分手

八星人
2025-07-03 12:40:17
李愛慶被判處死刑,官方通報牽涉男明星,王一博肖戰(zhàn)粉絲互潑臟水

李愛慶被判處死刑,官方通報牽涉男明星,王一博肖戰(zhàn)粉絲互潑臟水

花哥扒娛樂
2025-07-02 19:37:51
田亮妻子曬森碟打網(wǎng)球照片:身材高挑,下巴后縮問題得到改善

田亮妻子曬森碟打網(wǎng)球照片:身材高挑,下巴后縮問題得到改善

直播吧
2025-07-03 17:06:11
英國航母深夜闖南海,無視解放軍實彈警告,中方強硬回應(yīng)劃紅線

英國航母深夜闖南海,無視解放軍實彈警告,中方強硬回應(yīng)劃紅線

流年拾光
2025-07-01 16:55:17
中方密邀各國領(lǐng)導,李在明若出席北京閱兵,會和金正恩坐一桌么?

中方密邀各國領(lǐng)導,李在明若出席北京閱兵,會和金正恩坐一桌么?

呂喆有話說
2025-07-03 15:17:27
2025-07-04 09:27:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
10780文章數(shù) 142353關(guān)注度
往期回顧 全部

科技要聞

再不改飯碗都快沒了?百度搜索終于放大招

頭條要聞

美國民主黨領(lǐng)袖抗議"大而美"法案 演講近9小時創(chuàng)紀錄

頭條要聞

美國民主黨領(lǐng)袖抗議"大而美"法案 演講近9小時創(chuàng)紀錄

體育要聞

你永不獨行!球迷前往安菲爾德悼念若塔

娛樂要聞

森林北又有緋聞傳出?汪峰毫不在意?

財經(jīng)要聞

闖禍電芯商部分產(chǎn)線停產(chǎn)!羅馬仕通知停工

汽車要聞

6.5秒破百 長安第三代UNI-V有更強2.0T

態(tài)度原創(chuàng)

家居
游戲
時尚
教育
本地

家居要聞

溫潤質(zhì)感 生活如此明亮動人

LOL-MSI:左手塞拉斯“閃電五連鞭”主宰比賽,BLG 3-1擊敗MKOI

七年陪跑+新劇逆襲!吳宣儀《不二臣》選角為何被嘲“災(zāi)難現(xiàn)場”

教育要聞

考大學選城市:京滬寧漢蓉,杭深蘇穗鎬,這10個城市為什么香?

本地新聞

云游中國 | 穿越三國!赤壁古戰(zhàn)場藏了多少英雄傳奇?

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 凤山县| 普定县| 杂多县| 福安市| 故城县| 淮滨县| 澄迈县| 南汇区| 龙游县| 民权县| 云霄县| 竹山县| 潢川县| 安远县| 宁夏| 佛学| 大姚县| 柞水县| 江川县| 台江县| 巴南区| 东莞市| 阳江市| 临沭县| 昆山市| 锡林浩特市| 铜川市| 龙里县| 汨罗市| 新竹县| 普定县| 蚌埠市| 孝义市| 嘉义县| 全州县| 牡丹江市| 含山县| 布尔津县| 旬阳县| 渑池县| 嘉荫县|