Meta-Think ≠ 記套路，多智能體強化學習解鎖大模型元思考泛化

2025-07-03 17:20:46　來源: 機器之心Pro

遼寧舉報

分享至

本文第一作者為上海交通大學計算機科學四年級博士生萬梓煜，主要研究方向為強化學習、基礎(chǔ)模型的復(fù)雜推理，通訊作者為上海交通大學人工智能學院溫穎副教授和上海人工智能實驗室胡舒悅老師。團隊其他成員包括來自英屬哥倫比亞大學的共同第一作者李云想、Mark Schmidt 教授，倫敦大學學院的宋研、楊林易和汪軍教授，上海交通大學的溫瀟雨，王翰竟和張偉楠教授。

引言

最近，關(guān)于大模型推理的測試時間擴展（Test time scaling law ）的探索不斷涌現(xiàn)出新的范式，包括① 結(jié)構(gòu)化搜索結(jié)（如 MCTS），② 過程獎勵模型（Process Reward Model ）+ PPO，③ 可驗證獎勵（Verifiable Reward）+ GRPO（DeepSeek?R1）。然而，大模型何時產(chǎn)生 “頓悟（Aha?Moment）” 的機理仍未明晰。近期多項研究提出推理模式（reasoning pattern）對于推理能力的重要作用。類似的，本研究認為

大模型復(fù)雜推理的能力強弱本質(zhì)在于元思維能力的強弱。

所謂 “元思維” （meta-thinking），即監(jiān)控、評估和控制自身的推理過程，以實現(xiàn)更具適應(yīng)性和有效性的問題解決，是智能體完成長時間復(fù)雜任務(wù)的必要手段。大語言模型（LLM）雖展現(xiàn)出強大推理能力，但如何實現(xiàn)類似人類更深層次、更有條理的 "元思維" 仍是關(guān)鍵挑戰(zhàn)

上圖通過兩臺機器人求三角形高線的截距的解決樣例，直觀展示了元思維與推理的分工：推理機器人執(zhí)行計算，元思維機器人則在關(guān)鍵節(jié)點介入進行規(guī)劃、拆解或糾錯。基于這個動機，本研究提出從多智能體的角度建模并解決這個問題并引入強化元思維智能體（Reinforced Meta-thinking Agents, 簡稱 ReMA）框架，利用多智能體間的交互來建模大模型推理時的元思維和推理步驟，并通過強化學習鼓勵整個系統(tǒng)協(xié)同思考如何思考，以兼顧探索效率與分布外泛化能力。

論文題目：
ReMA: Learning to Meta-think for LLMs withMulti-agent Reinforcement Learning
論文鏈接：
https://arxiv.org/abs/2503.09501
Github 代碼鏈接：
https://github.com/ziyuwan/ReMA-public

當前，提升大模型推理能力的研究主要分為兩種思路：

一是構(gòu)造式的方法：通過在結(jié)構(gòu)化的元思維模板上采樣與搜索構(gòu)造數(shù)據(jù)進行監(jiān)督微調(diào)，但這類方法往往只是讓模型記住了這種回答范式，而沒有利用模型內(nèi)在的推理能力進行靈活探索以發(fā)現(xiàn)模型本身最適合的元思維模式，因此難以泛化到分布外的問題集上；

二是 Deepseek R1 式的單智能體強化學習（SARL）方法：通過引入高質(zhì)量退火數(shù)據(jù)獲得具備一定的混合思維能力的基礎(chǔ)模型后，直接使用規(guī)則獎勵函數(shù)進行強化學習微調(diào)，習得混合元思維和詳細推理步驟。但這類方法通常依賴強大的基礎(chǔ)模型，對于能力欠缺的基礎(chǔ)模型來說在過大的動作空間內(nèi)無法進行高效探索，且不用說可能導致的可讀性差等問題。

圖一：ReMA框架與現(xiàn)有大模型復(fù)雜推理訓練框架對比

針對這些挑戰(zhàn)，ReMA 框架采取了一套全新的解決思路，將復(fù)雜的推理過程解耦為兩個層級化的智能體：

這兩個智能體通過具有一致目標的迭代強化學習過程進行探索和協(xié)作學習。這種多智能體系統(tǒng)（MAS）的設(shè)計，將單智能體強化學習的探索空間分散到多個智能體中，使得每個智能體都能在訓練中更結(jié)構(gòu)化、更有效地進行探索。ReMA 通過這種方式來平衡了泛化能力和探索效率之間的權(quán)衡。

方法

ReMA 的生成建模

本研究首先給出單輪多智能體元思維推理過程（Multi-Agent Meta-thinking reasoning process，MAMRP）的定義。

在單輪交互場景下，當給定一個任務(wù)問題時，元思維智能體會對問題進行宏觀分析和必要拆解，產(chǎn)生求解計劃，而推理智能體會根據(jù)元思維的逐步指令完成任務(wù)內(nèi)容。具體來說，給定問題，元思維智能體首先給出元思維，接著推理智能體給出問題求解，該過程如下所示：

而在多輪交互場景中，元思維智能體給出的元思維可以以一種更加均勻的方式加入到整個思考過程中，元思維智能體可以顯式地對求解的過程進行計劃、拆解、反思、回溯和修正，其交互歷史會不斷疊加直至結(jié)束。類似的，本研究可以給出多輪 MAMRP 的定義，該過程如下所示：

整個系統(tǒng)的求解過程可以用以下有向圖來直觀理解：

圖二：不同算法框架的訓練方式對比

單輪 ReMA 的訓練

單輪場景下，考慮兩個智能體和，團隊通過迭代優(yōu)化的方式最大化兩個智能體各自的獎勵，從而更新智能體們各自的權(quán)重：

其中每個智能體的獎勵函數(shù)分別考慮了總體回答正確性與各自的格式正確性。對于策略梯度的更新算法，本研究使用目前主流的 GRPO 和 REINFORCE++ 來節(jié)省顯存和加速訓練。

多輪 ReMA 的訓練

在擴展到多輪場景下時，為了提升計算效率和系統(tǒng)可擴展性，團隊做了如下改變：

（1）首先是通過共享參數(shù)的方式降低維護兩份模型參數(shù)的部署開銷，同時簡化調(diào)度兩份模型參數(shù)的依賴關(guān)系，提高效率。具體來說，本研究使用不同的角色的系統(tǒng)提示詞來表示不同智能體的策略

，在優(yōu)化時同時使用兩個智能體的采樣數(shù)據(jù)進行訓練，更新一份參數(shù)。

（2）其次是針對多輪交互場景的強化學習，不同于本研究將每一輪的完整輸出定義為一個動作，通過引入輪次級比率（turn-level ratio）來進行 loss 歸一化與剪切，具體優(yōu)化目標如下所示：

其中：

通過這樣的方式，在多輪訓練的過程中，能夠消除 token-level loss 對于長度的 bias，另外通過考慮單輪所有 token 的整體裁切，可以一定程度上穩(wěn)定訓練過程。

實驗結(jié)果

單輪 ReMA 的實驗

首先團隊在單輪設(shè)定上對比了一般 CoT 的 Vanila Reasoning Process (VRP)，以及其 RL 訓練后的結(jié)果 VRP_RL, MRP_RL。團隊在多個數(shù)學推理基準（如 MATH, GSM8K, AIME24, AMC23 等）和 LLM-as-a-Judge 基準（如 RewardBench, JudgeBench）上對 ReMA 進行了領(lǐng)域內(nèi)外泛化的廣泛評估。在數(shù)學問題上，團隊使用了 MATH 的訓練集（7.5k）進行訓練，在 LLM-as-a-Judge 任務(wù)上則將 RewardBench 按子類比例劃分為了 5k 訓練樣本和 970 個測試樣本進行訓練和領(lǐng)域內(nèi)測試。

表一：單輪ReMA的實驗對比

結(jié)果顯示，在多種骨干預(yù)訓練模型（如 Llama-3-8B-Instruct, Llama-3.1-8B-Instruct, Qwen2.5-7B-Instruct）上，ReMA 在平均性能上一致優(yōu)于所有基線方法。特別是在分布外數(shù)據(jù)集上，ReMA 在大多數(shù)基準測試中都取得了最佳性能，充分證明了其元思索機制帶來的卓越泛化能力。例如，在使用 Llama3-8B-Instruct 模型時，ReMA 在 AMC23 數(shù)據(jù)集上的性能提升高達 20%。

消融實驗

為了證明 ReMA 中多智能體系統(tǒng)的引入對于推理能力的訓練有益，團隊在單輪設(shè)定下分別對二者的強化學習訓練機制進行了消融實驗。

問題一：元思維是否可以幫助推理智能體進行強化學習訓練？

團隊分別對比了三種強化學習訓練策略，RL from base 采用了基礎(chǔ)模型直接進行 RL 訓練；RL from SFT 在 RL 訓練開始前先用 GPT-4o 的專家數(shù)據(jù)進行 SFT 作為初始化；RL under Meta-thinking 則在 RL 訓練時使用從 GPT-4o 生成的元思維數(shù)據(jù) SFT 過后的元思維智能體提供高層指導。

圖三展示了訓練過程中三種不同難度的測試集上的準確率變化趨勢，實驗結(jié)果證明了元思維對于推理模型的強化學習具有促進作用，尤其是在更困難的任務(wù)上具有更好的泛化性。

問題二：LLM 是否能夠通過強化學習演化出多樣的元思維？

圖四：不同規(guī)模的元思維智能體的強化學習訓練演化過程

接著團隊探索了不同規(guī)模的元思維智能體的強化學習訓練演化過程，團隊設(shè)計了一個可解釋性動作集合。通過讓模型輸出 JSON 格式的動作（先確定動作類型（DECOMPOSE，REWRITE，EMPTY），再輸出相應(yīng)的內(nèi)容），以實現(xiàn)對模型輸出動作類型的監(jiān)控。圖四展示了三種動作類型對應(yīng)的問題難度在訓練中的變化，實驗發(fā)現(xiàn)，在小模型上進行訓練時（Llama3.2-1B-Instruct），元思維策略會快速收斂到輸出簡單策略，即 “什么都不做”；而稍大一些的模型（如 Llama3.1-8B-Instruct）則能夠?qū)W會根據(jù)問題難度自適應(yīng)的選擇不同的元思維動作。這個結(jié)果也意味著，現(xiàn)在越來越受到關(guān)注的自主快慢思考選擇的問題，一定程度上可以被 ReMA 有效解決。

多輪 ReMA 的實驗

圖五：多輪ReMA的實驗結(jié)果

最后，團隊擴展到多輪設(shè)定下進行了實驗。首先，由于大多數(shù)語言模型本身不具備將問題拆解成多輪對話來完成的能力，團隊先從 LIMO 數(shù)據(jù)集中轉(zhuǎn)換了 800 條多輪 MAMRP 的樣本作為冷啟動數(shù)據(jù)，接著使用 SFT 后的權(quán)重進行強化學習訓練。圖五左側(cè)展示了在 MATH level 3-5 （8.5k）數(shù)據(jù)集上的訓練曲線和在七個測試集上的平均準確率。團隊發(fā)現(xiàn)了以下結(jié)論：

1. 多輪 ReMA 訓練在訓練集上可以進一步提升，但是在測試集上的提升不明顯。
2. 訓練具有不穩(wěn)定性，并且對超參數(shù)很敏感，不同的采樣設(shè)定（單輪最大 token 數(shù)和最大對話輪數(shù)）間會有不同的訓練趨勢。

圖五右側(cè)展示了前文中提出的兩個改進（共享參數(shù)更新和輪次級比率）對于多輪訓練的影響，團隊采樣了一個包含所有問題類型的小數(shù)據(jù)集以觀察算法在其上的收斂速度和樣本效率。不同采樣設(shè)定下的實驗結(jié)果均表明該方案能夠有效提升樣本效率。

總結(jié)

總的來說，團隊嘗試了一種新的復(fù)雜推理范式，即使用兩個層次化的智能體來顯式區(qū)分推理過程中的元思維，并通過強化學習促使他們協(xié)作完成復(fù)雜推理任務(wù)。團隊在單輪與多輪的實驗上取得了一定的效果，但是在多輪訓練的中還需要進一步解決訓練崩潰的問題。這表明目前基于 Deterministic MDP 的訓練流程也許并不適用于 Stochastic/Non-stationary MDP，對于這類問題的數(shù)據(jù)、模型方面還需要有更多的探索。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.