騰訊混元AI數字人團隊 投稿
量子位 | 公眾號 QbitAI
在沒有標準答案的開放式對話中,RL該怎么做?
多輪對話是大模型最典型的開放任務:高頻、多輪、強情境依賴,且“好回復”因人而異。
然而,當用RL去優化大模型在真實交互中的“情商”時,RLVR一度陷入“三大困境”:
- 環境困境
- 真實對話是多輪、動態且高度個性化的。如何構建一個既真實、多樣,又可供模型自由探索(rollout)的交互環境?
- 獎勵困境
- “高情商”沒有標準答案。如何將用戶主觀滿意度轉化為穩定、可優化的長期獎勵?
- 訓練困境
- 如何在LLM上實現穩定、高效的多輪在線RL訓練?
騰訊混元數字人團隊提出的RLVER(Reinforcement Learning with Verifiable Emotion Rewawards)框架指出了一個方向:
讓一個穩定、高質量的用戶模擬器,同時扮演“交互環境”和“獎勵來源”的雙重角色,成功將RLVR引入多輪對話,為大模型在開放域RL上訓練提供了有效、可擴展的新解法。
經過RLVER訓練的Qwen2.5-7B模型,在情感對話基準Sentient-Benchmark上的得分從13.3躍升至79.2,表現與GPT-4o、Gemini 2.5 Pro等頂級商用模型相當。
模型現已開源,鏈接可見文末。
RLVER:為“情商”這一開放問題,構建有效的RL閉環
傳統對話優化,要么依賴靜態數據,要么依賴昂貴的人工標注。
而RLVER提出了一種新路徑:以“環境+獎勵”一體化的用戶模擬器為核心,巧妙地解決了上述三大挑戰。
模擬器即環境:創造一個“活”的對話世界
RLVER團隊認識到,真正的“高情商”是千人千面的,因此,RLVER構建的用戶模擬器不只是一個簡單的對話機器人。
它擁有多樣的用戶畫像和用戶交互場景(不同的用戶性格、對話背景、潛在需求),能模擬出海量真實、多變的用戶。
每個用戶獨立、動態地和模型交互,根據模型的回復實時更新自身的情緒狀態,并給出個性化的回復。
這為模型提供了一個可以無限探索、充滿真實感和多樣性的在線學習環境,同時避免reward hacking。
模擬器即獎勵:一個可信的“用戶感受評分系統”
“情商”的評價,本質是用戶主觀體驗,但這種主觀體驗要如何變成穩定、可優化的獎勵?
RLVER基于SAGE框架,通過顯式、可復現的推理過程,模擬用戶在每一輪對話后的情緒變化。
對話結束后,累積的“心情總分”便成為獎勵信號,直接驅動PPO/GRPO算法優化模型。
這一設計擺脫了“黑盒打分器”,將“用戶滿意度”顯式建模成邏輯可控的獎勵函數,使訓練過程更加穩定、透明、可信。
全局獎勵優化:從單輪反饋到“全局情緒軌跡”優化
不同于逐句反饋的方式,RLVER關注整個對話的情緒變化趨勢,僅以最終“情緒總分”作為獎勵,引導模型優化長周期策略。
只有真正理解用戶意圖、維持用戶情緒長期走高,模型才能獲得更高的總獎勵。這鼓勵模型跳出局部最優,學會更具延展性和策略性的社交對話行為。
核心成果:7B模型比肩“巨頭旗艦”
經過RLVER訓練的Qwen2.5-7B模型,在情感對話基準Sentient-Benchmark上的得分從13.3躍升至79.2,表現與GPT-4o、Gemini 2.5 Pro等頂級商用模型相當。
更重要的是,模型在數學、代碼等通用能力上幾乎沒有衰退,成功避免了“災難性遺忘”。
此外,RLVER對模型行為風格的影響也非常顯著:模型從“解題型風格”遷移到“情緒型風格”,思路不再是“問題怎么解決”,而是“我能理解你的感受”。
深度洞察:從思考到行動
在RLVER的訓練實踐過程中,研究團隊還得到了一些充滿啟發性的發現。
洞察一:“思考式”v.s.“反應式”模型——通往“共情”的兩種路徑
RLVER引入了顯式的think-then-say提示模板,要求模型在每輪回復前先進行情緒分析、策略推理,再生成最終回應。通過對比帶/不帶“思考”的模型,研究團隊觀察到兩條通向“共情”的截然不同路徑:
“思考式模型”:走向“深度理解”
顯式思考鏈促使模型在生成前進行推理,顯著提升兩項核心能力:
- 問題洞察力:識別用戶情緒背后的真實動因與潛在需求;
- 共情表達與驗證:精準捕捉并反饋深層情緒,讓用戶“感到被理解”。
這類模型更像是“靈魂知己”:擅長安靜傾聽、準確回應,用語言建立深層情感連接。
“反應式模型”:走向“快速行動”
相比之下,未引導思考的模型直接生成回應,盡管在洞察和共情維度上略遜一籌,卻自發發展出“行動導向”的補償策略:
- 快速判斷用戶困境,提供具體、可執行的建議,或個性化行動邀請;
- 以“實用性”彌補情感理解上的不足,形成“行動派伙伴”的角色定位。
這一對比揭示了在開放復雜任務下RL訓練的有趣現象:模型在能力受限時,會自發尋找策略性的“補償路徑”,而RLVER提供的多樣化、多策略兼容的訓練環境,正是促成這種多樣行為演化的關鍵土壤。
洞察二:PPO vs. GRPO——穩定增長還是能力突破?
在優化算法上,RLVER團隊也得出了實用結論:
- GRPO:傾向于帶來更穩定、均衡的能力增長。
- PPO:則更能將模型在特定維度(如共情深度、核心洞察)的能力推向更高上限。
這引出一個有趣的策略思考:對于“情商”這類多維度的復雜能力,當模型各方面都達到“合格線”后,是繼續做“六邊形戰士”,還是集中打造一兩個“殺手锏”維度的長板?
在文章的實驗結果中,后者帶來了更優的綜合表現。
洞察三:環境和獎勵的風格影響——嚴師未必出高徒
在RLVER框架中,用戶模擬器同時扮演“訓練環境”與“獎勵模型”的雙重角色。因此,它的風格——即“用戶接受度”與反饋方式——對模型學習路徑具有直接影響。
一個自然的追問是:要求更嚴格的用戶,會訓練出更強的模型嗎?
實驗給出的答案是:并非越難越好。
RLVER團隊構建了兩類用戶模擬器:
- Vanilla版:情緒外露、反饋積極,接受度較高;
- Challenging版:情緒內斂、反饋克制,對回應質量要求極高。
在相同初始模型下分別進行訓練與測試后,RLVER團隊發現:
太難的環境,不利于模型早期成長
雖然Challenging模擬器在設計上更真實,但它反饋含蓄、容錯率低,使得模型在訓練早期難以試錯探索多樣策略,也難以獲得正向激勵。這會導致RL訓練陷入“無反饋→無學習→崩潰”的惡性循環。
相反,Vanilla模擬器的反饋機制相對包容和積極,更利于模型在訓練初期的策略探索與能力積累,形成穩定的共情表達習慣。
策略啟示:在強化學習優化開放任務(如“情商”)時,訓練環境不應一味“設難”,而應強調“成長曲線”設計。“嚴師出高徒”的前提,是學生已經能聽懂教誨。
而在能力尚淺的早期,溫和、可學的“陪練型用戶”反而更能助力模型成長為真正的共情者。
帶思考的模型,更“抗打擊”
一個附加的有趣發現是:在Challenging環境下,帶有顯式“思考結構”的模型顯著更魯棒:
- 雖然整體分數有所下降,但仍保持在可用水平;
- 而不帶思考結構的模型則幾乎完全崩潰,得分低至19.8。
這表明,顯式推理能力能夠緩沖稀疏獎勵帶來的訓練不穩定性。即使缺乏清晰反饋,模型也可以借助“內在分析”挖掘用戶需求信號,從而保持一定的適應性。
前期工作:AI也能當情感大師?騰訊發布最新AI社交智能榜單,最新版GPT-4o拿下第一
論文地址:https://arxiv.org/abs/2507.03112
項目代碼:https://github.com/Tencent/digitalhuman/tree/main/RLVER
開源模型:https://huggingface.co/RLVER
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.