網易首頁 > 網易號 > 正文申請入駐

7B模型“情商”比肩GPT-4o，騰訊突破開放域RL難題，得分直翻5倍

2025-07-18 16:40:53　來源: 量子位

北京舉報

分享至

騰訊混元AI數字人團隊投稿
量子位 | 公眾號 QbitAI

在沒有標準答案的開放式對話中，RL該怎么做？

多輪對話是大模型最典型的開放任務：高頻、多輪、強情境依賴，且“好回復”因人而異。

然而，當用RL去優化大模型在真實交互中的“情商”時，RLVR一度陷入“三大困境”：

環境困境
真實對話是多輪、動態且高度個性化的。如何構建一個既真實、多樣，又可供模型自由探索（rollout）的交互環境？
獎勵困境
“高情商”沒有標準答案。如何將用戶主觀滿意度轉化為穩定、可優化的長期獎勵？
訓練困境
如何在LLM上實現穩定、高效的多輪在線RL訓練？

騰訊混元數字人團隊提出的RLVER(Reinforcement Learning with Verifiable Emotion Rewawards)框架指出了一個方向：

讓一個穩定、高質量的用戶模擬器，同時扮演“交互環境”和“獎勵來源”的雙重角色，成功將RLVR引入多輪對話，為大模型在開放域RL上訓練提供了有效、可擴展的新解法。

經過RLVER訓練的Qwen2.5-7B模型，在情感對話基準Sentient-Benchmark上的得分從13.3躍升至79.2，表現與GPT-4o、Gemini 2.5 Pro等頂級商用模型相當。

模型現已開源，鏈接可見文末。

RLVER：為“情商”這一開放問題，構建有效的RL閉環

傳統對話優化，要么依賴靜態數據，要么依賴昂貴的人工標注。

而RLVER提出了一種新路徑：以“環境+獎勵”一體化的用戶模擬器為核心，巧妙地解決了上述三大挑戰。

模擬器即環境：創造一個“活”的對話世界

RLVER團隊認識到，真正的“高情商”是千人千面的，因此，RLVER構建的用戶模擬器不只是一個簡單的對話機器人。

它擁有多樣的用戶畫像和用戶交互場景（不同的用戶性格、對話背景、潛在需求），能模擬出海量真實、多變的用戶。

每個用戶獨立、動態地和模型交互，根據模型的回復實時更新自身的情緒狀態，并給出個性化的回復。

這為模型提供了一個可以無限探索、充滿真實感和多樣性的在線學習環境，同時避免reward hacking。

模擬器即獎勵：一個可信的“用戶感受評分系統”

“情商”的評價，本質是用戶主觀體驗，但這種主觀體驗要如何變成穩定、可優化的獎勵？

RLVER基于SAGE框架，通過顯式、可復現的推理過程，模擬用戶在每一輪對話后的情緒變化。

對話結束后，累積的“心情總分”便成為獎勵信號，直接驅動PPO/GRPO算法優化模型。

這一設計擺脫了“黑盒打分器”，將“用戶滿意度”顯式建模成邏輯可控的獎勵函數，使訓練過程更加穩定、透明、可信。

全局獎勵優化：從單輪反饋到“全局情緒軌跡”優化

不同于逐句反饋的方式，RLVER關注整個對話的情緒變化趨勢，僅以最終“情緒總分”作為獎勵，引導模型優化長周期策略。

只有真正理解用戶意圖、維持用戶情緒長期走高，模型才能獲得更高的總獎勵。這鼓勵模型跳出局部最優，學會更具延展性和策略性的社交對話行為。

核心成果：7B模型比肩“巨頭旗艦”

經過RLVER訓練的Qwen2.5-7B模型，在情感對話基準Sentient-Benchmark上的得分從13.3躍升至79.2，表現與GPT-4o、Gemini 2.5 Pro等頂級商用模型相當。

更重要的是，模型在數學、代碼等通用能力上幾乎沒有衰退，成功避免了“災難性遺忘”。

此外，RLVER對模型行為風格的影響也非常顯著：模型從“解題型風格”遷移到“情緒型風格”，思路不再是“問題怎么解決”，而是“我能理解你的感受”。

深度洞察：從思考到行動

在RLVER的訓練實踐過程中，研究團隊還得到了一些充滿啟發性的發現。

洞察一：“思考式”v.s.“反應式”模型——通往“共情”的兩種路徑

RLVER引入了顯式的think-then-say提示模板，要求模型在每輪回復前先進行情緒分析、策略推理，再生成最終回應。通過對比帶/不帶“思考”的模型，研究團隊觀察到兩條通向“共情”的截然不同路徑：

“思考式模型”：走向“深度理解”

顯式思考鏈促使模型在生成前進行推理，顯著提升兩項核心能力：

問題洞察力：識別用戶情緒背后的真實動因與潛在需求；
共情表達與驗證：精準捕捉并反饋深層情緒，讓用戶“感到被理解”。

這類模型更像是“靈魂知己”：擅長安靜傾聽、準確回應，用語言建立深層情感連接。

“反應式模型”：走向“快速行動”

相比之下，未引導思考的模型直接生成回應，盡管在洞察和共情維度上略遜一籌，卻自發發展出“行動導向”的補償策略：

快速判斷用戶困境，提供具體、可執行的建議，或個性化行動邀請；
以“實用性”彌補情感理解上的不足，形成“行動派伙伴”的角色定位。

這一對比揭示了在開放復雜任務下RL訓練的有趣現象：模型在能力受限時，會自發尋找策略性的“補償路徑”，而RLVER提供的多樣化、多策略兼容的訓練環境，正是促成這種多樣行為演化的關鍵土壤。

洞察二：PPO vs. GRPO——穩定增長還是能力突破？

在優化算法上，RLVER團隊也得出了實用結論：

GRPO：傾向于帶來更穩定、均衡的能力增長。
PPO：則更能將模型在特定維度（如共情深度、核心洞察）的能力推向更高上限。

這引出一個有趣的策略思考：對于“情商”這類多維度的復雜能力，當模型各方面都達到“合格線”后，是繼續做“六邊形戰士”，還是集中打造一兩個“殺手锏”維度的長板？

在文章的實驗結果中，后者帶來了更優的綜合表現。

洞察三：環境和獎勵的風格影響——嚴師未必出高徒

在RLVER框架中，用戶模擬器同時扮演“訓練環境”與“獎勵模型”的雙重角色。因此，它的風格——即“用戶接受度”與反饋方式——對模型學習路徑具有直接影響。

一個自然的追問是：要求更嚴格的用戶，會訓練出更強的模型嗎？

實驗給出的答案是：并非越難越好。

RLVER團隊構建了兩類用戶模擬器：

Vanilla版：情緒外露、反饋積極，接受度較高；
Challenging版：情緒內斂、反饋克制，對回應質量要求極高。

在相同初始模型下分別進行訓練與測試后，RLVER團隊發現：

太難的環境，不利于模型早期成長

雖然Challenging模擬器在設計上更真實，但它反饋含蓄、容錯率低，使得模型在訓練早期難以試錯探索多樣策略，也難以獲得正向激勵。這會導致RL訓練陷入“無反饋→無學習→崩潰”的惡性循環。

相反，Vanilla模擬器的反饋機制相對包容和積極，更利于模型在訓練初期的策略探索與能力積累，形成穩定的共情表達習慣。

策略啟示：在強化學習優化開放任務（如“情商”）時，訓練環境不應一味“設難”，而應強調“成長曲線”設計。“嚴師出高徒”的前提，是學生已經能聽懂教誨。

而在能力尚淺的早期，溫和、可學的“陪練型用戶”反而更能助力模型成長為真正的共情者。

帶思考的模型，更“抗打擊”

一個附加的有趣發現是：在Challenging環境下，帶有顯式“思考結構”的模型顯著更魯棒：

雖然整體分數有所下降，但仍保持在可用水平；
而不帶思考結構的模型則幾乎完全崩潰，得分低至19.8。

這表明，顯式推理能力能夠緩沖稀疏獎勵帶來的訓練不穩定性。即使缺乏清晰反饋，模型也可以借助“內在分析”挖掘用戶需求信號，從而保持一定的適應性。

前期工作：AI也能當情感大師？騰訊發布最新AI社交智能榜單，最新版GPT-4o拿下第一
論文地址：https://arxiv.org/abs/2507.03112
項目代碼：https://github.com/Tencent/digitalhuman/tree/main/RLVER
開源模型：https://huggingface.co/RLVER

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.