99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

7B模型“情商”比肩GPT-4o,騰訊突破開放域RL難題,得分直翻5倍

0
分享至

騰訊混元AI數字人團隊 投稿
量子位 | 公眾號 QbitAI

在沒有標準答案的開放式對話中,RL該怎么做?

多輪對話是大模型最典型的開放任務:高頻、多輪、強情境依賴,且“好回復”因人而異。

然而,當用RL去優化大模型在真實交互中的“情商”時,RLVR一度陷入“三大困境”:

  • 環境困境
  • 真實對話是多輪、動態且高度個性化的。如何構建一個既真實、多樣,又可供模型自由探索(rollout)的交互環境?
  • 獎勵困境
  • “高情商”沒有標準答案。如何將用戶主觀滿意度轉化為穩定、可優化的長期獎勵?
  • 訓練困境
  • 如何在LLM上實現穩定、高效的多輪在線RL訓練?

騰訊混元數字人團隊提出的RLVER(Reinforcement Learning with Verifiable Emotion Rewawards)框架指出了一個方向:

讓一個穩定、高質量的用戶模擬器,同時扮演“交互環境”和“獎勵來源”的雙重角色,成功將RLVR引入多輪對話,為大模型在開放域RL上訓練提供了有效、可擴展的新解法

經過RLVER訓練的Qwen2.5-7B模型,在情感對話基準Sentient-Benchmark上的得分從13.3躍升至79.2,表現與GPT-4o、Gemini 2.5 Pro等頂級商用模型相當。



模型現已開源,鏈接可見文末。

RLVER:為“情商”這一開放問題,構建有效的RL閉環

傳統對話優化,要么依賴靜態數據,要么依賴昂貴的人工標注。

而RLVER提出了一種新路徑:以“環境+獎勵”一體化的用戶模擬器為核心,巧妙地解決了上述三大挑戰。



模擬器即環境:創造一個“活”的對話世界

RLVER團隊認識到,真正的“高情商”是千人千面的,因此,RLVER構建的用戶模擬器不只是一個簡單的對話機器人。

它擁有多樣的用戶畫像和用戶交互場景(不同的用戶性格、對話背景、潛在需求),能模擬出海量真實、多變的用戶。

每個用戶獨立、動態地和模型交互,根據模型的回復實時更新自身的情緒狀態,并給出個性化的回復。

這為模型提供了一個可以無限探索、充滿真實感和多樣性的在線學習環境,同時避免reward hacking。

模擬器即獎勵:一個可信的“用戶感受評分系統”

“情商”的評價,本質是用戶主觀體驗,但這種主觀體驗要如何變成穩定、可優化的獎勵?

RLVER基于SAGE框架,通過顯式、可復現的推理過程,模擬用戶在每一輪對話后的情緒變化

對話結束后,累積的“心情總分”便成為獎勵信號,直接驅動PPO/GRPO算法優化模型。

這一設計擺脫了“黑盒打分器”,將“用戶滿意度”顯式建模成邏輯可控的獎勵函數,使訓練過程更加穩定、透明、可信。

全局獎勵優化:從單輪反饋到“全局情緒軌跡”優化

不同于逐句反饋的方式,RLVER關注整個對話的情緒變化趨勢,僅以最終“情緒總分”作為獎勵,引導模型優化長周期策略。

只有真正理解用戶意圖、維持用戶情緒長期走高,模型才能獲得更高的總獎勵。這鼓勵模型跳出局部最優,學會更具延展性和策略性的社交對話行為。

核心成果:7B模型比肩“巨頭旗艦”



經過RLVER訓練的Qwen2.5-7B模型,在情感對話基準Sentient-Benchmark上的得分從13.3躍升至79.2,表現與GPT-4o、Gemini 2.5 Pro等頂級商用模型相當。

更重要的是,模型在數學、代碼等通用能力上幾乎沒有衰退,成功避免了“災難性遺忘”。



此外,RLVER對模型行為風格的影響也非常顯著:模型從“解題型風格”遷移到“情緒型風格”,思路不再是“問題怎么解決”,而是“我能理解你的感受”。

深度洞察:從思考到行動

在RLVER的訓練實踐過程中,研究團隊還得到了一些充滿啟發性的發現。

洞察一:“思考式”v.s.“反應式”模型——通往“共情”的兩種路徑



RLVER引入了顯式的think-then-say提示模板,要求模型在每輪回復前先進行情緒分析、策略推理,再生成最終回應。通過對比帶/不帶“思考”的模型,研究團隊觀察到兩條通向“共情”的截然不同路徑:

“思考式模型”:走向“深度理解”

顯式思考鏈促使模型在生成前進行推理,顯著提升兩項核心能力:

  • 問題洞察力:識別用戶情緒背后的真實動因與潛在需求;
  • 共情表達與驗證:精準捕捉并反饋深層情緒,讓用戶“感到被理解”。

這類模型更像是“靈魂知己”:擅長安靜傾聽、準確回應,用語言建立深層情感連接。

“反應式模型”:走向“快速行動”

相比之下,未引導思考的模型直接生成回應,盡管在洞察和共情維度上略遜一籌,卻自發發展出“行動導向”的補償策略:

  • 快速判斷用戶困境,提供具體、可執行的建議,或個性化行動邀請;
  • 以“實用性”彌補情感理解上的不足,形成“行動派伙伴”的角色定位。

這一對比揭示了在開放復雜任務下RL訓練的有趣現象:模型在能力受限時,會自發尋找策略性的“補償路徑”,而RLVER提供的多樣化、多策略兼容的訓練環境,正是促成這種多樣行為演化的關鍵土壤。

洞察二:PPO vs. GRPO——穩定增長還是能力突破?



在優化算法上,RLVER團隊也得出了實用結論:

  • GRPO:傾向于帶來更穩定、均衡的能力增長。
  • PPO:則更能將模型在特定維度(如共情深度、核心洞察)的能力推向更高上限。

這引出一個有趣的策略思考:對于“情商”這類多維度的復雜能力,當模型各方面都達到“合格線”后,是繼續做“六邊形戰士”,還是集中打造一兩個“殺手锏”維度的長板?

在文章的實驗結果中,后者帶來了更優的綜合表現。

洞察三:環境和獎勵的風格影響——嚴師未必出高徒

在RLVER框架中,用戶模擬器同時扮演“訓練環境”與“獎勵模型”的雙重角色。因此,它的風格——即“用戶接受度”與反饋方式——對模型學習路徑具有直接影響。

一個自然的追問是:要求更嚴格的用戶,會訓練出更強的模型嗎?

實驗給出的答案是:并非越難越好。

RLVER團隊構建了兩類用戶模擬器:

  • Vanilla版:情緒外露、反饋積極,接受度較高;
  • Challenging版:情緒內斂、反饋克制,對回應質量要求極高。

在相同初始模型下分別進行訓練與測試后,RLVER團隊發現:



太難的環境,不利于模型早期成長

雖然Challenging模擬器在設計上更真實,但它反饋含蓄、容錯率低,使得模型在訓練早期難以試錯探索多樣策略,也難以獲得正向激勵。這會導致RL訓練陷入“無反饋→無學習→崩潰”的惡性循環。

相反,Vanilla模擬器的反饋機制相對包容和積極,更利于模型在訓練初期的策略探索與能力積累,形成穩定的共情表達習慣。

策略啟示:在強化學習優化開放任務(如“情商”)時,訓練環境不應一味“設難”,而應強調“成長曲線”設計。“嚴師出高徒”的前提,是學生已經能聽懂教誨。

而在能力尚淺的早期,溫和、可學的“陪練型用戶”反而更能助力模型成長為真正的共情者



帶思考的模型,更“抗打擊”

一個附加的有趣發現是:在Challenging環境下,帶有顯式“思考結構”的模型顯著更魯棒:

  • 雖然整體分數有所下降,但仍保持在可用水平;
  • 而不帶思考結構的模型則幾乎完全崩潰,得分低至19.8。

這表明,顯式推理能力能夠緩沖稀疏獎勵帶來的訓練不穩定性。即使缺乏清晰反饋,模型也可以借助“內在分析”挖掘用戶需求信號,從而保持一定的適應性。

前期工作:AI也能當情感大師?騰訊發布最新AI社交智能榜單,最新版GPT-4o拿下第一
論文地址:https://arxiv.org/abs/2507.03112
項目代碼:https://github.com/Tencent/digitalhuman/tree/main/RLVER
開源模型:https://huggingface.co/RLVER

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
對黃楊鈿甜耳環的通報,我有理有據地提出質疑

對黃楊鈿甜耳環的通報,我有理有據地提出質疑

虬髯客好忙
2025-07-17 18:13:36
除了商標全是假的!全球科技先鋒隕落,百年巨頭淪為貼牌工廠

除了商標全是假的!全球科技先鋒隕落,百年巨頭淪為貼牌工廠

聞識
2025-07-15 13:34:23
7月18日俄烏最新:烏克蘭和美國的交易

7月18日俄烏最新:烏克蘭和美國的交易

西樓飲月
2025-07-18 20:48:03
搶新援風頭?19歲蒯紀聞獲MVP!30分鐘險助攻戴帽,生吃對手喂餅

搶新援風頭?19歲蒯紀聞獲MVP!30分鐘險助攻戴帽,生吃對手喂餅

我愛英超
2025-07-18 19:23:55
東大有什么有趣的文化輸出 網友的評論是想不到 更想不到

東大有什么有趣的文化輸出 網友的評論是想不到 更想不到

侃神評故事
2025-07-18 20:57:48
大反轉!宗慶后沒辦信托,杜建英被畫餅20年,21億美元出境水太深

大反轉!宗慶后沒辦信托,杜建英被畫餅20年,21億美元出境水太深

別人都叫我阿腈
2025-07-19 01:41:55
罷免三階再添5人,綠營攤上事,7名綠要員集體反水,黃智賢尷尬了

罷免三階再添5人,綠營攤上事,7名綠要員集體反水,黃智賢尷尬了

娛樂看阿敞
2025-07-19 00:10:46
俄烏戰爭打這么久俄的經濟為何沒有崩盤你是根本不知道我接多少單

俄烏戰爭打這么久俄的經濟為何沒有崩盤你是根本不知道我接多少單

侃神評故事
2025-07-17 20:21:26
被問國乒誰最刺頭!李隼講實話:別看孫穎莎笑呵呵的,她很難對付

被問國乒誰最刺頭!李隼講實話:別看孫穎莎笑呵呵的,她很難對付

三十年萊斯特城球迷
2025-07-19 00:21:02
54歲王琳曝家丑:被兒子扇臉,承認水性楊花,跟男人約會有罪惡感

54歲王琳曝家丑:被兒子扇臉,承認水性楊花,跟男人約會有罪惡感

小嵩
2025-07-18 15:27:41
5000億立方米!湖北發現大型頁巖氣田

5000億立方米!湖北發現大型頁巖氣田

界面新聞
2025-07-18 17:06:19
謝衛江同志任中共湖南省委副書記

謝衛江同志任中共湖南省委副書記

直播株洲
2025-07-18 20:42:49
《大西洋月刊》:墜機前機長已經殺死了所有乘客,這就是馬航370的真相

《大西洋月刊》:墜機前機長已經殺死了所有乘客,這就是馬航370的真相

金哥說新能源車
2025-06-23 09:22:50
日本女籃主帥談半決賽:這是榮幸 在中國對陣中國隊 看臺坐滿觀眾

日本女籃主帥談半決賽:這是榮幸 在中國對陣中國隊 看臺坐滿觀眾

直播吧
2025-07-18 22:04:11
那不勒斯球迷橫幅噴奧斯梅恩:鄉巴佬,記住馬拉多納在這踢過

那不勒斯球迷橫幅噴奧斯梅恩:鄉巴佬,記住馬拉多納在這踢過

懂球帝
2025-07-19 03:05:39
一夜之間,109家網貸平臺消失了:欠錢的你,終于等到這一天!

一夜之間,109家網貸平臺消失了:欠錢的你,終于等到這一天!

我不叫阿哏
2025-07-17 03:03:50
雅詩蘭黛們已經快沒招了

雅詩蘭黛們已經快沒招了

源Sight
2025-07-17 20:17:44
行程結束,澳總理訪華畫上句號,從中國臨走之前,他對華稱呼變了

行程結束,澳總理訪華畫上句號,從中國臨走之前,他對華稱呼變了

掌青說歷史
2025-07-18 22:05:28
朱拉尼攜家人出逃?敘利亞41個部族全面動員,5萬大軍攻向南方

朱拉尼攜家人出逃?敘利亞41個部族全面動員,5萬大軍攻向南方

頭條爆料007
2025-07-18 21:03:49
當年宗慶后和杜建英去香港,中介安排住宿,宗慶后:我們倆住一起

當年宗慶后和杜建英去香港,中介安排住宿,宗慶后:我們倆住一起

胡侃社會百態
2025-07-18 16:30:16
2025-07-19 03:20:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10884文章數 176192關注度
往期回顧 全部

科技要聞

凌晨,OpenAI重磅更新,Manus們算白忙活嗎

頭條要聞

娃哈哈員工:宗慶后曾欲將51%股份給長子 宗馥莉僅40%

頭條要聞

娃哈哈員工:宗慶后曾欲將51%股份給長子 宗馥莉僅40%

體育要聞

夏聯-楊瀚森8+8+5+3帽 開拓者大勝火箭

娛樂要聞

王琳自曝被兒子打,承認自己水性楊花

財經要聞

娃哈哈爭產大戰:杜建英的進擊

汽車要聞

售30萬?方程豹鈦7高配版有激光雷達/車載無人機

態度原創

藝術
本地
時尚
手機
公開課

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

換個城市過夏天 | 誰打翻了濰坊的調色盤?

這么丑的五指鞋,會是OOTD新風向嗎?

手機要聞

iPhone 17 Pro Max配色再確認:黑、藍、銀、橙四款可選

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 湖口县| 衡水市| 沽源县| 桐梓县| 泽州县| 九江市| 利辛县| 涿鹿县| 镇远县| 荔波县| 泰宁县| 怀远县| 沈阳市| 阳山县| 广德县| 贵阳市| 潮安县| 比如县| 渭源县| 西和县| 南涧| 嵊州市| 上思县| 清徐县| 古交市| 新巴尔虎左旗| 隆林| 信丰县| 赤水市| 宁明县| 大关县| 韩城市| 千阳县| 宁德市| 光泽县| 库伦旗| 南皮县| 班戈县| 竹溪县| 瑞安市| 顺平县|