99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

7B模型“情商”比肩GPT-4o,騰訊突破開放域RL難題,得分直翻5倍

0
分享至

騰訊混元AI數字人團隊 投稿
量子位 | 公眾號 QbitAI

在沒有標準答案的開放式對話中,RL該怎么做?

多輪對話是大模型最典型的開放任務:高頻、多輪、強情境依賴,且“好回復”因人而異。

然而,當用RL去優化大模型在真實交互中的“情商”時,RLVR一度陷入“三大困境”:

  • 環境困境
  • 真實對話是多輪、動態且高度個性化的。如何構建一個既真實、多樣,又可供模型自由探索(rollout)的交互環境?
  • 獎勵困境
  • “高情商”沒有標準答案。如何將用戶主觀滿意度轉化為穩定、可優化的長期獎勵?
  • 訓練困境
  • 如何在LLM上實現穩定、高效的多輪在線RL訓練?

騰訊混元數字人團隊提出的RLVER(Reinforcement Learning with Verifiable Emotion Rewawards)框架指出了一個方向:

讓一個穩定、高質量的用戶模擬器,同時扮演“交互環境”和“獎勵來源”的雙重角色,成功將RLVR引入多輪對話,為大模型在開放域RL上訓練提供了有效、可擴展的新解法

經過RLVER訓練的Qwen2.5-7B模型,在情感對話基準Sentient-Benchmark上的得分從13.3躍升至79.2,表現與GPT-4o、Gemini 2.5 Pro等頂級商用模型相當。



模型現已開源,鏈接可見文末。

RLVER:為“情商”這一開放問題,構建有效的RL閉環

傳統對話優化,要么依賴靜態數據,要么依賴昂貴的人工標注。

而RLVER提出了一種新路徑:以“環境+獎勵”一體化的用戶模擬器為核心,巧妙地解決了上述三大挑戰。



模擬器即環境:創造一個“活”的對話世界

RLVER團隊認識到,真正的“高情商”是千人千面的,因此,RLVER構建的用戶模擬器不只是一個簡單的對話機器人。

它擁有多樣的用戶畫像和用戶交互場景(不同的用戶性格、對話背景、潛在需求),能模擬出海量真實、多變的用戶。

每個用戶獨立、動態地和模型交互,根據模型的回復實時更新自身的情緒狀態,并給出個性化的回復。

這為模型提供了一個可以無限探索、充滿真實感和多樣性的在線學習環境,同時避免reward hacking。

模擬器即獎勵:一個可信的“用戶感受評分系統”

“情商”的評價,本質是用戶主觀體驗,但這種主觀體驗要如何變成穩定、可優化的獎勵?

RLVER基于SAGE框架,通過顯式、可復現的推理過程,模擬用戶在每一輪對話后的情緒變化

對話結束后,累積的“心情總分”便成為獎勵信號,直接驅動PPO/GRPO算法優化模型。

這一設計擺脫了“黑盒打分器”,將“用戶滿意度”顯式建模成邏輯可控的獎勵函數,使訓練過程更加穩定、透明、可信。

全局獎勵優化:從單輪反饋到“全局情緒軌跡”優化

不同于逐句反饋的方式,RLVER關注整個對話的情緒變化趨勢,僅以最終“情緒總分”作為獎勵,引導模型優化長周期策略。

只有真正理解用戶意圖、維持用戶情緒長期走高,模型才能獲得更高的總獎勵。這鼓勵模型跳出局部最優,學會更具延展性和策略性的社交對話行為。

核心成果:7B模型比肩“巨頭旗艦”



經過RLVER訓練的Qwen2.5-7B模型,在情感對話基準Sentient-Benchmark上的得分從13.3躍升至79.2,表現與GPT-4o、Gemini 2.5 Pro等頂級商用模型相當。

更重要的是,模型在數學、代碼等通用能力上幾乎沒有衰退,成功避免了“災難性遺忘”。



此外,RLVER對模型行為風格的影響也非常顯著:模型從“解題型風格”遷移到“情緒型風格”,思路不再是“問題怎么解決”,而是“我能理解你的感受”。

深度洞察:從思考到行動

在RLVER的訓練實踐過程中,研究團隊還得到了一些充滿啟發性的發現。

洞察一:“思考式”v.s.“反應式”模型——通往“共情”的兩種路徑



RLVER引入了顯式的think-then-say提示模板,要求模型在每輪回復前先進行情緒分析、策略推理,再生成最終回應。通過對比帶/不帶“思考”的模型,研究團隊觀察到兩條通向“共情”的截然不同路徑:

“思考式模型”:走向“深度理解”

顯式思考鏈促使模型在生成前進行推理,顯著提升兩項核心能力:

  • 問題洞察力:識別用戶情緒背后的真實動因與潛在需求;
  • 共情表達與驗證:精準捕捉并反饋深層情緒,讓用戶“感到被理解”。

這類模型更像是“靈魂知己”:擅長安靜傾聽、準確回應,用語言建立深層情感連接。

“反應式模型”:走向“快速行動”

相比之下,未引導思考的模型直接生成回應,盡管在洞察和共情維度上略遜一籌,卻自發發展出“行動導向”的補償策略:

  • 快速判斷用戶困境,提供具體、可執行的建議,或個性化行動邀請;
  • 以“實用性”彌補情感理解上的不足,形成“行動派伙伴”的角色定位。

這一對比揭示了在開放復雜任務下RL訓練的有趣現象:模型在能力受限時,會自發尋找策略性的“補償路徑”,而RLVER提供的多樣化、多策略兼容的訓練環境,正是促成這種多樣行為演化的關鍵土壤。

洞察二:PPO vs. GRPO——穩定增長還是能力突破?



在優化算法上,RLVER團隊也得出了實用結論:

  • GRPO:傾向于帶來更穩定、均衡的能力增長。
  • PPO:則更能將模型在特定維度(如共情深度、核心洞察)的能力推向更高上限。

這引出一個有趣的策略思考:對于“情商”這類多維度的復雜能力,當模型各方面都達到“合格線”后,是繼續做“六邊形戰士”,還是集中打造一兩個“殺手锏”維度的長板?

在文章的實驗結果中,后者帶來了更優的綜合表現。

洞察三:環境和獎勵的風格影響——嚴師未必出高徒

在RLVER框架中,用戶模擬器同時扮演“訓練環境”與“獎勵模型”的雙重角色。因此,它的風格——即“用戶接受度”與反饋方式——對模型學習路徑具有直接影響。

一個自然的追問是:要求更嚴格的用戶,會訓練出更強的模型嗎?

實驗給出的答案是:并非越難越好。

RLVER團隊構建了兩類用戶模擬器:

  • Vanilla版:情緒外露、反饋積極,接受度較高;
  • Challenging版:情緒內斂、反饋克制,對回應質量要求極高。

在相同初始模型下分別進行訓練與測試后,RLVER團隊發現:



太難的環境,不利于模型早期成長

雖然Challenging模擬器在設計上更真實,但它反饋含蓄、容錯率低,使得模型在訓練早期難以試錯探索多樣策略,也難以獲得正向激勵。這會導致RL訓練陷入“無反饋→無學習→崩潰”的惡性循環。

相反,Vanilla模擬器的反饋機制相對包容和積極,更利于模型在訓練初期的策略探索與能力積累,形成穩定的共情表達習慣。

策略啟示:在強化學習優化開放任務(如“情商”)時,訓練環境不應一味“設難”,而應強調“成長曲線”設計。“嚴師出高徒”的前提,是學生已經能聽懂教誨。

而在能力尚淺的早期,溫和、可學的“陪練型用戶”反而更能助力模型成長為真正的共情者



帶思考的模型,更“抗打擊”

一個附加的有趣發現是:在Challenging環境下,帶有顯式“思考結構”的模型顯著更魯棒:

  • 雖然整體分數有所下降,但仍保持在可用水平;
  • 而不帶思考結構的模型則幾乎完全崩潰,得分低至19.8。

這表明,顯式推理能力能夠緩沖稀疏獎勵帶來的訓練不穩定性。即使缺乏清晰反饋,模型也可以借助“內在分析”挖掘用戶需求信號,從而保持一定的適應性。

前期工作:AI也能當情感大師?騰訊發布最新AI社交智能榜單,最新版GPT-4o拿下第一
論文地址:https://arxiv.org/abs/2507.03112
項目代碼:https://github.com/Tencent/digitalhuman/tree/main/RLVER
開源模型:https://huggingface.co/RLVER

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
史上最嚴禁狗令,將杭州推上了風口浪尖

史上最嚴禁狗令,將杭州推上了風口浪尖

趣味萌寵的日常
2025-07-20 16:52:38
如果被調劑到這11個專業,進學校后一定想盡辦法在大二時轉專業!

如果被調劑到這11個專業,進學校后一定想盡辦法在大二時轉專業!

狐貍先森講升學規劃
2025-07-19 18:50:03
央視曝光“萬能遙控器”屬違法產品,小紅書商城仍在售賣,近百篇筆記介紹如何使用

央視曝光“萬能遙控器”屬違法產品,小紅書商城仍在售賣,近百篇筆記介紹如何使用

號外工作室
2025-07-20 13:15:13
打醒中國軍隊的不是海灣戰爭,而是這場11分半的技術屠殺!

打醒中國軍隊的不是海灣戰爭,而是這場11分半的技術屠殺!

星辰夜語
2025-07-14 13:04:10
從“機場C位”到奧萊折扣,“箱包界愛馬仕”割不動中產了?

從“機場C位”到奧萊折扣,“箱包界愛馬仕”割不動中產了?

財經八卦
2025-06-30 22:28:01
洪森“勾結”泰國軍方,不把他信父女徹底扳倒,他這次誓不罷休?

洪森“勾結”泰國軍方,不把他信父女徹底扳倒,他這次誓不罷休?

議紀史
2025-07-19 20:05:03
41歲朱珠素顏封神!曬全家福女兒出鏡萌翻全網

41歲朱珠素顏封神!曬全家福女兒出鏡萌翻全網

隔壁靈妹妹
2025-07-20 19:16:51
不會演別尬演!央視《掃毒風暴》張世一出手,把影帝秦昊都演懵了

不會演別尬演!央視《掃毒風暴》張世一出手,把影帝秦昊都演懵了

小丸子的娛樂圈
2025-07-18 07:16:01
布鞋首富,好像也有文工團!

布鞋首富,好像也有文工團!

挖掘機007
2025-07-18 20:24:26
方媛曬版納孕婦照,鼻子變大人中變長越來越“猴相”,但依然很美

方媛曬版納孕婦照,鼻子變大人中變長越來越“猴相”,但依然很美

小咪侃娛圈
2025-07-20 14:43:03
勝之不武,哈工大“超短裙”招生在多省橫掃南大,網友贊北航厚道

勝之不武,哈工大“超短裙”招生在多省橫掃南大,網友贊北航厚道

東東趣談
2025-07-20 12:30:22
太殘暴了2034杯比賽,中國足球小將39分鐘9-0領先昆明譽騰

太殘暴了2034杯比賽,中國足球小將39分鐘9-0領先昆明譽騰

直播吧
2025-07-19 22:04:14
衛生間男女標識亂象叢生,抽象粗俗、不良暗示,人民日報下場怒批

衛生間男女標識亂象叢生,抽象粗俗、不良暗示,人民日報下場怒批

大魚簡科
2025-07-20 11:37:40
奧運體操冠軍楊威:如今終身需呼吸機維持生命,他到底經歷了什么

奧運體操冠軍楊威:如今終身需呼吸機維持生命,他到底經歷了什么

優趣紀史記
2025-07-19 14:43:19
東風導彈泄密案:間諜郭萬鈞一家三口,全部被處以死刑

東風導彈泄密案:間諜郭萬鈞一家三口,全部被處以死刑

冰點歷史
2025-07-15 09:33:13
1945年女“臥底”被執行槍決,處刑前遞出黃紙,法官看完:快住手!

1945年女“臥底”被執行槍決,處刑前遞出黃紙,法官看完:快住手!

紀實文錄
2025-07-16 11:37:54
國家出手6位首富被抓!有些已入外籍,原因曝光,早該迎來這一天

國家出手6位首富被抓!有些已入外籍,原因曝光,早該迎來這一天

阿傖說事
2025-07-19 07:50:26
利物浦成冤大頭?歐頭號黑店賣5前鋒怒賺3.4億歐 前4個均為大水貨

利物浦成冤大頭?歐頭號黑店賣5前鋒怒賺3.4億歐 前4個均為大水貨

風過鄉
2025-07-20 19:29:22
郭德綱全家現身上海,王惠看著200斤了,郭汾陽右臉抽搐表情很怪

郭德綱全家現身上海,王惠看著200斤了,郭汾陽右臉抽搐表情很怪

小嵩
2025-07-20 08:14:30
宮魯鳴:我們的傳球、投籃、戰術素養等都需要提高,需要內外融合

宮魯鳴:我們的傳球、投籃、戰術素養等都需要提高,需要內外融合

雷速體育
2025-07-20 20:23:07
2025-07-20 21:24:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10893文章數 176192關注度
往期回顧 全部

科技要聞

Manus"跑路新加坡"后,創始人首次復盤

頭條要聞

深圳自建房業主私裝電梯二手承重木斷裂 3名工人墜亡

頭條要聞

深圳自建房業主私裝電梯二手承重木斷裂 3名工人墜亡

體育要聞

中國女籃輸日本,天賦完敗給努力和戰術

娛樂要聞

肖戰改名官宣!徹底不裝了,要自由

財經要聞

夾縫中的芯片之王:黃仁勛能守住4萬億嗎?

汽車要聞

輔助駕駛五維測評 蔚來世界模型:大智小糙

態度原創

藝術
教育
時尚
旅游
手機

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

差班,你用這樣的心態去帶,結果往往會更好!

夏天穿衣別死氣沉沉!來點彩色、多穿牛仔褲,減齡又不老套

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

手機要聞

明日發布,OPPO K13 Turbo 系列手機搭載疾風散熱引擎

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 慈溪市| 濮阳市| 岑巩县| 中山市| 二手房| 泰兴市| 铜鼓县| 龙泉市| 安塞县| 鄂尔多斯市| 涿鹿县| 建湖县| 广饶县| 三亚市| 揭东县| 赤壁市| 玉林市| 鹤庆县| 景谷| 泰宁县| 浮梁县| 尤溪县| 光泽县| 监利县| 湖口县| 台江县| 广南县| 伊通| 德庆县| 桐庐县| 乌海市| 内黄县| 金坛市| 南宫市| 平塘县| 呼伦贝尔市| 镇宁| 西和县| 双城市| 禹城市| 天门市|