99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

GRPO=高級版拒絕采樣?強(qiáng)化學(xué)習(xí)祛魅時(shí)刻:負(fù)樣本“去蕪存菁”才是關(guān)鍵

0
分享至

現(xiàn)在大家都用強(qiáng)化學(xué)習(xí)(RL)來訓(xùn)練大語言模型(LLM)做比較復(fù)雜的推理任務(wù),比如數(shù)學(xué)題。其中,像 PPO 這樣的算法雖然主流,但它需要額外的網(wǎng)絡(luò)(critic network),搞得比較復(fù)雜和麻煩。

同時(shí),像 GRPO 這樣的算法在實(shí)踐中效果很好(比如訓(xùn)練 DeepSeek-R1),但大家其實(shí)不太清楚它到底為什么有效,是不是真的比更簡單的方法好很多。

另一方面,有一些非常簡單的方法,比如 RAFT(拒絕采樣),就是只用模型答對了的樣本進(jìn)行微調(diào),似乎效果也不錯。這就讓研究者們好奇了:

  1. 這些復(fù)雜的 RL 算法(比如 PPO、GRPO)相比于簡單的 SFT 類方法(比如 RAFT),優(yōu)勢到底在哪里?真的有必要搞那么復(fù)雜嗎?

  2. GRPO 之所以效果好,是因?yàn)樗惴ū旧淼脑O(shè)計(jì)(比如獎勵歸一化),還是因?yàn)樗谑褂脴颖旧系哪承┎呗裕ū热缛绾翁幚泶疱e的樣本)?

  3. 對于 LLM 這種輸出是文字序列、環(huán)境相對確定的場景,是不是可以用更簡潔、更適合的 RL 算法?

所以,這篇文章的出發(fā)點(diǎn)就是,重新審視和比較幾種有代表性的 RL 方法(特別是 GRPO 和極簡的 RAFT、以及基礎(chǔ)的 Reinforce),弄清楚它們成功的關(guān)鍵因素,尤其是負(fù)樣本(模型答錯的例子)到底該怎么用,以及能不能找到一種既簡單又有效的 RL 訓(xùn)練方法。


論文標(biāo)題: A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce 論文地址: https://arxiv.org/abs/2504.11343 GitHub地址: https://github.com/rlhflow/minimal-rl

這篇文章主要有以下幾個(gè)發(fā)現(xiàn)和貢獻(xiàn):

驗(yàn)證了極簡方法的有效性:研究者們發(fā)現(xiàn),RAFT 這個(gè)非常簡單的拒絕采樣方法(只用回答正確的樣本訓(xùn)練),效果竟然和當(dāng)前流行的 GRPO 方法差不多,甚至在訓(xùn)練早期收斂得更快。

這說明,對于這類任務(wù),簡單的“只學(xué)好的”策略本身就是一個(gè)很強(qiáng)的基準(zhǔn)(baseline)。不過,他們也指出,RAFT 因?yàn)橹挥谜龢颖荆笃跁驗(yàn)槟P吞剿餍越档停販p小太快)而被 GRPO 超越。

揭示了 GRPO 的優(yōu)勢來源:通過細(xì)致的對比實(shí)驗(yàn)(消融研究),他們發(fā)現(xiàn) GRPO 相對于標(biāo)準(zhǔn) Reinforce 算法的主要優(yōu)勢,其實(shí)來自于它在處理樣本時(shí),隱式地過濾掉了那些“所有回答都錯了”的題目(prompt)。

也就是說,避免在完全失敗的例子上學(xué)習(xí),是 GRPO 效果提升的關(guān)鍵。相比之下,GRPO 中使用的那種根據(jù)同一題目下不同回答的好壞來做獎勵歸一化的技術(shù),影響并不大。這說明,不是所有負(fù)樣本都有用,有些負(fù)樣本(全錯的)甚至可能拖后腿。

提出了新的簡化版 RL 算法:基于以上發(fā)現(xiàn),他們提出了一個(gè)叫 Reinforce-Rej 的新方法。這個(gè)方法是對基礎(chǔ) Reinforce 算法的一個(gè)小改進(jìn),核心思想是:既不學(xué)習(xí)“所有回答都正確”的題目(可能太簡單了),也不學(xué)習(xí)“所有回答都錯誤”的題目(可能是有害的),只在那些“有好有壞”的題目上進(jìn)行學(xué)習(xí)。

實(shí)驗(yàn)證明,這個(gè) Reinforce-Rej 方法最終性能和 GRPO 差不多,但是 KL 效率(衡量模型更新幅度)更高,訓(xùn)練更穩(wěn)定。

提供了實(shí)踐指導(dǎo):總的來說,這項(xiàng)工作強(qiáng)調(diào)了在用獎勵微調(diào) LLM 時(shí),“如何選擇和使用訓(xùn)練樣本”(尤其是負(fù)樣本)比“用哪個(gè)復(fù)雜的 RL 算法”可能更重要。他們建議大家可以將 RAFT 作為一個(gè)簡單、可靠的 baseline,并且未來的研究應(yīng)該更深入、更原理性地去設(shè)計(jì)如何利用負(fù)樣本,而不是不加區(qū)分地混用。

一、現(xiàn)有方法的詳細(xì)分析

首先我們回顧幾種用于 LLM 后訓(xùn)練(post-training)的代表性算法:

1.1 RAFT(拒絕采樣微調(diào))

RAFT 這個(gè)方法,在文獻(xiàn)里也叫拒絕采樣微調(diào)(Rejection Sampling Fine-tuning)。它的操作步驟很簡單,主要分三步:

1. 收集數(shù)據(jù):拿一批提示 x ,用一個(gè)參考模型(比如當(dāng)前模型自己)給每個(gè)提示生成 n 個(gè)回答。

2. 篩選數(shù)據(jù)(拒絕采樣):用獎勵函數(shù) r(x, a) 給每個(gè)回答打分,只保留那些得分最高的(通常是獎勵為 1 的,也就是正確的回答)。把這些篩選出來的“好”樣本匯總成數(shù)據(jù)集 D 。

3. 模型微調(diào):用這個(gè)只包含好樣本的數(shù)據(jù)集 D 來微調(diào)當(dāng)前的模型 π ,目標(biāo)是最大化模型在這些好樣本上的對數(shù)似然。

1.2 策略梯度(Policy Gradient)與 Reinforce

這是強(qiáng)化學(xué)習(xí)里的經(jīng)典方法。核心思想是優(yōu)化一個(gè)目標(biāo)函數(shù) J(θ) ,這個(gè)函數(shù)代表了模型在所有可能的提示 x 下,生成回答 a 并獲得獎勵 r(x, a) 的期望值:


目標(biāo)是找到讓 J(θ) 最大的模型參數(shù) θ 。通常用梯度上升來更新參數(shù):


目標(biāo)是找到讓 最大的模型參數(shù) θ 。通常用梯度上升來更新參數(shù):


為了讓訓(xùn)練更穩(wěn)定,防止新舊模型差異過大導(dǎo)致重要性采樣權(quán)重 爆炸,研究者們借鑒了 PPO 算法里的裁剪(clipping)技術(shù)。最終,Reinforce 算法的損失函數(shù)(這里是最小化負(fù)的目標(biāo)函數(shù))可以寫成:


由于 LLM 是自回歸的(一個(gè) token 一個(gè) token 地生成),通常會把上面的損失函數(shù)應(yīng)用到 token 層面:


1.3 GRPO

GRPO 的損失函數(shù)形式和上面 Reinforce 的 token-level 損失很像。關(guān)鍵區(qū)別在于,它不用原始的獎勵 r(x, a) ,而是用一個(gè)為每個(gè) token 計(jì)算的優(yōu)勢函數(shù)(Advantage Function) 。

具體計(jì)算方法是:對每個(gè)提示 x ,采樣 n 個(gè)回答 ,得到對應(yīng)的獎勵 。然后計(jì)算這些獎勵的平均值 mean 和標(biāo)準(zhǔn)差 std 。第 i 個(gè)回答中第 t 個(gè) token 的優(yōu)勢值計(jì)算如下:


這里的 在強(qiáng)化學(xué)習(xí)里叫做基線(baseline),它的作用是減小梯度估計(jì)的方差,讓訓(xùn)練更穩(wěn)定。

1.4(Iterative)DPO(直接偏好優(yōu)化)

DPO 是一種不同的方法,它不直接用獎勵分?jǐn)?shù),而是依賴于成對的比較數(shù)據(jù)。數(shù)據(jù)集里是這樣的樣本: (x, a+, a-) ,表示對于提示 x ,回答 a+ 比 a- 更好。

DPO 優(yōu)化的目標(biāo)是一個(gè)對比損失(contrastive loss):


這里, σ 是 sigmoid 函數(shù), β 是一個(gè)超參數(shù)(大于 0), π_ref 通常是初始的模型或者一個(gè)固定的參考模型。

原始的 DPO 是在離線數(shù)據(jù)上訓(xùn)練的。但后續(xù)研究發(fā)現(xiàn),可以迭代進(jìn)行:用訓(xùn)練過程中的模型去生成新的回答,然后根據(jù)某種方式(比如模型自己打分或者人工標(biāo)注)得到新的偏好對 (a+, a-) ,再用這些新的在線數(shù)據(jù)繼續(xù)訓(xùn)練模型。這種迭代的方式可以顯著提升模型性能。

1.5 RAFT++

研究者注意到,RAFT 如果在每次迭代中,用收集到的數(shù)據(jù)(replay buffer)進(jìn)行多步梯度更新,那它其實(shí)也可以看作是一種混合了離策略(off-policy)的算法。

基于這個(gè)想法,他們提出了 RAFT++,就是把 Reinforce 里的重要性采樣和裁剪技術(shù)也應(yīng)用到 RAFT 上。它的損失函數(shù)形式和 Reinforce 類似,但有一個(gè)關(guān)鍵區(qū)別:它只在最好的樣本(獎勵最高的那些,也就是正樣本)上進(jìn)行訓(xùn)練。這通過一個(gè)指示函數(shù) I 來實(shí)現(xiàn):


其中 是一個(gè)指示函數(shù),當(dāng)當(dāng)前回答 a 是所有 n 個(gè)回答里獎勵最高的那個(gè)時(shí), I 等于 1,否則等于 0。這樣就保證了只有正樣本對損失有貢獻(xiàn)。

二、實(shí)驗(yàn)結(jié)果與有趣的發(fā)現(xiàn)

匯總以下是基于提供的實(shí)驗(yàn)部分的解讀,總結(jié)出的主要結(jié)果和有趣發(fā)現(xiàn):


簡單方法表現(xiàn)驚艷:

  • RAFT 及其改進(jìn)版 RAFT++ ,雖然是相對簡單的基于“拒絕采樣”的方法(只用好的樣本),但在數(shù)學(xué)推理任務(wù)上的表現(xiàn)出人意料地好。

  • 它們的效果能跟更復(fù)雜的深度強(qiáng)化學(xué)習(xí)方法(如 PPO , GRPO )打個(gè)平手,超過了 iterative DPO 。

  • 尤其是在 Qwen 模型上, RAFT++ (52.5%)的平均準(zhǔn)確率非常接近當(dāng)時(shí)效果最好的 GRPO (53.9%)。


RAFT++ 的改進(jìn)有效:

  • 在 RAFT 基礎(chǔ)上加入重要性采樣(修正數(shù)據(jù)分布偏差)和裁剪(限制更新幅度)技術(shù)后形成的 RAFT++ ,確實(shí)比原版 RAFT 收斂更快,最終準(zhǔn)確率也更高。

  • 實(shí)驗(yàn)證明,裁剪步驟非常關(guān)鍵。如果只用重要性采樣而不進(jìn)行裁剪,效果反而會變差,說明無限制的更新可能會破壞訓(xùn)練穩(wěn)定性。


學(xué)習(xí)動態(tài)對比:先快后慢 vs 持續(xù)提升

  • RAFT++ 在訓(xùn)練早期學(xué)得比 GRPO 更快。

  • 但是, RAFT++ 的性能提升在訓(xùn)練中后期會明顯放緩,最終被 GRPO 反超。


負(fù)樣本是把“雙刃劍”?

  • RAFT++ (只用正樣本)性能提升放緩與其策略熵(模型探索性/答案多樣性)的快速下降有關(guān)。熵太低,模型就不太會探索新的推理路徑了。

  • GRPO 因?yàn)橐部紤]了負(fù)樣本,策略熵下降較慢,保持了更長時(shí)間的探索能力,所以后期還能繼續(xù)提升。這表明,負(fù)樣本可能有助于維持探索。

  • 然而,簡單的 Reinforce 算法(也用負(fù)樣本)在 LLaMA 模型上效果反而不如只用正樣本的 RAFT++ 。這暗示,如何定義和使用負(fù)樣本很重要,僅僅基于最終答案對錯可能過于粗糙,不一定總能帶來好處。


在 GRPO 和強(qiáng)化學(xué)習(xí)類型算法的各個(gè)組件上進(jìn)行的消融研究。將 GRPO 與其他基于強(qiáng)化學(xué)習(xí)的變種進(jìn)行比較,以隔離去除錯誤樣本、正確樣本和應(yīng)用標(biāo)準(zhǔn)化的影響。去除錯誤樣本(“移除所有錯誤”)提供了最大的獎勵增益,突出了它們的有害影響。相比之下,去除正確樣本沒有增益。均值歸零標(biāo)準(zhǔn)化增加了 KL 損失并不穩(wěn)定訓(xùn)練。按標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化幾乎沒有額外的好處。“Reinforce + Remove both” 變種在獎勵、KL 穩(wěn)定性和熵正則化之間達(dá)到了很好的平衡。

GRPO 強(qiáng)大的核心在于“樣本剔除”:

  • 通過詳細(xì)的消融實(shí)驗(yàn)對比 Reinforce 的各種變體,發(fā)現(xiàn) GRPO 性能優(yōu)越的關(guān)鍵在于剔除了那些所有生成答案都錯誤的樣本(“Remove all wrong”)。這些全是錯誤的樣本對訓(xùn)練的干擾最大。

  • 相比之下,獎勵歸一化(如減去均值或除以標(biāo)準(zhǔn)差)對性能提升作用不大,甚至簡單的均值歸一化還會導(dǎo)致訓(xùn)練不穩(wěn)定。

  • 剔除所有答案都正確的樣本(“Remove all correct”)幫助也不大。

  • 同時(shí)剔除“全對”和“全錯”樣本的策略(稱為 Reinforce-Rej )在性能、穩(wěn)定性和保持探索性之間取得了不錯的平衡。

三、一些思考

提出新的簡化基準(zhǔn):

  • 基于以上發(fā)現(xiàn),研究者認(rèn)為 RAFT++ 和 Reinforce-Rej (剔除全對和全錯樣本的 Reinforce)是有效且更簡單的基準(zhǔn)算法,值得未來研究參考。

對負(fù)樣本作用的新思考:

  • 研究結(jié)果表明,在基于強(qiáng)化學(xué)習(xí)的大模型訓(xùn)練中,負(fù)樣本的作用比想象中更微妙。直接使用所有負(fù)樣本不一定最好,未來可能需要更精細(xì)化的方法來篩選和利用不同質(zhì)量的樣本。

來源: 公眾號【PaperWeekly】

llustration From IconScout By IconScout Store

-The End-

掃碼觀看!

本周上新!

“AI技術(shù)流”原創(chuàng)投稿計(jì)劃

TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(www.techbeat.net)。社區(qū)上線600+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術(shù)人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質(zhì)量、知識型交流平臺,希望為AI人才打造更專業(yè)的服務(wù)和體驗(yàn),加速并陪伴其成長。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識分享 //

// 前沿資訊解說/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。

我們會選擇部分在深度技術(shù)解析及科研心得方向,對用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎勵

投稿方式

發(fā)送郵件到

melodybai@thejiangmen.com

或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關(guān)注“將門創(chuàng)投”公眾號,后臺回復(fù)“投稿”二字,獲得投稿說明。

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域新型創(chuàng)投機(jī)構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級。

將門成立于2015年底,創(chuàng)始團(tuán)隊(duì)由微軟創(chuàng)投在中國的創(chuàng)始團(tuán)隊(duì)原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價(jià)值的投后服務(wù),歡迎發(fā)送或者推薦項(xiàng)目給我“門”:

bp@thejiangmen.com


點(diǎn)擊右上角,把文章分享到朋友圈

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
外資藥企大批退出中國,真的是咱們贏了嗎?大謬!

外資藥企大批退出中國,真的是咱們贏了嗎?大謬!

未央看點(diǎn)
2025-06-24 01:32:07
太實(shí)誠了!38歲劉亦菲不化妝無美顏純素顏出鏡,氣血充足,真美啊

太實(shí)誠了!38歲劉亦菲不化妝無美顏純素顏出鏡,氣血充足,真美啊

清游說娛
2025-06-24 17:47:37
北京天氣“反轉(zhuǎn)”了!未來這幾天有雨——

北京天氣“反轉(zhuǎn)”了!未來這幾天有雨——

BRTV新聞
2025-06-25 14:33:53
以伊十二日戰(zhàn)爭結(jié)束, 伊朗成最大贏家!!!

以伊十二日戰(zhàn)爭結(jié)束, 伊朗成最大贏家!!!

山河路口
2025-06-25 12:47:16
社保繳納出事了!稅局終于對社保出手了,這7種行為查到必罰!

社保繳納出事了!稅局終于對社保出手了,這7種行為查到必罰!

稅海拾真
2025-06-25 09:42:30
東北龍鳳胎兄妹高考,妹妹710,哥哥680,媽媽教育方式值得學(xué)習(xí)

東北龍鳳胎兄妹高考,妹妹710,哥哥680,媽媽教育方式值得學(xué)習(xí)

星光看娛樂
2025-06-25 13:20:52
女喂養(yǎng)員海洋館失蹤,不久鯊魚因病手術(shù),獸醫(yī)開刀后發(fā)現(xiàn)異常

女喂養(yǎng)員海洋館失蹤,不久鯊魚因病手術(shù),獸醫(yī)開刀后發(fā)現(xiàn)異常

懸案解密檔案
2025-06-21 09:33:54
首發(fā)10+15,李月汝征服美媒!全英語流利采訪,打臉歧視她的教練

首發(fā)10+15,李月汝征服美媒!全英語流利采訪,打臉歧視她的教練

嘴炮體壇
2025-06-25 10:54:31
2-0!2-1!溫網(wǎng)第2天,中國金花2人同時(shí)晉級,36歲老將接近創(chuàng)歷史

2-0!2-1!溫網(wǎng)第2天,中國金花2人同時(shí)晉級,36歲老將接近創(chuàng)歷史

侃球熊弟
2025-06-24 22:38:56
世界首富馬斯克語出驚人!他直言:“外界一直低估中國!”

世界首富馬斯克語出驚人!他直言:“外界一直低估中國!”

荊楚寰宇文樞
2025-06-24 23:52:04
李夢宣布不再參加比賽,女籃主帥宮魯鳴回應(yīng)歡迎其回歸!

李夢宣布不再參加比賽,女籃主帥宮魯鳴回應(yīng)歡迎其回歸!

杜蘭特
2025-06-25 10:36:04
總理府已被圍,佩通坦拒絕辭職,軍方態(tài)度堅(jiān)決,陸軍司令作出決定

總理府已被圍,佩通坦拒絕辭職,軍方態(tài)度堅(jiān)決,陸軍司令作出決定

博覽歷史
2025-06-23 17:12:51
國務(wù)院辦公廳關(guān)于進(jìn)一步規(guī)范和提升12345熱線服務(wù)的意見

國務(wù)院辦公廳關(guān)于進(jìn)一步規(guī)范和提升12345熱線服務(wù)的意見

新京報(bào)
2025-06-25 17:18:45
比亞迪經(jīng)銷商會議重大決定:精簡SKU、庫存熔斷、返利666元/輛

比亞迪經(jīng)銷商會議重大決定:精簡SKU、庫存熔斷、返利666元/輛

車市紅點(diǎn)
2025-06-24 15:41:51
65歲老頭包養(yǎng)26歲女孩以干爹干女兒互稱,最后一次上床被女孩掐死

65歲老頭包養(yǎng)26歲女孩以干爹干女兒互稱,最后一次上床被女孩掐死

胖胖侃咖
2025-06-23 08:00:07
俄空軍司令科貝拉乘直升機(jī)視察前線被烏軍擊落,當(dāng)場喪生

俄空軍司令科貝拉乘直升機(jī)視察前線被烏軍擊落,當(dāng)場喪生

環(huán)球熱點(diǎn)快評
2025-06-24 09:03:00
斯諾克冷門不斷!2大世界冠軍翻車,囧哥轟5-0,中國13人進(jìn)正賽!

斯諾克冷門不斷!2大世界冠軍翻車,囧哥轟5-0,中國13人進(jìn)正賽!

劉姚堯的文字城堡
2025-06-25 08:50:58
國家出手!大批醫(yī)院將退出醫(yī)保

國家出手!大批醫(yī)院將退出醫(yī)保

賽柏藍(lán)
2025-06-25 20:29:49
全國城管機(jī)構(gòu)大撤銷!百萬城管咋辦?六個(gè)方案能解決重就業(yè)問題?

全國城管機(jī)構(gòu)大撤銷!百萬城管咋辦?六個(gè)方案能解決重就業(yè)問題?

說宇宙
2025-06-22 11:20:03
失傳已久的手診口訣找到了,趕緊收藏

失傳已久的手診口訣找到了,趕緊收藏

鄉(xiāng)村白大褂之家
2025-06-24 20:52:56
2025-06-25 21:23:00
將門創(chuàng)投 incentive-icons
將門創(chuàng)投
加速及投資技術(shù)驅(qū)動型初創(chuàng)企業(yè)
2156文章數(shù) 591關(guān)注度
往期回顧 全部

科技要聞

小米YU7已下線500輛展車 26日前運(yùn)往全國

頭條要聞

與汪峰節(jié)目牽手引猜測 寧靜談?chuàng)衽紭?biāo)準(zhǔn):他不是我的菜

頭條要聞

與汪峰節(jié)目牽手引猜測 寧靜談?chuàng)衽紭?biāo)準(zhǔn):他不是我的菜

體育要聞

山西太原大媽,在NBA闖出一片天

娛樂要聞

向佐接機(jī)郭碧婷,全程無交流像陌生人

財(cái)經(jīng)要聞

免除蘇寧易購5億債務(wù)的神秘人是誰?

汽車要聞

售14.99萬/限量200臺 別克昂科威S新增丹霞紅內(nèi)飾

態(tài)度原創(chuàng)

教育
健康
親子
手機(jī)
公開課

教育要聞

暑假趕緊讓孩子讀這些范文

呼吸科專家破解呼吸道九大謠言!

親子要聞

終于見面啦!!!!原創(chuàng)dy:@辣炒年糕

手機(jī)要聞

首銷價(jià) 299 元,vivo X Fold5 折疊屏手機(jī)行業(yè)首發(fā)單內(nèi)屏寶

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 三门峡市| 高淳县| 东安县| 华坪县| 信阳市| 裕民县| 宽城| 根河市| 红桥区| 四子王旗| 大冶市| 桦川县| 泸水县| 明溪县| 莱阳市| 洛阳市| 琼结县| 当雄县| 岑巩县| 施秉县| 得荣县| 三河市| 琼中| 绥宁县| 长沙市| 高陵县| 越西县| 商河县| 安庆市| 瑞安市| 静乐县| 江华| 沾益县| 美姑县| 寿阳县| 定西市| 柳州市| 阳信县| 故城县| 奉节县| 长乐市|