99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

<cite id="sa8uz"></cite>

<s id="sa8uz"><li id="sa8uz"></li></s>

<sub id="sa8uz"></sub>

<sub id="sa8uz"><p id="sa8uz"></p></sub>

<style id="sa8uz"></style>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

知識儲備≠模型能力！DeepMind強化學習微調：大幅縮小「知行差距」

2025-06-21 17:34:06　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：LRS

【新智元導讀】大語言模型（LLMs）在決策場景中常因貪婪性、頻率偏差和知行差距表現欠佳。研究者提出強化學習微調（RLFT），通過自我生成的推理鏈（CoT）優化模型，提升決策能力。實驗表明，RLFT可增加模型探索性，縮小知行差距，但探索策略仍有改進空間。

大語言模型的知識儲備要遠遠超越任何一個人類，在各種領域、應用場景下都展現出了驚人的「世界知識」。

最近興起的智能體，就是要求模型利用自身知識，在沒有大量與環境互動的情況下生成更優的行動預測，比如思維鏈（CoT）就能讓模型能夠對觀察到的歷史和自己的行動進行推理，提升與環境互動的表現。

不過，在決策（decision-making）場景中，「知識儲備」和「推理優勢」并沒有提升大模型的能力，反而可能導致探索力不足，使得決策結果不夠理想。

有研究結果顯示，即便在「狀態空間有限」的應用中，比如網格世界或是Atari游戲，大模型的決策能力也有待提升。

這種缺陷可能來自大模型的「知行差距」（knowing-doing gap），即模型可能知道任務的相關知識，或者能夠描述自己行動的后果（知道該做什么），但在行動時卻無法將這些知識付諸實踐（無法做到）。

最近，Google DeepMind和約翰·開普勒林茨大學（JKU Linz）的研究人員系統地研究了中小規模LLMs中常見的三種失敗模式：貪婪性、頻率偏差和知行差距。

分析結果表明，大模型的最終表現不夠理想的原因，主要是因為LLMs過早地選擇了貪婪的行動策略，導致行動覆蓋停滯不前，高達55%的行動空間都沒有被探索到。

論文鏈接：https://arxiv.org/pdf/2504.16078

小規模的LLMs（20億參數）在不同獎勵機制下，都表現出模仿上下文中最頻繁的行動，以以犧牲探索空間為代價，表現出貪婪搜索性。

研究人員對知行差距進行了量化，發現LLMs通常知道如何解決任務（87%的正確推理），但在行動時卻無法利用這些知識，主要因為優先選擇貪婪的行動，在推理正確的情況下，64%的行動是貪婪的。

為了克服這些缺陷，研究人員提出了基于自我生成的推理過程（CoT）的強化學習微調（RLFT），在多臂老虎機（MAB）、上下文老虎機（CB）和文字版井字棋任務中，使用三種規模（20億、90億和270億參數）的Gemma2模型進行效果研究。

結果發現，RLFT通過增加探索性并縮小「知行差距」來增強LMs的決策能力，盡管RLFT對LLM智能體的探索性產生了積極影響，但其探索策略仍然不夠理想。

因此，研究人員對強化學習中常用的「經典」探索機制（如?-貪婪算法）以及LLM中特有的方法（如自我修正和自我一致性）進行了實證評估，以實現更有效的決策場景微調。

強化學習微調（RLFT）

強化學習和RLHF

簡單來說，強化學習就是教模型在不同的場景（狀態空間S）下，決策出做不同的動作（行動空間A），每次做完動作，都會根據表現獲得獎勵（獎勵函數R）以學習。

學習過程是一個馬爾可夫決策過程，用一個四元組（S，A，P，R）來表示，其中P表示狀態轉移，在做完動作后，以不同概率進入新的狀態。

強化學習的目標就是讓模型找到一個最好的策略（πθ），以在不同場景下選擇獎勵最多的行動。

基于人類反饋的強化學習（RLHF）就是引導模型學習人類偏好的動作，偏好數據由人類標注獲得，記錄在獎勵模型（rφ）中。

RLHF學習過程中，會用一個參考策略（π_ref）作為參考，模型在之參考策略進行調整，還會用一個權重項（β）來平衡學習的速度和方向，以及一個基線（b）來減少學習過程中的波動，讓學習更加穩定。

RLFT

強化學習微調（RLFT）方法主要是通過與環境互動獲得的獎勵來對模型生成的推理鏈（CoT）進行優化。

在這個過程中，模型會逐步改進自己的推理方式，更傾向于選擇那些能帶來更高獎勵的推理模式和行動。

上下文表征

在步驟t時，輸入到模型的token包括輸入指令、輸出指令以及最近的互動歷史，其中歷史表征包含了C個最近的狀態、行動和獎勵的軌跡。

研究人員選擇使用針對具體任務的指令，以便為智能體提供觀察到的信息、可能的行動及其目標的信息。

行動token的分解

在每次互動步驟t時，模型會生成包含CoT推理token和要在環境中執行的行動token，研究人員使用一個基于正則表達式的提取函數，從推理token中提取出行動。

如果未找到有效行動，則執行隨機行動。

為有效行動進行獎勵塑形

除了環境獎勵外，研究人員還使用了一個獎勵塑形項（reward shaping），促使模型遵循輸出模板。

即，如果提取函數無法提取出有效行動，使用-5的獎勵值進行懲罰，同時為了確保獎勵懲罰不會過度影響優化，需要對環境獎勵進行歸一化處理。

微調目標

研究人員使用了clipping目標進行微調，并增加了一個針對參考策略的KL約束。

為了在具有固定episode長度的環境中進行內存高效的微調，使用蒙特卡洛基線來估計狀態A_adv

對于具有可變episode長度的環境，研究人員在LLM表示的最后一層學習了一個單獨的狀態價值頭，并使用了泛化優勢估計（generalized advantage estimation）。

實驗結果

多臂老虎機和上下文強盜（Context Bandit）

多臂老虎機（MAB）是一個經典的強化學習問題，模型需要在「探索新選項」和「利用已知好選項」之間做出平衡。

研究人員重點關注了連續型和按鈕型這兩種變體，測試了5、10或20個拉桿的老虎機，每個拉桿的回報值呈高斯分布或伯努利分布，交互步數限制在50步以內。

還設置了三種不同的隨機性水平（低/中/高），這決定了高斯老虎機或伯努利老虎機的標準差或回報值差距。

對比的基線模型為上置信界限（UCB，性能的上限）和隨機智能體（性能下限）。

基于文本的井字棋環境具有合理的狀態轉換，并且前沿模型在這個環境中很難取得良好表現，甚至只能勉強戰勝隨機對手。

貪婪性

這是最普遍的失敗模式，其特點是LLM過度偏愛在已見過的少數行動中表現最好的行動。

為了說明這種失敗模式，研究人員測量了Gemma2 2B、9B和27B模型在有無因果推理（CoT）的情況下，在64個擁有10個或20個拉桿的MAB中，經過50步交互后平均覆蓋的行動數量。

對于10個拉桿的情況，平均在64個并行環境中，Gemma2 2B覆蓋了40%的所有行動，而9B和27B覆蓋了65%（即6.5個行動），意味著仍有相當一部分行動空間未被探索。

沒有CoT時，模型在10個拉桿的設置中僅探索了25%的行動，次優的覆蓋是由于模型過度偏愛高回報行動，模型過早地承諾了一種貪婪策略，導致在超過10步后行動覆蓋停滯不前。

增加拉桿數量會使貪婪性更加明顯，最大的模型也只覆蓋了45%的所有行動。

頻率偏差

其特點是即使某個行動的回報很低，模型也會反復選擇在上下文中出現頻率最高的行動。

為了了解模型的行動如何受到行動頻率的影響，研究人員使用隨機策略構建前綴歷史記錄，改變上下文歷史中最后一個行動的重復次數（0到100次），并記錄所有行動的熵。

為了量化頻率偏差，研究人員根據行動的出現次數，將行動分類為頻繁行動、貪婪行動和其他行動，以10%的概率為最優。

可以看到，Gemma2 2B嚴重受到重復行動的影響，隨著重復次數的增加，熵逐漸降低，而27B則擺脫了頻率偏差（14%），并且隨著重復次數的增加，對自己的行動預測變得不那么確定。

2B和27B在0-10次、45-55次和90-100次重復情況下的分段比例中可以看到，2B隨著重復次數的增加而持續增加，而27B雖然擺脫了頻率偏差，但卻嚴重受到貪婪性的影響。

結果表明頻率偏差是監督預訓練的產物，并促使人們使用強化學習作為一種對策。

知行差距

研究人員讓Gemma2 27B與環境（64個實例）進行50個時間步的交互，每步的計算量為2048個token，并從推理過程中提取UCB數值。

為了量化「知道」，研究人員將模型計算的UCB值與真實的UCB值進行比較，并認為如果模型選擇的拉桿與具有最高UCB值的拉桿一致，則認為其推理過程是正確的。

為了量化「做」，研究人員將生成的行動分類為：如果模型選擇了具有最高UCB值的行動，則為最優行動；如果選擇了到目前為止嘗試過的具有最高UCB值的行動，則為貪婪行動；如果行動既不是最優也不是貪婪，則歸為其他類別。

隨后，研究人員計算了貪婪/最優/其他行動的百分比。

智能體顯然知道如何解決任務，因為87%的推理過程都是正確的，然而，即使對于正確計算的推理過程，模型也經常選擇貪婪行動（58%）而不是最優行動（21%）。

這種差異突出了大型語言模型在「知道」算法的情況下，仍然在「行動」上存在不足。

參考資料：

https://arxiv.org/abs/2504.16078

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

突破多模態獎勵瓶頸！R1-Reward用強化學習賦予模型長期推理能力

量子位 2025-05-08 17:47:02
0 跟貼 0
天工不止造物,也能修bug:Skywork-SWE給代碼智能體補上軟件工程課

機器之心Pro 2025-06-20 10:50:40
0 跟貼 0

OpenAI底層AGI技術被曝光！前研究主管豪言：從此再無新范式

新智元 2025-06-21 17:34:26
2 跟貼 2

大模型亂試錯、盲調用？KnowSelf讓智能體有「知識邊界感知」能力

機器之心Pro 2025-05-21 16:32:57
0 跟貼 0
蘋果被硅谷AI圈圍毆了！

智東西 2025-06-21 17:06:28
2 跟貼 2

室內移動抓取多模態智能體亮相，真實環境零樣本動作準確率達 90%

機器之心Pro 2025-06-21 10:55:56
1 跟貼 1

從1500個項目里，看見中國AI的未來

36氪 2025-06-20 10:32:52
0 跟貼 0
Claude要挾人類只為活命！16大模型實測：受到威脅，敲詐勒索絕不猶豫

新智元 2025-06-21 16:41:04
0 跟貼 0

地球副本上線！人類機器人蜂擁進入「世界模擬器」，復刻全球3D真實空間

新智元 2025-06-21 13:05:58
1 跟貼 1
AI連續劇！從「錯覺」到「錯覺的錯覺」再到「錯覺的錯覺的錯覺」

量子位 2025-06-20 17:05:12
1 跟貼 1
Qwen真是怪胎，獎勵錯了，模型反而更強，強化學習得推翻重來？

機器之心Pro 2025-06-04 21:44:30
0 跟貼 0
AI輔助編碼帶來思維方式轉變：從人寫代碼到人審代碼

量子位 2025-04-18 17:04:43
0 跟貼 0
垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0
說話就能編程的時代來了！AI大神卡帕西40分鐘演講精華

智東西 2025-06-21 13:55:20
1 跟貼 1
宇樹科技G1機器人展示武打動作：算法升級任意動作任意學

財聯社 2025-02-25 23:59:43
0 跟貼 0
AI正大大降低動漫等虛擬內容制作門檻

量子位 2025-04-25 14:16:10
0 跟貼 0
騰訊混元圖像2.0一手實測，毫秒級響應

量子位 2025-05-18 12:49:08
1 跟貼 1
華為云發布盤古大模型5.5，現場揭秘底層技術

量子位 2025-06-21 16:36:55
0 跟貼 0
大模型正在打破教育領域的“不可能三角〞

量子位 2025-04-17 19:02:09
0 跟貼 0
o3/o4-mini實測太炸裂：看照片反推定位

量子位 2025-04-17 22:23:17
0 跟貼 0
59%的AI，都死在了路上

虎嗅APP 2025-06-19 20:08:14
3 跟貼 3
下個萬億美元市場！老黃：人形機器人要落地

量子位 2025-05-19 20:06:49
0 跟貼 0
AI的母語是什么？人類進化花了200萬年，AI只需一個晚上

量子位 2025-05-23 19:24:56
0 跟貼 0
AI的母語是什么？不是英語，不是漢語

量子位 2025-05-23 17:58:54
0 跟貼 0
網友實測Veo3視頻旋風：模擬車展、上課、ASMR

量子位 2025-05-25 09:14:22
0 跟貼 0
人人都能做開發者！連小學生都能輕松上手的0代碼開發平臺來了

量子位 2025-04-15 11:59:12
0 跟貼 0
老板想本地跑AI，只給10萬還想體驗滿血DS，我該咋辦？

量子位 2025-04-14 15:31:01
0 跟貼 0
研發自動化的初衷是讓每一個研究員都有Agent助理

量子位 2025-04-23 08:05:00
0 跟貼 0
道具模型太貴怎么辦，導演直接整上真家伙

影帝俠 2025-06-21 13:03:31
64 跟貼 64
AGI理論比較：主動推理、強化學習、控制論、貝葉斯大腦、效用決策、有限理性、情感動機、動態體內平衡

白駒談人機 2025-06-18 00:09:07
0 跟貼 0
在野外放一個假的鹿模型，公鹿好不容易鼓起勇氣，卻換來一生內向

榻榻米搞笑 2025-06-21 09:20:23
5 跟貼 5
元廷轉變剿匪策略，朱元璋抓住機會迅速發展壯大

天浩電影V 2025-06-20 09:56:16
1 跟貼 1
以伊代表在安理會上再次相互譴責以代表盯著對方說“別裝了”

海外網 2025-06-21 16:05:02
1166 跟貼 1166
安克移動電源存在巨大安全隱患

爆角追蹤 2025-06-21 09:04:28
3629 跟貼 3629
AGI的關鍵在于怎樣把智能體組織起來

量子位 2025-04-22 12:59:08
0 跟貼 0
這個世上，真正能給你撐腰的，是豐富的知識儲備，足夠的經濟基礎

詩詞中國 2025-06-19 13:19:53
19 跟貼 19
印度內政部長放話：絕不恢復履行《印度河用水條約》，流向巴方的水源轉供印國內調配

環球網資訊 2025-06-21 19:00:19
2225 跟貼 2225
昆明南博會公眾開放首日！機器狗換新“皮膚”化身“機器獅”，互動賣萌超可愛

開屏新聞客戶端 2025-06-20 13:45:01
0 跟貼 0
特拉維夫重建：全球經濟機制如何轉嫁成本？

舉頭月已燕歸來 2025-06-20 05:46:30
53 跟貼 53
以軍上當了！高科技武器最終擊中的，卻是伊朗設置的“鐵皮模型”

侃侃世界之最 2025-06-20 11:04:24
0 跟貼 0

洞房夜新娘說上聯“兩座高山守玉門”,新郎對下聯后,她：沒羞沒臊

洞房夜新娘說上聯“兩座高山守玉門”,新郎對下聯后,她：沒羞沒臊

蕭竹輕語

2025-06-20 17:21:16

普京：已得到以色列的保證

魯中晨報

2025-06-21 21:13:06

狂降14萬！又一中產“神車”跌成白菜價，老車主慘遭集體背刺！

狂降14萬！又一中產“神車”跌成白菜價，老車主慘遭集體背刺！

芳芳歷史燴

2025-06-21 16:32:59

伊朗突發5.5級地震，距福爾多核設施約280公里，專家：與所謂的核試驗無關，系自然發

伊朗突發5.5級地震，距福爾多核設施約280公里，專家：與所謂的核試驗無關，系自然發

魯中晨報

2025-06-21 19:41:09

太美了！夏思凝奪連奪季軍曬照：田徑女神穿旗袍訓練服又美又颯

太美了！夏思凝奪連奪季軍曬照：田徑女神穿旗袍訓練服又美又颯

李喜林籃球絕殺

2025-06-21 17:25:41

46歲殷桃與男友壓馬路，小腹隆起走路姿勢有孕味，男友長相普通

46歲殷桃與男友壓馬路，小腹隆起走路姿勢有孕味，男友長相普通

娛樂圈圈圓

2025-06-20 17:30:24

厚底跑鞋鼻祖，hoka 歐尼歐尼再現“一鞋難求”經典之作！

厚底跑鞋鼻祖，hoka 歐尼歐尼再現“一鞋難求”經典之作！

超級數學建模

2025-06-20 22:40:10

美女網紅律師“翻車”，線上線下“兩張臉”？網友：美顏開大了

美女網紅律師“翻車”，線上線下“兩張臉”？網友：美顏開大了

電影爛番茄

2025-06-19 20:58:44

罷免書已遞交，佩通坦開始自救，60萬泰軍作出選擇，中國不可不防

罷免書已遞交，佩通坦開始自救，60萬泰軍作出選擇，中國不可不防

獵火照狼山

2025-06-21 21:48:12

足協杯！2-1，奧斯卡、恩里克驚艷破門：率云南玉昆晉級八強

足協杯！2-1，奧斯卡、恩里克驚艷破門：率云南玉昆晉級八強

側身凌空斬

2025-06-21 20:56:31

郭碧婷自爆生產過程，為二胎吃盡苦頭，網友：絕對是個狠人

郭碧婷自爆生產過程，為二胎吃盡苦頭，網友：絕對是個狠人

魚樂大使

2025-06-19 15:26:19

“電報”創始人、億萬富翁帕維爾·杜羅夫立遺囑：30年后100多個孩子都可繼承財產

“電報”創始人、億萬富翁帕維爾·杜羅夫立遺囑：30年后100多個孩子都可繼承財產

現代快報

2025-06-21 15:46:24

費德勒追隨納達爾迷上新運動；德約：費德勒是三巨頭最有天賦的

費德勒追隨納達爾迷上新運動；德約：費德勒是三巨頭最有天賦的

網球之家

2025-06-21 23:07:20

經紀人金暢：王鈺棟身價在市場上毫無意義，出三倍浙江也不賣

經紀人金暢：王鈺棟身價在市場上毫無意義，出三倍浙江也不賣

懂球帝

2025-06-21 11:26:29

中方警告全球：不得配合！美媒直言：中國超越的“分水嶺”已到

中方警告全球：不得配合！美媒直言：中國超越的“分水嶺”已到

粵語音樂噴泉

2025-06-20 11:08:17

英媒獨家：貝蒂斯與曼聯商談安東尼轉會，球員愿降薪30%

英媒獨家：貝蒂斯與曼聯商談安東尼轉會，球員愿降薪30%

雷速體育

2025-06-21 21:47:38

剛剛，河南宣布：鳳凰傳奇洛陽站演唱會取消！超165萬人想看的天津站也已取消，“因曾毅身體原因”，鳳凰傳奇道歉

剛剛，河南宣布：鳳凰傳奇洛陽站演唱會取消！超165萬人想看的天津站也已取消，“因曾毅身體原因”，鳳凰傳奇道歉

每日經濟新聞

2025-06-21 20:21:17

4位名人炮轟郭德綱：欺詐觀眾，貪污公款，圈錢無下限，句句狠辣

4位名人炮轟郭德綱：欺詐觀眾，貪污公款，圈錢無下限，句句狠辣

一娛三分地

2025-06-19 20:34:17

中東局勢最新進展：6月21日下午最新消息

中東局勢最新進展：6月21日下午最新消息

第一校尉

2025-06-21 15:05:57

普京下最后通牒：烏方必須“無條件投降”，被俄羅斯全面控制

普京下最后通牒：烏方必須“無條件投降”，被俄羅斯全面控制

亡海中的彼岸花

2025-06-21 19:21:00

AI產業主平臺領航智能+時代

12923文章數 66077關注度

往期回顧全部

科技要聞

Siri有救了？蘋果被曝正討論史上最大收購

頭條要聞

官方通報那爾那茜有關情況：涉嫌高考報名材料造假

頭條要聞

官方通報那爾那茜有關情況：涉嫌高考報名材料造假

體育要聞

王欣瑜：資格賽差點要退賽夢幻般的一周

娛樂要聞

離婚7年，楊冪逆襲碾壓劉愷威

財經要聞

租金大撤退！房東正在批量跑路！

汽車要聞

扔掉"舊地圖”一汽-大眾大眾品牌要找"新大陸"

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

親子

旅游

時尚

游戲

房產

親子要聞

孕期缺乏這種元素，可能發生性別逆轉？

旅游要聞

熱聞|清明假期將至，熱門目的地有哪些?

天啊，凱特王妃都在準備葬禮了？

韓國虛幻5重磅動作新作來了！上架多平臺 2026發售

房產要聞

坑慘2000多人！恒大財富海南高管被曝非吸12.6億元！

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：开化县| 宜城市| 尉氏县| 澄城县| 北碚区| 灵台县| 沙洋县| 社旗县| 山阳县| 瓦房店市| 拉孜县| 宝坻区| 张家口市| 怀集县| 台中县| 正镶白旗| 株洲县| 施甸县| 安塞县| 屯昌县| 册亨县| 贺州市| 渑池县| 武汉市| 西乌珠穆沁旗| 高雄市| 香港| 吉首市| 洱源县| 资中县| 西畴县| 阳山县| 都匀市| 宁津县| 六安市| 凤城市| 彭山县| 苏州市| 涿鹿县| 水富县| 虎林市|

<wbr id="g0s8s"><var id="g0s8s"></var></wbr>

<cite id="g0s8s"><track id="g0s8s"></track></cite>