99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

知識儲備≠模型能力!DeepMind強化學(xué)習(xí)微調(diào):大幅縮小「知行差距」

0
分享至


新智元報道

編輯:LRS

【新智元導(dǎo)讀】大語言模型(LLMs)在決策場景中常因貪婪性、頻率偏差和知行差距表現(xiàn)欠佳。研究者提出強化學(xué)習(xí)微調(diào)(RLFT),通過自我生成的推理鏈(CoT)優(yōu)化模型,提升決策能力。實驗表明,RLFT可增加模型探索性,縮小知行差距,但探索策略仍有改進空間。

大語言模型的知識儲備要遠遠超越任何一個人類,在各種領(lǐng)域、應(yīng)用場景下都展現(xiàn)出了驚人的「世界知識」。

最近興起的智能體,就是要求模型利用自身知識,在沒有大量與環(huán)境互動的情況下生成更優(yōu)的行動預(yù)測,比如思維鏈(CoT)就能讓模型能夠?qū)τ^察到的歷史和自己的行動進行推理,提升與環(huán)境互動的表現(xiàn)。

不過,在決策(decision-making)場景中,「知識儲備」和「推理優(yōu)勢」并沒有提升大模型的能力,反而可能導(dǎo)致探索力不足,使得決策結(jié)果不夠理想。


有研究結(jié)果顯示,即便在「狀態(tài)空間有限」的應(yīng)用中,比如網(wǎng)格世界或是Atari游戲,大模型的決策能力也有待提升。

這種缺陷可能來自大模型的「知行差距」(knowing-doing gap),即模型可能知道任務(wù)的相關(guān)知識,或者能夠描述自己行動的后果(知道該做什么),但在行動時卻無法將這些知識付諸實踐(無法做到)。

最近,Google DeepMind和約翰·開普勒林茨大學(xué)(JKU Linz)的研究人員系統(tǒng)地研究了中小規(guī)模LLMs中常見的三種失敗模式:貪婪性、頻率偏差和知行差距。

分析結(jié)果表明,大模型的最終表現(xiàn)不夠理想的原因,主要是因為LLMs過早地選擇了貪婪的行動策略,導(dǎo)致行動覆蓋停滯不前,高達55%的行動空間都沒有被探索到。


論文鏈接:https://arxiv.org/pdf/2504.16078

小規(guī)模的LLMs(20億參數(shù))在不同獎勵機制下,都表現(xiàn)出模仿上下文中最頻繁的行動,以以犧牲探索空間為代價,表現(xiàn)出貪婪搜索性。

研究人員對知行差距進行了量化,發(fā)現(xiàn)LLMs通常知道如何解決任務(wù)(87%的正確推理),但在行動時卻無法利用這些知識,主要因為優(yōu)先選擇貪婪的行動,在推理正確的情況下,64%的行動是貪婪的。

為了克服這些缺陷,研究人員提出了基于自我生成的推理過程(CoT)的強化學(xué)習(xí)微調(diào)(RLFT),在多臂老虎機(MAB)、上下文老虎機(CB)和文字版井字棋任務(wù)中,使用三種規(guī)模(20億、90億和270億參數(shù))的Gemma2模型進行效果研究。

結(jié)果發(fā)現(xiàn),RLFT通過增加探索性并縮小「知行差距」來增強LMs的決策能力,盡管RLFT對LLM智能體的探索性產(chǎn)生了積極影響,但其探索策略仍然不夠理想。

因此,研究人員對強化學(xué)習(xí)中常用的「經(jīng)典」探索機制(如?-貪婪算法)以及LLM中特有的方法(如自我修正和自我一致性)進行了實證評估,以實現(xiàn)更有效的決策場景微調(diào)。

強化學(xué)習(xí)微調(diào)(RLFT)

強化學(xué)習(xí)和RLHF

簡單來說,強化學(xué)習(xí)就是教模型在不同的場景(狀態(tài)空間S)下,決策出做不同的動作(行動空間A),每次做完動作,都會根據(jù)表現(xiàn)獲得獎勵(獎勵函數(shù)R)以學(xué)習(xí)。

學(xué)習(xí)過程是一個馬爾可夫決策過程,用一個四元組(S,A,P,R)來表示,其中P表示狀態(tài)轉(zhuǎn)移,在做完動作后,以不同概率進入新的狀態(tài)。

強化學(xué)習(xí)的目標就是讓模型找到一個最好的策略(πθ),以在不同場景下選擇獎勵最多的行動。

基于人類反饋的強化學(xué)習(xí)(RLHF)就是引導(dǎo)模型學(xué)習(xí)人類偏好的動作,偏好數(shù)據(jù)由人類標注獲得,記錄在獎勵模型(rφ)中。

RLHF學(xué)習(xí)過程中,會用一個參考策略(π_ref)作為參考,模型在之參考策略進行調(diào)整,還會用一個權(quán)重項(β)來平衡學(xué)習(xí)的速度和方向,以及一個基線(b)來減少學(xué)習(xí)過程中的波動,讓學(xué)習(xí)更加穩(wěn)定。

RLFT

強化學(xué)習(xí)微調(diào)(RLFT)方法主要是通過與環(huán)境互動獲得的獎勵來對模型生成的推理鏈(CoT)進行優(yōu)化。

在這個過程中,模型會逐步改進自己的推理方式,更傾向于選擇那些能帶來更高獎勵的推理模式和行動。


上下文表征

在步驟t時,輸入到模型的token包括輸入指令、輸出指令以及最近的互動歷史,其中歷史表征包含了C個最近的狀態(tài)、行動和獎勵的軌跡。

研究人員選擇使用針對具體任務(wù)的指令,以便為智能體提供觀察到的信息、可能的行動及其目標的信息。

行動token的分解

在每次互動步驟t時,模型會生成包含CoT推理token和要在環(huán)境中執(zhí)行的行動token,研究人員使用一個基于正則表達式的提取函數(shù),從推理token中提取出行動。

如果未找到有效行動,則執(zhí)行隨機行動。

為有效行動進行獎勵塑形

除了環(huán)境獎勵外,研究人員還使用了一個獎勵塑形項(reward shaping),促使模型遵循輸出模板。

即,如果提取函數(shù)無法提取出有效行動,使用-5的獎勵值進行懲罰,同時為了確保獎勵懲罰不會過度影響優(yōu)化,需要對環(huán)境獎勵進行歸一化處理。

微調(diào)目標

研究人員使用了clipping目標進行微調(diào),并增加了一個針對參考策略的KL約束。

為了在具有固定episode長度的環(huán)境中進行內(nèi)存高效的微調(diào),使用蒙特卡洛基線來估計狀態(tài)A_adv

對于具有可變episode長度的環(huán)境,研究人員在LLM表示的最后一層學(xué)習(xí)了一個單獨的狀態(tài)價值頭,并使用了泛化優(yōu)勢估計(generalized advantage estimation)。

實驗結(jié)果

多臂老虎機和上下文強盜(Context Bandit)

多臂老虎機(MAB)是一個經(jīng)典的強化學(xué)習(xí)問題,模型需要在「探索新選項」和「利用已知好選項」之間做出平衡。


研究人員重點關(guān)注了連續(xù)型和按鈕型這兩種變體,測試了5、10或20個拉桿的老虎機,每個拉桿的回報值呈高斯分布或伯努利分布,交互步數(shù)限制在50步以內(nèi)。

還設(shè)置了三種不同的隨機性水平(低/中/高),這決定了高斯老虎機或伯努利老虎機的標準差或回報值差距。

對比的基線模型為上置信界限(UCB,性能的上限)和隨機智能體(性能下限)。

基于文本的井字棋環(huán)境具有合理的狀態(tài)轉(zhuǎn)換,并且前沿模型在這個環(huán)境中很難取得良好表現(xiàn),甚至只能勉強戰(zhàn)勝隨機對手。

貪婪性

這是最普遍的失敗模式,其特點是LLM過度偏愛在已見過的少數(shù)行動中表現(xiàn)最好的行動。

為了說明這種失敗模式,研究人員測量了Gemma2 2B、9B和27B模型在有無因果推理(CoT)的情況下,在64個擁有10個或20個拉桿的MAB中,經(jīng)過50步交互后平均覆蓋的行動數(shù)量。


對于10個拉桿的情況,平均在64個并行環(huán)境中,Gemma2 2B覆蓋了40%的所有行動,而9B和27B覆蓋了65%(即6.5個行動),意味著仍有相當一部分行動空間未被探索。


沒有CoT時,模型在10個拉桿的設(shè)置中僅探索了25%的行動,次優(yōu)的覆蓋是由于模型過度偏愛高回報行動,模型過早地承諾了一種貪婪策略,導(dǎo)致在超過10步后行動覆蓋停滯不前。

增加拉桿數(shù)量會使貪婪性更加明顯,最大的模型也只覆蓋了45%的所有行動。

頻率偏差

其特點是即使某個行動的回報很低,模型也會反復(fù)選擇在上下文中出現(xiàn)頻率最高的行動。

為了了解模型的行動如何受到行動頻率的影響,研究人員使用隨機策略構(gòu)建前綴歷史記錄,改變上下文歷史中最后一個行動的重復(fù)次數(shù)(0到100次),并記錄所有行動的熵。


為了量化頻率偏差,研究人員根據(jù)行動的出現(xiàn)次數(shù),將行動分類為頻繁行動、貪婪行動和其他行動,以10%的概率為最優(yōu)。

可以看到,Gemma2 2B嚴重受到重復(fù)行動的影響,隨著重復(fù)次數(shù)的增加,熵逐漸降低,而27B則擺脫了頻率偏差(14%),并且隨著重復(fù)次數(shù)的增加,對自己的行動預(yù)測變得不那么確定。

2B和27B在0-10次、45-55次和90-100次重復(fù)情況下的分段比例中可以看到,2B隨著重復(fù)次數(shù)的增加而持續(xù)增加,而27B雖然擺脫了頻率偏差,但卻嚴重受到貪婪性的影響。

結(jié)果表明頻率偏差是監(jiān)督預(yù)訓(xùn)練的產(chǎn)物,并促使人們使用強化學(xué)習(xí)作為一種對策。

知行差距


研究人員讓Gemma2 27B與環(huán)境(64個實例)進行50個時間步的交互,每步的計算量為2048個token,并從推理過程中提取UCB數(shù)值。

為了量化「知道」,研究人員將模型計算的UCB值與真實的UCB值進行比較,并認為如果模型選擇的拉桿與具有最高UCB值的拉桿一致,則認為其推理過程是正確的。

為了量化「做」,研究人員將生成的行動分類為:如果模型選擇了具有最高UCB值的行動,則為最優(yōu)行動;如果選擇了到目前為止嘗試過的具有最高UCB值的行動,則為貪婪行動;如果行動既不是最優(yōu)也不是貪婪,則歸為其他類別。


隨后,研究人員計算了貪婪/最優(yōu)/其他行動的百分比。

智能體顯然知道如何解決任務(wù),因為87%的推理過程都是正確的,然而,即使對于正確計算的推理過程,模型也經(jīng)常選擇貪婪行動(58%)而不是最優(yōu)行動(21%)。

這種差異突出了大型語言模型在「知道」算法的情況下,仍然在「行動」上存在不足。

參考資料:

https://arxiv.org/abs/2504.16078

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
2006年,十幾名刑警狂毆四名交警,全市交警列隊討公道,結(jié)局如何

2006年,十幾名刑警狂毆四名交警,全市交警列隊討公道,結(jié)局如何

阿胡
2024-01-08 17:03:39
蘋果新機突然官宣,新配色來了!

蘋果新機突然官宣,新配色來了!

Q科技基地
2025-06-22 12:56:44
伊朗要創(chuàng)造人類歷史?連續(xù)擊落4架F-35,卻連以軍導(dǎo)彈都攔截不了

伊朗要創(chuàng)造人類歷史?連續(xù)擊落4架F-35,卻連以軍導(dǎo)彈都攔截不了

阿芒娛樂說
2025-06-22 23:55:11
新華社快訊:敘利亞首都大馬士革一座教堂發(fā)生爆炸25人喪生

新華社快訊:敘利亞首都大馬士革一座教堂發(fā)生爆炸25人喪生

新華社
2025-06-23 00:23:01
內(nèi)賈德及其家人突傳死訊

內(nèi)賈德及其家人突傳死訊

高博新視野
2025-06-19 16:30:07
官宣!G7票價創(chuàng)紀錄,哈利伯頓傷情更新,亞歷山大把話挑明

官宣!G7票價創(chuàng)紀錄,哈利伯頓傷情更新,亞歷山大把話挑明

世界體育圈
2025-06-22 10:37:52
朗尼克:花5000萬簽28或30歲球員沒意義,比如拜仁應(yīng)簽20歲的凱恩

朗尼克:花5000萬簽28或30歲球員沒意義,比如拜仁應(yīng)簽20歲的凱恩

直播吧
2025-06-22 16:40:16
分析:凱文·杜蘭特重磅交易后,火箭隊和太陽隊的NBA排名

分析:凱文·杜蘭特重磅交易后,火箭隊和太陽隊的NBA排名

好火子
2025-06-23 02:07:25
女網(wǎng)紅曬豪宅曝一年電費40萬,驚動電力局后底細被扒她老公職業(yè)值得細品…

女網(wǎng)紅曬豪宅曝一年電費40萬,驚動電力局后底細被扒她老公職業(yè)值得細品…

浪花媽媽
2025-06-21 23:14:14
滕帥大手筆!3500萬歐寬薩成隊史標王,藥廠已花6000萬&賣人近2億

滕帥大手筆!3500萬歐寬薩成隊史標王,藥廠已花6000萬&賣人近2億

直播吧
2025-06-22 18:47:15
小因扎吉:所有頂級俱樂部齊聚于世俱杯,唯獨缺了巴薩

小因扎吉:所有頂級俱樂部齊聚于世俱杯,唯獨缺了巴薩

懂球帝
2025-06-22 14:43:16
降幅高達50%左右!全國醫(yī)院檢查費用大幅下調(diào),放射類首當其沖…

降幅高達50%左右!全國醫(yī)院檢查費用大幅下調(diào),放射類首當其沖…

火山詩話
2025-06-22 17:53:28
大雨、暴雨,局部大暴雨!河南新一輪降雨要來了

大雨、暴雨,局部大暴雨!河南新一輪降雨要來了

魯中晨報
2025-06-22 17:33:28
亞軍沒盤子!王欣瑜僅獲項鏈+鮮花,冠軍選手:連拿獎杯手表香檳

亞軍沒盤子!王欣瑜僅獲項鏈+鮮花,冠軍選手:連拿獎杯手表香檳

侃球熊弟
2025-06-22 21:22:22
老祖宗常告誡“勿近白虎”,“白虎”究竟是什么?真有這么可怕嗎

老祖宗常告誡“勿近白虎”,“白虎”究竟是什么?真有這么可怕嗎

大千世界觀
2025-05-22 16:57:05
以為他們退出歌壇,其實早已悄然離逝,再也見不到的4位歌星

以為他們退出歌壇,其實早已悄然離逝,再也見不到的4位歌星

TVB的四小花
2025-06-14 00:38:15
中國一旦發(fā)生戰(zhàn)爭,要記得第一時間要帶好這5樣?xùn)|西,才能保命

中國一旦發(fā)生戰(zhàn)爭,要記得第一時間要帶好這5樣?xùn)|西,才能保命

阿策聊實事
2025-04-27 17:15:00
美記:火箭送出的次輪簽最晚延伸到了2032年 這筆交易沒有第三隊

美記:火箭送出的次輪簽最晚延伸到了2032年 這筆交易沒有第三隊

直播吧
2025-06-23 01:35:17
Shams:杜蘭特 8 換 1 被太陽交易至火箭!

Shams:杜蘭特 8 換 1 被太陽交易至火箭!

貴圈真亂
2025-06-23 01:21:02
央媒發(fā)聲!四天狂掠60萬,承包商血本無歸,紀委終于介入!

央媒發(fā)聲!四天狂掠60萬,承包商血本無歸,紀委終于介入!

朗威談星座
2025-06-21 12:12:54
2025-06-23 02:52:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
12929文章數(shù) 66077關(guān)注度
往期回顧 全部

科技要聞

"你應(yīng)該靠嘴吃飯",羅永浩自述被梁文鋒勸退

頭條要聞

伊朗投入5萬億美元的核項目遭摧毀 哈梅內(nèi)伊面臨抉擇

頭條要聞

伊朗投入5萬億美元的核項目遭摧毀 哈梅內(nèi)伊面臨抉擇

體育要聞

中國女排0-3意大利 香港站3勝1負收官

娛樂要聞

離婚四年!趙麗穎被曝新戀情惹爭議

財經(jīng)要聞

蘋果后院起火

汽車要聞

首搭華為雙王牌/6月24日預(yù)售 嵐圖FREE+正式下線

態(tài)度原創(chuàng)

旅游
教育
親子
房產(chǎn)
公開課

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

教育要聞

2026qs排名完整名單公布后,申請難度會暴漲的幾所英國大學(xué)!

親子要聞

我與兒子與同學(xué)之間的稱呼

房產(chǎn)要聞

坑慘2000多人!恒大財富海南高管被曝非吸12.6億元!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 南溪县| 连云港市| 丰顺县| 吉林市| 鹤岗市| 荔波县| 灵台县| 峨眉山市| 金昌市| 青州市| 大田县| 大渡口区| 延边| 石林| 弋阳县| 文山县| 昌宁县| 酉阳| 富蕴县| 阿合奇县| 土默特右旗| 松江区| 桂林市| 开远市| 巴林右旗| 五河县| 青海省| 盘山县| 郸城县| 伊川县| 兖州市| 贵州省| 花莲县| 和平区| 临沧市| 固镇县| 融水| 玉山县| 南郑县| 图木舒克市| 临朐县|