99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

知識儲備≠模型能力!DeepMind強化學習微調:大幅縮小「知行差距」

0
分享至


新智元報道

編輯:LRS

【新智元導讀】大語言模型(LLMs)在決策場景中常因貪婪性、頻率偏差和知行差距表現欠佳。研究者提出強化學習微調(RLFT),通過自我生成的推理鏈(CoT)優化模型,提升決策能力。實驗表明,RLFT可增加模型探索性,縮小知行差距,但探索策略仍有改進空間。

大語言模型的知識儲備要遠遠超越任何一個人類,在各種領域、應用場景下都展現出了驚人的「世界知識」。

最近興起的智能體,就是要求模型利用自身知識,在沒有大量與環境互動的情況下生成更優的行動預測,比如思維鏈(CoT)就能讓模型能夠對觀察到的歷史和自己的行動進行推理,提升與環境互動的表現。

不過,在決策(decision-making)場景中,「知識儲備」和「推理優勢」并沒有提升大模型的能力,反而可能導致探索力不足,使得決策結果不夠理想。


有研究結果顯示,即便在「狀態空間有限」的應用中,比如網格世界或是Atari游戲,大模型的決策能力也有待提升。

這種缺陷可能來自大模型的「知行差距」(knowing-doing gap),即模型可能知道任務的相關知識,或者能夠描述自己行動的后果(知道該做什么),但在行動時卻無法將這些知識付諸實踐(無法做到)。

最近,Google DeepMind和約翰·開普勒林茨大學(JKU Linz)的研究人員系統地研究了中小規模LLMs中常見的三種失敗模式:貪婪性、頻率偏差和知行差距。

分析結果表明,大模型的最終表現不夠理想的原因,主要是因為LLMs過早地選擇了貪婪的行動策略,導致行動覆蓋停滯不前,高達55%的行動空間都沒有被探索到。


論文鏈接:https://arxiv.org/pdf/2504.16078

小規模的LLMs(20億參數)在不同獎勵機制下,都表現出模仿上下文中最頻繁的行動,以以犧牲探索空間為代價,表現出貪婪搜索性。

研究人員對知行差距進行了量化,發現LLMs通常知道如何解決任務(87%的正確推理),但在行動時卻無法利用這些知識,主要因為優先選擇貪婪的行動,在推理正確的情況下,64%的行動是貪婪的。

為了克服這些缺陷,研究人員提出了基于自我生成的推理過程(CoT)的強化學習微調(RLFT),在多臂老虎機(MAB)、上下文老虎機(CB)和文字版井字棋任務中,使用三種規模(20億、90億和270億參數)的Gemma2模型進行效果研究。

結果發現,RLFT通過增加探索性并縮小「知行差距」來增強LMs的決策能力,盡管RLFT對LLM智能體的探索性產生了積極影響,但其探索策略仍然不夠理想。

因此,研究人員對強化學習中常用的「經典」探索機制(如?-貪婪算法)以及LLM中特有的方法(如自我修正和自我一致性)進行了實證評估,以實現更有效的決策場景微調。

強化學習微調(RLFT)

強化學習和RLHF

簡單來說,強化學習就是教模型在不同的場景(狀態空間S)下,決策出做不同的動作(行動空間A),每次做完動作,都會根據表現獲得獎勵(獎勵函數R)以學習。

學習過程是一個馬爾可夫決策過程,用一個四元組(S,A,P,R)來表示,其中P表示狀態轉移,在做完動作后,以不同概率進入新的狀態。

強化學習的目標就是讓模型找到一個最好的策略(πθ),以在不同場景下選擇獎勵最多的行動。

基于人類反饋的強化學習(RLHF)就是引導模型學習人類偏好的動作,偏好數據由人類標注獲得,記錄在獎勵模型(rφ)中。

RLHF學習過程中,會用一個參考策略(π_ref)作為參考,模型在之參考策略進行調整,還會用一個權重項(β)來平衡學習的速度和方向,以及一個基線(b)來減少學習過程中的波動,讓學習更加穩定。

RLFT

強化學習微調(RLFT)方法主要是通過與環境互動獲得的獎勵來對模型生成的推理鏈(CoT)進行優化。

在這個過程中,模型會逐步改進自己的推理方式,更傾向于選擇那些能帶來更高獎勵的推理模式和行動。


上下文表征

在步驟t時,輸入到模型的token包括輸入指令、輸出指令以及最近的互動歷史,其中歷史表征包含了C個最近的狀態、行動和獎勵的軌跡。

研究人員選擇使用針對具體任務的指令,以便為智能體提供觀察到的信息、可能的行動及其目標的信息。

行動token的分解

在每次互動步驟t時,模型會生成包含CoT推理token和要在環境中執行的行動token,研究人員使用一個基于正則表達式的提取函數,從推理token中提取出行動。

如果未找到有效行動,則執行隨機行動。

為有效行動進行獎勵塑形

除了環境獎勵外,研究人員還使用了一個獎勵塑形項(reward shaping),促使模型遵循輸出模板。

即,如果提取函數無法提取出有效行動,使用-5的獎勵值進行懲罰,同時為了確保獎勵懲罰不會過度影響優化,需要對環境獎勵進行歸一化處理。

微調目標

研究人員使用了clipping目標進行微調,并增加了一個針對參考策略的KL約束。

為了在具有固定episode長度的環境中進行內存高效的微調,使用蒙特卡洛基線來估計狀態A_adv

對于具有可變episode長度的環境,研究人員在LLM表示的最后一層學習了一個單獨的狀態價值頭,并使用了泛化優勢估計(generalized advantage estimation)。

實驗結果

多臂老虎機和上下文強盜(Context Bandit)

多臂老虎機(MAB)是一個經典的強化學習問題,模型需要在「探索新選項」和「利用已知好選項」之間做出平衡。


研究人員重點關注了連續型和按鈕型這兩種變體,測試了5、10或20個拉桿的老虎機,每個拉桿的回報值呈高斯分布或伯努利分布,交互步數限制在50步以內。

還設置了三種不同的隨機性水平(低/中/高),這決定了高斯老虎機或伯努利老虎機的標準差或回報值差距。

對比的基線模型為上置信界限(UCB,性能的上限)和隨機智能體(性能下限)。

基于文本的井字棋環境具有合理的狀態轉換,并且前沿模型在這個環境中很難取得良好表現,甚至只能勉強戰勝隨機對手。

貪婪性

這是最普遍的失敗模式,其特點是LLM過度偏愛在已見過的少數行動中表現最好的行動。

為了說明這種失敗模式,研究人員測量了Gemma2 2B、9B和27B模型在有無因果推理(CoT)的情況下,在64個擁有10個或20個拉桿的MAB中,經過50步交互后平均覆蓋的行動數量。


對于10個拉桿的情況,平均在64個并行環境中,Gemma2 2B覆蓋了40%的所有行動,而9B和27B覆蓋了65%(即6.5個行動),意味著仍有相當一部分行動空間未被探索。


沒有CoT時,模型在10個拉桿的設置中僅探索了25%的行動,次優的覆蓋是由于模型過度偏愛高回報行動,模型過早地承諾了一種貪婪策略,導致在超過10步后行動覆蓋停滯不前。

增加拉桿數量會使貪婪性更加明顯,最大的模型也只覆蓋了45%的所有行動。

頻率偏差

其特點是即使某個行動的回報很低,模型也會反復選擇在上下文中出現頻率最高的行動。

為了了解模型的行動如何受到行動頻率的影響,研究人員使用隨機策略構建前綴歷史記錄,改變上下文歷史中最后一個行動的重復次數(0到100次),并記錄所有行動的熵。


為了量化頻率偏差,研究人員根據行動的出現次數,將行動分類為頻繁行動、貪婪行動和其他行動,以10%的概率為最優。

可以看到,Gemma2 2B嚴重受到重復行動的影響,隨著重復次數的增加,熵逐漸降低,而27B則擺脫了頻率偏差(14%),并且隨著重復次數的增加,對自己的行動預測變得不那么確定。

2B和27B在0-10次、45-55次和90-100次重復情況下的分段比例中可以看到,2B隨著重復次數的增加而持續增加,而27B雖然擺脫了頻率偏差,但卻嚴重受到貪婪性的影響。

結果表明頻率偏差是監督預訓練的產物,并促使人們使用強化學習作為一種對策。

知行差距


研究人員讓Gemma2 27B與環境(64個實例)進行50個時間步的交互,每步的計算量為2048個token,并從推理過程中提取UCB數值。

為了量化「知道」,研究人員將模型計算的UCB值與真實的UCB值進行比較,并認為如果模型選擇的拉桿與具有最高UCB值的拉桿一致,則認為其推理過程是正確的。

為了量化「做」,研究人員將生成的行動分類為:如果模型選擇了具有最高UCB值的行動,則為最優行動;如果選擇了到目前為止嘗試過的具有最高UCB值的行動,則為貪婪行動;如果行動既不是最優也不是貪婪,則歸為其他類別。


隨后,研究人員計算了貪婪/最優/其他行動的百分比。

智能體顯然知道如何解決任務,因為87%的推理過程都是正確的,然而,即使對于正確計算的推理過程,模型也經常選擇貪婪行動(58%)而不是最優行動(21%)。

這種差異突出了大型語言模型在「知道」算法的情況下,仍然在「行動」上存在不足。

參考資料:

https://arxiv.org/abs/2504.16078

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
洞房夜新娘說上聯“兩座高山守玉門”,新郎對下聯后,她:沒羞沒臊

洞房夜新娘說上聯“兩座高山守玉門”,新郎對下聯后,她:沒羞沒臊

蕭竹輕語
2025-06-20 17:21:16
普京:已得到以色列的保證

普京:已得到以色列的保證

魯中晨報
2025-06-21 21:13:06
狂降14萬!又一中產“神車”跌成白菜價,老車主慘遭集體背刺!

狂降14萬!又一中產“神車”跌成白菜價,老車主慘遭集體背刺!

芳芳歷史燴
2025-06-21 16:32:59
伊朗突發5.5級地震,距福爾多核設施約280公里,專家:與所謂的核試驗無關,系自然發

伊朗突發5.5級地震,距福爾多核設施約280公里,專家:與所謂的核試驗無關,系自然發

魯中晨報
2025-06-21 19:41:09
太美了!夏思凝奪連奪季軍曬照:田徑女神穿旗袍訓練服又美又颯

太美了!夏思凝奪連奪季軍曬照:田徑女神穿旗袍訓練服又美又颯

李喜林籃球絕殺
2025-06-21 17:25:41
46歲殷桃與男友壓馬路,小腹隆起走路姿勢有孕味,男友長相普通

46歲殷桃與男友壓馬路,小腹隆起走路姿勢有孕味,男友長相普通

娛樂圈圈圓
2025-06-20 17:30:24
厚底跑鞋鼻祖,hoka 歐尼歐尼再現“一鞋難求”經典之作!

厚底跑鞋鼻祖,hoka 歐尼歐尼再現“一鞋難求”經典之作!

超級數學建模
2025-06-20 22:40:10
美女網紅律師“翻車”,線上線下“兩張臉”?網友:美顏開大了

美女網紅律師“翻車”,線上線下“兩張臉”?網友:美顏開大了

電影爛番茄
2025-06-19 20:58:44
罷免書已遞交,佩通坦開始自救,60萬泰軍作出選擇,中國不可不防

罷免書已遞交,佩通坦開始自救,60萬泰軍作出選擇,中國不可不防

獵火照狼山
2025-06-21 21:48:12
足協杯!2-1,奧斯卡、恩里克驚艷破門:率云南玉昆晉級八強

足協杯!2-1,奧斯卡、恩里克驚艷破門:率云南玉昆晉級八強

側身凌空斬
2025-06-21 20:56:31
郭碧婷自爆生產過程,為二胎吃盡苦頭,網友:絕對是個狠人

郭碧婷自爆生產過程,為二胎吃盡苦頭,網友:絕對是個狠人

魚樂大使
2025-06-19 15:26:19
“電報”創始人、億萬富翁帕維爾·杜羅夫立遺囑:30年后100多個孩子都可繼承財產

“電報”創始人、億萬富翁帕維爾·杜羅夫立遺囑:30年后100多個孩子都可繼承財產

現代快報
2025-06-21 15:46:24
費德勒追隨納達爾迷上新運動;德約:費德勒是三巨頭最有天賦的

費德勒追隨納達爾迷上新運動;德約:費德勒是三巨頭最有天賦的

網球之家
2025-06-21 23:07:20
經紀人金暢:王鈺棟身價在市場上毫無意義,出三倍浙江也不賣

經紀人金暢:王鈺棟身價在市場上毫無意義,出三倍浙江也不賣

懂球帝
2025-06-21 11:26:29
中方警告全球:不得配合!美媒直言:中國超越的“分水嶺”已到

中方警告全球:不得配合!美媒直言:中國超越的“分水嶺”已到

粵語音樂噴泉
2025-06-20 11:08:17
英媒獨家:貝蒂斯與曼聯商談安東尼轉會,球員愿降薪30%

英媒獨家:貝蒂斯與曼聯商談安東尼轉會,球員愿降薪30%

雷速體育
2025-06-21 21:47:38
剛剛,河南宣布:鳳凰傳奇洛陽站演唱會取消!超165萬人想看的天津站也已取消,“因曾毅身體原因”,鳳凰傳奇道歉

剛剛,河南宣布:鳳凰傳奇洛陽站演唱會取消!超165萬人想看的天津站也已取消,“因曾毅身體原因”,鳳凰傳奇道歉

每日經濟新聞
2025-06-21 20:21:17
4位名人炮轟郭德綱:欺詐觀眾,貪污公款,圈錢無下限,句句狠辣

4位名人炮轟郭德綱:欺詐觀眾,貪污公款,圈錢無下限,句句狠辣

一娛三分地
2025-06-19 20:34:17
中東局勢最新進展:6月21日下午最新消息

中東局勢最新進展:6月21日下午最新消息

第一校尉
2025-06-21 15:05:57
普京下最后通牒:烏方必須“無條件投降”,被俄羅斯全面控制

普京下最后通牒:烏方必須“無條件投降”,被俄羅斯全面控制

亡海中的彼岸花
2025-06-21 19:21:00
2025-06-21 23:51:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12923文章數 66077關注度
往期回顧 全部

科技要聞

Siri有救了?蘋果被曝正討論史上最大收購

頭條要聞

官方通報那爾那茜有關情況:涉嫌高考報名材料造假

頭條要聞

官方通報那爾那茜有關情況:涉嫌高考報名材料造假

體育要聞

王欣瑜:資格賽差點要退賽 夢幻般的一周

娛樂要聞

離婚7年,楊冪逆襲碾壓劉愷威

財經要聞

租金大撤退!房東正在批量跑路!

汽車要聞

扔掉"舊地圖”一汽-大眾大眾品牌要找"新大陸"

態度原創

親子
旅游
時尚
游戲
房產

親子要聞

孕期缺乏這種元素,可能發生性別逆轉?

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

天啊,凱特王妃都在準備葬禮了?

韓國虛幻5重磅動作新作來了!上架多平臺 2026發售

房產要聞

坑慘2000多人!恒大財富海南高管被曝非吸12.6億元!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 开化县| 宜城市| 尉氏县| 澄城县| 北碚区| 灵台县| 沙洋县| 社旗县| 山阳县| 瓦房店市| 拉孜县| 宝坻区| 张家口市| 怀集县| 台中县| 正镶白旗| 株洲县| 施甸县| 安塞县| 屯昌县| 册亨县| 贺州市| 渑池县| 武汉市| 西乌珠穆沁旗| 高雄市| 香港| 吉首市| 洱源县| 资中县| 西畴县| 阳山县| 都匀市| 宁津县| 六安市| 凤城市| 彭山县| 苏州市| 涿鹿县| 水富县| 虎林市|