99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI僅憑“自信”學(xué)會推理,浙大校友復(fù)刻DeepSeek長思維鏈涌現(xiàn)

0
分享至

夢晨 鷺羽 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

復(fù)刻DeepSeek-R1的長思維鏈推理,大模型強化學(xué)習(xí)新范式RLIF成熱門話題。

UC Berkeley團隊共同一作Xuandong Zhao把這項成果稱為:

大模型無需接觸真實答案,僅通過優(yōu)化自己的信心,就能學(xué)會復(fù)雜推理。



具體來說,新方法完全不需要外部獎勵信號或標注數(shù)據(jù),只需使用模型自身的置信程度作為內(nèi)在獎勵信號。

與使用外部獎勵信號GRPO相比,新方法在數(shù)學(xué)任務(wù)上不需要標準答案也能提升基礎(chǔ)模型性能,在代碼任務(wù)上表現(xiàn)得更好。



幾乎同一時間,另外一篇論文《RENT: Reinforcement Learning via Entropy Minimization》也驗證了相似的結(jié)論。



作者表示兩者的主要區(qū)別在于使用KL散度最小化熵衡量自信程度。



Dropbox工程副總裁看后表示:Confidence is all you need



“自信”驅(qū)動的強化學(xué)習(xí)

長期以來,訓(xùn)練大模型主要依賴兩種方式:

要么需要大量人工標注(如ChatGPT的RLHF),要么需要可驗證的標準答案(如DeepSeek的RLVR)。

前者成本高昂且可能引入偏見,后者則局限于數(shù)學(xué)、編程等有明確答案的領(lǐng)域。

那么當(dāng)AI能力逐漸接近甚至超越人類時,能否讓模型僅憑自身產(chǎn)生的內(nèi)在信號,擺脫對外部監(jiān)督的依賴?

針對這個問題,UC Berkeley團隊提出新訓(xùn)練方法Intuitor,計算模型預(yù)測分布與均勻分布之間的KL散度作為“自信程度”。



相當(dāng)于人類做題時,如果對答案有把握思路也會更清晰,當(dāng)自信不足的時候往往需要重新思考。

通過優(yōu)化這個內(nèi)在信號,INTUITOR鼓勵模型生成它自己”更有把握”的回答,也能促使模型生成更結(jié)構(gòu)化的推理過程。

在實驗中,1.5B和3B的小模型也涌現(xiàn)出與DeepSeek-R1類似的長思維鏈推理行為。



論文還指出,內(nèi)在獎勵信號還獲得一個額外的好處:從機制上降低了“獎勵黑客”的風(fēng)險

傳統(tǒng)外部獎勵信號的強化學(xué)習(xí)容易被“鉆空子”,如模型可能生成語法正確但邏輯錯誤的代碼來匹配測試用例,或在數(shù)學(xué)題中直接背答案而非推理。

在INTUITOR中,團隊發(fā)現(xiàn)如果使用離線學(xué)習(xí),在訓(xùn)練約100步的時候模型也學(xué)會了作弊:在回答中附加一個已經(jīng)解決的簡單問題來提高自信度分數(shù)。

但使用在線學(xué)習(xí)就可以避免這個問題,評估標準隨著模型能力一起進化,作弊策略變得無效。



實驗結(jié)果:不僅會做題,還會舉一反三

團隊首先實證研究了INTUITOR框架對LLMs數(shù)學(xué)推理能力的提升。

實驗選取Qwen2.5-1.5B/3B作為基礎(chǔ)模型,使用自我確定度作為唯一的獎勵信號,并將其分別置于INTUITOR和兩個基線方法(GRPO、GRPO-PV)在MATH數(shù)據(jù)集的預(yù)訓(xùn)練中。

使用對話提示,每次處理128道題目并各生成7個候選解決方案,KL懲罰系數(shù)設(shè)置為0.005。

在數(shù)學(xué)推理、代碼生成、指令遵循的基準測試中進行性能評估,結(jié)果如圖所示:



實驗表明,在通過INTUITOR進行微調(diào)后,Qwen2.5-1.5B從最初只會輸出重復(fù)的無意義內(nèi)容且對話任務(wù)得分均低于10%,轉(zhuǎn)變?yōu)闊o效輸出大幅減少、響應(yīng)長度有效增加。



在結(jié)構(gòu)化推理能力上,團隊還發(fā)現(xiàn)INTUITOR早期學(xué)習(xí)速度更快,如Qwen2.5-3B在GSM8K基準測試上INTUITOR(0.811)始終優(yōu)于GRPO(0.758)



此外,INTUITOR在多任務(wù)泛化上也表現(xiàn)優(yōu)秀,例如當(dāng)Qwen2.5-3B在代碼生成任務(wù)上,雖然相對滯后但持續(xù)增長,最終性能比GRPO高8%,相對提升65%



同時團隊還觀察到,在進行長鏈推理時,INTUITOR模型在生成完整代碼前,都會添加自然語言推理(如“為解決X問題,需先執(zhí)行Y步驟”),據(jù)推測也許這就是INTUITOR能夠在測試中始終表現(xiàn)出色的原因之一。

它的演進過程大概可以描述為三個階段:

  1. 模型學(xué)會生成代碼,實現(xiàn)準確率提升和無效響應(yīng)減少。
  2. 進行代碼前推理以促進自我理解。
  3. 逐步細化生成帶詳細推理的有效代碼。



為了評估自我確定度作為獎勵的魯棒性,研究人員還將離線自我確定度(來自固定基礎(chǔ)模型的獎勵)與在線自我確定度(來自不斷進化的策略模型的獎勵)進行了比較。



另外為進一步評估自我確定度作為獎勵信號的質(zhì)量,研究人員還分析了模型在MATH500響應(yīng)中生成的自我確定度分數(shù)分布。

值得注意的是,INTUITOR模型對正確答案的self-certainty顯著更高,而GRPO雖提升了模型自評能力,但區(qū)分度明顯低于INTUITOR。



由于受計算資源限制,實驗只在相對較小的無監(jiān)督語料庫上進行訓(xùn)練,未來可在更大規(guī)模的基礎(chǔ)模型和更多樣化的真實世界數(shù)據(jù)集上進一步研究INTUITOR的優(yōu)勢。

團隊介紹

本項研究來自UC Berkeley的Sergey Levine、宋曉東團隊,作者一共有五位,分別是第一作者博士后研究員Xuandong Zhao、共同一作本科生Zhewei Kang、來自耶魯大學(xué)的Aosong Feng,以及Sergey Levine和Dawn Song。



2019年,Xuandong Zhao從浙江大學(xué)畢業(yè)后,就進入了加州大學(xué)圣塔芭芭拉分校攻讀計算機科學(xué)博士學(xué)位,期間還曾在阿里巴巴、Microsoft和Google等公司實習(xí)。

自2024年他進入UC Berkeley后,除本次的新成果外,至今一共還發(fā)表過十多篇論文,并先后被ICLR 2025、ICML 2025等接收。



另外在今年2月,Xuandong Zhao和Zhewei Kang還合作發(fā)表了一篇論文,描述了基于自我確定性的LLMs推理能力提升新策略Best-of-N,可以看作是本篇論文的一次先驗嘗試。



論文鏈接:https://arxiv.org/abs/2505.19590
代碼鏈接:https://github.com/sunblaze-ucb/Intuitor

參考鏈接:
[1]https://x.com/joshclemm/status/1927400772817285264
[2]https://x.com/xuandongzhao/status/1927270931874910259

[3]https://x.com/xuandongzhao/status/192778163679341780
[4]https://arxiv.org/abs/2502.18581

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
玥兒回北京過端午,穿裙子特別像大S,手提裙子蹦跳超級可愛

玥兒回北京過端午,穿裙子特別像大S,手提裙子蹦跳超級可愛

東方不敗然多多
2025-05-31 16:59:52
12歲女孩遭繼母拘禁衛(wèi)生間虐待17天致死,生父知情不救反提供1600片瀉藥,生母發(fā)聲

12歲女孩遭繼母拘禁衛(wèi)生間虐待17天致死,生父知情不救反提供1600片瀉藥,生母發(fā)聲

揚子晚報
2025-05-31 08:10:03
霉霉出街造型翻車!盡顯大媽感

霉霉出街造型翻車!盡顯大媽感

述家娛記
2025-05-31 08:21:59
鄭欽文明日沖8強!第4輪對手確定:19號種子創(chuàng)紀錄,交手戰(zhàn)績占優(yōu)

鄭欽文明日沖8強!第4輪對手確定:19號種子創(chuàng)紀錄,交手戰(zhàn)績占優(yōu)

劉姚堯的文字城堡
2025-05-31 07:00:40
排名公布,王曼昱升至世界第一!

排名公布,王曼昱升至世界第一!

好乒乓
2025-05-31 07:41:02
縣委書記花費上千萬元,建了10個豪華廁所,“裝有空調(diào)、wifi、音箱等”!當(dāng)?shù)卦巧疃蓉毨Эh!紀委通報:勞民傷財

縣委書記花費上千萬元,建了10個豪華廁所,“裝有空調(diào)、wifi、音箱等”!當(dāng)?shù)卦巧疃蓉毨Эh!紀委通報:勞民傷財

每日經(jīng)濟新聞
2025-05-31 00:38:21
82年探親路上我舍命救下一女兵,歸隊第二天上級把我叫到辦公室

82年探親路上我舍命救下一女兵,歸隊第二天上級把我叫到辦公室

蕭竹輕語
2025-05-27 10:40:52
爆料: 賈巴里-史密斯基本已告別下賽季火箭陣容

爆料: 賈巴里-史密斯基本已告別下賽季火箭陣容

隱于山海
2025-05-31 16:06:44
曼聯(lián)37歲老將正式退役,英超冠軍陣容全部告別!弗爵52年紀錄終結(jié)

曼聯(lián)37歲老將正式退役,英超冠軍陣容全部告別!弗爵52年紀錄終結(jié)

羅米的曼聯(lián)博客
2025-05-31 10:59:23
網(wǎng)友們終于明白為什么全世界離不開美國了

網(wǎng)友們終于明白為什么全世界離不開美國了

清暉有墨
2025-05-25 23:48:03
官宣!東決G6傷情報告出爐,哈利伯頓沒有退路,NBA需要搶七

官宣!東決G6傷情報告出爐,哈利伯頓沒有退路,NBA需要搶七

世界體育圈
2025-05-31 12:14:10
亞錦賽女子200米:16歲陳妤頡22秒97刷新PB奪金,李玉婷季軍

亞錦賽女子200米:16歲陳妤頡22秒97刷新PB奪金,李玉婷季軍

懂球帝
2025-05-31 16:51:09
北京一大學(xué)教授的家火了,將次臥改成茶室,那叫一個有品位,曬曬

北京一大學(xué)教授的家火了,將次臥改成茶室,那叫一個有品位,曬曬

阿離家居
2025-05-31 17:14:45
寧夏銀川富洋燒烤店“6·21”特別重大燃氣爆炸事故涉刑事案件一審宣判

寧夏銀川富洋燒烤店“6·21”特別重大燃氣爆炸事故涉刑事案件一審宣判

新京報
2025-05-30 10:40:02
為什么孩子大了必須分房睡?看完分享,不分開睡,分分鐘社死!

為什么孩子大了必須分房睡?看完分享,不分開睡,分分鐘社死!

墻頭草
2025-05-31 09:45:07
劉璇為老公慶48歲生日,一家四口都好看!他是中央音樂學(xué)院教授。

劉璇為老公慶48歲生日,一家四口都好看!他是中央音樂學(xué)院教授。

草莓解說體育
2025-05-31 17:00:02
警惕!這種房子正在暴跌 50%,買了就成接盤俠

警惕!這種房子正在暴跌 50%,買了就成接盤俠

阿離家居
2025-05-31 11:35:44
兩個標志性人物,一個自殺,一個被抓,預(yù)示著一個時代的結(jié)束

兩個標志性人物,一個自殺,一個被抓,預(yù)示著一個時代的結(jié)束

貓眼觀史
2025-05-29 23:24:30
海南一社區(qū)多次上門催居民繳納養(yǎng)老保險,社區(qū):只是宣傳補繳政策

海南一社區(qū)多次上門催居民繳納養(yǎng)老保險,社區(qū):只是宣傳補繳政策

映射生活的身影
2025-05-30 23:53:30
洗頭可能影響壽命?再次提醒:60歲以后,牢記洗頭“4不要”

洗頭可能影響壽命?再次提醒:60歲以后,牢記洗頭“4不要”

華人星光
2025-05-10 11:43:08
2025-05-31 21:07:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
10599文章數(shù) 176159關(guān)注度
往期回顧 全部

科技要聞

1小時大定破千,余承東:尊界S800是個開端

頭條要聞

老人把3600萬豪宅堆滿垃圾"逼瘋"鄰居 有人已賣房搬離

頭條要聞

老人把3600萬豪宅堆滿垃圾"逼瘋"鄰居 有人已賣房搬離

體育要聞

亞錦賽女子200米:16歲陳妤頡22秒97奪金

娛樂要聞

54歲的于和偉再度提名白玉蘭獎視帝

財經(jīng)要聞

中汽協(xié)倡議:反對“內(nèi)卷式”惡性競爭

汽車要聞

續(xù)航超1000km/增程動力 上汽大眾ID.ERA深圳車展亮相

態(tài)度原創(chuàng)

家居
數(shù)碼
本地
游戲
公開課

家居要聞

原木純白 邂逅自然本真

數(shù)碼要聞

小米 REDMI 顯示器 G27 開售:200Hz 刷新率,669 元

本地新聞

云游中國 |來仰天湖大草原,一起策馬奔騰

《戰(zhàn)地》新作要有大動作了?或于6月開啟大規(guī)模測試

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 射阳县| 泾源县| 龙川县| 米林县| 隆昌县| 沅江市| 东阳市| 青浦区| 清新县| 潜江市| 邵阳县| 井研县| 云浮市| 瑞金市| 苍南县| 盐城市| 二连浩特市| 福清市| 塔河县| 陵川县| 乌鲁木齐县| 北京市| 耿马| 唐海县| 保亭| 察雅县| 慈利县| 博野县| 丹棱县| 电白县| 海伦市| 浦县| 庆元县| 定兴县| 开江县| 洞头县| 武隆县| 抚松县| 昂仁县| 惠安县| 重庆市|