99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

AI僅憑“自信”學會推理,浙大校友復刻DeepSeek長思維鏈涌現

0
分享至

夢晨 鷺羽 發自 凹非寺
量子位 | 公眾號 QbitAI

復刻DeepSeek-R1的長思維鏈推理,大模型強化學習新范式RLIF成熱門話題。

UC Berkeley團隊共同一作Xuandong Zhao把這項成果稱為:

大模型無需接觸真實答案,僅通過優化自己的信心,就能學會復雜推理。



具體來說,新方法完全不需要外部獎勵信號或標注數據,只需使用模型自身的置信程度作為內在獎勵信號。

與使用外部獎勵信號GRPO相比,新方法在數學任務上不需要標準答案也能提升基礎模型性能,在代碼任務上表現得更好。



幾乎同一時間,另外一篇論文《RENT: Reinforcement Learning via Entropy Minimization》也驗證了相似的結論。



作者表示兩者的主要區別在于使用KL散度最小化熵衡量自信程度。



Dropbox工程副總裁看后表示:Confidence is all you need。



“自信”驅動的強化學習

長期以來,訓練大模型主要依賴兩種方式:

要么需要大量人工標注(如ChatGPT的RLHF),要么需要可驗證的標準答案(如DeepSeek的RLVR)。

前者成本高昂且可能引入偏見,后者則局限于數學、編程等有明確答案的領域。

那么當AI能力逐漸接近甚至超越人類時,能否讓模型僅憑自身產生的內在信號,擺脫對外部監督的依賴?

針對這個問題,UC Berkeley團隊提出新訓練方法Intuitor,計算模型預測分布與均勻分布之間的KL散度作為“自信程度”。



相當于人類做題時,如果對答案有把握思路也會更清晰,當自信不足的時候往往需要重新思考。

通過優化這個內在信號,INTUITOR鼓勵模型生成它自己”更有把握”的回答,也能促使模型生成更結構化的推理過程。

在實驗中,1.5B和3B的小模型也涌現出與DeepSeek-R1類似的長思維鏈推理行為。



論文還指出,內在獎勵信號還獲得一個額外的好處:從機制上降低了“獎勵黑客”的風險。

傳統外部獎勵信號的強化學習容易被“鉆空子”,如模型可能生成語法正確但邏輯錯誤的代碼來匹配測試用例,或在數學題中直接背答案而非推理。

在INTUITOR中,團隊發現如果使用離線學習,在訓練約100步的時候模型也學會了作弊:在回答中附加一個已經解決的簡單問題來提高自信度分數。

但使用在線學習就可以避免這個問題,評估標準隨著模型能力一起進化,作弊策略變得無效。



實驗結果:不僅會做題,還會舉一反三

團隊首先實證研究了INTUITOR框架對LLMs數學推理能力的提升。

實驗選取Qwen2.5-1.5B/3B作為基礎模型,使用自我確定度作為唯一的獎勵信號,并將其分別置于INTUITOR和兩個基線方法(GRPO、GRPO-PV)在MATH數據集的預訓練中。

使用對話提示,每次處理128道題目并各生成7個候選解決方案,KL懲罰系數設置為0.005。

在數學推理、代碼生成、指令遵循的基準測試中進行性能評估,結果如圖所示:



實驗表明,在通過INTUITOR進行微調后,Qwen2.5-1.5B從最初只會輸出重復的無意義內容且對話任務得分均低于10%,轉變為無效輸出大幅減少、響應長度有效增加。



在結構化推理能力上,團隊還發現INTUITOR早期學習速度更快,如Qwen2.5-3B在GSM8K基準測試上INTUITOR(0.811)始終優于GRPO(0.758)。



此外,INTUITOR在多任務泛化上也表現優秀,例如當Qwen2.5-3B在代碼生成任務上,雖然相對滯后但持續增長,最終性能比GRPO高8%,相對提升65%。



同時團隊還觀察到,在進行長鏈推理時,INTUITOR模型在生成完整代碼前,都會添加自然語言推理(如“為解決X問題,需先執行Y步驟”),據推測也許這就是INTUITOR能夠在測試中始終表現出色的原因之一。

它的演進過程大概可以描述為三個階段:

  1. 模型學會生成代碼,實現準確率提升和無效響應減少。
  2. 進行代碼前推理以促進自我理解。
  3. 逐步細化生成帶詳細推理的有效代碼。



為了評估自我確定度作為獎勵的魯棒性,研究人員還將離線自我確定度(來自固定基礎模型的獎勵)與在線自我確定度(來自不斷進化的策略模型的獎勵)進行了比較。



另外為進一步評估自我確定度作為獎勵信號的質量,研究人員還分析了模型在MATH500響應中生成的自我確定度分數分布。

值得注意的是,INTUITOR模型對正確答案的self-certainty顯著更高,而GRPO雖提升了模型自評能力,但區分度明顯低于INTUITOR。



由于受計算資源限制,實驗只在相對較小的無監督語料庫上進行訓練,未來可在更大規模的基礎模型和更多樣化的真實世界數據集上進一步研究INTUITOR的優勢。

團隊介紹

本項研究來自UC Berkeley的Sergey Levine、宋曉東團隊,作者一共有五位,分別是第一作者博士后研究員Xuandong Zhao、共同一作本科生Zhewei Kang、來自耶魯大學的Aosong Feng,以及Sergey Levine和Dawn Song。



2019年,Xuandong Zhao從浙江大學畢業后,就進入了加州大學圣塔芭芭拉分校攻讀計算機科學博士學位,期間還曾在阿里巴巴、Microsoft和Google等公司實習。

自2024年他進入UC Berkeley后,除本次的新成果外,至今一共還發表過十多篇論文,并先后被ICLR 2025、ICML 2025等接收。



另外在今年2月,Xuandong Zhao和Zhewei Kang還合作發表了一篇論文,描述了基于自我確定性的LLMs推理能力提升新策略Best-of-N,可以看作是本篇論文的一次先驗嘗試。



論文鏈接:https://arxiv.org/abs/2505.19590
代碼鏈接:https://github.com/sunblaze-ucb/Intuitor

參考鏈接:
[1]https://x.com/joshclemm/status/1927400772817285264
[2]https://x.com/xuandongzhao/status/1927270931874910259

[3]https://x.com/xuandongzhao/status/192778163679341780
[4]https://arxiv.org/abs/2502.18581

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中國賣巴鐵殲-35這招,堪稱頂級陽謀,印度接不接招都必輸無疑

中國賣巴鐵殲-35這招,堪稱頂級陽謀,印度接不接招都必輸無疑

頭條爆料007
2025-06-07 15:01:36
哈利伯頓談外界質疑:我的投籃確實有些另類,很多人只看數據統計

哈利伯頓談外界質疑:我的投籃確實有些另類,很多人只看數據統計

雷速體育
2025-06-08 07:25:11
老燕子李連杰和外星人的瓜!

老燕子李連杰和外星人的瓜!

八卦瘋叔
2025-06-07 11:13:53
單依純改編《李白》獲第二,丁太升銳評:念白令人尷尬到爆的low;本人回應“單依純瘋了”

單依純改編《李白》獲第二,丁太升銳評:念白令人尷尬到爆的low;本人回應“單依純瘋了”

魯中晨報
2025-06-07 14:08:03
樊振東,王曼昱抵達!小胖首秀遇內戰王,還將遇到林高遠,王楚欽

樊振東,王曼昱抵達!小胖首秀遇內戰王,還將遇到林高遠,王楚欽

郝小小看體育
2025-06-08 12:56:44
媒體人:布拉德利父親表示兒子將在總決賽G3復出

媒體人:布拉德利父親表示兒子將在總決賽G3復出

雷速體育
2025-06-07 20:16:34
今年“最勇”考生,襄陽一男生沖出考場時歡呼:數學太簡單啦!

今年“最勇”考生,襄陽一男生沖出考場時歡呼:數學太簡單啦!

愛下廚的阿椅
2025-06-08 09:40:16
遼寧養老金調整將開始,歷年定額標準,養老金3000元能漲100嗎?

遼寧養老金調整將開始,歷年定額標準,養老金3000元能漲100嗎?

虎哥閑聊
2025-06-08 10:04:25
“嚴查違規吃喝”妨害“提振消費”嗎?

“嚴查違規吃喝”妨害“提振消費”嗎?

古裝影視解說阿兇
2025-06-08 10:37:36
ATP挑戰賽泰勒站半決賽:吳易昺2-0巴西選手塞爾,成功闖入決賽

ATP挑戰賽泰勒站半決賽:吳易昺2-0巴西選手塞爾,成功闖入決賽

直播吧
2025-06-08 12:21:24
今天沖擊荷蘭杯賽四強!中國足球小將平葡體勝布魯日&1勝3平

今天沖擊荷蘭杯賽四強!中國足球小將平葡體勝布魯日&1勝3平

直播吧
2025-06-08 11:40:46
廣州華師附中考點第一名完考學生走出考場:是復讀生,感覺今年語文卷變化很大

廣州華師附中考點第一名完考學生走出考場:是復讀生,感覺今年語文卷變化很大

極目新聞
2025-06-07 12:20:24
高芙首奪冠彌補遺憾,薩巴發布會與美國人結梁子,中國人包攬冠亞

高芙首奪冠彌補遺憾,薩巴發布會與美國人結梁子,中國人包攬冠亞

網球之家
2025-06-08 12:30:48
震驚!南方醫科大學,塌方式腐??!

震驚!南方醫科大學,塌方式腐?。?/a>

柳葉刀學術
2025-06-07 20:38:43
27歲男子發完朋友圈后跳橋,警方通報:經搶救無效死亡

27歲男子發完朋友圈后跳橋,警方通報:經搶救無效死亡

揚子晚報
2025-06-07 20:17:36
不建議中年男人穿的3種“夏褲”,以為洋氣,實際“大叔味”很重

不建議中年男人穿的3種“夏褲”,以為洋氣,實際“大叔味”很重

時尚穿搭生活館
2025-06-07 22:45:02
2-2被補時絕平!18強賽最差球隊誕生,9輪0勝僅積3分,比國足還慘

2-2被補時絕平!18強賽最差球隊誕生,9輪0勝僅積3分,比國足還慘

侃球熊弟
2025-06-08 00:38:48
Shams:灰熊中鋒埃迪將接受左腳踝手術 很可能缺席下賽季初段比賽

Shams:灰熊中鋒埃迪將接受左腳踝手術 很可能缺席下賽季初段比賽

直播吧
2025-06-08 03:09:12
笑死人!河北一業主把房賣了,妄圖讓物業把預交1000多元費用討回

笑死人!河北一業主把房賣了,妄圖讓物業把預交1000多元費用討回

火山詩話
2025-06-08 13:44:13
爆冷1分惜敗,意外2分惜??!聯盟霸主別再大意,總冠軍有懸念了

爆冷1分惜敗,意外2分惜?。÷撁税灾鲃e再大意,總冠軍有懸念了

世界體育圈
2025-06-08 11:00:31
2025-06-08 15:28:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10613文章數 176163關注度
往期回顧 全部

科技要聞

馬斯克"越紅線",美政府急尋SpaceX替代品

頭條要聞

24歲頻繁改名小伙參加高考 稱猜對作文題預估可得40分

頭條要聞

24歲頻繁改名小伙參加高考 稱猜對作文題預估可得40分

體育要聞

冠軍高芙:只要專注自己 太陽就會照常升起

娛樂要聞

結婚15年紀念!孫儷發長文談夫妻感情

財經要聞

暴漲超9%!白銀狂飆,“搶奪”黃金光環!

汽車要聞

復古造型樂趣依舊 寶馬R12 nineT又帥又好騎

態度原創

旅游
教育
藝術
房產
公開課

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

教育要聞

2025年河南高考數學考試結束考生:發揮正常水平 不對自己要求太高

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

房產要聞

與亞沙共鑒,新城藝境|三亞新地標盛大啟幕暨限量藏品全球首發

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 民县| 舞钢市| 栾川县| 白山市| 郯城县| 攀枝花市| 深泽县| 仙游县| 宝鸡市| 衡水市| 嘉峪关市| 龙井市| 井冈山市| 丰都县| 元谋县| 青河县| 手游| 阿城市| 黑龙江省| 页游| 花莲市| 玉田县| 石棉县| 宜章县| 根河市| 阜平县| 泾阳县| 古田县| 吴桥县| 灵寿县| 全州县| 云和县| 三河市| 惠州市| 上虞市| 晋州市| 会泽县| 获嘉县| 紫云| 旺苍县| 霍林郭勒市|