99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI僅憑“自信”學(xué)會(huì)推理,浙大校友復(fù)刻DeepSeek長(zhǎng)思維鏈涌現(xiàn)

0
分享至

夢(mèng)晨 鷺羽 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

復(fù)刻DeepSeek-R1的長(zhǎng)思維鏈推理,大模型強(qiáng)化學(xué)習(xí)新范式RLIF成熱門話題。

UC Berkeley團(tuán)隊(duì)共同一作Xuandong Zhao把這項(xiàng)成果稱為:

大模型無(wú)需接觸真實(shí)答案,僅通過(guò)優(yōu)化自己的信心,就能學(xué)會(huì)復(fù)雜推理。



具體來(lái)說(shuō),新方法完全不需要外部獎(jiǎng)勵(lì)信號(hào)或標(biāo)注數(shù)據(jù),只需使用模型自身的置信程度作為內(nèi)在獎(jiǎng)勵(lì)信號(hào)。

與使用外部獎(jiǎng)勵(lì)信號(hào)GRPO相比,新方法在數(shù)學(xué)任務(wù)上不需要標(biāo)準(zhǔn)答案也能提升基礎(chǔ)模型性能,在代碼任務(wù)上表現(xiàn)得更好。



幾乎同一時(shí)間,另外一篇論文《RENT: Reinforcement Learning via Entropy Minimization》也驗(yàn)證了相似的結(jié)論。



作者表示兩者的主要區(qū)別在于使用KL散度最小化熵衡量自信程度。



Dropbox工程副總裁看后表示:Confidence is all you need



“自信”驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)

長(zhǎng)期以來(lái),訓(xùn)練大模型主要依賴兩種方式:

要么需要大量人工標(biāo)注(如ChatGPT的RLHF),要么需要可驗(yàn)證的標(biāo)準(zhǔn)答案(如DeepSeek的RLVR)。

前者成本高昂且可能引入偏見(jiàn),后者則局限于數(shù)學(xué)、編程等有明確答案的領(lǐng)域。

那么當(dāng)AI能力逐漸接近甚至超越人類時(shí),能否讓模型僅憑自身產(chǎn)生的內(nèi)在信號(hào),擺脫對(duì)外部監(jiān)督的依賴?

針對(duì)這個(gè)問(wèn)題,UC Berkeley團(tuán)隊(duì)提出新訓(xùn)練方法Intuitor,計(jì)算模型預(yù)測(cè)分布與均勻分布之間的KL散度作為“自信程度”。



相當(dāng)于人類做題時(shí),如果對(duì)答案有把握思路也會(huì)更清晰,當(dāng)自信不足的時(shí)候往往需要重新思考。

通過(guò)優(yōu)化這個(gè)內(nèi)在信號(hào),INTUITOR鼓勵(lì)模型生成它自己”更有把握”的回答,也能促使模型生成更結(jié)構(gòu)化的推理過(guò)程。

在實(shí)驗(yàn)中,1.5B和3B的小模型也涌現(xiàn)出與DeepSeek-R1類似的長(zhǎng)思維鏈推理行為。



論文還指出,內(nèi)在獎(jiǎng)勵(lì)信號(hào)還獲得一個(gè)額外的好處:從機(jī)制上降低了“獎(jiǎng)勵(lì)黑客”的風(fēng)險(xiǎn)

傳統(tǒng)外部獎(jiǎng)勵(lì)信號(hào)的強(qiáng)化學(xué)習(xí)容易被“鉆空子”,如模型可能生成語(yǔ)法正確但邏輯錯(cuò)誤的代碼來(lái)匹配測(cè)試用例,或在數(shù)學(xué)題中直接背答案而非推理。

在INTUITOR中,團(tuán)隊(duì)發(fā)現(xiàn)如果使用離線學(xué)習(xí),在訓(xùn)練約100步的時(shí)候模型也學(xué)會(huì)了作弊:在回答中附加一個(gè)已經(jīng)解決的簡(jiǎn)單問(wèn)題來(lái)提高自信度分?jǐn)?shù)。

但使用在線學(xué)習(xí)就可以避免這個(gè)問(wèn)題,評(píng)估標(biāo)準(zhǔn)隨著模型能力一起進(jìn)化,作弊策略變得無(wú)效。



實(shí)驗(yàn)結(jié)果:不僅會(huì)做題,還會(huì)舉一反三

團(tuán)隊(duì)首先實(shí)證研究了INTUITOR框架對(duì)LLMs數(shù)學(xué)推理能力的提升。

實(shí)驗(yàn)選取Qwen2.5-1.5B/3B作為基礎(chǔ)模型,使用自我確定度作為唯一的獎(jiǎng)勵(lì)信號(hào),并將其分別置于INTUITOR和兩個(gè)基線方法(GRPO、GRPO-PV)在MATH數(shù)據(jù)集的預(yù)訓(xùn)練中。

使用對(duì)話提示,每次處理128道題目并各生成7個(gè)候選解決方案,KL懲罰系數(shù)設(shè)置為0.005。

在數(shù)學(xué)推理、代碼生成、指令遵循的基準(zhǔn)測(cè)試中進(jìn)行性能評(píng)估,結(jié)果如圖所示:



實(shí)驗(yàn)表明,在通過(guò)INTUITOR進(jìn)行微調(diào)后,Qwen2.5-1.5B從最初只會(huì)輸出重復(fù)的無(wú)意義內(nèi)容且對(duì)話任務(wù)得分均低于10%,轉(zhuǎn)變?yōu)闊o(wú)效輸出大幅減少、響應(yīng)長(zhǎng)度有效增加。



在結(jié)構(gòu)化推理能力上,團(tuán)隊(duì)還發(fā)現(xiàn)INTUITOR早期學(xué)習(xí)速度更快,如Qwen2.5-3B在GSM8K基準(zhǔn)測(cè)試上INTUITOR(0.811)始終優(yōu)于GRPO(0.758)



此外,INTUITOR在多任務(wù)泛化上也表現(xiàn)優(yōu)秀,例如當(dāng)Qwen2.5-3B在代碼生成任務(wù)上,雖然相對(duì)滯后但持續(xù)增長(zhǎng),最終性能比GRPO高8%,相對(duì)提升65%



同時(shí)團(tuán)隊(duì)還觀察到,在進(jìn)行長(zhǎng)鏈推理時(shí),INTUITOR模型在生成完整代碼前,都會(huì)添加自然語(yǔ)言推理(如“為解決X問(wèn)題,需先執(zhí)行Y步驟”),據(jù)推測(cè)也許這就是INTUITOR能夠在測(cè)試中始終表現(xiàn)出色的原因之一。

它的演進(jìn)過(guò)程大概可以描述為三個(gè)階段:

  1. 模型學(xué)會(huì)生成代碼,實(shí)現(xiàn)準(zhǔn)確率提升和無(wú)效響應(yīng)減少。
  2. 進(jìn)行代碼前推理以促進(jìn)自我理解。
  3. 逐步細(xì)化生成帶詳細(xì)推理的有效代碼。



為了評(píng)估自我確定度作為獎(jiǎng)勵(lì)的魯棒性,研究人員還將離線自我確定度(來(lái)自固定基礎(chǔ)模型的獎(jiǎng)勵(lì))與在線自我確定度(來(lái)自不斷進(jìn)化的策略模型的獎(jiǎng)勵(lì))進(jìn)行了比較。



另外為進(jìn)一步評(píng)估自我確定度作為獎(jiǎng)勵(lì)信號(hào)的質(zhì)量,研究人員還分析了模型在MATH500響應(yīng)中生成的自我確定度分?jǐn)?shù)分布。

值得注意的是,INTUITOR模型對(duì)正確答案的self-certainty顯著更高,而GRPO雖提升了模型自評(píng)能力,但區(qū)分度明顯低于INTUITOR。



由于受計(jì)算資源限制,實(shí)驗(yàn)只在相對(duì)較小的無(wú)監(jiān)督語(yǔ)料庫(kù)上進(jìn)行訓(xùn)練,未來(lái)可在更大規(guī)模的基礎(chǔ)模型和更多樣化的真實(shí)世界數(shù)據(jù)集上進(jìn)一步研究INTUITOR的優(yōu)勢(shì)。

團(tuán)隊(duì)介紹

本項(xiàng)研究來(lái)自UC Berkeley的Sergey Levine、宋曉東團(tuán)隊(duì),作者一共有五位,分別是第一作者博士后研究員Xuandong Zhao、共同一作本科生Zhewei Kang、來(lái)自耶魯大學(xué)的Aosong Feng,以及Sergey Levine和Dawn Song。



2019年,Xuandong Zhao從浙江大學(xué)畢業(yè)后,就進(jìn)入了加州大學(xué)圣塔芭芭拉分校攻讀計(jì)算機(jī)科學(xué)博士學(xué)位,期間還曾在阿里巴巴、Microsoft和Google等公司實(shí)習(xí)。

自2024年他進(jìn)入U(xiǎn)C Berkeley后,除本次的新成果外,至今一共還發(fā)表過(guò)十多篇論文,并先后被ICLR 2025、ICML 2025等接收。



另外在今年2月,Xuandong Zhao和Zhewei Kang還合作發(fā)表了一篇論文,描述了基于自我確定性的LLMs推理能力提升新策略Best-of-N,可以看作是本篇論文的一次先驗(yàn)嘗試。



論文鏈接:https://arxiv.org/abs/2505.19590
代碼鏈接:https://github.com/sunblaze-ucb/Intuitor

參考鏈接:
[1]https://x.com/joshclemm/status/1927400772817285264
[2]https://x.com/xuandongzhao/status/1927270931874910259

[3]https://x.com/xuandongzhao/status/192778163679341780
[4]https://arxiv.org/abs/2502.18581

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
三十年前的國(guó)產(chǎn)手提機(jī)箱,閑魚(yú)就這一臺(tái),開(kāi)價(jià)高達(dá)450元

三十年前的國(guó)產(chǎn)手提機(jī)箱,閑魚(yú)就這一臺(tái),開(kāi)價(jià)高達(dá)450元

數(shù)碼辣條
2025-05-06 17:42:49
“陪讀媽媽”=亂倫?

“陪讀媽媽”=亂倫?

法律讀品
2025-05-26 19:39:53
美娜緋聞?dòng)萦遥浺舳汲鰜?lái)了,當(dāng)事人卻依舊保持沉默!

美娜緋聞?dòng)萦遥浺舳汲鰜?lái)了,當(dāng)事人卻依舊保持沉默!

浪子阿邴聊體育
2025-05-30 09:49:56
家中的床不可空置?觀音菩薩說(shuō):無(wú)人睡時(shí),也要擺放這3樣物品

家中的床不可空置?觀音菩薩說(shuō):無(wú)人睡時(shí),也要擺放這3樣物品

風(fēng)起青萍之未
2025-05-27 17:23:24
廣東虎門鎮(zhèn)"5·19"事故,車上5人已死亡,官方通報(bào):司機(jī)超速行駛

廣東虎門鎮(zhèn)"5·19"事故,車上5人已死亡,官方通報(bào):司機(jī)超速行駛

說(shuō)點(diǎn)真嘞叭
2025-05-30 02:42:08
28歲山東美女黃圓圓去世!去年登記結(jié)婚,老公持結(jié)婚證墳頭悼念

28歲山東美女黃圓圓去世!去年登記結(jié)婚,老公持結(jié)婚證墳頭悼念

裕豐娛間說(shuō)
2025-05-30 00:15:58
宇樹(shù)科技,大消息!

宇樹(shù)科技,大消息!

中國(guó)基金報(bào)
2025-05-29 21:11:55
全球首個(gè)!國(guó)際調(diào)解院在香港成立,王毅出席,美英法德失聲

全球首個(gè)!國(guó)際調(diào)解院在香港成立,王毅出席,美英法德失聲

小鬼頭體育
2025-05-30 12:39:45
“強(qiáng)悍小透明”真我Neo7 Turbo正式發(fā)布,國(guó)補(bǔ)到手1699.15元起

“強(qiáng)悍小透明”真我Neo7 Turbo正式發(fā)布,國(guó)補(bǔ)到手1699.15元起

礪石商業(yè)評(píng)論
2025-05-29 15:03:52
午后!中國(guó)股市,突傳重磅!

午后!中國(guó)股市,突傳重磅!

券商中國(guó)
2025-05-30 15:17:45
隱形“嘌呤大戶”被揪出!不想尿酸升高,這4種食物少碰

隱形“嘌呤大戶”被揪出!不想尿酸升高,這4種食物少碰

39健康網(wǎng)
2025-05-28 20:30:39
榮梓杉發(fā)文報(bào)平安:感謝大家的關(guān)心,目前狀況良好

榮梓杉發(fā)文報(bào)平安:感謝大家的關(guān)心,目前狀況良好

大象新聞
2025-05-30 10:33:15
5月30日養(yǎng)老金又要漲錢啦!2025年7月前補(bǔ)發(fā),這兩類人暫時(shí)不參與

5月30日養(yǎng)老金又要漲錢啦!2025年7月前補(bǔ)發(fā),這兩類人暫時(shí)不參與

山藥蛋TV
2025-05-30 11:01:21
大快人心!浙江重拳出擊,將27名專家除名,其中24人將“吃牢飯”

大快人心!浙江重拳出擊,將27名專家除名,其中24人將“吃牢飯”

奇思妙想草葉君
2025-05-30 01:30:06
魯比奧宣布撤銷中國(guó)學(xué)生簽證,27萬(wàn)7398人直接受影響

魯比奧宣布撤銷中國(guó)學(xué)生簽證,27萬(wàn)7398人直接受影響

史書(shū)無(wú)明
2025-05-29 12:50:36
最近距離只剩下36海里!浙江外海發(fā)生激烈對(duì)峙!美軍艦機(jī)逼近臺(tái)州

最近距離只剩下36海里!浙江外海發(fā)生激烈對(duì)峙!美軍艦機(jī)逼近臺(tái)州

阿芒娛樂(lè)說(shuō)
2025-05-30 09:24:41
蔚來(lái)午后跌逾5%

蔚來(lái)午后跌逾5%

每日經(jīng)濟(jì)新聞
2025-05-30 13:48:04
中產(chǎn)破產(chǎn)五件套,看你中了幾個(gè)?

中產(chǎn)破產(chǎn)五件套,看你中了幾個(gè)?

流蘇晚晴
2025-05-21 19:48:46
5月31端午節(jié),“3菜不上桌,福氣不進(jìn)門”別忘準(zhǔn)備

5月31端午節(jié),“3菜不上桌,福氣不進(jìn)門”別忘準(zhǔn)備

美食格物
2025-05-30 16:49:14
斯派克·李:我愿用奧斯卡獎(jiǎng)杯換尼克斯奪冠,巴克利:那你留著吧

斯派克·李:我愿用奧斯卡獎(jiǎng)杯換尼克斯奪冠,巴克利:那你留著吧

雷速體育
2025-05-30 13:43:14
2025-05-30 17:16:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
10595文章數(shù) 176158關(guān)注度
往期回顧 全部

科技要聞

榮耀新CEO放話:下半年重返前三,靠譜嗎?

頭條要聞

銷量承壓下寶馬重回"價(jià)格戰(zhàn)" 5系裸車價(jià)最低跌至26萬(wàn)

頭條要聞

銷量承壓下寶馬重回"價(jià)格戰(zhàn)" 5系裸車價(jià)最低跌至26萬(wàn)

體育要聞

當(dāng)我終于回國(guó)時(shí),可能已認(rèn)不出我的家

娛樂(lè)要聞

趙麗穎新劇撲街?演技扛劇能力遭質(zhì)疑

財(cái)經(jīng)要聞

美國(guó)政府殺瘋了,全世界目瞪口呆

汽車要聞

可城能野更智能 猛士M817把硬派SUV玩出花

態(tài)度原創(chuàng)

時(shí)尚
手機(jī)
藝術(shù)
健康
軍事航空

中年女人夏季別亂買衣服,襯衫、闊腿褲、過(guò)膝裙,好搭不過(guò)時(shí)

手機(jī)要聞

華為Pura 80系列即將官宣 博主:視頻拍攝強(qiáng)得可怕

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫(xiě)法

唇皰疹和口腔潰瘍是"同伙"嗎?

軍事要聞

金正恩:朝鮮炮兵部隊(duì)具備實(shí)戰(zhàn)能力

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 镇坪县| 肇源县| 同仁县| 额济纳旗| 普陀区| 桃园市| 灌云县| 惠水县| 平利县| 城口县| 禄丰县| 会宁县| 徐汇区| 汉寿县| 万源市| 大埔县| 濮阳市| 即墨市| 泉州市| 曲阳县| 新营市| 大关县| 宁远县| 仙居县| 乌拉特前旗| 肥西县| 东平县| 呼和浩特市| 泽库县| 黄山市| 乌兰浩特市| 桃园县| 汶川县| 浦城县| 武威市| 从化市| 临江市| 谢通门县| 郴州市| 平安县| 平原县|