99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

微軟分享三大王炸算法:突破大模型推理瓶頸,性能大漲

0
分享至

今天凌晨,微軟在官網(wǎng)分享了自研的三大創(chuàng)新算法,以幫助大模型增強(qiáng)其推理能力。

無論你是小參數(shù)或者是大參數(shù)模型玩家,都能從rStar-Math、LIPS 、CPL這三大算法獲益,突破推理瓶頸,極大增強(qiáng)模型的數(shù)學(xué)推理和思考鏈的能力。


rStar-Math

rStar-Math算法主要通過蒙特卡洛樹搜索(MCTS)實(shí)現(xiàn)深度思考。MCTS 是一種用于決策過程的搜索算法,通過模擬多個(gè)可能的路徑來評估每個(gè)步驟的價(jià)值。在rStar-Math算法中,MCTS 被用來生成高質(zhì)量的推理軌跡,并通過一個(gè)基于SLM的獎(jiǎng)勵(lì)模型進(jìn)行評估。


在傳統(tǒng)的推理方法中,語言模型生成的自然語言推理軌跡往往存在錯(cuò)誤或不相關(guān)的內(nèi)容,尤其是在復(fù)雜的數(shù)學(xué)問題中。為了解決這一問題,rStar-Math 引入了代碼增強(qiáng)的CoT方法。大模型在生成每個(gè)推理步驟時(shí),會同時(shí)生成對應(yīng)的 Python 代碼。

這些代碼不僅用于驗(yàn)證推理步驟的正確性,還能夠通過執(zhí)行結(jié)果來篩選出高質(zhì)量的生成內(nèi)容。只有那些 Python 代碼能夠成功執(zhí)行的生成內(nèi)容才會被保留,從而確保中間步驟的正確性。


此外,傳統(tǒng)的獎(jiǎng)勵(lì)模型訓(xùn)練中,直接使用 Q 值作為獎(jiǎng)勵(lì)標(biāo)簽是一種常見的方法,但這種方法存在明顯的局限性。Q 值雖然能夠反映步驟的整體質(zhì)量,但它們帶有噪聲,無法精確地評估每個(gè)步驟的優(yōu)劣。

為了解決這一難題,rStar-Math 提出了一種新的訓(xùn)練方法,通過構(gòu)建基于 Q 值的正負(fù)偏好對來訓(xùn)練PPM。對于每個(gè)推理步驟,模型會選擇 Q 值最高的兩個(gè)步驟作為正樣本,選擇 Q 值最低的兩個(gè)步驟作為負(fù)樣本。

通過這種方式,PPM 能夠?qū)W習(xí)到如何區(qū)分高質(zhì)量和低質(zhì)量的推理步驟,從而提供更準(zhǔn)確的獎(jiǎng)勵(lì)信號。這種方法避免了直接使用 Q 值作為獎(jiǎng)勵(lì)標(biāo)簽的噪聲問題,顯著提高了獎(jiǎng)勵(lì)模型的精度和可靠性。

論文地址:https://arxiv.org/pdf/2501.04519

rStar-Math的自我進(jìn)化方法也是其核心優(yōu)勢之一。通過四輪自我進(jìn)化,策略模型和PPM 從頭開始逐步構(gòu)建,生成的訓(xùn)練數(shù)據(jù)質(zhì)量不斷提高,覆蓋的問題難度也逐漸增加。

在每一輪中,使用最新的策略模型和 PPM進(jìn)行MCTS,生成高質(zhì)量的推理軌跡,并用這些軌跡訓(xùn)練更強(qiáng)的策略模型和PPM。

LIPS

LIPS算法主要用于增強(qiáng)數(shù)學(xué)推理,其核心思想是將數(shù)學(xué)證明過程中的策略分為縮放和重寫兩大類。縮放策略通過符號工具實(shí)現(xiàn),利用有限的不等式引理庫對當(dāng)前目標(biāo)進(jìn)行細(xì)化,而重寫策略則由大模型負(fù)責(zé)生成,通過等價(jià)變換將問題轉(zhuǎn)化為更易于解決的形式。

在縮放策略方面,LIPS算法通過符號工具實(shí)現(xiàn),利用有限的不等式引理庫對當(dāng)前目標(biāo)進(jìn)行細(xì)化。例如,通過AM-GM不等式,算術(shù)平均數(shù)大于等于幾何平均數(shù)對目標(biāo)中的某些項(xiàng)進(jìn)行縮放。但縮放策略可能會引入無效的子目標(biāo),所以需要通過符號工具如SMT求解器檢查反例,從而過濾掉無效的縮放策略。


在重寫策略方面,LIPS算法由大模型負(fù)責(zé)生成,通過設(shè)計(jì)一系列提示引導(dǎo)大模型對當(dāng)前目標(biāo)進(jìn)行等價(jià)變換。例如,通過簡化、重新排列或消去分母等操作將目標(biāo)轉(zhuǎn)化為更易于處理的形式。由于重寫策略的空間是無限的,大模型的數(shù)學(xué)直覺在這里發(fā)揮了關(guān)鍵作用,能夠從大量可能的變換中篩選出最有希望的策略。


在目標(biāo)過濾與排序方面,LIPS算法采用了兩個(gè)階段:符號過濾和神經(jīng)排序。縮放和重寫策略生成的新目標(biāo)集合需要進(jìn)一步篩選和排序,以確定最有希望的證明路徑。首先,通過符號過濾階段,利用不等式的齊次性和解耦性來評估每個(gè)目標(biāo)的潛力。

論文地址:https://arxiv.org/pdf/2502.13834

齊次性表示不等式兩邊的次數(shù)相同,而解耦性則衡量不等式中混合變量項(xiàng)的數(shù)量。通過這些指標(biāo),可以快速排除那些不太可能被證明的目標(biāo)。其次,在神經(jīng)排序階段,對于經(jīng)過符號過濾后的前k個(gè)目標(biāo),利用大模型進(jìn)行最終排序。

CPL

傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法雖然在特定任務(wù)上取得了進(jìn)展,但在跨任務(wù)泛化方面存在不足。此外,大模型的推理空間是無限的,這使得在其中尋找有效的推理路徑變得極為困難。

例如,在數(shù)學(xué)問題解決中,模型需要在眾多可能的解題步驟中找到最優(yōu)路徑,而在代碼生成任務(wù)中,模型需要在復(fù)雜的邏輯結(jié)構(gòu)中進(jìn)行有效的探索。


為了解決這些難題,微軟提出了CPL算法,一種基于關(guān)鍵計(jì)劃步驟學(xué)習(xí)的方法,旨在通過在高層次抽象計(jì)劃空間中進(jìn)行搜索,提升模型的泛化能力和推理性能。

在CPL算法中,計(jì)劃空間搜索是第一步,也是至關(guān)重要的一步。與傳統(tǒng)的解決方案搜索不同,計(jì)劃空間搜索關(guān)注的是高層次的抽象計(jì)劃,而不是具體的解決方案。

例如,在解決一個(gè)數(shù)學(xué)問題時(shí),模型首先會生成一個(gè)逐步解決問題的計(jì)劃,而不是直接生成具體的數(shù)學(xué)公式。這種計(jì)劃可以包括確定需要應(yīng)用哪些知識、如何分解問題等抽象思維步驟。通過這種方式,模型能夠?qū)W習(xí)到更通用的、與任務(wù)無關(guān)的技能,從而提高其在不同任務(wù)中的泛化能力。

在生成了多樣化的計(jì)劃步驟后,CPL的第二步是通過Step-APO學(xué)習(xí)關(guān)鍵計(jì)劃步驟。Step-APO是基于Direct Preference Optimization(DPO)的一種改進(jìn)方法,它通過引入優(yōu)勢估計(jì)來優(yōu)化步驟偏好。

Step-APO利用MCTS過程中獲得的優(yōu)勢估計(jì),為每一對步驟偏好賦予不同的權(quán)重,從而讓模型能夠更有效地識別出哪些步驟對推理能力的提升更為關(guān)鍵。

論文地址:https://arxiv.org/pdf/2409.08642

例如,在一個(gè)復(fù)雜的推理任務(wù)中,模型可能會發(fā)現(xiàn)某些步驟雖然在表面上看起來合理,但實(shí)際上對最終結(jié)果的貢獻(xiàn)較小,而Step-APO能夠幫助模型識別并強(qiáng)化那些真正重要的步驟。

本文素材來源微軟,如有侵權(quán)請聯(lián)系刪除

報(bào)告下載

大 佬觀點(diǎn)分享

關(guān)于RPA、AI、企業(yè)數(shù)字化轉(zhuǎn)型

(點(diǎn)擊文字即可閱讀)

| |

| | |


| | |

| | |

| |

行業(yè)知識交流分享,結(jié)識擴(kuò)展人脈圈層

公眾號后臺回復(fù)【RPA】或者【流程挖掘】

可受邀加入相關(guān)的交流群

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
當(dāng)年王思聰買100英寸電視花了50萬,如今0.1折就能拿下!

當(dāng)年王思聰買100英寸電視花了50萬,如今0.1折就能拿下!

閑搞機(jī)
2025-06-23 11:37:54
手術(shù)失敗,兒子手捧鮮花等不到媽媽,醫(yī)生哽咽,手術(shù)室門開了又關(guān)

手術(shù)失敗,兒子手捧鮮花等不到媽媽,醫(yī)生哽咽,手術(shù)室門開了又關(guān)

跳跳歷史
2025-06-23 09:45:52
新血壓標(biāo)準(zhǔn)已調(diào)整,不再是120/80mmHg!血壓高者應(yīng)自查,維護(hù)健康

新血壓標(biāo)準(zhǔn)已調(diào)整,不再是120/80mmHg!血壓高者應(yīng)自查,維護(hù)健康

手機(jī)殼測試
2025-03-12 20:48:08
上海市2025年普通高校招生本科各批次錄取控制分?jǐn)?shù)線公布

上海市2025年普通高校招生本科各批次錄取控制分?jǐn)?shù)線公布

北青網(wǎng)-北京青年報(bào)
2025-06-23 14:20:06
杜蘭特交易成全2將,火箭隊(duì)12+7射手受益 2首輪未動(dòng) 仍可后續(xù)操作

杜蘭特交易成全2將,火箭隊(duì)12+7射手受益 2首輪未動(dòng) 仍可后續(xù)操作

替補(bǔ)席看球
2025-06-23 16:59:18
官方通報(bào)救護(hù)車跨省轉(zhuǎn)運(yùn)收費(fèi)2.8萬

官方通報(bào)救護(hù)車跨省轉(zhuǎn)運(yùn)收費(fèi)2.8萬

界面新聞
2025-06-18 23:54:57
確認(rèn)加盟!廣東隊(duì)正式迎來男籃頂級鋒線,保送杜鋒“躺”進(jìn)決賽?

確認(rèn)加盟!廣東隊(duì)正式迎來男籃頂級鋒線,保送杜鋒“躺”進(jìn)決賽?

緋雨兒
2025-06-23 12:10:28
河北一鋼鐵公司宣布解散!

河北一鋼鐵公司宣布解散!

掌中邯鄲
2025-06-22 11:04:44
破案了,那爾那茜是上戲文化課狀元

破案了,那爾那茜是上戲文化課狀元

郁風(fēng)手記
2025-06-22 00:15:39
速看!高考成績出來了,請不要打擾別人的幸福

速看!高考成績出來了,請不要打擾別人的幸福

教師吧
2025-06-23 15:12:30
雷霆奪冠總結(jié):亞歷山大率隊(duì)時(shí)隔46年第2冠 陣容合理有望建王朝

雷霆奪冠總結(jié):亞歷山大率隊(duì)時(shí)隔46年第2冠 陣容合理有望建王朝

醉臥浮生
2025-06-23 10:47:18
細(xì)思極恐!具俊曄連汪小菲的舊衣服都要撿著穿,難怪張?zhí)m擔(dān)心小玥兒

細(xì)思極恐!具俊曄連汪小菲的舊衣服都要撿著穿,難怪張?zhí)m擔(dān)心小玥兒

扒星人
2025-06-23 10:00:01
四位加拿大球員總決賽表現(xiàn):SGA當(dāng)選FMVP 內(nèi)姆哈德馬瑟林得分上雙

四位加拿大球員總決賽表現(xiàn):SGA當(dāng)選FMVP 內(nèi)姆哈德馬瑟林得分上雙

直播吧
2025-06-23 11:45:16
住車?yán)锍绦騿T被質(zhì)疑占用公共資源,本人回應(yīng)

住車?yán)锍绦騿T被質(zhì)疑占用公共資源,本人回應(yīng)

大象新聞
2025-06-23 10:50:04
“神秘人”捐1.8億!

“神秘人”捐1.8億!

環(huán)球時(shí)報(bào)新聞
2025-06-21 23:08:09
3萬磅“巨型鉆地彈”引爆前已穿透61米深,衛(wèi)星圖顯示……

3萬磅“巨型鉆地彈”引爆前已穿透61米深,衛(wèi)星圖顯示……

吃瓜體
2025-06-23 09:50:44
蘇超聯(lián)賽一贊助商火了,老板娘:沒想到會通過,現(xiàn)在都忙不過來了

蘇超聯(lián)賽一贊助商火了,老板娘:沒想到會通過,現(xiàn)在都忙不過來了

鋭娛之樂
2025-06-23 12:20:42
別被“某音”前凸后翹的網(wǎng)紅美女騙了...

別被“某音”前凸后翹的網(wǎng)紅美女騙了...

健身廚屋
2025-06-23 12:15:43
2.8萬轉(zhuǎn)運(yùn)費(fèi)后續(xù)!唐先生要求患者網(wǎng)友刪質(zhì)疑視頻,想降低影響…

2.8萬轉(zhuǎn)運(yùn)費(fèi)后續(xù)!唐先生要求患者網(wǎng)友刪質(zhì)疑視頻,想降低影響…

火山詩話
2025-06-23 05:54:15
400萬建的豪宅被強(qiáng)制拆除了!肇慶百萬粉絲的大網(wǎng)紅,淚灑現(xiàn)場…

400萬建的豪宅被強(qiáng)制拆除了!肇慶百萬粉絲的大網(wǎng)紅,淚灑現(xiàn)場…

火山詩話
2025-06-22 07:58:22
2025-06-23 17:16:49
RPA中國 incentive-icons
RPA中國
RPA行業(yè)生態(tài)平臺
2695文章數(shù) 1247關(guān)注度
往期回顧 全部

科技要聞

售出千萬臺!他卻說"只想做下一代AI終端"

頭條要聞

奔襲萬里的美B-2轟炸機(jī)內(nèi)部披露 返航通話錄音被截獲

頭條要聞

奔襲萬里的美B-2轟炸機(jī)內(nèi)部披露 返航通話錄音被截獲

體育要聞

比起雷霆三少,他才是真正隊(duì)魂

娛樂要聞

魏大勛和秦嵐沒分手!

財(cái)經(jīng)要聞

關(guān)稅重磅!美國宣布,今起加征

汽車要聞

單電機(jī)200kW 奔馳純電長軸距CLA申報(bào)信息曝光

態(tài)度原創(chuàng)

健康
房產(chǎn)
游戲
手機(jī)
時(shí)尚

呼吸科專家破解呼吸道九大謠言!

房產(chǎn)要聞

3天,75億!海南賣地殺瘋了!

角逐MMO巔峰?《劍靈》巔峰服上線;《冒險(xiǎn)島》開啟首個(gè)賽季服

手機(jī)要聞

榮耀 Magic V5 真機(jī)外觀曝光,7 月 2 日發(fā)布

是時(shí)候換發(fā)型了!這4款顯臉小還巨減齡,太撩了!

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 樟树市| 平山县| 新龙县| 普兰店市| 奉新县| 米脂县| 沁水县| 道孚县| 万州区| 赤水市| 颍上县| 宁波市| 佳木斯市| 武川县| 武平县| 龙南县| 佛山市| 秦皇岛市| 淮南市| 乌海市| 绥滨县| 响水县| 正镶白旗| 秦皇岛市| 武定县| 竹溪县| 淳安县| 吉隆县| 吉首市| 霞浦县| 怀仁县| 博白县| 如东县| 申扎县| 舒城县| 灵寿县| 固始县| 苏尼特左旗| 五华县| 五大连池市| 天祝|