99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

思維鏈也「跳幀」浙大團(tuán)隊(duì)提出CoT-Bridge,顯著提升數(shù)學(xué)推理性能

0
分享至



本文的共同第一作者是徐皓雷和顏?lái)渤健P祓├资钦憬髮W(xué)的一年級(jí)碩士生,主要研究興趣集中在大模型推理和可解釋性研究;顏?lái)渤绞钦憬髮W(xué)博士三年級(jí)研究生,主要研究興趣集中在大模型推理和智能體。本文通訊作者是浙江大學(xué)魯偉明教授和沈永亮研究員。

在大語(yǔ)言模型(LLM)飛速發(fā)展的今天,Chain-of-Thought(CoT)技術(shù)逐漸成為提升復(fù)雜推理能力的關(guān)鍵范式,尤其是在數(shù)學(xué)、邏輯等結(jié)構(gòu)化任務(wù)中表現(xiàn)亮眼。

但你是否注意到:即使是精心構(gòu)建的 CoT 數(shù)據(jù),也可能存在 “跳躍式” 推理,缺失關(guān)鍵中間步驟。對(duì)人類專家來(lái)說(shuō)這些步驟或許 “理所當(dāng)然”,但對(duì)模型而言,卻可能是無(wú)法逾越的鴻溝。

為了解決這一問(wèn)題,浙江大學(xué)聯(lián)合微軟亞洲研究院、香港中文大學(xué)提出了 Thought Leap Bridge 任務(wù),并開(kāi)發(fā)了思維鏈修復(fù)方法:CoT-Bridge。實(shí)驗(yàn)顯示,該方法顯著提升了多個(gè)數(shù)學(xué)與邏輯任務(wù)中的推理準(zhǔn)確率,并能作為 “即插即用” 的模塊嵌入到知識(shí)蒸餾、強(qiáng)化學(xué)習(xí)等流程中。



  • 論文鏈接:https://arxiv.org/abs/2505.14684
  • 項(xiàng)目主頁(yè):https://zju-real.github.io/CoT-Bridge/
  • 代碼倉(cāng)庫(kù):https://github.com/ZJU-REAL/Mind-the-Gap

CoT 不等于 Coherent-of-Thought

思維跳躍是如何破壞推理鏈的?

CoT 的設(shè)計(jì)初衷是讓大模型像人一樣 “按步驟思考”,然而研究團(tuán)隊(duì)發(fā)現(xiàn),許多公開(kāi) CoT 數(shù)據(jù)中存在一種被嚴(yán)重低估的問(wèn)題:Thought Leap。

Thought Leap 指的是 CoT 推理鏈中,前后步驟之間存在中間推理內(nèi)容的省略,導(dǎo)致邏輯跳躍,破壞推理的連貫性。

這種現(xiàn)象往往源于專家在書(shū)寫(xiě)推理過(guò)程時(shí)的 “經(jīng)驗(yàn)性省略”—— 由于熟練掌握相關(guān)問(wèn)題,他們傾向于跳過(guò)自認(rèn)為顯而易見(jiàn)的步驟。然而,模型并不具備這種人類專家式的 “思維粒度”:它需要更細(xì)致、逐步的推理過(guò)程來(lái)建立完整的邏輯鏈條。

論文中給出了一個(gè)典型例子:

對(duì)于問(wèn)題 “兩顆八面骰子最少要投多少次,才能確保出現(xiàn)重復(fù)的和?”

原始 CoT 中跳過(guò)了兩個(gè)關(guān)鍵推理環(huán)節(jié):15 種是怎么來(lái)的?為什么要使用鴿巢原理?

這種 “缺口” 雖然對(duì)人類來(lái)說(shuō)輕松跨越,對(duì)模型而言卻是理解失敗的高風(fēng)險(xiǎn)點(diǎn)。

團(tuán)隊(duì)通過(guò)實(shí)驗(yàn)證明,這種結(jié)構(gòu)性不完整對(duì)模型訓(xùn)練帶來(lái)顯著負(fù)面影響:

  • 訓(xùn)練效果降低:嚴(yán)重的思維跳躍可造成 27.83% 的性能損失
  • 學(xué)習(xí)效率變低:模型在訓(xùn)練過(guò)程中的收斂速度顯著變慢



CoT-Bridge:為模型補(bǔ)上思維跳躍的 “橋梁”

為解決數(shù)學(xué)推理任務(wù)中推理鏈不連貫的問(wèn)題,研究團(tuán)隊(duì)提出了 Thought Leap Bridge Task,目標(biāo)是自動(dòng)檢測(cè)推理鏈中的結(jié)構(gòu)性缺失,并補(bǔ)全相應(yīng)的中間推理步驟,以恢復(fù)其邏輯完整性。

該任務(wù)包含兩個(gè)關(guān)鍵子問(wèn)題:

1. Leap 檢測(cè):識(shí)別推理鏈中相鄰步驟之間是否存在邏輯跳躍,即是否缺失必要的過(guò)渡性推理。

2. 步驟補(bǔ)全:對(duì)于檢測(cè)到的跳躍位置,生成滿足推理連貫性的中間步驟。

團(tuán)隊(duì)將 ScaleQuestMath 作為 “理想” CoT 數(shù)據(jù)集,并基于其構(gòu)建了專用訓(xùn)練數(shù)據(jù)集 ScaleQM+。研究團(tuán)隊(duì)通過(guò)有控制地刪除原始推理鏈中的若干中間步驟,構(gòu)造出含有 Thought Leap 的 “不完整推理鏈”,并與被刪除的步驟配對(duì),作為訓(xùn)練樣本。這一設(shè)計(jì)使得模型能夠?qū)W習(xí)到如何識(shí)別不連貫結(jié)構(gòu),并生成適當(dāng)?shù)耐评硌a(bǔ)全內(nèi)容。

隨后,團(tuán)隊(duì)基于 Qwen2.5-Math-7B 對(duì)模型進(jìn)行指令微調(diào),訓(xùn)練出 CoT-Bridge 模型。該模型能夠作為獨(dú)立組件,接收可能存在缺口的推理鏈輸入,自動(dòng)輸出所需的中間步驟補(bǔ)全,從而生成結(jié)構(gòu)完整的推理過(guò)程。



實(shí)驗(yàn)結(jié)果

補(bǔ)全后的數(shù)據(jù)集顯著提升 SFT 效果

研究團(tuán)隊(duì)在兩個(gè)數(shù)學(xué)推理數(shù)據(jù)集 MetaMathQA 和 NuminaMath 上,分別使用補(bǔ)全前后的數(shù)據(jù)進(jìn)行監(jiān)督微調(diào)(SFT)對(duì)比實(shí)驗(yàn)。結(jié)果顯示,使用 CoT-Bridge 補(bǔ)全 Thought Leap 后的數(shù)據(jù)在多個(gè)數(shù)學(xué)基準(zhǔn)任務(wù)上均帶來(lái)了顯著的性能提升,其帶來(lái)的最大增益達(dá)到 + 5.87%。這表明:思維鏈的連貫性,正是限制模型進(jìn)一步提升的瓶頸之一,修復(fù)這些 “跳躍”,能夠讓模型真正學(xué)會(huì) “怎么思考”。



即插即用,增強(qiáng)蒸餾與強(qiáng)化學(xué)習(xí)流程中的訓(xùn)練效果

在主實(shí)驗(yàn)基礎(chǔ)上,研究進(jìn)一步評(píng)估了 CoT-Bridge 在更廣泛訓(xùn)練流程中的適配性,包括知識(shí)蒸餾與強(qiáng)化學(xué)習(xí)兩個(gè)典型場(chǎng)景。

蒸餾數(shù)據(jù)增強(qiáng):使用大模型生成數(shù)學(xué)題解是當(dāng)前訓(xùn)練數(shù)據(jù)的來(lái)源之一。團(tuán)隊(duì)將 CoT-Bridge 應(yīng)用于使用 Qwen2.5-Instruct-72B 蒸餾得到的數(shù)據(jù)。實(shí)驗(yàn)結(jié)果表明,補(bǔ)全后的蒸餾數(shù)據(jù)帶來(lái) + 3.02% 的準(zhǔn)確率提升。該結(jié)果說(shuō)明,即便原始生成內(nèi)容已具備較高質(zhì)量,推理過(guò)程的結(jié)構(gòu)優(yōu)化仍能帶來(lái)額外增益。

強(qiáng)化學(xué)習(xí)冷啟動(dòng)優(yōu)化:在強(qiáng)化學(xué)習(xí)范式中,初始監(jiān)督微調(diào)模型對(duì)最終性能具有重要影響。研究團(tuán)隊(duì)將使用 CoT-Bridge 生成的數(shù)據(jù)用于 SFT,并在此基礎(chǔ)上繼續(xù)訓(xùn)練。對(duì)比實(shí)驗(yàn)顯示,該方案可作為更優(yōu)的 “冷啟動(dòng)模型”,在訓(xùn)練初期即具備更高起點(diǎn),并最終獲得更好的收斂性能。在 NuminaMath 數(shù)據(jù)集上,基于補(bǔ)全后數(shù)據(jù)訓(xùn)練的模型在 RL 階段最終準(zhǔn)確率較原始方案提升約 +3.1%。



泛化能力提升,改善 OOD 推理表現(xiàn)

為了驗(yàn)證 CoT-Bridge 是否具備跨任務(wù)遷移能力,研究將邏輯推理類任務(wù)作為模型在 OOD 場(chǎng)景下的評(píng)估基準(zhǔn),包括 FOLIO、LogicQA、ProofWriter、ReClor 和 RuleTaker 等。

實(shí)驗(yàn)結(jié)果表明,使用補(bǔ)全數(shù)據(jù)訓(xùn)練的模型在大多數(shù)邏輯任務(wù)中準(zhǔn)確率有不同程度提升,Meta-Llama3.1-8B 平均提升為 +2.99%,Qwen2.5-Math-1.5B 提升約 +0.99%。此外,模型生成無(wú)效輸出的比例有所下降,說(shuō)明其在結(jié)構(gòu)控制和推理一致性方面表現(xiàn)更為穩(wěn)健。這意味著,補(bǔ)全思維鏈條不僅提升了數(shù)學(xué)能力,也讓模型更擅長(zhǎng) “解釋自己是怎么推理出來(lái)的”,從而在廣義邏輯任務(wù)中具備更強(qiáng)魯棒性。



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
網(wǎng)紅李維剛再次被坑慘!1.2萬(wàn)包魚(yú)塘卻只有194斤,塘主毫無(wú)愧疚心

網(wǎng)紅李維剛再次被坑慘!1.2萬(wàn)包魚(yú)塘卻只有194斤,塘主毫無(wú)愧疚心

裕豐娛間說(shuō)
2025-06-10 11:41:36
央視除名,《長(zhǎng)安的荔枝》女主演出事,曝升學(xué)內(nèi)幕,父親職位被扒

央視除名,《長(zhǎng)安的荔枝》女主演出事,曝升學(xué)內(nèi)幕,父親職位被扒

傲傲講歷史
2025-06-09 18:28:39
獨(dú)家|美團(tuán)王興及管理層股東大會(huì)現(xiàn)場(chǎng)讀稿,引發(fā)股東強(qiáng)烈不滿(附2萬(wàn)字完整實(shí)錄)

獨(dú)家|美團(tuán)王興及管理層股東大會(huì)現(xiàn)場(chǎng)讀稿,引發(fā)股東強(qiáng)烈不滿(附2萬(wàn)字完整實(shí)錄)

劃重點(diǎn)KeyPoints
2025-06-09 22:41:17
多國(guó)出現(xiàn)了退貨潮!演習(xí)失敗,中國(guó)蘇-35反而成了爆款?

多國(guó)出現(xiàn)了退貨潮!演習(xí)失敗,中國(guó)蘇-35反而成了爆款?

智觀科技
2025-06-10 01:52:08
數(shù)十篇頂論,韋東奕6年沒(méi)升副教授!讀野雞大學(xué)的早就評(píng)教授了吧

數(shù)十篇頂論,韋東奕6年沒(méi)升副教授!讀野雞大學(xué)的早就評(píng)教授了吧

昨夜軍帖
2025-06-10 08:57:01
杭州男子失戀游湖南,遇苗族婚宴隨禮1000入席,離場(chǎng)卻被伴娘攔下

杭州男子失戀游湖南,遇苗族婚宴隨禮1000入席,離場(chǎng)卻被伴娘攔下

蘭姐說(shuō)故事
2025-06-09 10:00:07
和解信號(hào)!特朗普“祝他一切順利”,馬斯克“比心”!特朗普:不會(huì)處理掉Model S,不會(huì)停止星鏈;特斯拉股價(jià)大漲

和解信號(hào)!特朗普“祝他一切順利”,馬斯克“比心”!特朗普:不會(huì)處理掉Model S,不會(huì)停止星鏈;特斯拉股價(jià)大漲

每日經(jīng)濟(jì)新聞
2025-06-10 13:01:40
中國(guó)的高考作文,毫無(wú)邏輯和真實(shí),只會(huì)在牢籠里抒情

中國(guó)的高考作文,毫無(wú)邏輯和真實(shí),只會(huì)在牢籠里抒情

風(fēng)向觀察
2025-06-09 17:19:17
國(guó)足vs巴林隊(duì)文明觀賽倡議書(shū):讓我們以文明熱情有序的方式觀賽

國(guó)足vs巴林隊(duì)文明觀賽倡議書(shū):讓我們以文明熱情有序的方式觀賽

直播吧
2025-06-10 10:36:10
韋東奕的牙齒和陶哲軒的牙齒

韋東奕的牙齒和陶哲軒的牙齒

關(guān)爾東
2025-06-10 12:19:16
今年銷售額已破100億元!胖東來(lái)最新聲明:?jiǎn)T工被罵最高賠10萬(wàn)!于東來(lái)回應(yīng)

今年銷售額已破100億元!胖東來(lái)最新聲明:?jiǎn)T工被罵最高賠10萬(wàn)!于東來(lái)回應(yīng)

每日經(jīng)濟(jì)新聞
2025-06-09 18:17:09
一日四戰(zhàn)四勝!樊振東說(shuō):作為運(yùn)動(dòng)員還是專注比賽

一日四戰(zhàn)四勝!樊振東說(shuō):作為運(yùn)動(dòng)員還是專注比賽

魯中晨報(bào)
2025-06-10 09:20:46
涉嫌嚴(yán)重違紀(jì)違法,喬向民被查!

涉嫌嚴(yán)重違紀(jì)違法,喬向民被查!

揚(yáng)子晚報(bào)
2025-06-10 12:23:08
特級(jí)教師怒批高考作文后續(xù),出題人親自回應(yīng):罵是因?yàn)橛腥讼矚g看

特級(jí)教師怒批高考作文后續(xù),出題人親自回應(yīng):罵是因?yàn)橛腥讼矚g看

不寫(xiě)散文詩(shī)
2025-06-09 22:06:34
將農(nóng)民工、網(wǎng)約車司機(jī)等群體納入社保范圍

將農(nóng)民工、網(wǎng)約車司機(jī)等群體納入社保范圍

北京商報(bào)
2025-06-09 17:53:09
日本要求解釋“遼寧艦為何現(xiàn)身硫磺島”,中方一句回應(yīng)沖上熱搜

日本要求解釋“遼寧艦為何現(xiàn)身硫磺島”,中方一句回應(yīng)沖上熱搜

大道無(wú)形我有型
2025-06-10 12:23:57
曝韋東奕恐離開(kāi)北大,6年無(wú)成果非升即走?業(yè)內(nèi)曝其真實(shí)職位反轉(zhuǎn)

曝韋東奕恐離開(kāi)北大,6年無(wú)成果非升即走?業(yè)內(nèi)曝其真實(shí)職位反轉(zhuǎn)

古希臘掌管松餅的神
2025-06-09 15:09:36
在面館接受客戶宴請(qǐng),兩名客戶經(jīng)理各被罰款3000元,涉事銀行回應(yīng):屬實(shí)

在面館接受客戶宴請(qǐng),兩名客戶經(jīng)理各被罰款3000元,涉事銀行回應(yīng):屬實(shí)

瀟湘晨報(bào)
2025-06-09 19:00:13
重罰!網(wǎng)傳安徽某行兩員工在面館接受宴請(qǐng),被通報(bào)并考核3000元…

重罰!網(wǎng)傳安徽某行兩員工在面館接受宴請(qǐng),被通報(bào)并考核3000元…

火山詩(shī)話
2025-06-09 17:08:34
美國(guó)總統(tǒng)下令把所有戴口罩的全部抓起來(lái)

美國(guó)總統(tǒng)下令把所有戴口罩的全部抓起來(lái)

爆角追蹤
2025-06-09 20:11:46
2025-06-10 15:07:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
10611文章數(shù) 142336關(guān)注度
往期回顧 全部

科技要聞

"液態(tài)玻璃"新皮膚,能挽救"AI差生"蘋(píng)果嗎

頭條要聞

衛(wèi)星披露:朝鮮側(cè)翻軍艦現(xiàn)身朝俄邊境

頭條要聞

衛(wèi)星披露:朝鮮側(cè)翻軍艦現(xiàn)身朝俄邊境

體育要聞

17歲攀上最高的山!亞馬爾身價(jià) 2年從0飆至2億歐

娛樂(lè)要聞

黃圣依首曝初戀是賈乃亮 仍經(jīng)常聯(lián)系

財(cái)經(jīng)要聞

泡泡瑪特王寧成“河南新首富”

汽車要聞

定位6座大型SUV 吉利銀河M9有望年內(nèi)上市

態(tài)度原創(chuàng)

本地
親子
房產(chǎn)
游戲
健康

本地新聞

非遺里的河南 | 黃河泥變身千年墨寶,寫(xiě)字都帶仙氣兒~

親子要聞

不知道誰(shuí)教的

房產(chǎn)要聞

45億!突然,又一民企巨頭殺入海南舊改!

《女神異聞錄4》原聲優(yōu)過(guò)世!重制版新選角引熱議

減重專家破解減肥九大謠言!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 西畴县| 昆明市| 东源县| 淮滨县| 沙坪坝区| 永新县| 泸州市| 康乐县| 望城县| 布尔津县| 新干县| 丰城市| 沛县| 肇庆市| 基隆市| 合肥市| 南皮县| 龙山县| 普安县| 左贡县| 平利县| 和硕县| 扎鲁特旗| 交城县| 山东| 二手房| 同德县| 永定县| 崇明县| 尚义县| 凉山| 锡林郭勒盟| 贡山| 始兴县| 眉山市| 西充县| 绥宁县| 扶风县| 宜章县| 罗江县| 兴隆县|