網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

思維鏈也「跳幀」浙大團(tuán)隊(duì)提出CoT-Bridge，顯著提升數(shù)學(xué)推理性能

2025-06-03 17:17:09　來(lái)源: 機(jī)器之心Pro

天津舉報(bào)

分享至

本文的共同第一作者是徐皓雷和顏?lái)渤健Ｐ祓├资钦憬髮W(xué)的一年級(jí)碩士生，主要研究興趣集中在大模型推理和可解釋性研究；顏?lái)渤绞钦憬髮W(xué)博士三年級(jí)研究生，主要研究興趣集中在大模型推理和智能體。本文通訊作者是浙江大學(xué)魯偉明教授和沈永亮研究員。

在大語(yǔ)言模型（LLM）飛速發(fā)展的今天，Chain-of-Thought（CoT）技術(shù)逐漸成為提升復(fù)雜推理能力的關(guān)鍵范式，尤其是在數(shù)學(xué)、邏輯等結(jié)構(gòu)化任務(wù)中表現(xiàn)亮眼。

但你是否注意到：即使是精心構(gòu)建的 CoT 數(shù)據(jù)，也可能存在 “跳躍式” 推理，缺失關(guān)鍵中間步驟。對(duì)人類專家來(lái)說(shuō)這些步驟或許 “理所當(dāng)然”，但對(duì)模型而言，卻可能是無(wú)法逾越的鴻溝。

為了解決這一問(wèn)題，浙江大學(xué)聯(lián)合微軟亞洲研究院、香港中文大學(xué)提出了 Thought Leap Bridge 任務(wù)，并開(kāi)發(fā)了思維鏈修復(fù)方法：CoT-Bridge。實(shí)驗(yàn)顯示，該方法顯著提升了多個(gè)數(shù)學(xué)與邏輯任務(wù)中的推理準(zhǔn)確率，并能作為 “即插即用” 的模塊嵌入到知識(shí)蒸餾、強(qiáng)化學(xué)習(xí)等流程中。

論文鏈接：https://arxiv.org/abs/2505.14684
項(xiàng)目主頁(yè)：https://zju-real.github.io/CoT-Bridge/
代碼倉(cāng)庫(kù)：https://github.com/ZJU-REAL/Mind-the-Gap

CoT 不等于 Coherent-of-Thought

思維跳躍是如何破壞推理鏈的？

CoT 的設(shè)計(jì)初衷是讓大模型像人一樣 “按步驟思考”，然而研究團(tuán)隊(duì)發(fā)現(xiàn)，許多公開(kāi) CoT 數(shù)據(jù)中存在一種被嚴(yán)重低估的問(wèn)題：Thought Leap。

Thought Leap 指的是 CoT 推理鏈中，前后步驟之間存在中間推理內(nèi)容的省略，導(dǎo)致邏輯跳躍，破壞推理的連貫性。

這種現(xiàn)象往往源于專家在書(shū)寫(xiě)推理過(guò)程時(shí)的 “經(jīng)驗(yàn)性省略”—— 由于熟練掌握相關(guān)問(wèn)題，他們傾向于跳過(guò)自認(rèn)為顯而易見(jiàn)的步驟。然而，模型并不具備這種人類專家式的 “思維粒度”：它需要更細(xì)致、逐步的推理過(guò)程來(lái)建立完整的邏輯鏈條。

論文中給出了一個(gè)典型例子：

對(duì)于問(wèn)題 “兩顆八面骰子最少要投多少次，才能確保出現(xiàn)重復(fù)的和？”

原始 CoT 中跳過(guò)了兩個(gè)關(guān)鍵推理環(huán)節(jié)：15 種是怎么來(lái)的？為什么要使用鴿巢原理？

這種 “缺口” 雖然對(duì)人類來(lái)說(shuō)輕松跨越，對(duì)模型而言卻是理解失敗的高風(fēng)險(xiǎn)點(diǎn)。

團(tuán)隊(duì)通過(guò)實(shí)驗(yàn)證明，這種結(jié)構(gòu)性不完整對(duì)模型訓(xùn)練帶來(lái)顯著負(fù)面影響：

訓(xùn)練效果降低：嚴(yán)重的思維跳躍可造成 27.83% 的性能損失
學(xué)習(xí)效率變低：模型在訓(xùn)練過(guò)程中的收斂速度顯著變慢

CoT-Bridge：為模型補(bǔ)上思維跳躍的 “橋梁”

為解決數(shù)學(xué)推理任務(wù)中推理鏈不連貫的問(wèn)題，研究團(tuán)隊(duì)提出了 Thought Leap Bridge Task，目標(biāo)是自動(dòng)檢測(cè)推理鏈中的結(jié)構(gòu)性缺失，并補(bǔ)全相應(yīng)的中間推理步驟，以恢復(fù)其邏輯完整性。

該任務(wù)包含兩個(gè)關(guān)鍵子問(wèn)題：

1. Leap 檢測(cè)：識(shí)別推理鏈中相鄰步驟之間是否存在邏輯跳躍，即是否缺失必要的過(guò)渡性推理。

2. 步驟補(bǔ)全：對(duì)于檢測(cè)到的跳躍位置，生成滿足推理連貫性的中間步驟。

團(tuán)隊(duì)將 ScaleQuestMath 作為 “理想” CoT 數(shù)據(jù)集，并基于其構(gòu)建了專用訓(xùn)練數(shù)據(jù)集 ScaleQM+。研究團(tuán)隊(duì)通過(guò)有控制地刪除原始推理鏈中的若干中間步驟，構(gòu)造出含有 Thought Leap 的 “不完整推理鏈”，并與被刪除的步驟配對(duì)，作為訓(xùn)練樣本。這一設(shè)計(jì)使得模型能夠?qū)W習(xí)到如何識(shí)別不連貫結(jié)構(gòu)，并生成適當(dāng)?shù)耐评硌a(bǔ)全內(nèi)容。

隨后，團(tuán)隊(duì)基于 Qwen2.5-Math-7B 對(duì)模型進(jìn)行指令微調(diào)，訓(xùn)練出 CoT-Bridge 模型。該模型能夠作為獨(dú)立組件，接收可能存在缺口的推理鏈輸入，自動(dòng)輸出所需的中間步驟補(bǔ)全，從而生成結(jié)構(gòu)完整的推理過(guò)程。

實(shí)驗(yàn)結(jié)果

補(bǔ)全后的數(shù)據(jù)集顯著提升 SFT 效果

研究團(tuán)隊(duì)在兩個(gè)數(shù)學(xué)推理數(shù)據(jù)集 MetaMathQA 和 NuminaMath 上，分別使用補(bǔ)全前后的數(shù)據(jù)進(jìn)行監(jiān)督微調(diào)（SFT）對(duì)比實(shí)驗(yàn)。結(jié)果顯示，使用 CoT-Bridge 補(bǔ)全 Thought Leap 后的數(shù)據(jù)在多個(gè)數(shù)學(xué)基準(zhǔn)任務(wù)上均帶來(lái)了顯著的性能提升，其帶來(lái)的最大增益達(dá)到 + 5.87%。這表明：思維鏈的連貫性，正是限制模型進(jìn)一步提升的瓶頸之一，修復(fù)這些 “跳躍”，能夠讓模型真正學(xué)會(huì) “怎么思考”。

即插即用，增強(qiáng)蒸餾與強(qiáng)化學(xué)習(xí)流程中的訓(xùn)練效果

在主實(shí)驗(yàn)基礎(chǔ)上，研究進(jìn)一步評(píng)估了 CoT-Bridge 在更廣泛訓(xùn)練流程中的適配性，包括知識(shí)蒸餾與強(qiáng)化學(xué)習(xí)兩個(gè)典型場(chǎng)景。

蒸餾數(shù)據(jù)增強(qiáng)：使用大模型生成數(shù)學(xué)題解是當(dāng)前訓(xùn)練數(shù)據(jù)的來(lái)源之一。團(tuán)隊(duì)將 CoT-Bridge 應(yīng)用于使用 Qwen2.5-Instruct-72B 蒸餾得到的數(shù)據(jù)。實(shí)驗(yàn)結(jié)果表明，補(bǔ)全后的蒸餾數(shù)據(jù)帶來(lái) + 3.02% 的準(zhǔn)確率提升。該結(jié)果說(shuō)明，即便原始生成內(nèi)容已具備較高質(zhì)量，推理過(guò)程的結(jié)構(gòu)優(yōu)化仍能帶來(lái)額外增益。

強(qiáng)化學(xué)習(xí)冷啟動(dòng)優(yōu)化：在強(qiáng)化學(xué)習(xí)范式中，初始監(jiān)督微調(diào)模型對(duì)最終性能具有重要影響。研究團(tuán)隊(duì)將使用 CoT-Bridge 生成的數(shù)據(jù)用于 SFT，并在此基礎(chǔ)上繼續(xù)訓(xùn)練。對(duì)比實(shí)驗(yàn)顯示，該方案可作為更優(yōu)的 “冷啟動(dòng)模型”，在訓(xùn)練初期即具備更高起點(diǎn)，并最終獲得更好的收斂性能。在 NuminaMath 數(shù)據(jù)集上，基于補(bǔ)全后數(shù)據(jù)訓(xùn)練的模型在 RL 階段最終準(zhǔn)確率較原始方案提升約 +3.1%。

泛化能力提升，改善 OOD 推理表現(xiàn)

為了驗(yàn)證 CoT-Bridge 是否具備跨任務(wù)遷移能力，研究將邏輯推理類任務(wù)作為模型在 OOD 場(chǎng)景下的評(píng)估基準(zhǔn)，包括 FOLIO、LogicQA、ProofWriter、ReClor 和 RuleTaker 等。

實(shí)驗(yàn)結(jié)果表明，使用補(bǔ)全數(shù)據(jù)訓(xùn)練的模型在大多數(shù)邏輯任務(wù)中準(zhǔn)確率有不同程度提升，Meta-Llama3.1-8B 平均提升為 +2.99%，Qwen2.5-Math-1.5B 提升約 +0.99%。此外，模型生成無(wú)效輸出的比例有所下降，說(shuō)明其在結(jié)構(gòu)控制和推理一致性方面表現(xiàn)更為穩(wěn)健。這意味著，補(bǔ)全思維鏈條不僅提升了數(shù)學(xué)能力，也讓模型更擅長(zhǎng) “解釋自己是怎么推理出來(lái)的”，從而在廣義邏輯任務(wù)中具備更強(qiáng)魯棒性。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.