本文的共同第一作者是徐皓雷和顏?lái)渤健P祓├资钦憬髮W(xué)的一年級(jí)碩士生,主要研究興趣集中在大模型推理和可解釋性研究;顏?lái)渤绞钦憬髮W(xué)博士三年級(jí)研究生,主要研究興趣集中在大模型推理和智能體。本文通訊作者是浙江大學(xué)魯偉明教授和沈永亮研究員。
在大語(yǔ)言模型(LLM)飛速發(fā)展的今天,Chain-of-Thought(CoT)技術(shù)逐漸成為提升復(fù)雜推理能力的關(guān)鍵范式,尤其是在數(shù)學(xué)、邏輯等結(jié)構(gòu)化任務(wù)中表現(xiàn)亮眼。
但你是否注意到:即使是精心構(gòu)建的 CoT 數(shù)據(jù),也可能存在 “跳躍式” 推理,缺失關(guān)鍵中間步驟。對(duì)人類專家來(lái)說(shuō)這些步驟或許 “理所當(dāng)然”,但對(duì)模型而言,卻可能是無(wú)法逾越的鴻溝。
為了解決這一問(wèn)題,浙江大學(xué)聯(lián)合微軟亞洲研究院、香港中文大學(xué)提出了 Thought Leap Bridge 任務(wù),并開(kāi)發(fā)了思維鏈修復(fù)方法:CoT-Bridge。實(shí)驗(yàn)顯示,該方法顯著提升了多個(gè)數(shù)學(xué)與邏輯任務(wù)中的推理準(zhǔn)確率,并能作為 “即插即用” 的模塊嵌入到知識(shí)蒸餾、強(qiáng)化學(xué)習(xí)等流程中。
- 論文鏈接:https://arxiv.org/abs/2505.14684
- 項(xiàng)目主頁(yè):https://zju-real.github.io/CoT-Bridge/
- 代碼倉(cāng)庫(kù):https://github.com/ZJU-REAL/Mind-the-Gap
CoT 不等于 Coherent-of-Thought
思維跳躍是如何破壞推理鏈的?
CoT 的設(shè)計(jì)初衷是讓大模型像人一樣 “按步驟思考”,然而研究團(tuán)隊(duì)發(fā)現(xiàn),許多公開(kāi) CoT 數(shù)據(jù)中存在一種被嚴(yán)重低估的問(wèn)題:Thought Leap。
Thought Leap 指的是 CoT 推理鏈中,前后步驟之間存在中間推理內(nèi)容的省略,導(dǎo)致邏輯跳躍,破壞推理的連貫性。
這種現(xiàn)象往往源于專家在書(shū)寫(xiě)推理過(guò)程時(shí)的 “經(jīng)驗(yàn)性省略”—— 由于熟練掌握相關(guān)問(wèn)題,他們傾向于跳過(guò)自認(rèn)為顯而易見(jiàn)的步驟。然而,模型并不具備這種人類專家式的 “思維粒度”:它需要更細(xì)致、逐步的推理過(guò)程來(lái)建立完整的邏輯鏈條。
論文中給出了一個(gè)典型例子:
對(duì)于問(wèn)題 “兩顆八面骰子最少要投多少次,才能確保出現(xiàn)重復(fù)的和?”
原始 CoT 中跳過(guò)了兩個(gè)關(guān)鍵推理環(huán)節(jié):15 種是怎么來(lái)的?為什么要使用鴿巢原理?
這種 “缺口” 雖然對(duì)人類來(lái)說(shuō)輕松跨越,對(duì)模型而言卻是理解失敗的高風(fēng)險(xiǎn)點(diǎn)。
團(tuán)隊(duì)通過(guò)實(shí)驗(yàn)證明,這種結(jié)構(gòu)性不完整對(duì)模型訓(xùn)練帶來(lái)顯著負(fù)面影響:
- 訓(xùn)練效果降低:嚴(yán)重的思維跳躍可造成 27.83% 的性能損失
- 學(xué)習(xí)效率變低:模型在訓(xùn)練過(guò)程中的收斂速度顯著變慢
CoT-Bridge:為模型補(bǔ)上思維跳躍的 “橋梁”
為解決數(shù)學(xué)推理任務(wù)中推理鏈不連貫的問(wèn)題,研究團(tuán)隊(duì)提出了 Thought Leap Bridge Task,目標(biāo)是自動(dòng)檢測(cè)推理鏈中的結(jié)構(gòu)性缺失,并補(bǔ)全相應(yīng)的中間推理步驟,以恢復(fù)其邏輯完整性。
該任務(wù)包含兩個(gè)關(guān)鍵子問(wèn)題:
1. Leap 檢測(cè):識(shí)別推理鏈中相鄰步驟之間是否存在邏輯跳躍,即是否缺失必要的過(guò)渡性推理。
2. 步驟補(bǔ)全:對(duì)于檢測(cè)到的跳躍位置,生成滿足推理連貫性的中間步驟。
團(tuán)隊(duì)將 ScaleQuestMath 作為 “理想” CoT 數(shù)據(jù)集,并基于其構(gòu)建了專用訓(xùn)練數(shù)據(jù)集 ScaleQM+。研究團(tuán)隊(duì)通過(guò)有控制地刪除原始推理鏈中的若干中間步驟,構(gòu)造出含有 Thought Leap 的 “不完整推理鏈”,并與被刪除的步驟配對(duì),作為訓(xùn)練樣本。這一設(shè)計(jì)使得模型能夠?qū)W習(xí)到如何識(shí)別不連貫結(jié)構(gòu),并生成適當(dāng)?shù)耐评硌a(bǔ)全內(nèi)容。
隨后,團(tuán)隊(duì)基于 Qwen2.5-Math-7B 對(duì)模型進(jìn)行指令微調(diào),訓(xùn)練出 CoT-Bridge 模型。該模型能夠作為獨(dú)立組件,接收可能存在缺口的推理鏈輸入,自動(dòng)輸出所需的中間步驟補(bǔ)全,從而生成結(jié)構(gòu)完整的推理過(guò)程。
實(shí)驗(yàn)結(jié)果
補(bǔ)全后的數(shù)據(jù)集顯著提升 SFT 效果
研究團(tuán)隊(duì)在兩個(gè)數(shù)學(xué)推理數(shù)據(jù)集 MetaMathQA 和 NuminaMath 上,分別使用補(bǔ)全前后的數(shù)據(jù)進(jìn)行監(jiān)督微調(diào)(SFT)對(duì)比實(shí)驗(yàn)。結(jié)果顯示,使用 CoT-Bridge 補(bǔ)全 Thought Leap 后的數(shù)據(jù)在多個(gè)數(shù)學(xué)基準(zhǔn)任務(wù)上均帶來(lái)了顯著的性能提升,其帶來(lái)的最大增益達(dá)到 + 5.87%。這表明:思維鏈的連貫性,正是限制模型進(jìn)一步提升的瓶頸之一,修復(fù)這些 “跳躍”,能夠讓模型真正學(xué)會(huì) “怎么思考”。
即插即用,增強(qiáng)蒸餾與強(qiáng)化學(xué)習(xí)流程中的訓(xùn)練效果
在主實(shí)驗(yàn)基礎(chǔ)上,研究進(jìn)一步評(píng)估了 CoT-Bridge 在更廣泛訓(xùn)練流程中的適配性,包括知識(shí)蒸餾與強(qiáng)化學(xué)習(xí)兩個(gè)典型場(chǎng)景。
蒸餾數(shù)據(jù)增強(qiáng):使用大模型生成數(shù)學(xué)題解是當(dāng)前訓(xùn)練數(shù)據(jù)的來(lái)源之一。團(tuán)隊(duì)將 CoT-Bridge 應(yīng)用于使用 Qwen2.5-Instruct-72B 蒸餾得到的數(shù)據(jù)。實(shí)驗(yàn)結(jié)果表明,補(bǔ)全后的蒸餾數(shù)據(jù)帶來(lái) + 3.02% 的準(zhǔn)確率提升。該結(jié)果說(shuō)明,即便原始生成內(nèi)容已具備較高質(zhì)量,推理過(guò)程的結(jié)構(gòu)優(yōu)化仍能帶來(lái)額外增益。
強(qiáng)化學(xué)習(xí)冷啟動(dòng)優(yōu)化:在強(qiáng)化學(xué)習(xí)范式中,初始監(jiān)督微調(diào)模型對(duì)最終性能具有重要影響。研究團(tuán)隊(duì)將使用 CoT-Bridge 生成的數(shù)據(jù)用于 SFT,并在此基礎(chǔ)上繼續(xù)訓(xùn)練。對(duì)比實(shí)驗(yàn)顯示,該方案可作為更優(yōu)的 “冷啟動(dòng)模型”,在訓(xùn)練初期即具備更高起點(diǎn),并最終獲得更好的收斂性能。在 NuminaMath 數(shù)據(jù)集上,基于補(bǔ)全后數(shù)據(jù)訓(xùn)練的模型在 RL 階段最終準(zhǔn)確率較原始方案提升約 +3.1%。
泛化能力提升,改善 OOD 推理表現(xiàn)
為了驗(yàn)證 CoT-Bridge 是否具備跨任務(wù)遷移能力,研究將邏輯推理類任務(wù)作為模型在 OOD 場(chǎng)景下的評(píng)估基準(zhǔn),包括 FOLIO、LogicQA、ProofWriter、ReClor 和 RuleTaker 等。
實(shí)驗(yàn)結(jié)果表明,使用補(bǔ)全數(shù)據(jù)訓(xùn)練的模型在大多數(shù)邏輯任務(wù)中準(zhǔn)確率有不同程度提升,Meta-Llama3.1-8B 平均提升為 +2.99%,Qwen2.5-Math-1.5B 提升約 +0.99%。此外,模型生成無(wú)效輸出的比例有所下降,說(shuō)明其在結(jié)構(gòu)控制和推理一致性方面表現(xiàn)更為穩(wěn)健。這意味著,補(bǔ)全思維鏈條不僅提升了數(shù)學(xué)能力,也讓模型更擅長(zhǎng) “解釋自己是怎么推理出來(lái)的”,從而在廣義邏輯任務(wù)中具備更強(qiáng)魯棒性。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.