NeurIPS 2024 | 可信大模型新挑戰(zhàn)：噪聲思維鏈提示下的魯棒推理，準(zhǔn)確率直降40%

2025-02-19 08:26:27　來源: 將門創(chuàng)投

北京舉報

分享至

該工作提出了一種針對長尾問題的訓(xùn)練優(yōu)化策略，旨在平衡地提升視覺提示詞微調(diào)對各個類別的泛化能力。此訓(xùn)練優(yōu)化策略新提出的基于高斯鄰域最小化的損失，能夠幫助模型在長尾數(shù)據(jù)上訓(xùn)練時收斂到更平坦的損失極小值點(diǎn)，平衡地提升模型對頭類和尾類的泛化能力，并且?guī)缀醪灰腩~外的計算代價。大量實(shí)驗(yàn)證明，提出的高斯鄰域最小化方法能夠使得模型在長尾分布數(shù)據(jù)上的損失平面更加平坦，且?guī)缀醪辉黾宇~外的計算開銷。該方法有效平衡了模型對頭類和尾類的泛化能力，并在多個長尾任務(wù)中展現(xiàn)出卓越的性能和效率優(yōu)勢。

論文標(biāo)題： Can Language Models Perform Robust Reasoning in Chain-of-thought Prompting with Noisy Rationales? 論文鏈接： https://arxiv.org/pdf/2410.23856 代碼鏈接： https://github.com/tmlr-group/NoisyRationales slides 鏈接： https://andrewzhou924.github.io/_pages/data/slides-NoRa.pdf

當(dāng)前，大語言模型（Large Language Model, LLM）借助上下文學(xué)習(xí)（In-context Learning）和思維鏈提示（Chain of Thoughts Prompting），在許多復(fù)雜推理任務(wù)上展現(xiàn)出了強(qiáng)大的能力。

然而，現(xiàn)有研究表明，LLM 在應(yīng)對噪聲輸入時存在明顯不足：當(dāng)輸入的問題包含無關(guān)內(nèi)容，或者遭到輕微修改時，模型極容易受到干擾，進(jìn)而偏離正確的推理方向。如圖 1 左所示，Q1 中的「We know 6+6=12 and 3+7=10 in base 10」是關(guān)于 base-9 計算的噪聲信息，該信息容易誤導(dǎo)模型輸出錯誤的結(jié)果。

圖 1. 噪聲問題（Noisy Questions）和噪聲思維鏈（Noisy Rationales）的示例

已有的魯棒研究大多側(cè)重于噪聲問題（Noisy Questions），然而，LLM 在噪聲思維鏈（Noisy Rationales）下的推理還沒有得到充分的探究。在本工作中，我們將噪聲思維鏈定義為：包含不相關(guān)或者不準(zhǔn)確推理步驟的思維鏈，如圖 1 右側(cè) R1 中的「13 + 8 = 21」步驟，對于 base-9 計算來說，是錯誤的推理步驟。

這些噪聲思維鏈通常源自 LLM 的實(shí)際應(yīng)用，比如眾包平臺、對話系統(tǒng)、機(jī)器生成數(shù)據(jù)等場景，人類和機(jī)器在推理中都會不可避免地犯錯，從而產(chǎn)生噪聲思維鏈。因此，噪聲思維鏈的實(shí)際影響和技術(shù)挑戰(zhàn)不容小覷。當(dāng)前，我們?nèi)匀徊磺宄?LLM 在面對噪聲思維鏈提示時的魯棒性能如何，也缺少有效的應(yīng)對策略。因此，非常有必要構(gòu)建一個新的數(shù)據(jù)集，用于系統(tǒng)評估當(dāng)前 LLM 在噪聲思維鏈場景下的魯棒性，以及驗(yàn)證相應(yīng)的魯棒推理策略。

對此，我們構(gòu)建了NoRa 數(shù)據(jù)集，并進(jìn)行了大量的實(shí)驗(yàn)評測。結(jié)果表明，GPT-3.5-Turbo、Gemini-Pro、Llama2-70B 和 Mixtral-8x7B 等開源或閉源 LLM 都極容易受到噪聲思維鏈的影響。其中，GPT-3.5-Turbo 的準(zhǔn)確率至多可降低 **40.4%**。因此，我們也呼吁大家更多地關(guān)注大模型推理的魯棒性問題。

我們的主要貢獻(xiàn)有如下三點(diǎn)：

新問題：對當(dāng)前流行的思維鏈提示技術(shù)，我們提出了尚未充分探究的噪聲思維鏈問題（Noisy Rationales），并給出了詳細(xì)的問題定義和統(tǒng)一的問題建模；
新數(shù)據(jù)集：我們構(gòu)建了 NoRa 數(shù)據(jù)集，用于評測 LLM 在噪聲思維鏈提示下的推理魯棒性。我們使用 NoRa 數(shù)據(jù)集對 LLM 展開系統(tǒng)評估，揭露了 LLM 推理的魯棒性不足，數(shù)據(jù)去噪能力非常有限的問題；
新方法：我們設(shè)計了一種簡單有效的方法（CD-CoT），基于單個正確的思維鏈?zhǔn)纠ゼm正噪聲思維鏈并完成推理，并通過大量實(shí)驗(yàn)驗(yàn)證了方法的有效性。

接下來將從新問題、新數(shù)據(jù)集、新方法這三個角度，簡要地介紹我們關(guān)于大模型推理魯棒性的研究結(jié)果，相關(guān)論文已發(fā)表于 NeurIPS 2024 會議。

一、新問題：Noisy Rationales

思維鏈可以有效提升大模型的推理能力 [1]。具體來說，通過給出帶有中間推理步驟的示例，LLM 可以很快地適應(yīng)到新任務(wù)上，而無需進(jìn)行參數(shù)修改（見圖 2 右上角）。現(xiàn)有工作中，通常假設(shè)思維鏈包含清楚且正確的推理步驟，但實(shí)際情況可能并非如此。

圖 2. 各種 setting 下的模型輸入

目前，已經(jīng)有許多工作探索了 Noisy Questions 對 LLM 推理性能的影響（見圖 2 左下角），揭示了 LLM 對輸入中微小修改的敏感性 [2,3]。

然而，在人工標(biāo)注或機(jī)器生成的思維鏈中，可能會包含一些與問題不相關(guān)或不準(zhǔn)確的推理步驟（見圖 2 右下角），這些噪聲思維鏈可能會對推理性能產(chǎn)生負(fù)面影響，但目前 LLM 對噪聲思維鏈（Noisy Rationales）的魯棒性依舊未知。

因此，本文提出了新的研究問題 Noisy Rationales：當(dāng)示例的推理步驟中包含無關(guān)的或者不準(zhǔn)確的內(nèi)容時，LLM 的推理魯棒性如何？對這一問題的探索，有助于深入理解和提升 LLM 在非完備場景中的推理能力。

二、新數(shù)據(jù)集：NoRa

為了評估 LLM 在噪聲思維鏈下的魯棒性，我們構(gòu)建了 NoRa（Noisy Rationales）數(shù)據(jù)集，NoRa 涵蓋了 3 種推理任務(wù)類型：數(shù)學(xué)推理、符號推理和常識推理，共包含 26391 個問題以及 5 種子任務(wù)。

一條思維鏈（Rationale）包含多個連續(xù)的推理步驟（Thoughts）；噪聲思維鏈（Noisy Rationale）包含的噪聲推理步驟（Noisy Thoughts）被定義為如下兩類（示例見圖 3）：

不相關(guān)噪聲（Irrelevant Thoughts）是指對解決問題無用的信息，如在推斷親屬關(guān)系時討論探討兄弟姐妹之間的基因重疊情況；
不準(zhǔn)確噪聲（Inaccurate Thoughts）則是推理中的事實(shí)性錯誤，如在特定進(jìn)制計算中使用錯誤的計算規(guī)則。

圖 3. NoRa 數(shù)據(jù)集的樣本

在構(gòu)建數(shù)據(jù)集時，我們通過插入 Noisy Thoughts 來生成噪聲思維鏈，這些噪聲僅影響推理鏈的細(xì)節(jié)，而不改變問題和最終答案的正確性。此外，我們使用不同的噪聲比例（Noise Ratio，即 Noisy Thoughts 占所 Thoughts 的比例，如 0.3、0.5、0.8）來控制任務(wù)的困難程度，Noise Ratio 越大任務(wù)難度也越大。NoRa 數(shù)據(jù)集的統(tǒng)計信息如圖 4 所示。

圖 4. NoRa 數(shù)據(jù)集的統(tǒng)計信息

三、NoRa 數(shù)據(jù)集測評結(jié)果

我們以 GPT-3.5-Turbo 為 base model，測試了其在 NoRa 上的表現(xiàn)，并且對比了多種去噪方法。這些去噪方法可以分為兩類：

自我糾正方法（Self-correction）：包括 Intrinsic Self-correction (ISC) [4] 和 Self-polish (SP) [5]；
自我一致性方法（Self-consistency）：包括 SmoothLLM (SM) [6]，Self-denoise (SD) [7] 和 Self-consistency (SC) [8]。

圖 5. 各種去噪方法在 NoRa 數(shù)據(jù)集上的測評結(jié)果

實(shí)驗(yàn)結(jié)果（圖 5）表明：

無論采取哪種現(xiàn)有方法，LLM 都會受到噪聲思維鏈的嚴(yán)重影響。具體來說，存在不相關(guān)噪聲時，各方法的性能下降了 0.2% - 25.3%；存在不準(zhǔn)確噪聲時，各方法的性能下降了 0.1% - 54.0%；
在 NoRa 的大多數(shù)任務(wù)中，自我糾正方法的表現(xiàn)不佳；
自一致性方法可以在一定程度上緩解噪聲的影響，但無法做到真正的數(shù)據(jù)去噪。

此外，我們還進(jìn)行了各種消融研究，來探索不同因素對 NoRa 數(shù)據(jù)集評估結(jié)果的影響（見圖 6），我們發(fā)現(xiàn)：

調(diào)整溫度系數(shù)可以改善模型在噪聲思維鏈下的推理性能；
使用更多的噪聲示例可以提高大多數(shù)任務(wù)的推理性能；
不同的大語言模型普遍容易受到噪聲思維鏈的影響。

圖 6. 消融實(shí)驗(yàn)：(左) 溫度系數(shù)對性能的影響；(中) 示例個數(shù)對性能的影響；(右) 各種模型的性能

四、新方法：CD-CoT

根據(jù)測評結(jié)果，大語言模型在應(yīng)對噪聲思維鏈提示時，其自身的去噪能力非常有限；即便使用自我糾正或自一致性方法，效果仍不理想。

因此，我們認(rèn)為有必要引入外部監(jiān)督信號來增強(qiáng)模型魯棒性，且這種監(jiān)督信號既要足以實(shí)現(xiàn)去噪，又要在實(shí)際應(yīng)用中切實(shí)可行。對此，我們提出了一種簡單有效的去噪推理方法，CD-CoT（Contrastive Denoising with Noisy Chain of Thoughts）。

CD-CoT 借鑒了對比學(xué)習(xí)的思路，通過讓 LLM 顯式地對比有噪和干凈的思維鏈，從而識別出噪聲信息。方法主要包括四個關(guān)鍵步驟，步驟 1&2 進(jìn)行顯式的去噪，步驟 3&4 進(jìn)行精細(xì)推理并獲得最終答案。

四個步驟具體如下：

改寫思維鏈：借助一個干凈的思維鏈?zhǔn)纠龑?dǎo) LLM 通過對比改寫和糾正噪聲思維鏈，并生成多個改寫的思維鏈（見圖 7 step1）；
選擇思維鏈：通過答案匹配，篩選出改寫后答案不變的思維鏈，形成精煉的候選集；再從中隨機(jī)選取一定數(shù)量的思維鏈，用于后續(xù)的推理（見圖 7 step2）；
探索推理鏈：將選取的思維鏈排列成不同的上下文，與目標(biāo)問題一同輸入給 LLM，并采用較高的溫度參數(shù)進(jìn)行多次重復(fù)推理，以探索多樣的推理路徑（見圖 8 step3）；
答案投票：將所有得到的答案進(jìn)行投票，得到最終答案（見圖 8 step4）。

完整的 CD-CoT 算法請見圖 9。

圖 7. CD-CoT 算法的步驟 1&2

圖 8. CD-CoT 算法的步驟 3&4

圖 9. 完整的 CD-CoT 算法
五、CD-CoT 實(shí)驗(yàn)結(jié)果

我們在 NoRa 數(shù)據(jù)集上全面測試了 CD-CoT，并對比了多個需要額外監(jiān)督信息的去噪方法（見圖 10），我們發(fā)現(xiàn)：

當(dāng)面對噪聲思維鏈時，與 base model 相比，CD-CoT 在所有數(shù)據(jù)集上的性能均有顯著提升，準(zhǔn)確率平均提升幅度達(dá)到 17.8%；
CD-CoT 對高噪聲表現(xiàn)出顯著的抵抗力，尤其在更具挑戰(zhàn)的數(shù)學(xué)推理任務(wù)中。

圖 10. 各種需要額外監(jiān)督信息的方法在 NoRa 數(shù)據(jù)集上的測評結(jié)果

此外，通過諸多消融實(shí)驗(yàn)，我們發(fā)現(xiàn)：

關(guān)于 CD-CoT 超參數(shù)的消融實(shí)驗(yàn)結(jié)果顯示，干凈的思維鏈?zhǔn)纠?CD-CoT 中扮演著關(guān)鍵的角色；當(dāng)變化 N,M,C 等超參數(shù)的取值時，準(zhǔn)確性僅呈現(xiàn)出細(xì)微的變化（見圖 11）。在論文中，我們默認(rèn)采用 M 設(shè)為 2 的 CD-CoT 示例，以在效率和效果之間取得平衡；
CD-CoT 在不同的 LLM 上具有良好的泛化能力，與 base model（GPT-3.5-Turbo 和 Gemini-Pro）相比，其準(zhǔn)確率分別提高了 23.4% 和 21.6%，并超越了所有基線方法（見圖 12）。

圖 11. 關(guān)于 CD-CoT 超參數(shù)的消融研究

圖 12. 關(guān)于 CD-CoT 在不同 LLM 上的效果的消融研究

更多的實(shí)驗(yàn)分析和技術(shù)細(xì)節(jié)，請移步參閱我們的論文及源碼，我們也將持續(xù)更新本工作的內(nèi)容。

我們希望通過這項(xiàng)工作，呼吁人們更多地關(guān)注 LLM 推理的魯棒性問題，并開展關(guān)于大模型推理魯棒性的探討與研究。非常感謝大家關(guān)注我們的工作！

參考文獻(xiàn)

[1] Wei J, Wang X, Schuurmans D, et al. Chain-of-thought prompting elicits reasoning in large language models. NeurIPS 2022.

[2] Shi F, Chen X, Misra K, et al. Large language models can be easily distracted by irrelevant context. ICML 2023.

[3] Tian Q, Zhu H, Wang L, et al. R3 Prompting: Review, Rephrase and Resolve for Chain-of-Thought Reasoning in Large Language Models under Noisy Context. EMNLP 2023.

[4] Huang J, Chen X, Mishra S, et al. Large language models cannot self-correct reasoning yet. ICLR 2024.

[5] Xi Z, Jin S, Zhou Y, et al. Self-polish: Enhance reasoning in large language models via problem refinement. EMNLP 2023.

[6] Robey A, Wong E, Hassani H, et al. Smoothllm: Defending large language models against jailbreaking attacks. Arxiv 2023.

[7] Zhang Z, Zhang G, Hou B, et al. Certified robustness for large language models with self-denoising. Arxiv 2023.

[8] Wang X, Wei J, Schuurmans D, et al. Self-Consistency Improves Chain of Thought Reasoning in Language Models. ICLR 2023.

來源：公眾號【機(jī)器之心】

llustration From IconScout By IconScout Store

-The End-

本周上新！

掃碼觀看！

“AI技術(shù)流”原創(chuàng)投稿計劃

TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)（

www.techbeat.net

）。社區(qū)上線600+talk視頻，3000+篇技術(shù)干貨文章，方向覆蓋CV/NLP/ML/Robotis等；每月定期舉辦頂會及其他線上交流活動，不定期舉辦技術(shù)人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質(zhì)量、知識型交流平臺，希望為AI人才打造更專業(yè)的服務(wù)和體驗(yàn)，加速并陪伴其成長。

投稿內(nèi)容

// 最新技術(shù)解讀/系統(tǒng)性知識分享 //

// 前沿資訊解說/心得經(jīng)歷講述 //

投稿須知

稿件需要為原創(chuàng)文章，并標(biāo)明作者信息。

我們會選擇部分在深度技術(shù)解析及科研心得方向，對用戶啟發(fā)更大的文章，做原創(chuàng)性內(nèi)容獎勵

投稿方式

發(fā)送郵件到

melodybai@thejiangmen.com

或添加工作人員微信（yellowsubbj）投稿，溝通投稿詳情；還可以關(guān)注“將門創(chuàng)投”公眾號，后臺回復(fù)“投稿”二字，獲得投稿說明。

關(guān)于我“門”

將門是一家以專注于數(shù)智核心科技領(lǐng)域的新型創(chuàng)投機(jī)構(gòu)，也是北京市標(biāo)桿型孵化器。公司致力于通過連接技術(shù)與商業(yè)，發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè)，推動企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級。

將門成立于2015年底，創(chuàng)始團(tuán)隊由微軟創(chuàng)投在中國的創(chuàng)始團(tuán)隊原班人馬構(gòu)建而成，曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。

如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè)，不僅想獲得投資，還希望獲得一系列持續(xù)性、有價值的投后服務(wù)，歡迎發(fā)送或者推薦項(xiàng)目給我“門”:

bp@thejiangmen.com

點(diǎn)擊右上角，把文章分享到朋友圈

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.