來源:深度學(xué)習(xí)自然語言處理
大型語言模型(LLM)雖然在知識(shí)任務(wù)中表現(xiàn)出色,但在數(shù)學(xué)證明、棋類推演等多步推理任務(wù)中屢屢受挫。根本原因在于Transformer架構(gòu)的計(jì)算深度限制:其注意力機(jī)制只能執(zhí)行固定步數(shù)的序列計(jì)算(TC?復(fù)雜度類),無法處理需要?jiǎng)討B(tài)深度的任務(wù),例如計(jì)算棋局狀態(tài)需要隨著步數(shù)增加而迭代更新。
Chain-of-Thought(CoT)提示通過生成中間推理步驟,將計(jì)算擴(kuò)展到文本空間,理論上可使Transformer實(shí)現(xiàn)圖靈完備性。但現(xiàn)有方法依賴"逐步思考"等通用提示,迫使模型在龐大的提示空間中盲目搜索。
論文:Why Prompt Design Matters and Works: A Complexity Analysis of Prompt Search Space in LLMs
鏈接:https://arxiv.org/pdf/2503.10084v2
本文首次建立提示設(shè)計(jì)的理論框架,揭示提示作為"信息選擇器"的核心作用,并通過復(fù)雜度分析證明:優(yōu)化提示可使推理性能提升超50%,為提示工程從經(jīng)驗(yàn)技巧走向系統(tǒng)科學(xué)奠定基石。
理論基礎(chǔ):CoT如何突破Transformer限制 Transformer的先天缺陷
計(jì)算深度固化:Transformer的隱狀態(tài)h僅在層間傳遞(垂直方向),而非時(shí)間步傳遞(水平方向)。如圖2d所示,其最大序列計(jì)算步數(shù)等于層數(shù)(O(1)),無法隨輸入長度增長。
答案模式的局限:僅輸出最終答案時(shí)(如"Q: 棋局狀態(tài)? A: 將軍"),模型需將多步計(jì)算壓縮到固定深度,丟失中間狀態(tài)信息。

CoT通過文本外化隱狀態(tài)構(gòu)建虛擬循環(huán):
離散化:從隱狀態(tài)h?提取關(guān)鍵信息 → 文本符號(hào)(o?..o?)
向量化:文本經(jīng)嵌入層重建為下一時(shí)刻隱狀態(tài)h???
公式意義:
o是自然語言描述的中間步驟(如"白王在e4")
嵌入層將文本重新編碼為向量,實(shí)現(xiàn)隱狀態(tài)迭代更新
此過程模擬了RNN的h? → h???循環(huán)(圖3c),使Transformer獲得動(dòng)態(tài)計(jì)算深度。

隱狀態(tài)h包含豐富信息(棋盤布局、計(jì)數(shù)器等),但單步CoT只能提取s比特(受文本長度限制)。提示模板決定提取哪些信息:
最優(yōu)提示:如"輸出當(dāng)前棋盤配置",提取任務(wù)關(guān)鍵信息
次優(yōu)提示:如"輸出棋盤棋子數(shù)",遺漏位置關(guān)系導(dǎo)致推理失敗
符號(hào)含義:
n:隱狀態(tài)h的信息總量(正比于模型維度d)
s:?jiǎn)尾紺oT可提取的信息量(正比于生成文本長度)
核心思想 :
該組合數(shù)量化了從n比特中選擇s比特的所有可能方式。例如:若h包含10種棋局信息(n=10),每步提取3項(xiàng)(s=3)→ 提示空間達(dá)120種
實(shí)際搜索需啟發(fā)式策略,但次優(yōu)提示仍導(dǎo)致性能崩塌(實(shí)驗(yàn)見Table 1)
提示模板p直接決定答案空間結(jié)構(gòu):
意義解讀:
:全部可能解的集合(如所有棋局路徑)
?:正確解的子集
最優(yōu)p:縮小搜索空間(如提示"按棋盤狀態(tài)推理" → 合法路徑占比↑)
劣質(zhì)p:?/ 趨近于0(如提示"統(tǒng)計(jì)棋子數(shù)" → 路徑隨機(jī)選擇)

三級(jí)計(jì)算復(fù)雜度:
正則語言(R):奇偶校驗(yàn)、循環(huán)導(dǎo)航
上下文無關(guān)(CF):棧操作、列表反轉(zhuǎn)
上下文敏感(CS):排序、字符串復(fù)制
控制變量:
列表化輸入消除tokenization干擾
對(duì)比監(jiān)督提示/無監(jiān)督提示/次優(yōu)提示

列表化輸入使排序任務(wù)準(zhǔn)確率提升40%
震撼性結(jié)果
監(jiān)督提示統(tǒng)治性能:
棧操作任務(wù):監(jiān)督提示96% vs 無監(jiān)督提示0%
奇偶校驗(yàn):監(jiān)督提示100% vs 次優(yōu)提示42%
X-of-Thought的局限:
GoT/ToT僅優(yōu)化答案空間搜索,無法修復(fù)錯(cuò)誤提示模板
當(dāng)提示本身錯(cuò)誤時(shí),多路徑探索反而降低效率(如棧操作任務(wù)中ToT準(zhǔn)確率僅36%)

核心結(jié)論:監(jiān)督提示在9類任務(wù)全面領(lǐng)先
典型失敗模式
冗余生成:次優(yōu)提示要求輸出無關(guān)信息(如"每步輸出是否吃子"),導(dǎo)致上下文溢出
遞歸陷阱:中間步驟本身需CoT才能解決(如計(jì)數(shù)子任務(wù)),形成死循環(huán)
Case:EP任務(wù)中次優(yōu)提示要求逐步輸出"ab/ba判斷",模型錯(cuò)誤計(jì)數(shù)創(chuàng)新方法論:提示工程科學(xué)化 最優(yōu)提示設(shè)計(jì)原則
核心思想:提示是信息瓶頸,需選擇top-s關(guān)鍵信息
操作指南:
顯式定義每步輸出內(nèi)容(如"輸出當(dāng)前計(jì)數(shù)器值")
拒絕模糊指令(如"詳細(xì)思考"→改為"每步更新棋盤坐標(biāo)")
場(chǎng)景
策略
任務(wù)結(jié)構(gòu)清晰
提供監(jiān)督提示(如排序步驟)
任務(wù)復(fù)雜不確定
信任模型啟發(fā)式搜索
輸出錯(cuò)誤中間信息
立即停止人工干預(yù)
對(duì)X-of-Thought的重新定位
本質(zhì):在固定提示模板下優(yōu)化答案空間搜索
局限:無法解決提示空間選擇錯(cuò)誤
示例:若提示要求"廣度優(yōu)先搜索",ToT會(huì)并行低效路徑,而非切換為深度優(yōu)先

本文顛覆了"提示工程是玄學(xué)"的認(rèn)知,通過嚴(yán)謹(jǐn)?shù)睦碚撆c實(shí)驗(yàn)揭示:
提示即算法:定義信息提取軌跡,控制答案空間結(jié)構(gòu)
復(fù)雜度可量化:提示空間大小由組合數(shù)公式刻畫,答案空間效率由len(CR)/len(S)|p度量
監(jiān)督提示必要性:在結(jié)構(gòu)化任務(wù)中帶來50%+性能提升
這項(xiàng)工作將提示設(shè)計(jì)從試錯(cuò)藝術(shù)轉(zhuǎn)變?yōu)?strong>可計(jì)算科學(xué),為LLM在復(fù)雜推理、自主決策等場(chǎng)景的應(yīng)用提供理論引擎。未來需探索復(fù)雜任務(wù)的提示泛化規(guī)律,并開發(fā)人機(jī)協(xié)作的提示優(yōu)化框架。
閱讀最新前沿科技趨勢(shì)報(bào)告,請(qǐng)?jiān)L問歐米伽研究所的“未來知識(shí)庫”
https://wx.zsxq.com/group/454854145828
未來知識(shí)庫是“ 歐米伽 未來研究所”建立的在線知識(shí)庫平臺(tái),收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級(jí)智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來趨勢(shì)。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進(jìn)入。
截止到3月31日 ”未來知識(shí)庫”精選的百部前沿科技趨勢(shì)報(bào)告
(加入未來知識(shí)庫,全部資料免費(fèi)閱讀和下載)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.