本文共同一作是張翔和曹峻泰。張翔是英屬哥倫比亞大學研究生,主要研究興趣集中在大模型推理和AI for Science;曹峻泰是英屬哥倫比亞大學研究生,主要研究興趣集中在大模型推理和可解釋性研究;本文通訊作者是來自紐約大學石溪分校的助理教授尤晨羽,以及來自 Meta Gen AI 的研究員丁渡鑒。
近年來,大型語言模型(LLM)在自然語言處理領域取得了革命性進展。然而,其底層的 Transformer 架構在處理復雜推理任務時仍有不足。盡管「思維鏈」(CoT)提示技術提供了一條實用路徑,但多數方法依賴通用指令,導致提示工程高度依賴反復試驗,缺乏理論指導。
圖 1:Prompt 模板深刻影響著答案空間的配置和導航方式。左側展示了不同的 Prompt(如 Auto-Prompt、RL-Prompt)如何在「Prompt 空間」中進行搜索,而右側則展示了在特定 Prompt 指導下,如何在「答案空間」中進行搜索以得到解決方案(如 Tree-of-Thought、Graph-of-Thought)。
來自英屬哥倫比亞大學、紐約大學石溪分校和浙江大學的研究團隊深入剖析了 Prompt 如何在 LLM 的 CoT 推理過程中調控模型內部信息流。這項研究首次構建了一個量化 Prompt 搜索空間復雜度的理論框架,為 LLM 提示工程從經驗性的「煉丹」走向科學奠定了基礎。
- 論文標題:Why Prompt Design Matters and Works: A Complexity Analysis of Prompt Search Space in LLMs
- 論文鏈接:https://arxiv.org/abs/2503.10084
- 論文發表:ACL 2025 main(主會)已接收 論文得分 Meta score:4(滿分為 5 分)
- 作者信息:Xiang Zhang、Juntai Cao、Jiaqi Wei、Chenyu You、Dujian Ding
圖 2:(a) 在沒有精心設計 Prompt 的樸素 CoT 中,模型可能生成錯誤或次優的思考步驟,導致任務失敗。(b) 通過最優的 Prompt 設計,可以有效引導模型,使其成功執行任務。(c) 當不采用 CoT 時,模型僅能依賴其 Transformer 架構進行內部推理。(d) Transformer 架構本身只能執行固定且深度有限的計算,難以應對復雜的多步推理。
突破「煉丹」:Prompt 設計走向科學
長期以來,提示工程的有效性似乎帶有一絲「玄學」色彩——為何某些提示組合能奇跡般地提升模型性能,而另一些則收效甚微?本研究從理論層面解釋了為何某些提示組合能有效提升模型性能。研究團隊指出,Prompt 在 CoT 推理過程中扮演著至關重要的「信息選擇器」(selectors)角色。
大型語言模型在處理任務時,其內部的隱藏狀態(hidden state, h)實際蘊含了極為豐富的信息,包括對任務的理解、中間計算結果、甚至模型自身的「置信度」等。然而,并非所有這些信息都對當前推理步驟同等重要。
正如論文圖 3 所示(見下方),CoT 的核心機制,便是將這種復雜的、高維度的內部隱狀態 h 中的信息,通過生成自然語言文本的方式,進行「離散化」和「外化」。這些生成的文本步驟隨后又被模型重新編碼,用于指導下一步的計算,從而近似一種遞歸計算過程。
圖 3:CoT 通過生成非答案的輔助 Token(中間步驟),近似了循環網絡的計算方式。模型內部隱藏狀態 h 中蘊含的豐富信息(如先前的錯誤、中間結果、置信度等)可以通過不同的 Prompt 設計被選擇性地提取并言語化。
關鍵在于,由于每個 CoT 步驟的文本長度有限,模型每一步只能提取并表達 h 中的部分信息,而哪些信息被提取,則是由 Prompt 模板決定的。如圖 4 所示,Prompt 模板指導模型提取關鍵的計算信息,而非關鍵信息可能被丟棄。
圖 4:在 CoT 過程中,并非所有隱藏狀態 h 中的信息都會被傳遞。Prompt 模板指導模型提取關鍵的計算信息,而其他非關鍵信息則可能被丟棄。
一個精心設計的提示模板,就如同一個精確的導航儀,它明確地指示模型在 CoT 的每一步中,應該從其完整的隱藏狀態 h 中「選擇」并「提取」哪些與任務最相關的信息進行「言語化」(verbalization)輸出。這一選擇過程的復雜性,即「Prompt 空間復雜度」,如論文圖 5 所示,取決于隱藏狀態 h 中總信息量 n 以及每個 CoT 步驟能提取的信息量 s。
圖 5:每個 Prompt 模板都規定了一種從隱藏狀態 h 到非答案 Token 的信息言語化方式。Prompt 空間的復雜度可以基于這種信息提取方式的數量來估算。
因此,不同的提示設計定義了不同的信息提取策略,從而在潛在的「答案空間」中塑造出獨一無二的推理「軌跡」(trajectory)。論文圖 6 直觀地描繪了這一過程。
圖 6:CoT 的整體空間可以分解為「Prompt 空間」和「答案空間」。在 Prompt 空間中選擇不同的 Prompt 設計(例如,決定在象棋推演的每一步是提取「棋盤布局」還是「剩余棋子數」),會直接影響在答案空間中導航并找到解決方案的路徑和效率。
簡而言之,提示之所以有效,是因為它能夠科學地指導模型在復雜的推理鏈條中,每一步都「抓重點」。
探尋最佳路徑:如何科學設計高效提示詞?
既然提示設計如此關鍵,那么我們應如何告別「煉丹式」的反復試驗,轉而系統性地找到針對特定任務的「最優提示設計」呢?該研究為此提供了一套理論框架和分析思路。
研究者們創新性地將整個 CoT 的推理過程分解為兩個相互關聯但又有所區別的搜索空間(圖 6):「提示空間」(Prompt Space)的搜索和「答案空間」(Answer Space)的搜索。前者關乎如何找到最佳的「思考模板」或「解題策略」(即提示本身),后者則是在選定模板后,如何執行具體的思考步驟以找到最終答案。
尋找最優提示設計的核心,正是在「提示空間」中進行有效導航。那么,一個「最優提示模板」究竟是什么樣的呢?根據這項研究,一個優化的提示模板必須能夠:
- 明確指引每步輸出:精確規定 CoT 推理的每一個中間步驟應該輸出什么內容,確保這些內容是后續計算所必需的。
- 聚焦核心信息:在模型隱藏狀態 h 所包含的眾多信息中(假設總信息量為 n 比特),最優提示應引導模型在每個 CoT 步驟中,識別并提取出對當前推理任務最為關鍵的、最頂部的 s 比特信息,并將其轉化為文本輸出,同時舍棄其余的無關或冗余信號。
- 充當「算法藍圖」:一個好的提示模板,實際上是在為特定任務「編碼」一套高效的「算法」,它決定了在推理的每一步需要哪些「變量」(信息),以及如何利用這些「變量」來計算下一個狀態。
因此,這項工作將尋找最優提示的過程,從一種依賴直覺和運氣的嘗試,轉變為一個可以在理論指導下進行的、對信息提取和利用方式的系統性探索。它為我們指明了方向:要設計出最佳提示,就需要深入理解任務的計算需求,并確保提示能夠引導 LLM 在每一步都準確地「抓住」并「用好」解決問題所需的核心信息。
實驗證據:精心設計的提示詞如何驅動 LLM 推理性能飛躍
為了驗證上述理論框架的有效性,研究團隊進行了一系列精心設計的實驗。他們選取了涵蓋不同計算復雜度等級(包括常規 Regular、上下文無關 Context-Free 及上下文敏感 Context-Sensitive 等)的基礎推理任務,這些任務本身對計算深度有較高要求,通常超出標準 Transformer 架構的直接處理能力,因而非常依賴 CoT 機制來輔助完成。實驗中使用了 gpt-4o-classic 網頁版及 gpt-4o mini API,并特別注意通過統一輸入格式(如將字符串任務轉換為列表格式)等方式,來最小化Tokenization等外部因素對實驗結果的干擾。
核心實驗結果清晰地揭示了以下幾點:
「遞歸計算」的基石作用
實驗首先證實了「遞歸計算」對于復雜推理任務的不可或缺性。如表 1 所示,當 LLM 不使用思維鏈(CoT)機制時,其在需要多步推理的任務上表現不佳。然而,一旦引入 CoT,賦予模型文本空間「遞歸計算」的能力,準確率便顯著提高。這凸顯了 CoT 為 LLM 帶來的「類遞歸」能力的重要性。
表 1
提示設計的決定性影響——「最優監督」的力量
最為關鍵的發現是,提示模板(即「思考步驟」的具體設計)的選擇,對 LLM 的推理性能起著決定性作用。研究對比了三種情況(見表 1 和表 3):
- 無監督 CoT (Unsupervised CoT):模型自行推導思考步驟。
- 最優監督 CoT (CoT Supervised / S-CoT):研究者提供精心設計的最優步驟模板。
- 次優監督 CoT (CoT Supervised-SUB / S-CoT-SUB):模型使用次優或存在冗余/誤導信息的步驟模板。
結果顯示,通過 S-CoT 提供理想的步驟模板時,LLM 性能最佳,顯著優于無監督 CoT。相反,使用次優監督會導致性能急劇下降。這證實了論文核心觀點:答案空間和搜索復雜度受提示空間中模板選擇的影響。正確的人類監督(最優提示設計)能引導模型達到最高效的推理狀態,可將推理任務性能提升超過 50%。
表 3
CoT 變體:輔助「答案空間」導航,但非「提示空間」的解決方案
研究還考察了不同的 CoT 變體,如思維樹(ToT)和思維圖(GoT)等(見表 2)。結果顯示,這些方法能在一定程度上提升樸素 CoT 的性能,例如 GoT 因其自我修正機制表現出較好的準確率增益。
然而,它們的改進主要在于通過更復雜的搜索策略(如多路徑探索、自我校驗)來糾正計算過程中的「小錯誤」或探索更多解題路徑,而非優化提示模板本身的選擇。這意味著,即便 ToT 或 GoT 等高級方法,如果其依賴的底層提示模板本身是次優的,其性能上限依然會受到制約。它們主要解決的是「答案空間」的導航問題,而非「提示空間」的模板選擇問題。
圖 8:ToT(思維樹)機制通過探索答案空間中的多個分支路徑來提升問題解決能力。然而,狀態如何轉換仍然受到 CoT 步驟模板的制約,這超出了 ToT 本身提供的范疇。
表 2
結論:為高效提示詞設計鋪路
這項研究首次系統性地探索了提示空間的復雜性,為理解和設計 LLM 的高效提示策略奠定了堅實的理論基礎。其核心洞見在于:
- Prompt 作為信息選擇器:提示通過從模型的隱藏狀態中精確提取與任務相關的特定信息,從而主導并塑造 CoT 的推理過程。
- Prompt 設計至關重要,而非附屬:提示的設計并非一項輔助性或錦上添花的工作,而是決定 CoT 推理有效性的核心環節。提示結構的微小調整可能帶來模型性能的巨大飛躍或驟降。
- 通用 Prompt 的固有局限:簡單依賴模型自我引導的樸素 CoT 策略(例如,萬能的「think step by step」)可能會嚴重限制模型在復雜任務上的表現潛力。
- 最優 Prompt 探索的巨大價值:實驗清晰證明,通過系統性的最優提示搜索與設計,LLM 在推理任務上的性能可以獲得超過 50% 的顯著提升。
這項工作為我們理解和提升 LLM 基于 Prompt 的推理能力提供了寶貴的理論框架和實踐指引,并深刻預示著在未來的 LLM 應用浪潮中,科學化的提示工程與人類的智慧監督將扮演不可或缺的關鍵角色。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.