網易首頁 > 網易號 > 正文申請入駐

為什么你設計的Prompt會成功？新理論揭示大模型Prompt奧秘與效能

2025-06-16 14:44:53　來源: 機器之心Pro

天津舉報

分享至

本文共同一作是張翔和曹峻泰。張翔是英屬哥倫比亞大學研究生，主要研究興趣集中在大模型推理和AI for Science；曹峻泰是英屬哥倫比亞大學研究生，主要研究興趣集中在大模型推理和可解釋性研究；本文通訊作者是來自紐約大學石溪分校的助理教授尤晨羽，以及來自 Meta Gen AI 的研究員丁渡鑒。

近年來，大型語言模型（LLM）在自然語言處理領域取得了革命性進展。然而，其底層的 Transformer 架構在處理復雜推理任務時仍有不足。盡管「思維鏈」（CoT）提示技術提供了一條實用路徑，但多數方法依賴通用指令，導致提示工程高度依賴反復試驗，缺乏理論指導。

圖 1：Prompt 模板深刻影響著答案空間的配置和導航方式。左側展示了不同的 Prompt（如 Auto-Prompt、RL-Prompt）如何在「Prompt 空間」中進行搜索，而右側則展示了在特定 Prompt 指導下，如何在「答案空間」中進行搜索以得到解決方案（如 Tree-of-Thought、Graph-of-Thought）。

來自英屬哥倫比亞大學、紐約大學石溪分校和浙江大學的研究團隊深入剖析了 Prompt 如何在 LLM 的 CoT 推理過程中調控模型內部信息流。這項研究首次構建了一個量化 Prompt 搜索空間復雜度的理論框架，為 LLM 提示工程從經驗性的「煉丹」走向科學奠定了基礎。

論文標題：Why Prompt Design Matters and Works: A Complexity Analysis of Prompt Search Space in LLMs
論文鏈接：https://arxiv.org/abs/2503.10084
論文發表：ACL 2025 main（主會）已接收論文得分 Meta score：4（滿分為 5 分）
作者信息：Xiang Zhang、Juntai Cao、Jiaqi Wei、Chenyu You、Dujian Ding

圖 2：(a) 在沒有精心設計 Prompt 的樸素 CoT 中，模型可能生成錯誤或次優的思考步驟，導致任務失敗。(b) 通過最優的 Prompt 設計，可以有效引導模型，使其成功執行任務。(c) 當不采用 CoT 時，模型僅能依賴其 Transformer 架構進行內部推理。(d) Transformer 架構本身只能執行固定且深度有限的計算，難以應對復雜的多步推理。

突破「煉丹」：Prompt 設計走向科學

長期以來，提示工程的有效性似乎帶有一絲「玄學」色彩——為何某些提示組合能奇跡般地提升模型性能，而另一些則收效甚微？本研究從理論層面解釋了為何某些提示組合能有效提升模型性能。研究團隊指出，Prompt 在 CoT 推理過程中扮演著至關重要的「信息選擇器」（selectors）角色。

大型語言模型在處理任務時，其內部的隱藏狀態（hidden state, h）實際蘊含了極為豐富的信息，包括對任務的理解、中間計算結果、甚至模型自身的「置信度」等。然而，并非所有這些信息都對當前推理步驟同等重要。

正如論文圖 3 所示（見下方），CoT 的核心機制，便是將這種復雜的、高維度的內部隱狀態 h 中的信息，通過生成自然語言文本的方式，進行「離散化」和「外化」。這些生成的文本步驟隨后又被模型重新編碼，用于指導下一步的計算，從而近似一種遞歸計算過程。

圖 3：CoT 通過生成非答案的輔助 Token（中間步驟），近似了循環網絡的計算方式。模型內部隱藏狀態 h 中蘊含的豐富信息（如先前的錯誤、中間結果、置信度等）可以通過不同的 Prompt 設計被選擇性地提取并言語化。

關鍵在于，由于每個 CoT 步驟的文本長度有限，模型每一步只能提取并表達 h 中的部分信息，而哪些信息被提取，則是由 Prompt 模板決定的。如圖 4 所示，Prompt 模板指導模型提取關鍵的計算信息，而非關鍵信息可能被丟棄。

圖 4：在 CoT 過程中，并非所有隱藏狀態 h 中的信息都會被傳遞。Prompt 模板指導模型提取關鍵的計算信息，而其他非關鍵信息則可能被丟棄。

一個精心設計的提示模板，就如同一個精確的導航儀，它明確地指示模型在 CoT 的每一步中，應該從其完整的隱藏狀態 h 中「選擇」并「提取」哪些與任務最相關的信息進行「言語化」（verbalization）輸出。這一選擇過程的復雜性，即「Prompt 空間復雜度」，如論文圖 5 所示，取決于隱藏狀態 h 中總信息量 n 以及每個 CoT 步驟能提取的信息量 s。

圖 5：每個 Prompt 模板都規定了一種從隱藏狀態 h 到非答案 Token 的信息言語化方式。Prompt 空間的復雜度可以基于這種信息提取方式的數量來估算。

因此，不同的提示設計定義了不同的信息提取策略，從而在潛在的「答案空間」中塑造出獨一無二的推理「軌跡」（trajectory）。論文圖 6 直觀地描繪了這一過程。

圖 6：CoT 的整體空間可以分解為「Prompt 空間」和「答案空間」。在 Prompt 空間中選擇不同的 Prompt 設計（例如，決定在象棋推演的每一步是提取「棋盤布局」還是「剩余棋子數」），會直接影響在答案空間中導航并找到解決方案的路徑和效率。

簡而言之，提示之所以有效，是因為它能夠科學地指導模型在復雜的推理鏈條中，每一步都「抓重點」。

探尋最佳路徑：如何科學設計高效提示詞？

既然提示設計如此關鍵，那么我們應如何告別「煉丹式」的反復試驗，轉而系統性地找到針對特定任務的「最優提示設計」呢？該研究為此提供了一套理論框架和分析思路。

研究者們創新性地將整個 CoT 的推理過程分解為兩個相互關聯但又有所區別的搜索空間（圖 6）：「提示空間」（Prompt Space）的搜索和「答案空間」（Answer Space）的搜索。前者關乎如何找到最佳的「思考模板」或「解題策略」（即提示本身），后者則是在選定模板后，如何執行具體的思考步驟以找到最終答案。

尋找最優提示設計的核心，正是在「提示空間」中進行有效導航。那么，一個「最優提示模板」究竟是什么樣的呢？根據這項研究，一個優化的提示模板必須能夠：

明確指引每步輸出：精確規定 CoT 推理的每一個中間步驟應該輸出什么內容，確保這些內容是后續計算所必需的。

聚焦核心信息：在模型隱藏狀態 h 所包含的眾多信息中（假設總信息量為 n 比特），最優提示應引導模型在每個 CoT 步驟中，識別并提取出對當前推理任務最為關鍵的、最頂部的 s 比特信息，并將其轉化為文本輸出，同時舍棄其余的無關或冗余信號。

充當「算法藍圖」：一個好的提示模板，實際上是在為特定任務「編碼」一套高效的「算法」，它決定了在推理的每一步需要哪些「變量」（信息），以及如何利用這些「變量」來計算下一個狀態。

因此，這項工作將尋找最優提示的過程，從一種依賴直覺和運氣的嘗試，轉變為一個可以在理論指導下進行的、對信息提取和利用方式的系統性探索。它為我們指明了方向：要設計出最佳提示，就需要深入理解任務的計算需求，并確保提示能夠引導 LLM 在每一步都準確地「抓住」并「用好」解決問題所需的核心信息。

實驗證據：精心設計的提示詞如何驅動 LLM 推理性能飛躍

為了驗證上述理論框架的有效性，研究團隊進行了一系列精心設計的實驗。他們選取了涵蓋不同計算復雜度等級（包括常規 Regular、上下文無關 Context-Free 及上下文敏感 Context-Sensitive 等）的基礎推理任務，這些任務本身對計算深度有較高要求，通常超出標準 Transformer 架構的直接處理能力，因而非常依賴 CoT 機制來輔助完成。實驗中使用了 gpt-4o-classic 網頁版及 gpt-4o mini API，并特別注意通過統一輸入格式（如將字符串任務轉換為列表格式）等方式，來最小化Tokenization等外部因素對實驗結果的干擾。

核心實驗結果清晰地揭示了以下幾點：

「遞歸計算」的基石作用

實驗首先證實了「遞歸計算」對于復雜推理任務的不可或缺性。如表 1 所示，當 LLM 不使用思維鏈（CoT）機制時，其在需要多步推理的任務上表現不佳。然而，一旦引入 CoT，賦予模型文本空間「遞歸計算」的能力，準確率便顯著提高。這凸顯了 CoT 為 LLM 帶來的「類遞歸」能力的重要性。

表 1

提示設計的決定性影響——「最優監督」的力量

最為關鍵的發現是，提示模板（即「思考步驟」的具體設計）的選擇，對 LLM 的推理性能起著決定性作用。研究對比了三種情況（見表 1 和表 3）：

無監督 CoT (Unsupervised CoT)：模型自行推導思考步驟。
最優監督 CoT (CoT Supervised / S-CoT)：研究者提供精心設計的最優步驟模板。
次優監督 CoT (CoT Supervised-SUB / S-CoT-SUB)：模型使用次優或存在冗余/誤導信息的步驟模板。

結果顯示，通過 S-CoT 提供理想的步驟模板時，LLM 性能最佳，顯著優于無監督 CoT。相反，使用次優監督會導致性能急劇下降。這證實了論文核心觀點：答案空間和搜索復雜度受提示空間中模板選擇的影響。正確的人類監督（最優提示設計）能引導模型達到最高效的推理狀態，可將推理任務性能提升超過 50%。

表 3

CoT 變體：輔助「答案空間」導航，但非「提示空間」的解決方案

研究還考察了不同的 CoT 變體，如思維樹（ToT）和思維圖（GoT）等（見表 2）。結果顯示，這些方法能在一定程度上提升樸素 CoT 的性能，例如 GoT 因其自我修正機制表現出較好的準確率增益。

然而，它們的改進主要在于通過更復雜的搜索策略（如多路徑探索、自我校驗）來糾正計算過程中的「小錯誤」或探索更多解題路徑，而非優化提示模板本身的選擇。這意味著，即便 ToT 或 GoT 等高級方法，如果其依賴的底層提示模板本身是次優的，其性能上限依然會受到制約。它們主要解決的是「答案空間」的導航問題，而非「提示空間」的模板選擇問題。

圖 8：ToT（思維樹）機制通過探索答案空間中的多個分支路徑來提升問題解決能力。然而，狀態如何轉換仍然受到 CoT 步驟模板的制約，這超出了 ToT 本身提供的范疇。

表 2

結論：為高效提示詞設計鋪路

這項研究首次系統性地探索了提示空間的復雜性，為理解和設計 LLM 的高效提示策略奠定了堅實的理論基礎。其核心洞見在于：

Prompt 作為信息選擇器：提示通過從模型的隱藏狀態中精確提取與任務相關的特定信息，從而主導并塑造 CoT 的推理過程。

Prompt 設計至關重要，而非附屬：提示的設計并非一項輔助性或錦上添花的工作，而是決定 CoT 推理有效性的核心環節。提示結構的微小調整可能帶來模型性能的巨大飛躍或驟降。

通用 Prompt 的固有局限：簡單依賴模型自我引導的樸素 CoT 策略（例如，萬能的「think step by step」）可能會嚴重限制模型在復雜任務上的表現潛力。

最優 Prompt 探索的巨大價值：實驗清晰證明，通過系統性的最優提示搜索與設計，LLM 在推理任務上的性能可以獲得超過 50% 的顯著提升。

這項工作為我們理解和提升 LLM 基于 Prompt 的推理能力提供了寶貴的理論框架和實踐指引，并深刻預示著在未來的 LLM 應用浪潮中，科學化的提示工程與人類的智慧監督將扮演不可或缺的關鍵角色。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.