99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

為什么你設計的Prompt會成功?新理論揭示大模型Prompt奧秘與效能

0
分享至



本文共同一作是張翔和曹峻泰。張翔是英屬哥倫比亞大學研究生,主要研究興趣集中在大模型推理和AI for Science;曹峻泰是英屬哥倫比亞大學研究生,主要研究興趣集中在大模型推理和可解釋性研究;本文通訊作者是來自紐約大學石溪分校的助理教授尤晨羽,以及來自 Meta Gen AI 的研究員丁渡鑒。

近年來,大型語言模型(LLM)在自然語言處理領域取得了革命性進展。然而,其底層的 Transformer 架構在處理復雜推理任務時仍有不足。盡管「思維鏈」(CoT)提示技術提供了一條實用路徑,但多數方法依賴通用指令,導致提示工程高度依賴反復試驗,缺乏理論指導。



圖 1:Prompt 模板深刻影響著答案空間的配置和導航方式。左側展示了不同的 Prompt(如 Auto-Prompt、RL-Prompt)如何在「Prompt 空間」中進行搜索,而右側則展示了在特定 Prompt 指導下,如何在「答案空間」中進行搜索以得到解決方案(如 Tree-of-Thought、Graph-of-Thought)。

來自英屬哥倫比亞大學、紐約大學石溪分校和浙江大學的研究團隊深入剖析了 Prompt 如何在 LLM 的 CoT 推理過程中調控模型內部信息流。這項研究首次構建了一個量化 Prompt 搜索空間復雜度的理論框架,為 LLM 提示工程從經驗性的「煉丹」走向科學奠定了基礎。



  • 論文標題:Why Prompt Design Matters and Works: A Complexity Analysis of Prompt Search Space in LLMs
  • 論文鏈接:https://arxiv.org/abs/2503.10084
  • 論文發表:ACL 2025 main(主會)已接收 論文得分 Meta score:4(滿分為 5 分)
  • 作者信息:Xiang Zhang、Juntai Cao、Jiaqi Wei、Chenyu You、Dujian Ding



圖 2:(a) 在沒有精心設計 Prompt 的樸素 CoT 中,模型可能生成錯誤或次優的思考步驟,導致任務失敗。(b) 通過最優的 Prompt 設計,可以有效引導模型,使其成功執行任務。(c) 當不采用 CoT 時,模型僅能依賴其 Transformer 架構進行內部推理。(d) Transformer 架構本身只能執行固定且深度有限的計算,難以應對復雜的多步推理。

突破「煉丹」:Prompt 設計走向科學

長期以來,提示工程的有效性似乎帶有一絲「玄學」色彩——為何某些提示組合能奇跡般地提升模型性能,而另一些則收效甚微?本研究從理論層面解釋了為何某些提示組合能有效提升模型性能。研究團隊指出,Prompt 在 CoT 推理過程中扮演著至關重要的「信息選擇器」(selectors)角色。

大型語言模型在處理任務時,其內部的隱藏狀態(hidden state, h)實際蘊含了極為豐富的信息,包括對任務的理解、中間計算結果、甚至模型自身的「置信度」等。然而,并非所有這些信息都對當前推理步驟同等重要。

正如論文圖 3 所示(見下方),CoT 的核心機制,便是將這種復雜的、高維度的內部隱狀態 h 中的信息,通過生成自然語言文本的方式,進行「離散化」和「外化」。這些生成的文本步驟隨后又被模型重新編碼,用于指導下一步的計算,從而近似一種遞歸計算過程。



圖 3:CoT 通過生成非答案的輔助 Token(中間步驟),近似了循環網絡的計算方式。模型內部隱藏狀態 h 中蘊含的豐富信息(如先前的錯誤、中間結果、置信度等)可以通過不同的 Prompt 設計被選擇性地提取并言語化。

關鍵在于,由于每個 CoT 步驟的文本長度有限,模型每一步只能提取并表達 h 中的部分信息,而哪些信息被提取,則是由 Prompt 模板決定的。如圖 4 所示,Prompt 模板指導模型提取關鍵的計算信息,而非關鍵信息可能被丟棄。



圖 4:在 CoT 過程中,并非所有隱藏狀態 h 中的信息都會被傳遞。Prompt 模板指導模型提取關鍵的計算信息,而其他非關鍵信息則可能被丟棄。

一個精心設計的提示模板,就如同一個精確的導航儀,它明確地指示模型在 CoT 的每一步中,應該從其完整的隱藏狀態 h 中「選擇」并「提取」哪些與任務最相關的信息進行「言語化」(verbalization)輸出。這一選擇過程的復雜性,即「Prompt 空間復雜度」,如論文圖 5 所示,取決于隱藏狀態 h 中總信息量 n 以及每個 CoT 步驟能提取的信息量 s。



圖 5:每個 Prompt 模板都規定了一種從隱藏狀態 h 到非答案 Token 的信息言語化方式。Prompt 空間的復雜度可以基于這種信息提取方式的數量來估算。

因此,不同的提示設計定義了不同的信息提取策略,從而在潛在的「答案空間」中塑造出獨一無二的推理「軌跡」(trajectory)。論文圖 6 直觀地描繪了這一過程。



圖 6:CoT 的整體空間可以分解為「Prompt 空間」和「答案空間」。在 Prompt 空間中選擇不同的 Prompt 設計(例如,決定在象棋推演的每一步是提取「棋盤布局」還是「剩余棋子數」),會直接影響在答案空間中導航并找到解決方案的路徑和效率。

簡而言之,提示之所以有效,是因為它能夠科學地指導模型在復雜的推理鏈條中,每一步都「抓重點」。

探尋最佳路徑:如何科學設計高效提示詞?

既然提示設計如此關鍵,那么我們應如何告別「煉丹式」的反復試驗,轉而系統性地找到針對特定任務的「最優提示設計」呢?該研究為此提供了一套理論框架和分析思路。

研究者們創新性地將整個 CoT 的推理過程分解為兩個相互關聯但又有所區別的搜索空間(圖 6):「提示空間」(Prompt Space)的搜索和「答案空間」(Answer Space)的搜索。前者關乎如何找到最佳的「思考模板」或「解題策略」(即提示本身),后者則是在選定模板后,如何執行具體的思考步驟以找到最終答案。

尋找最優提示設計的核心,正是在「提示空間」中進行有效導航。那么,一個「最優提示模板」究竟是什么樣的呢?根據這項研究,一個優化的提示模板必須能夠:

  • 明確指引每步輸出:精確規定 CoT 推理的每一個中間步驟應該輸出什么內容,確保這些內容是后續計算所必需的。

  • 聚焦核心信息:在模型隱藏狀態 h 所包含的眾多信息中(假設總信息量為 n 比特),最優提示應引導模型在每個 CoT 步驟中,識別并提取出對當前推理任務最為關鍵的、最頂部的 s 比特信息,并將其轉化為文本輸出,同時舍棄其余的無關或冗余信號。

  • 充當「算法藍圖」:一個好的提示模板,實際上是在為特定任務「編碼」一套高效的「算法」,它決定了在推理的每一步需要哪些「變量」(信息),以及如何利用這些「變量」來計算下一個狀態。

因此,這項工作將尋找最優提示的過程,從一種依賴直覺和運氣的嘗試,轉變為一個可以在理論指導下進行的、對信息提取和利用方式的系統性探索。它為我們指明了方向:要設計出最佳提示,就需要深入理解任務的計算需求,并確保提示能夠引導 LLM 在每一步都準確地「抓住」并「用好」解決問題所需的核心信息。

實驗證據:精心設計的提示詞如何驅動 LLM 推理性能飛躍

為了驗證上述理論框架的有效性,研究團隊進行了一系列精心設計的實驗。他們選取了涵蓋不同計算復雜度等級(包括常規 Regular、上下文無關 Context-Free 及上下文敏感 Context-Sensitive 等)的基礎推理任務,這些任務本身對計算深度有較高要求,通常超出標準 Transformer 架構的直接處理能力,因而非常依賴 CoT 機制來輔助完成。實驗中使用了 gpt-4o-classic 網頁版及 gpt-4o mini API,并特別注意通過統一輸入格式(如將字符串任務轉換為列表格式)等方式,來最小化Tokenization等外部因素對實驗結果的干擾。

核心實驗結果清晰地揭示了以下幾點:

「遞歸計算」的基石作用

實驗首先證實了「遞歸計算」對于復雜推理任務的不可或缺性。如表 1 所示,當 LLM 不使用思維鏈(CoT)機制時,其在需要多步推理的任務上表現不佳。然而,一旦引入 CoT,賦予模型文本空間「遞歸計算」的能力,準確率便顯著提高。這凸顯了 CoT 為 LLM 帶來的「類遞歸」能力的重要性。



表 1

提示設計的決定性影響——「最優監督」的力量

最為關鍵的發現是,提示模板(即「思考步驟」的具體設計)的選擇,對 LLM 的推理性能起著決定性作用。研究對比了三種情況(見表 1 和表 3):

  • 無監督 CoT (Unsupervised CoT):模型自行推導思考步驟。
  • 最優監督 CoT (CoT Supervised / S-CoT):研究者提供精心設計的最優步驟模板。
  • 次優監督 CoT (CoT Supervised-SUB / S-CoT-SUB):模型使用次優或存在冗余/誤導信息的步驟模板。

結果顯示,通過 S-CoT 提供理想的步驟模板時,LLM 性能最佳,顯著優于無監督 CoT。相反,使用次優監督會導致性能急劇下降。這證實了論文核心觀點:答案空間和搜索復雜度受提示空間中模板選擇的影響。正確的人類監督(最優提示設計)能引導模型達到最高效的推理狀態,可將推理任務性能提升超過 50%。



表 3

CoT 變體:輔助「答案空間」導航,但非「提示空間」的解決方案

研究還考察了不同的 CoT 變體,如思維樹(ToT)和思維圖(GoT)等(見表 2)。結果顯示,這些方法能在一定程度上提升樸素 CoT 的性能,例如 GoT 因其自我修正機制表現出較好的準確率增益。

然而,它們的改進主要在于通過更復雜的搜索策略(如多路徑探索、自我校驗)來糾正計算過程中的「小錯誤」或探索更多解題路徑,而非優化提示模板本身的選擇。這意味著,即便 ToT 或 GoT 等高級方法,如果其依賴的底層提示模板本身是次優的,其性能上限依然會受到制約。它們主要解決的是「答案空間」的導航問題,而非「提示空間」的模板選擇問題。



圖 8:ToT(思維樹)機制通過探索答案空間中的多個分支路徑來提升問題解決能力。然而,狀態如何轉換仍然受到 CoT 步驟模板的制約,這超出了 ToT 本身提供的范疇。



表 2

結論:為高效提示詞設計鋪路

這項研究首次系統性地探索了提示空間的復雜性,為理解和設計 LLM 的高效提示策略奠定了堅實的理論基礎。其核心洞見在于:

  • Prompt 作為信息選擇器:提示通過從模型的隱藏狀態中精確提取與任務相關的特定信息,從而主導并塑造 CoT 的推理過程。

  • Prompt 設計至關重要,而非附屬:提示的設計并非一項輔助性或錦上添花的工作,而是決定 CoT 推理有效性的核心環節。提示結構的微小調整可能帶來模型性能的巨大飛躍或驟降。

  • 通用 Prompt 的固有局限:簡單依賴模型自我引導的樸素 CoT 策略(例如,萬能的「think step by step」)可能會嚴重限制模型在復雜任務上的表現潛力。

  • 最優 Prompt 探索的巨大價值:實驗清晰證明,通過系統性的最優提示搜索與設計,LLM 在推理任務上的性能可以獲得超過 50% 的顯著提升。

這項工作為我們理解和提升 LLM 基于 Prompt 的推理能力提供了寶貴的理論框架和實踐指引,并深刻預示著在未來的 LLM 應用浪潮中,科學化的提示工程與人類的智慧監督將扮演不可或缺的關鍵角色。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
以色列首都CBD被炸!世界最大鉆石交易所遇襲伊朗似乎專挑大的炸

以色列首都CBD被炸!世界最大鉆石交易所遇襲伊朗似乎專挑大的炸

火星方陣
2025-06-21 09:01:53
南京藍天救援隊創始人孫建偉因病去世,年僅38歲,曾參與上百起救援

南京藍天救援隊創始人孫建偉因病去世,年僅38歲,曾參與上百起救援

極目新聞
2025-06-20 12:23:38
對中國沒認同感!美境內38萬苗族人,是背叛與鮮血釀出的“惡果”

對中國沒認同感!美境內38萬苗族人,是背叛與鮮血釀出的“惡果”

轉身微笑梅
2025-06-21 16:08:39
老到無人識!投資失敗成窮光蛋,梁雁翎用半生經歷證明了世事無常

老到無人識!投資失敗成窮光蛋,梁雁翎用半生經歷證明了世事無常

七公子娛樂
2025-06-20 11:00:06
李雪琴事件升級!舉報人再曬證據實錘,被曝學歷造假只是冰山一角

李雪琴事件升級!舉報人再曬證據實錘,被曝學歷造假只是冰山一角

趣文說娛
2025-06-21 14:20:38
阿斯:皇馬缺少中場組織者的問題十分明顯,但俱樂部不知該引進誰

阿斯:皇馬缺少中場組織者的問題十分明顯,但俱樂部不知該引進誰

雷速體育
2025-06-21 11:19:36
常州隊五連敗后球迷不離不棄,賽后喊話:打回來吧!

常州隊五連敗后球迷不離不棄,賽后喊話:打回來吧!

直播吧
2025-06-21 21:44:16
鐵路局董事長、總經理雙雙調整!

鐵路局董事長、總經理雙雙調整!

高鐵見聞
2025-06-21 22:45:14
發現男朋友那里“太大”,是正常的嗎?(女生慎入)

發現男朋友那里“太大”,是正常的嗎?(女生慎入)

愛護120
2025-06-21 16:36:36
汪峰示好寧靜,森林北顏面盡失,現已刪除與汪峰的官宣視頻

汪峰示好寧靜,森林北顏面盡失,現已刪除與汪峰的官宣視頻

萱小蕾o
2025-06-21 00:40:48
公務員注意!下班后這8類行為,監委盯上你了!

公務員注意!下班后這8類行為,監委盯上你了!

牛鍋巴小釩
2025-06-21 07:18:15
于根偉談足協杯出局:這不應該是天津隊的表現,很遺憾很抱歉

于根偉談足協杯出局:這不應該是天津隊的表現,很遺憾很抱歉

懂球帝
2025-06-21 22:32:13
極為奢華!1年電費40萬,網紅炫富被封禁!家中掛蘭博基尼,裝修花掉8000萬

極為奢華!1年電費40萬,網紅炫富被封禁!家中掛蘭博基尼,裝修花掉8000萬

21世紀經濟報道
2025-06-21 12:49:55
一覺醒來,復讀生的天塌了!2025年考再差,都不要復讀,真的嗎?

一覺醒來,復讀生的天塌了!2025年考再差,都不要復讀,真的嗎?

菊學姐
2025-06-21 09:00:10
為何天安門升旗只升28.3米,這是作為中國人你必須知道的事

為何天安門升旗只升28.3米,這是作為中國人你必須知道的事

神奇故事
2025-06-09 23:53:51
李娜好姐妹退役:2025年將是最后賽季

李娜好姐妹退役:2025年將是最后賽季

網球之家
2025-06-20 22:05:06
48小時內最大規模襲擊!特朗普耐心已耗盡,美批準對伊朗打擊計劃

48小時內最大規模襲擊!特朗普耐心已耗盡,美批準對伊朗打擊計劃

掌青說歷史
2025-06-20 11:57:47
特斯拉重大宣布!大行警告!

特斯拉重大宣布!大行警告!

數據寶
2025-06-21 17:32:46
一位40年前的北大數學本科生,聽完王虹教授講座后回家更吃不下飯

一位40年前的北大數學本科生,聽完王虹教授講座后回家更吃不下飯

馬蹄燙嘴說美食
2025-06-21 04:27:46
蘇超場外觀賽區座無虛席,常州球迷雨中撐傘觀賽:希望能進一球

蘇超場外觀賽區座無虛席,常州球迷雨中撐傘觀賽:希望能進一球

極目新聞
2025-06-21 20:16:36
2025-06-22 00:03:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10687文章數 142343關注度
往期回顧 全部

科技要聞

Siri有救了?蘋果被曝正討論史上最大收購

頭條要聞

官方通報那爾那茜有關情況:涉嫌高考報名材料造假

頭條要聞

官方通報那爾那茜有關情況:涉嫌高考報名材料造假

體育要聞

王欣瑜:資格賽差點要退賽 夢幻般的一周

娛樂要聞

離婚7年,楊冪逆襲碾壓劉愷威

財經要聞

租金大撤退!房東正在批量跑路!

汽車要聞

扔掉"舊地圖”一汽-大眾大眾品牌要找"新大陸"

態度原創

家居
藝術
游戲
健康
時尚

家居要聞

山水之間 墨染風雨云間

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

韓國虛幻5重磅動作新作來了!上架多平臺 2026發售

呼吸科專家破解呼吸道九大謠言!

天啊,凱特王妃都在準備葬禮了?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 垫江县| 东光县| 康平县| 平乐县| 正镶白旗| 会昌县| 濉溪县| 呼和浩特市| 襄樊市| 丁青县| 平山县| 临西县| 广南县| 天津市| 凤山市| 莆田市| 靖江市| 东乡| 邹平县| 广南县| 海林市| 奎屯市| 吉林省| 黔西| 区。| 芜湖市| 聂荣县| 潜山县| 丁青县| 柏乡县| 招远市| 壤塘县| 手机| 林州市| 云南省| 泸定县| 剑阁县| 宜丰县| 常山县| 额尔古纳市| 湖南省|