99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

為什么你設計的Prompt會成功?新理論揭示大模型Prompt奧秘與效能

0
分享至



本文共同一作是張翔和曹峻泰。張翔是英屬哥倫比亞大學研究生,主要研究興趣集中在大模型推理和AI for Science;曹峻泰是英屬哥倫比亞大學研究生,主要研究興趣集中在大模型推理和可解釋性研究;本文通訊作者是來自紐約大學石溪分校的助理教授尤晨羽,以及來自 Meta Gen AI 的研究員丁渡鑒。

近年來,大型語言模型(LLM)在自然語言處理領域取得了革命性進展。然而,其底層的 Transformer 架構在處理復雜推理任務時仍有不足。盡管「思維鏈」(CoT)提示技術提供了一條實用路徑,但多數方法依賴通用指令,導致提示工程高度依賴反復試驗,缺乏理論指導。



圖 1:Prompt 模板深刻影響著答案空間的配置和導航方式。左側展示了不同的 Prompt(如 Auto-Prompt、RL-Prompt)如何在「Prompt 空間」中進行搜索,而右側則展示了在特定 Prompt 指導下,如何在「答案空間」中進行搜索以得到解決方案(如 Tree-of-Thought、Graph-of-Thought)。

來自英屬哥倫比亞大學、紐約大學石溪分校和浙江大學的研究團隊深入剖析了 Prompt 如何在 LLM 的 CoT 推理過程中調控模型內部信息流。這項研究首次構建了一個量化 Prompt 搜索空間復雜度的理論框架,為 LLM 提示工程從經驗性的「煉丹」走向科學奠定了基礎。



  • 論文標題:Why Prompt Design Matters and Works: A Complexity Analysis of Prompt Search Space in LLMs
  • 論文鏈接:https://arxiv.org/abs/2503.10084
  • 論文發表:ACL 2025 main(主會)已接收 論文得分 Meta score:4(滿分為 5 分)
  • 作者信息:Xiang Zhang、Juntai Cao、Jiaqi Wei、Chenyu You、Dujian Ding



圖 2:(a) 在沒有精心設計 Prompt 的樸素 CoT 中,模型可能生成錯誤或次優的思考步驟,導致任務失敗。(b) 通過最優的 Prompt 設計,可以有效引導模型,使其成功執行任務。(c) 當不采用 CoT 時,模型僅能依賴其 Transformer 架構進行內部推理。(d) Transformer 架構本身只能執行固定且深度有限的計算,難以應對復雜的多步推理。

突破「煉丹」:Prompt 設計走向科學

長期以來,提示工程的有效性似乎帶有一絲「玄學」色彩——為何某些提示組合能奇跡般地提升模型性能,而另一些則收效甚微?本研究從理論層面解釋了為何某些提示組合能有效提升模型性能。研究團隊指出,Prompt 在 CoT 推理過程中扮演著至關重要的「信息選擇器」(selectors)角色。

大型語言模型在處理任務時,其內部的隱藏狀態(hidden state, h)實際蘊含了極為豐富的信息,包括對任務的理解、中間計算結果、甚至模型自身的「置信度」等。然而,并非所有這些信息都對當前推理步驟同等重要。

正如論文圖 3 所示(見下方),CoT 的核心機制,便是將這種復雜的、高維度的內部隱狀態 h 中的信息,通過生成自然語言文本的方式,進行「離散化」和「外化」。這些生成的文本步驟隨后又被模型重新編碼,用于指導下一步的計算,從而近似一種遞歸計算過程。



圖 3:CoT 通過生成非答案的輔助 Token(中間步驟),近似了循環網絡的計算方式。模型內部隱藏狀態 h 中蘊含的豐富信息(如先前的錯誤、中間結果、置信度等)可以通過不同的 Prompt 設計被選擇性地提取并言語化。

關鍵在于,由于每個 CoT 步驟的文本長度有限,模型每一步只能提取并表達 h 中的部分信息,而哪些信息被提取,則是由 Prompt 模板決定的。如圖 4 所示,Prompt 模板指導模型提取關鍵的計算信息,而非關鍵信息可能被丟棄。



圖 4:在 CoT 過程中,并非所有隱藏狀態 h 中的信息都會被傳遞。Prompt 模板指導模型提取關鍵的計算信息,而其他非關鍵信息則可能被丟棄。

一個精心設計的提示模板,就如同一個精確的導航儀,它明確地指示模型在 CoT 的每一步中,應該從其完整的隱藏狀態 h 中「選擇」并「提取」哪些與任務最相關的信息進行「言語化」(verbalization)輸出。這一選擇過程的復雜性,即「Prompt 空間復雜度」,如論文圖 5 所示,取決于隱藏狀態 h 中總信息量 n 以及每個 CoT 步驟能提取的信息量 s。



圖 5:每個 Prompt 模板都規定了一種從隱藏狀態 h 到非答案 Token 的信息言語化方式。Prompt 空間的復雜度可以基于這種信息提取方式的數量來估算。

因此,不同的提示設計定義了不同的信息提取策略,從而在潛在的「答案空間」中塑造出獨一無二的推理「軌跡」(trajectory)。論文圖 6 直觀地描繪了這一過程。



圖 6:CoT 的整體空間可以分解為「Prompt 空間」和「答案空間」。在 Prompt 空間中選擇不同的 Prompt 設計(例如,決定在象棋推演的每一步是提取「棋盤布局」還是「剩余棋子數」),會直接影響在答案空間中導航并找到解決方案的路徑和效率。

簡而言之,提示之所以有效,是因為它能夠科學地指導模型在復雜的推理鏈條中,每一步都「抓重點」。

探尋最佳路徑:如何科學設計高效提示詞?

既然提示設計如此關鍵,那么我們應如何告別「煉丹式」的反復試驗,轉而系統性地找到針對特定任務的「最優提示設計」呢?該研究為此提供了一套理論框架和分析思路。

研究者們創新性地將整個 CoT 的推理過程分解為兩個相互關聯但又有所區別的搜索空間(圖 6):「提示空間」(Prompt Space)的搜索和「答案空間」(Answer Space)的搜索。前者關乎如何找到最佳的「思考模板」或「解題策略」(即提示本身),后者則是在選定模板后,如何執行具體的思考步驟以找到最終答案。

尋找最優提示設計的核心,正是在「提示空間」中進行有效導航。那么,一個「最優提示模板」究竟是什么樣的呢?根據這項研究,一個優化的提示模板必須能夠:

  • 明確指引每步輸出:精確規定 CoT 推理的每一個中間步驟應該輸出什么內容,確保這些內容是后續計算所必需的。

  • 聚焦核心信息:在模型隱藏狀態 h 所包含的眾多信息中(假設總信息量為 n 比特),最優提示應引導模型在每個 CoT 步驟中,識別并提取出對當前推理任務最為關鍵的、最頂部的 s 比特信息,并將其轉化為文本輸出,同時舍棄其余的無關或冗余信號。

  • 充當「算法藍圖」:一個好的提示模板,實際上是在為特定任務「編碼」一套高效的「算法」,它決定了在推理的每一步需要哪些「變量」(信息),以及如何利用這些「變量」來計算下一個狀態。

因此,這項工作將尋找最優提示的過程,從一種依賴直覺和運氣的嘗試,轉變為一個可以在理論指導下進行的、對信息提取和利用方式的系統性探索。它為我們指明了方向:要設計出最佳提示,就需要深入理解任務的計算需求,并確保提示能夠引導 LLM 在每一步都準確地「抓住」并「用好」解決問題所需的核心信息。

實驗證據:精心設計的提示詞如何驅動 LLM 推理性能飛躍

為了驗證上述理論框架的有效性,研究團隊進行了一系列精心設計的實驗。他們選取了涵蓋不同計算復雜度等級(包括常規 Regular、上下文無關 Context-Free 及上下文敏感 Context-Sensitive 等)的基礎推理任務,這些任務本身對計算深度有較高要求,通常超出標準 Transformer 架構的直接處理能力,因而非常依賴 CoT 機制來輔助完成。實驗中使用了 gpt-4o-classic 網頁版及 gpt-4o mini API,并特別注意通過統一輸入格式(如將字符串任務轉換為列表格式)等方式,來最小化Tokenization等外部因素對實驗結果的干擾。

核心實驗結果清晰地揭示了以下幾點:

「遞歸計算」的基石作用

實驗首先證實了「遞歸計算」對于復雜推理任務的不可或缺性。如表 1 所示,當 LLM 不使用思維鏈(CoT)機制時,其在需要多步推理的任務上表現不佳。然而,一旦引入 CoT,賦予模型文本空間「遞歸計算」的能力,準確率便顯著提高。這凸顯了 CoT 為 LLM 帶來的「類遞歸」能力的重要性。



表 1

提示設計的決定性影響——「最優監督」的力量

最為關鍵的發現是,提示模板(即「思考步驟」的具體設計)的選擇,對 LLM 的推理性能起著決定性作用。研究對比了三種情況(見表 1 和表 3):

  • 無監督 CoT (Unsupervised CoT):模型自行推導思考步驟。
  • 最優監督 CoT (CoT Supervised / S-CoT):研究者提供精心設計的最優步驟模板。
  • 次優監督 CoT (CoT Supervised-SUB / S-CoT-SUB):模型使用次優或存在冗余/誤導信息的步驟模板。

結果顯示,通過 S-CoT 提供理想的步驟模板時,LLM 性能最佳,顯著優于無監督 CoT。相反,使用次優監督會導致性能急劇下降。這證實了論文核心觀點:答案空間和搜索復雜度受提示空間中模板選擇的影響。正確的人類監督(最優提示設計)能引導模型達到最高效的推理狀態,可將推理任務性能提升超過 50%。



表 3

CoT 變體:輔助「答案空間」導航,但非「提示空間」的解決方案

研究還考察了不同的 CoT 變體,如思維樹(ToT)和思維圖(GoT)等(見表 2)。結果顯示,這些方法能在一定程度上提升樸素 CoT 的性能,例如 GoT 因其自我修正機制表現出較好的準確率增益。

然而,它們的改進主要在于通過更復雜的搜索策略(如多路徑探索、自我校驗)來糾正計算過程中的「小錯誤」或探索更多解題路徑,而非優化提示模板本身的選擇。這意味著,即便 ToT 或 GoT 等高級方法,如果其依賴的底層提示模板本身是次優的,其性能上限依然會受到制約。它們主要解決的是「答案空間」的導航問題,而非「提示空間」的模板選擇問題。



圖 8:ToT(思維樹)機制通過探索答案空間中的多個分支路徑來提升問題解決能力。然而,狀態如何轉換仍然受到 CoT 步驟模板的制約,這超出了 ToT 本身提供的范疇。



表 2

結論:為高效提示詞設計鋪路

這項研究首次系統性地探索了提示空間的復雜性,為理解和設計 LLM 的高效提示策略奠定了堅實的理論基礎。其核心洞見在于:

  • Prompt 作為信息選擇器:提示通過從模型的隱藏狀態中精確提取與任務相關的特定信息,從而主導并塑造 CoT 的推理過程。

  • Prompt 設計至關重要,而非附屬:提示的設計并非一項輔助性或錦上添花的工作,而是決定 CoT 推理有效性的核心環節。提示結構的微小調整可能帶來模型性能的巨大飛躍或驟降。

  • 通用 Prompt 的固有局限:簡單依賴模型自我引導的樸素 CoT 策略(例如,萬能的「think step by step」)可能會嚴重限制模型在復雜任務上的表現潛力。

  • 最優 Prompt 探索的巨大價值:實驗清晰證明,通過系統性的最優提示搜索與設計,LLM 在推理任務上的性能可以獲得超過 50% 的顯著提升。

這項工作為我們理解和提升 LLM 基于 Prompt 的推理能力提供了寶貴的理論框架和實踐指引,并深刻預示著在未來的 LLM 應用浪潮中,科學化的提示工程與人類的智慧監督將扮演不可或缺的關鍵角色。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
23VS24!生涯與科比交手22次的詹姆斯場均28分7助攻,科比呢?

23VS24!生涯與科比交手22次的詹姆斯場均28分7助攻,科比呢?

大衛的籃球故事
2025-06-16 20:25:44
被張馨予遺忘的Labubu,是泡泡瑪特送她的初代版,現被炒到大幾萬

被張馨予遺忘的Labubu,是泡泡瑪特送她的初代版,現被炒到大幾萬

小娛樂悠悠
2025-06-15 22:13:54
甘偉突發意外,不幸去世,終年59歲

甘偉突發意外,不幸去世,終年59歲

浙江之聲
2025-06-14 16:46:47
王光美和女兒劉婷婷一張合影,娘倆都是學霸,她還很孝順

王光美和女兒劉婷婷一張合影,娘倆都是學霸,她還很孝順

大江
2025-06-16 09:55:55
拒付50萬酒席錢后,苦主父母被逼上門,錢老板身份曝光,這下火了

拒付50萬酒席錢后,苦主父母被逼上門,錢老板身份曝光,這下火了

鋭娛之樂
2025-06-15 13:59:05
A股10家公司發布2025年半年度業績預告 8成預計凈利潤同比增長

A股10家公司發布2025年半年度業績預告 8成預計凈利潤同比增長

金融界
2025-06-16 11:00:37
主人住院沒告訴狗,結果它獨自趕到醫院來看主人,整個病房哭成一片

主人住院沒告訴狗,結果它獨自趕到醫院來看主人,整個病房哭成一片

磊子講史
2025-06-16 15:10:29
好消息:中國防空導彈再次擊落戰機!壞消息:被擊落的是中國戰機

好消息:中國防空導彈再次擊落戰機!壞消息:被擊落的是中國戰機

荷蘭豆愛健康
2025-06-12 18:47:39
剛剛!官方確認:蘇州這些小區拆遷無望!

剛剛!官方確認:蘇州這些小區拆遷無望!

創作者_Y9V4
2025-06-16 16:25:33
太拉胯!兩戰2分,沒突破沒籃子,女籃最差隊員,球迷:快裁掉她

太拉胯!兩戰2分,沒突破沒籃子,女籃最差隊員,球迷:快裁掉她

南海浪花
2025-06-16 09:48:14
哈薩克斯坦:計劃將第二座核電站建設項目交由中方主導

哈薩克斯坦:計劃將第二座核電站建設項目交由中方主導

觀察者網
2025-06-16 10:59:06
三分11中10!李月汝加盟飛翼后首次發聲:和佩奇一起打球非常興奮

三分11中10!李月汝加盟飛翼后首次發聲:和佩奇一起打球非常興奮

羅說NBA
2025-06-16 10:16:45
快訊!以媒:以色列軍機襲擊伊朗“圣城旅”位于德黑蘭的指揮中心

快訊!以媒:以色列軍機襲擊伊朗“圣城旅”位于德黑蘭的指揮中心

環球網資訊
2025-06-16 12:41:50
19天套現13.7萬!多地國補緊急叫停,萬億補貼究竟肥了誰?

19天套現13.7萬!多地國補緊急叫停,萬億補貼究竟肥了誰?

任紀煙
2025-06-14 21:28:20
專訪蘋果高級總監: Apple Watch,一支安靜且自信的手表

專訪蘋果高級總監: Apple Watch,一支安靜且自信的手表

愛范兒
2025-06-16 16:36:27
謝謝你!ADIDAS!終身合約,他值得...

謝謝你!ADIDAS!終身合約,他值得...

UTAM
2025-06-15 22:55:15
《歌手2025》第五期結束,遭觀眾怒噴:這個人不換就別播了!

《歌手2025》第五期結束,遭觀眾怒噴:這個人不換就別播了!

糊咖娛樂
2025-06-16 14:23:47
中美還是沒談攏,中方沒有放行軍用稀土,美方對華關稅再延長90天

中美還是沒談攏,中方沒有放行軍用稀土,美方對華關稅再延長90天

尋途
2025-06-16 17:21:59
莫言:你細心觀察你的身邊人,凡是愛生氣的人,生活多半一團糟糕

莫言:你細心觀察你的身邊人,凡是愛生氣的人,生活多半一團糟糕

小茶夜讀V
2025-06-13 08:46:53
72歲趙雅芝西湖被偶遇,滿臉皺紋皮包骨,沒有網上那么好看

72歲趙雅芝西湖被偶遇,滿臉皺紋皮包骨,沒有網上那么好看

姩姩有娛呀
2025-06-14 15:07:20
2025-06-16 22:40:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10654文章數 142339關注度
往期回顧 全部

科技要聞

雷軍:?戒O1芯片還要再做5年、10年

頭條要聞

美突然大規模向中東調兵 媒體:美國實際上已部分參戰

頭條要聞

美突然大規模向中東調兵 媒體:美國實際上已部分參戰

體育要聞

被偷走的世界杯資格 他們用20年搶回來了

娛樂要聞

該管管了!楊坤篡改革命紅歌遭痛批

財經要聞

618國補貼錢反漲價 美的深陷價格魔術漩渦

汽車要聞

榮威M7 DMH外觀官圖發布 預計將于下半年正式上市

態度原創

房產
數碼
旅游
本地
公開課

房產要聞

又一城購房補貼!買房就發錢,正在海南樓市瘋狂擴散!

數碼要聞

一加兩款手機一款耳機即將在海外發布 最高配7K電池

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 北宁市| 简阳市| 蚌埠市| 和静县| 潮州市| 东莞市| 中阳县| 南乐县| 江川县| 本溪| 水富县| 大港区| 仙游县| 纳雍县| 大埔区| 河曲县| 镇江市| 建瓯市| 武鸣县| 达州市| 尉犁县| 罗平县| 贵南县| 德令哈市| 辽阳县| 门源| 肃南| 西宁市| 武强县| 惠来县| 南平市| 秦皇岛市| 阿拉尔市| 察哈| 阿克苏市| 澄江县| 民权县| 定南县| 高邮市| 张家口市| 同仁县|