網易首頁 > 網易號 > 正文申請入駐

你永遠叫不醒裝睡的大模型！多輪對話全軍覆沒，性能暴跌39%

2025-06-08 10:17:13　來源: 硅星人

北京舉報

分享至

文章轉載于新智元

ChatGPT將大模型技術推動到「對話」場景，直接引發了AI技術的爆炸式增長。

用戶可以先提出一個粗糙的、不明確的問題，再根據模型的回答逐步完善指令、補充細節，多輪對話也催生出「跟AI打電話」等有趣的應用設計。

不過，現有的大模型性能評估基準仍然是基于單輪對話機制，輸入的指令也更長，信息更完善，其在真實場景中多輪對話的性能仍然沒有得到很好地評估。

最近，研究人員進行了一場超過20萬次的多輪對話模擬實驗，對比了15個頂級開源和閉源大模型在單輪和多輪對話場景中的性能差異，結果發現，所有模型在多輪對話中的表現都明顯低于單輪對話，平均性能在六種生成任務中下降了39%

論文鏈接：https://arxiv.org/abs/2505.06120

簡單來說，大模型通常在第一次回答問題的時候，就已經定下了基調，過早地嘗試生成最終解決方案，并且在后續回答的時候也會依賴這個結論。

性能下降后，大模型的可靠性也顯著降低，研究人員將這種現象稱之為「對話迷失」，即LLMs在多輪對話中一旦走錯了方向，在后續提示中添加信息也無法糾正，也就沒辦法恢復到正確的問答路徑。

分片模擬多輪對話

研究人員將現有的單輪基準測試任務重新設計為多種類型的多輪模擬對話場景，以評估大型語言模型（LLMs）在多輪、不明確對話中的表現。

指令分片

GSM8K數據集中具體的（fully-specified）指令文本很長，包括背景、條件、問題等等。

研究人員將原始指令采用一個「半自動化流程」進行切分，每個分片包含原始指令中的一個元素，分片1是指令的高級意圖，模擬用戶的第一次輸入，后續的分片則對意圖細節進行澄清。

所有分片合在一起，可以表達出與原始指令相同的信息，分片必須滿足五個要素：信息保留、清晰的原始意圖、順序無關（除第一個分片外，其他分片彼此獨立）、最大化分片（盡可能從原始指令中提取信息）、最小化轉換（保持原始指令的風格，避免簡化）。

模擬分片對話

基于分片指令模擬多輪、不明確對話的過程

對話包括三個角色：

助手（assistant）是正在被評估的大語言模型
用戶（user, 由另一個LLM模擬）包含整個分片指令，并負責在對話的每一回合中逐步揭示分片內容
系統（system）負責對助手的回答進行分類和評估

在第一輪對話中，用戶模擬器向助手展示指令分片1，助手隨后生成文本回答。

系統會將助手的回答歸類為七種可能的回應策略之一：澄清、拒絕、回避、詢問、討論、缺失或嘗試回答。

如果助手給出了一個明確的、完整的解決方案，就調用「答案提取組件」來確定助手回答中對應答案的部分（例如代碼片段或數字），主要是因為大模型通常會在答案中添加額外信息，比如自然語言解釋或后續問題，可能會干擾評估結果。

在后續每一輪對話中，用戶模擬器最多輸入一個分片信息，然后助手的回復類型為「嘗試回答」，則進行評估。

如果任務評估器認為助手的答案嘗試是正確的，或是分片數據耗盡，則多輪對話模擬結束。

研究人員使用一個低成本的大模型（GPT-4o-mini）來實現用戶模擬器，能夠訪問整個分片指令以及到目前為止的對話狀態，并負責對分片數據進行重新措辭，以自然地融入對話中。

除了用戶消息外，助手在第一輪對話之前還會收到一個最小化的系統指令，提供完成任務所需的上下文，包括數據庫架構或可用API工具列表等。

助手并不知道自己正處于多輪、不明確的對話中，也沒有偏好特定的對話策略。

雖然額外的指令可能會改變模型的行為，但研究人員認為這種變化并不現實，因為在實際場景中，用戶也不可能會考慮輸入這些信息。

策略分類器和答案提取器組件也使用基于提示的GPT-4o-mini實現。

雖然在模擬器中使用基于LLM的組件可以讓對話更加動態，從而提供更真實的模擬，但不可避免地會導致模擬錯誤，可能會影響實驗的有效性。

模擬類型

完全指定（fully-specified, Full），模擬單輪對話場景，即原始指令在第一輪就完整地提供給LLM，用于評估模型的基礎性能。

分片（sharded），模擬多輪、不明確的對話。

合并（concat）模擬基于分片指令的單輪、完全指定的對話。

所有分片被合并成一個單輪指令，以bullet-point形式呈現（每行一個分片），并在前面加上一條指令，要求LLM綜合所有信息來完成任務。

concat模擬是完全指定和分片之間的邏輯中間點，消除了不明確性，但保留了在分片過程中出現的指令重新措辭。

如果一個模型在full和concat模擬中都能成功完成任務，卻無法再分片模擬中完成，就可以認為模型表現不佳的原因，不是因為分片過程中的信息丟失問題，而是源于對話的不明確性和多輪性質。

總結（recap）模擬分片對話，并在最后增加了一個總結輪次，將所有分片指令在一輪中重新陳述，給LLM最后一次回答的機會，可以評估「智能體」式干預能否緩解分片對話中性能下降的問題。

滾雪球（snowball）要求模型對每輪對話都進行總結。

在每一輪中，用戶模擬器不僅引入一個新的分片，還會重新陳述到目前為止對話中已經輸入的所有分片，從而產生「滾雪球」效應，即每輪對話都包含之前所有輪次的信息，再加上一個新的分片，可以評估每輪對話中的「提醒」是否有助于緩解LLM在多輪對話中的失憶問題。

實驗結果

研究人員使用了600條指令，針對三種主要模擬類型（full, concat, shared），從八個模型家族中選擇了總共15種LLMs（）進行了實驗，每種模型與每種模擬類型的組合都運行10次模擬，總共進行了超過20萬次模擬對話，總成本約為5000美元。

從總體上看，每個模型在進行「完全指定」和「分片對話」時，在每項任務中的表現都有所下降，平均下降幅度為39%

研究人員將這種現象稱為「對話迷失」，即在完全指定、單輪對話的實驗室環境中表現出色（90%以上）的模型，在更接近現實的場景（對話不明確且為多輪）中，相同任務上表現不佳。

相比之下，在合并cocnat設置中，模型的表現大致相當，其平均表現達到了完全指定表現的95.1%，也就意味著分片對話中表現下降的原因并不是由于分片指令可能導致的信息丟失，否則合并對話的表現也會相應降低。

還可以觀察到，較小的模型（如Llama3.1-8B-Instruct、OLMo-2-13B、Claude 3 Haiku）在合并對話中的表現下降更為明顯（86%-92%），表明較小的模型在泛化能力上不如較大的模型，即使是重新措辭也會對模型性能產生較大影響。

此外，增加測試時的計算量（推理token）并不能幫助模型應對多輪不明確對話。

實驗中的兩個推理模型（o3和Deepseek-R1）性能下降與非推理模型類似，也證實了僅靠增加測試時的計算量并不能讓模型在多輪對話中制定策略。

推理模型傾向于生成更長的回答（平均比非推理LLMs長33%），同時會混淆模型認知，使其分不清用戶提出的要求和自己在上一輪對話中的思考。

參考資料：

https://arxiv.org/abs/2505.06120

點個愛心，再走吧

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

不靠價格戰，豆包大模型靠技術殺出重圍

經濟觀察報 2025-06-12 21:49:09
0 跟貼 0
MoCha：開啟自動化多輪對話電影生成新時代（1）

機器之心Pro 2025-04-07 14:43:44
0 跟貼 0

視頻生成統一評估架構，上交x斯坦福聯合讓MLLM像人類一樣打分

量子位 2025-06-12 17:04:58
0 跟貼 0

程序員從此不再寫代碼！紅杉專訪Codex團隊，o3白菜價真相曝光

新智元 2025-06-13 09:09:50
0 跟貼 0
Meta AI推首個生成式AI視頻編輯功能！秒換服裝、場景、燈光，可免費編輯10秒

智東西 2025-06-12 21:27:18
0 跟貼 0

家政機器人上線，陌生環境秒懂指令，網友：哪里賣？

機器之心Pro 2025-05-06 18:16:58
0 跟貼 0

256塊NPU訓成8B視頻模型，抖音內容技術團隊開源ContentV

機器之心Pro 2025-06-12 15:15:45
0 跟貼 0
夸克上線高考志愿大模型，蒸餾數百名人類志愿專家經驗

手機中國 2025-06-12 21:25:05
0 跟貼 0

原縣長李成群溺子愛妻，家風不正導致全家腐敗

澎湃新聞 2025-06-12 10:09:03
1072 跟貼 1072
女孩被強行做實驗，沒想到下一秒直接開掛！

二毛追劇 2025-06-09 23:24:45
0 跟貼 0
加州州長發表演講被美國主持人叫成"總統紐森"

環球網資訊 2025-06-12 11:21:37
3129 跟貼 3129
俄軍突入第聶伯，升級報復！普京調整對烏策略，瓦格納回國參戰！

搞笑龍眼 2025-06-12 08:14:51
1 跟貼 1
中國按兵不動，臺灣問題上使用的策略十分高明，全球只有他看懂了

一飲山河 2025-06-09 18:18:44
1 跟貼 1
印媒：亞洲最強戰機即將問世，比中國殲20技術還要先進

一飲山河 2025-06-12 11:36:05
1 跟貼 1
青海黃河源有重大發現

新民周刊 2025-06-09 09:06:24
1901 跟貼 1901
中美貿易架構達成共識

搞笑荔枝 2025-06-12 12:30:34
0 跟貼 0
從日內瓦到倫敦，中方的談判策略有哪些轉變和亮點？專家解析

鳳凰衛視 2025-06-12 11:56:22
0 跟貼 0
擴散語言模型九倍推理加速！KV Cache并非自回歸模型專屬

量子位 2025-05-27 17:02:02
0 跟貼 0
俄羅斯才想起學60年前的中國？轟炸機損失慘重，普京下重磅指令

深度小紀實 2025-06-12 16:26:34
0 跟貼 0
北約“5%軍費”或對世界構成更大威脅

環球時報國際 2025-06-12 10:44:14
2210 跟貼 2210
莫迪發聲：令人心碎，難以言表

新京報 2025-06-12 19:52:09
560 跟貼 560
國家鐵路局局長費東斌被查一周前曾出席會議

政知新媒體 2025-06-12 18:54:00
764 跟貼 764
縱覽熱點｜“診所開業，輸液半價！”一診所懸掛橫幅內容引爭議，衛健部門：將聯系診所撤下橫幅

縱覽新聞 2025-06-12 20:02:13
1627 跟貼 1627
數據說話，18歲王鈺棟能不能扛起國足未來

米奇兔 2025-06-11 09:22:30
7 跟貼 7
韓國新總統李在明的通話順序揭示其外交策略與中韓關系前景

空景孤擾人心 2025-06-12 02:09:56
0 跟貼 0
o3并非獨門秘技，谷歌已發背后關鍵機制，方法更簡單、成本更低

量子位 2024-12-23 14:42:33
0 跟貼 0
烏茲別克斯坦歷史性闖入世界杯總統豪贈每人一輛比亞迪，車輛排滿賽場

青蜂俠Bee 2025-06-12 16:57:18
848 跟貼 848
高架橋縫中長出“樹堅強”：樹高1.5米，根系卻往橋下延伸13.8米！已進行移栽

紅星新聞 2025-06-12 20:28:36
54 跟貼 54
毫無技術水平的點球，卻震驚了所有人，心理素質是最大的底牌！

發怒的福貓 2025-06-12 14:39:27
1 跟貼 1
印度在國際舞臺上的平衡策略：從金磚到G7的獨立外交

空景孤擾人心 2025-06-11 01:54:17
0 跟貼 0
螞蟻國際回應在香港申請穩定幣牌照：相關通道開啟后盡快提交

澎湃新聞 2025-06-12 15:02:26
224 跟貼 224
最大的開源GraphRag：知識圖譜完全自主構建｜港科大＆華為

量子位 2025-06-12 16:29:29
1 跟貼 1
有人[賺]了十幾萬：泡泡瑪特現象級潮玩LABUBU引爆全球，3D打印社區掀起創作熱潮

南極熊3D打印網 2025-06-12 13:07:46
1 跟貼 1
印度客機墜毀全程監控曝光從起飛到爆炸不足1分鐘初步數據顯示起落系統或異常幸存者系英國籍

南方都市報 2025-06-13 00:24:50
1 跟貼 1
群居黃喉貂VS獨行猞猁：動物界的策略與力量之戰

沙雕動物集 2025-06-10 17:08:55
0 跟貼 0
建筑技術的巔峰，中國工程師再創世界最高橋梁

全球見聞筆記 2025-06-13 08:05:00
0 跟貼 0
八喜誤把顧客備注寫在蛋糕上，結果火了

現代快報 2025-06-12 20:49:17
19 跟貼 19
你看日本是怎么接空調銅管的？這才是真正的先進技術！

花開九都動金城 2025-06-11 20:51:07
1 跟貼 1
比亞迪官宣：仰望U7正式開啟交付！62.8萬起，配備這些黑科技

每日經濟新聞 2025-06-12 12:01:05
467 跟貼 467
2025年高考語文作文試題的邏輯分析（3）北京卷作文材料（2）

老頭和你隨便聊聊 2025-06-13 08:15:51
1 跟貼 1

硅星人

硅（Si）是創造未來的基礎，歡迎來到這個星球。

2252文章數 10342關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

教育

房產

家居

數碼

手機 / 數碼

房產 / 家居

你永遠叫不醒裝睡的大模型！多輪對話全軍覆沒，性能暴跌39%

AMD發下一代AI芯片，OpenAI掌門人當場驚呼

牛彈琴：印度空難至少290人死亡現場慘烈 仍出現奇跡

牛彈琴：印度空難至少290人死亡現場慘烈 仍出現奇跡

沒有人會不喜歡TJ-麥康奈爾

鄧紫棋自爆因官司6年沒收到版稅， 重錄舊作反擊

投資家深陷在泡泡瑪特的"情緒迷局"中

方程豹最大SUV比豹8便宜?鈦7搭華為智駕

態度原創

非遺里的河南 | 黃河泥變身千年墨寶，寫字都帶仙氣兒～

18位頂級買家瘋搶！凱旋新世界，憑何成為廣州頂豪終極價值錨點？

精致奢華 豐富的連貫空間

iPad多任務處理為何直到現在才出現 蘋果高管解釋原因

牛彈琴：印度空難至少290人死亡現場慘烈仍出現奇跡

牛彈琴：印度空難至少290人死亡現場慘烈仍出現奇跡

鄧紫棋自爆因官司6年沒收到版稅，重錄舊作反擊

精致奢華豐富的連貫空間

iPad多任務處理為何直到現在才出現蘋果高管解釋原因