99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

你永遠叫不醒裝睡的大模型!多輪對話全軍覆沒,性能暴跌39%

0
分享至


文章轉載于新智元

ChatGPT將大模型技術推動到「對話」場景,直接引發了AI技術的爆炸式增長。

用戶可以先提出一個粗糙的、不明確的問題,再根據模型的回答逐步完善指令、補充細節,多輪對話也催生出「跟AI打電話」等有趣的應用設計。

不過,現有的大模型性能評估基準仍然是基于單輪對話機制,輸入的指令也更長,信息更完善,其在真實場景中多輪對話的性能仍然沒有得到很好地評估。

最近,研究人員進行了一場超過20萬次的多輪對話模擬實驗,對比了15個頂級開源和閉源大模型在單輪和多輪對話場景中的性能差異,結果發現,所有模型在多輪對話中的表現都明顯低于單輪對話,平均性能在六種生成任務中下降了39%


論文鏈接:https://arxiv.org/abs/2505.06120

簡單來說,大模型通常在第一次回答問題的時候,就已經定下了基調,過早地嘗試生成最終解決方案,并且在后續回答的時候也會依賴這個結論。

性能下降后,大模型的可靠性也顯著降低,研究人員將這種現象稱之為「對話迷失」,即LLMs在多輪對話中一旦走錯了方向,在后續提示中添加信息也無法糾正,也就沒辦法恢復到正確的問答路徑。


1

分片模擬多輪對話

研究人員將現有的單輪基準測試任務重新設計為多種類型的多輪模擬對話場景,以評估大型語言模型(LLMs)在多輪、不明確對話中的表現。

指令分片

GSM8K數據集中具體的(fully-specified)指令文本很長,包括背景、條件、問題等等。

研究人員將原始指令采用一個「半自動化流程」進行切分,每個分片包含原始指令中的一個元素,分片1是指令的高級意圖,模擬用戶的第一次輸入,后續的分片則對意圖細節進行澄清。


所有分片合在一起,可以表達出與原始指令相同的信息,分片必須滿足五個要素:信息保留、清晰的原始意圖、順序無關(除第一個分片外,其他分片彼此獨立)、最大化分片(盡可能從原始指令中提取信息)、最小化轉換(保持原始指令的風格,避免簡化)。


模擬分片對話


基于分片指令模擬多輪、不明確對話的過程

對話包括三個角色:

  1. 助手(assistant)是正在被評估的大語言模型

  2. 用戶(user, 由另一個LLM模擬)包含整個分片指令,并負責在對話的每一回合中逐步揭示分片內容

  3. 系統(system)負責對助手的回答進行分類和評估

在第一輪對話中,用戶模擬器向助手展示指令分片1,助手隨后生成文本回答。

系統會將助手的回答歸類為七種可能的回應策略之一:澄清、拒絕、回避、詢問、討論、缺失或嘗試回答。

如果助手給出了一個明確的、完整的解決方案,就調用「答案提取組件」來確定助手回答中對應答案的部分(例如代碼片段或數字),主要是因為大模型通常會在答案中添加額外信息,比如自然語言解釋或后續問題,可能會干擾評估結果。

在后續每一輪對話中,用戶模擬器最多輸入一個分片信息,然后助手的回復類型為「嘗試回答」,則進行評估。

如果任務評估器認為助手的答案嘗試是正確的,或是分片數據耗盡,則多輪對話模擬結束。

研究人員使用一個低成本的大模型(GPT-4o-mini)來實現用戶模擬器,能夠訪問整個分片指令以及到目前為止的對話狀態,并負責對分片數據進行重新措辭,以自然地融入對話中。


除了用戶消息外,助手在第一輪對話之前還會收到一個最小化的系統指令,提供完成任務所需的上下文,包括數據庫架構或可用API工具列表等。

助手并不知道自己正處于多輪、不明確的對話中,也沒有偏好特定的對話策略。

雖然額外的指令可能會改變模型的行為,但研究人員認為這種變化并不現實,因為在實際場景中,用戶也不可能會考慮輸入這些信息。

策略分類器和答案提取器組件也使用基于提示的GPT-4o-mini實現。

雖然在模擬器中使用基于LLM的組件可以讓對話更加動態,從而提供更真實的模擬,但不可避免地會導致模擬錯誤,可能會影響實驗的有效性。

模擬類型


完全指定(fully-specified, Full),模擬單輪對話場景,即原始指令在第一輪就完整地提供給LLM,用于評估模型的基礎性能。

分片(sharded),模擬多輪、不明確的對話。

合并(concat)模擬基于分片指令的單輪、完全指定的對話。

所有分片被合并成一個單輪指令,以bullet-point形式呈現(每行一個分片),并在前面加上一條指令,要求LLM綜合所有信息來完成任務。

concat模擬是完全指定和分片之間的邏輯中間點,消除了不明確性,但保留了在分片過程中出現的指令重新措辭。

如果一個模型在full和concat模擬中都能成功完成任務,卻無法再分片模擬中完成,就可以認為模型表現不佳的原因,不是因為分片過程中的信息丟失問題,而是源于對話的不明確性和多輪性質。

總結(recap)模擬分片對話,并在最后增加了一個總結輪次,將所有分片指令在一輪中重新陳述,給LLM最后一次回答的機會,可以評估「智能體」式干預能否緩解分片對話中性能下降的問題。

滾雪球(snowball)要求模型對每輪對話都進行總結。

在每一輪中,用戶模擬器不僅引入一個新的分片,還會重新陳述到目前為止對話中已經輸入的所有分片,從而產生「滾雪球」效應,即每輪對話都包含之前所有輪次的信息,再加上一個新的分片,可以評估每輪對話中的「提醒」是否有助于緩解LLM在多輪對話中的失憶問題。

1

實驗結果

研究人員使用了600條指令,針對三種主要模擬類型(full, concat, shared),從八個模型家族中選擇了總共15種LLMs()進行了實驗,每種模型與每種模擬類型的組合都運行10次模擬,總共進行了超過20萬次模擬對話,總成本約為5000美元。


從總體上看,每個模型在進行「完全指定」和「分片對話」時,在每項任務中的表現都有所下降,平均下降幅度為39%

研究人員將這種現象稱為「對話迷失」,即在完全指定、單輪對話的實驗室環境中表現出色(90%以上)的模型,在更接近現實的場景(對話不明確且為多輪)中,相同任務上表現不佳。

相比之下,在合并cocnat設置中,模型的表現大致相當,其平均表現達到了完全指定表現的95.1%,也就意味著分片對話中表現下降的原因并不是由于分片指令可能導致的信息丟失,否則合并對話的表現也會相應降低。

還可以觀察到,較小的模型(如Llama3.1-8B-Instruct、OLMo-2-13B、Claude 3 Haiku)在合并對話中的表現下降更為明顯(86%-92%),表明較小的模型在泛化能力上不如較大的模型,即使是重新措辭也會對模型性能產生較大影響。

此外,增加測試時的計算量(推理token)并不能幫助模型應對多輪不明確對話。

實驗中的兩個推理模型(o3和Deepseek-R1)性能下降與非推理模型類似,也證實了僅靠增加測試時的計算量并不能讓模型在多輪對話中制定策略。

推理模型傾向于生成更長的回答(平均比非推理LLMs長33%),同時會混淆模型認知,使其分不清用戶提出的要求和自己在上一輪對話中的思考。

參考資料:

https://arxiv.org/abs/2505.06120

點個愛心,再走 吧

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
蔡國軍履新職,曾兩度破格晉升

蔡國軍履新職,曾兩度破格晉升

政知新媒體
2025-06-12 23:54:57
印度墜機事故至少265人死亡,機上1人幸存;波音股價跌近5%;美國宣布23日起對鋼制家電加征關稅;34歲華人劉月婷成新西蘭女首富丨每經早參

印度墜機事故至少265人死亡,機上1人幸存;波音股價跌近5%;美國宣布23日起對鋼制家電加征關稅;34歲華人劉月婷成新西蘭女首富丨每經早參

每日經濟新聞
2025-06-13 06:27:06
《長安的荔枝》真敢吐槽現實社會問題!

《長安的荔枝》真敢吐槽現實社會問題!

暖心萌阿菇涼
2025-06-12 08:42:59
耐人尋味!17歲亞馬爾度假時用枯葉擺出“R”,球迷:致敬新偶像

耐人尋味!17歲亞馬爾度假時用枯葉擺出“R”,球迷:致敬新偶像

側身凌空斬
2025-06-12 10:14:20
合體汪小菲吃播40萬人在線觀看 館長:謝謝小菲哥招待

合體汪小菲吃播40萬人在線觀看 館長:謝謝小菲哥招待

郭茂辰海峽傳真
2025-06-12 22:15:00
廣東省2025年退休人員養老金調整臨近,了解一下近4年的變化

廣東省2025年退休人員養老金調整臨近,了解一下近4年的變化

暖心人社
2025-06-12 21:52:21
美國法官裁定:特朗普必須將加州國民警衛隊指揮權交還給州長紐森

美國法官裁定:特朗普必須將加州國民警衛隊指揮權交還給州長紐森

新京報
2025-06-13 09:41:14
涉嫌嚴重違紀違法,中國水利電力物資集團有限公司黨委委員、紀委書記梁秀廣被查!

涉嫌嚴重違紀違法,中國水利電力物資集團有限公司黨委委員、紀委書記梁秀廣被查!

魯中晨報
2025-06-12 17:34:05
3-1!世聯賽最新戰報:日本男排轟然倒下,世界第一狂救4局點逆轉

3-1!世聯賽最新戰報:日本男排轟然倒下,世界第一狂救4局點逆轉

知軒體育
2025-06-12 23:10:52
上戲否認那爾那茜助教身份!網友扒出多方撒謊證據,影響太惡劣!

上戲否認那爾那茜助教身份!網友扒出多方撒謊證據,影響太惡劣!

萌神木木
2025-06-12 20:29:43
特朗普:中美談判完成,美國對華關稅55%,中國只收10%關稅

特朗普:中美談判完成,美國對華關稅55%,中國只收10%關稅

涼羽亭
2025-06-12 11:31:32
出差時,發現妻子換了床單,我悄悄回家,推開門六目相對她傻眼了

出差時,發現妻子換了床單,我悄悄回家,推開門六目相對她傻眼了

星宇共鳴
2025-06-07 12:03:01
不得不說,這真是一個奇跡

不得不說,這真是一個奇跡

牛彈琴
2025-06-13 07:49:15
曝安以軒申領陳榮煉1.9億臺幣存款遭拒,失敗后索要6萬美元交房貸

曝安以軒申領陳榮煉1.9億臺幣存款遭拒,失敗后索要6萬美元交房貸

易同學愛談娛樂
2025-06-12 08:34:40
早年深圳有多亂,看完這些你就知道了?

早年深圳有多亂,看完這些你就知道了?

叮當當科技
2025-06-12 11:59:10
大逆轉!鄭欽文又贏了!再創草地生涯最佳,全場誕生2個不可思議

大逆轉!鄭欽文又贏了!再創草地生涯最佳,全場誕生2個不可思議

涵豆說娛
2025-06-13 09:03:02
范志毅的“黑臉”,徹底打了《五哈》節目組的臉

范志毅的“黑臉”,徹底打了《五哈》節目組的臉

杰哥娛天下
2025-06-11 22:45:28
這單外賣備注太奇怪!女騎手急得報警!網友:當媽的看不了一點!

這單外賣備注太奇怪!女騎手急得報警!網友:當媽的看不了一點!

新民晚報
2025-06-12 14:09:02
演技爛得像混子,《長安的荔枝》一群神仙里混進個資源咖,招人嫌

演技爛得像混子,《長安的荔枝》一群神仙里混進個資源咖,招人嫌

糊咖娛樂
2025-06-12 11:29:40
放棄凱斯勒!佩林卡神操作!湖人得到潛力中鋒?祝你好運里夫斯

放棄凱斯勒!佩林卡神操作!湖人得到潛力中鋒?祝你好運里夫斯

八零后小伙兒
2025-06-13 06:54:15
2025-06-13 10:20:49
硅星人 incentive-icons
硅星人
硅(Si)是創造未來的基礎,歡迎來到這個星球。
2252文章數 10342關注度
往期回顧 全部

科技要聞

AMD發下一代AI芯片,OpenAI掌門人當場驚呼

頭條要聞

牛彈琴:印度空難至少290人死亡現場慘烈 仍出現奇跡

頭條要聞

牛彈琴:印度空難至少290人死亡現場慘烈 仍出現奇跡

體育要聞

沒有人會不喜歡TJ-麥康奈爾

娛樂要聞

鄧紫棋自爆因官司6年沒收到版稅, 重錄舊作反擊

財經要聞

投資家深陷在泡泡瑪特的"情緒迷局"中

汽車要聞

方程豹最大SUV比豹8便宜?鈦7搭華為智駕

態度原創

本地
教育
房產
家居
數碼

本地新聞

非遺里的河南 | 黃河泥變身千年墨寶,寫字都帶仙氣兒~

教育要聞

懷進鵬:探索符合教育科技人才一體化改革需求的高素質教師培養模式

房產要聞

18位頂級買家瘋搶!凱旋新世界,憑何成為廣州頂豪終極價值錨點?

家居要聞

精致奢華 豐富的連貫空間

數碼要聞

iPad多任務處理為何直到現在才出現 蘋果高管解釋原因

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 武隆县| 房山区| 青州市| 伊宁县| 西藏| 台前县| 休宁县| 忻州市| 大竹县| 余江县| 红桥区| 开平市| 平昌县| 东乌珠穆沁旗| 滨海县| 鄂伦春自治旗| 林西县| 乌鲁木齐市| 密云县| 南安市| 茶陵县| 万盛区| 永城市| 黄山市| 巴塘县| 天长市| 和田市| 甘泉县| 五峰| 湟中县| 华阴市| 南木林县| 蒙山县| 靖远县| 简阳市| 镇远县| 南平市| 瑞安市| 和田市| 射洪县| 尼勒克县|