99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

你永遠叫不醒裝睡的大模型!多輪對話全軍覆沒,性能暴跌39%

0
分享至


新智元報道

編輯:LRS

【新智元導讀】20萬次模擬實驗,耗資5000美元,證實大模型在多輪對話中的表現明顯低于單輪對話!一旦模型的第一輪答案出現偏差,不要試圖糾正,而是新開一個對話!

ChatGPT將大模型技術推動到「對話」場景,直接引發了AI技術的爆炸式增長。

用戶可以先提出一個粗糙的、不明確的問題,再根據模型的回答逐步完善指令、補充細節,多輪對話也催生出「跟AI打電話」等有趣的應用設計。

不過,現有的大模型性能評估基準仍然是基于單輪對話機制,輸入的指令也更長,信息更完善,其在真實場景中多輪對話的性能仍然沒有得到很好地評估。

最近,研究人員進行了一場超過20萬次的多輪對話模擬實驗,對比了15個頂級開源和閉源大模型在單輪和多輪對話場景中的性能差異,結果發現,所有模型在多輪對話中的表現都明顯低于單輪對話,平均性能在六種生成任務中下降了39%


論文鏈接:https://arxiv.org/abs/2505.06120

簡單來說,大模型通常在第一次回答問題的時候,就已經定下了基調,過早地嘗試生成最終解決方案,并且在后續回答的時候也會依賴這個結論。

性能下降后,大模型的可靠性也顯著降低,研究人員將這種現象稱之為「對話迷失」,即LLMs在多輪對話中一旦走錯了方向,在后續提示中添加信息也無法糾正,也就沒辦法恢復到正確的問答路徑。


分片模擬多輪對話

研究人員將現有的單輪基準測試任務重新設計為多種類型的多輪模擬對話場景,以評估大型語言模型(LLMs)在多輪、不明確對話中的表現。

指令分片

GSM8K數據集中具體的(fully-specified)指令文本很長,包括背景、條件、問題等等。

研究人員將原始指令采用一個「半自動化流程」進行切分,每個分片包含原始指令中的一個元素,分片1是指令的高級意圖,模擬用戶的第一次輸入,后續的分片則對意圖細節進行澄清。


所有分片合在一起,可以表達出與原始指令相同的信息,分片必須滿足五個要素:信息保留、清晰的原始意圖、順序無關(除第一個分片外,其他分片彼此獨立)、最大化分片(盡可能從原始指令中提取信息)、最小化轉換(保持原始指令的風格,避免簡化)。


模擬分片對話


基于分片指令模擬多輪、不明確對話的過程

對話包括三個角色:

  1. 助手(assistant)是正在被評估的大語言模型

  2. 用戶(user, 由另一個LLM模擬)包含整個分片指令,并負責在對話的每一回合中逐步揭示分片內容

  3. 系統(system)負責對助手的回答進行分類和評估

在第一輪對話中,用戶模擬器向助手展示指令分片1,助手隨后生成文本回答。

系統會將助手的回答歸類為七種可能的回應策略之一:澄清、拒絕、回避、詢問、討論、缺失或嘗試回答。

如果助手給出了一個明確的、完整的解決方案,就調用「答案提取組件」來確定助手回答中對應答案的部分(例如代碼片段或數字),主要是因為大模型通常會在答案中添加額外信息,比如自然語言解釋或后續問題,可能會干擾評估結果。

在后續每一輪對話中,用戶模擬器最多輸入一個分片信息,然后助手的回復類型為「嘗試回答」,則進行評估。

如果任務評估器認為助手的答案嘗試是正確的,或是分片數據耗盡,則多輪對話模擬結束。

研究人員使用一個低成本的大模型(GPT-4o-mini)來實現用戶模擬器,能夠訪問整個分片指令以及到目前為止的對話狀態,并負責對分片數據進行重新措辭,以自然地融入對話中。


除了用戶消息外,助手在第一輪對話之前還會收到一個最小化的系統指令,提供完成任務所需的上下文,包括數據庫架構或可用API工具列表等。

助手并不知道自己正處于多輪、不明確的對話中,也沒有偏好特定的對話策略。

雖然額外的指令可能會改變模型的行為,但研究人員認為這種變化并不現實,因為在實際場景中,用戶也不可能會考慮輸入這些信息。

策略分類器和答案提取器組件也使用基于提示的GPT-4o-mini實現。

雖然在模擬器中使用基于LLM的組件可以讓對話更加動態,從而提供更真實的模擬,但不可避免地會導致模擬錯誤,可能會影響實驗的有效性。

模擬類型


完全指定(fully-specified, Full),模擬單輪對話場景,即原始指令在第一輪就完整地提供給LLM,用于評估模型的基礎性能。

分片(sharded),模擬多輪、不明確的對話。

合并(concat)模擬基于分片指令的單輪、完全指定的對話。

所有分片被合并成一個單輪指令,以bullet-point形式呈現(每行一個分片),并在前面加上一條指令,要求LLM綜合所有信息來完成任務。

concat模擬是完全指定和分片之間的邏輯中間點,消除了不明確性,但保留了在分片過程中出現的指令重新措辭。

如果一個模型在full和concat模擬中都能成功完成任務,卻無法再分片模擬中完成,就可以認為模型表現不佳的原因,不是因為分片過程中的信息丟失問題,而是源于對話的不明確性和多輪性質。

總結(recap)模擬分片對話,并在最后增加了一個總結輪次,將所有分片指令在一輪中重新陳述,給LLM最后一次回答的機會,可以評估「智能體」式干預能否緩解分片對話中性能下降的問題。

滾雪球(snowball)要求模型對每輪對話都進行總結。

在每一輪中,用戶模擬器不僅引入一個新的分片,還會重新陳述到目前為止對話中已經輸入的所有分片,從而產生「滾雪球」效應,即每輪對話都包含之前所有輪次的信息,再加上一個新的分片,可以評估每輪對話中的「提醒」是否有助于緩解LLM在多輪對話中的失憶問題。

實驗結果

研究人員使用了600條指令,針對三種主要模擬類型(full, concat, shared),從八個模型家族中選擇了總共15種LLMs()進行了實驗,每種模型與每種模擬類型的組合都運行10次模擬,總共進行了超過20萬次模擬對話,總成本約為5000美元。


從總體上看,每個模型在進行「完全指定」和「分片對話」時,在每項任務中的表現都有所下降,平均下降幅度為39%

研究人員將這種現象稱為「對話迷失」,即在完全指定、單輪對話的實驗室環境中表現出色(90%以上)的模型,在更接近現實的場景(對話不明確且為多輪)中,相同任務上表現不佳。

相比之下,在合并cocnat設置中,模型的表現大致相當,其平均表現達到了完全指定表現的95.1%,也就意味著分片對話中表現下降的原因并不是由于分片指令可能導致的信息丟失,否則合并對話的表現也會相應降低。

還可以觀察到,較小的模型(如Llama3.1-8B-Instruct、OLMo-2-13B、Claude 3 Haiku)在合并對話中的表現下降更為明顯(86%-92%),表明較小的模型在泛化能力上不如較大的模型,即使是重新措辭也會對模型性能產生較大影響。

此外,增加測試時的計算量(推理token)并不能幫助模型應對多輪不明確對話。

實驗中的兩個推理模型(o3和Deepseek-R1)性能下降與非推理模型類似,也證實了僅靠增加測試時的計算量并不能讓模型在多輪對話中制定策略。

推理模型傾向于生成更長的回答(平均比非推理LLMs長33%),同時會混淆模型認知,使其分不清用戶提出的要求和自己在上一輪對話中的思考。

參考資料:

https://arxiv.org/abs/2505.06120

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
回擊勇士!杜蘭特突爆爭議發言,庫里很意外,球迷:這是撕破臉了

回擊勇士!杜蘭特突爆爭議發言,庫里很意外,球迷:這是撕破臉了

阿泰希特
2025-06-11 11:49:16
評中美倫敦談判:川普大潰敗

評中美倫敦談判:川普大潰敗

書生論劍
2025-06-11 00:48:37
高考后現離婚潮?媽媽拿花接送,兒子出考場一句:媽,你們離婚吧

高考后現離婚潮?媽媽拿花接送,兒子出考場一句:媽,你們離婚吧

鋭娛之樂
2025-06-10 17:08:43
東北一大姐養的三角梅,700元一盆都不賣,網友:咋養的,太牛!

東北一大姐養的三角梅,700元一盆都不賣,網友:咋養的,太牛!

平祥生活日志
2025-06-10 11:29:15
韋東奕家庭現狀曝光,讓人心酸又惱火, 才懂他堂姐曾經話里的含義

韋東奕家庭現狀曝光,讓人心酸又惱火, 才懂他堂姐曾經話里的含義

陳意小可愛
2025-06-09 00:16:29
女孩高考后扁擔挑行李回家走紅,班主任:能考個本科就很替她高興

女孩高考后扁擔挑行李回家走紅,班主任:能考個本科就很替她高興

飛魚的說說
2025-06-11 20:57:31
曝知名女星國外扇助理,憑仙俠劇爆火,離婚有一女,就差點名了

曝知名女星國外扇助理,憑仙俠劇爆火,離婚有一女,就差點名了

南南說娛
2025-06-10 14:14:08
天呢!網傳最大的鐵飯碗要破裂,直接影響200萬人生計…

天呢!網傳最大的鐵飯碗要破裂,直接影響200萬人生計…

慧翔百科
2025-05-21 14:02:24
韋東奕父子早年溫情合影,韋父凝視兒子目光里盡是掩不住的寵愛

韋東奕父子早年溫情合影,韋父凝視兒子目光里盡是掩不住的寵愛

貓眼觀史
2025-06-11 13:32:52
32套干擾器“圍堵”北斗,老美還差最后一步,不料我國亮出殺手锏

32套干擾器“圍堵”北斗,老美還差最后一步,不料我國亮出殺手锏

南海的波濤
2025-06-11 15:16:22
成本15賣1000!年銷30萬坑害全國,央視最新曝光,趕緊告訴家里人

成本15賣1000!年銷30萬坑害全國,央視最新曝光,趕緊告訴家里人

清游說娛
2025-06-10 15:48:57
全世界第一的梅奧診所,醫生工資很高,卻無人罵他是黑心醫院

全世界第一的梅奧診所,醫生工資很高,卻無人罵他是黑心醫院

混沌錄
2025-06-10 22:51:21
公共廁所要收費了?推進市場化收費公廁的建設的觀點,引發爭議

公共廁所要收費了?推進市場化收費公廁的建設的觀點,引發爭議

火山詩話
2025-06-11 06:23:33
上海有你想象中的繁華嗎?網友:上海的繁華和老百姓沒有關系

上海有你想象中的繁華嗎?網友:上海的繁華和老百姓沒有關系

解讀熱點事件
2025-06-11 00:15:02
我國有個系統實行“正廳管正廳再管正廳”架構,上下三級都是正廳

我國有個系統實行“正廳管正廳再管正廳”架構,上下三級都是正廳

小圣雜談原創
2025-06-11 20:11:29
這些南方人常吃的蔬菜,北方很多人都沒吃過,甚至不知道能吃!

這些南方人常吃的蔬菜,北方很多人都沒吃過,甚至不知道能吃!

農夫也瘋狂
2025-06-11 11:05:56
狀態火熱!樊振東獨砍兩分&乒超單打6連勝 上海地產3-1黃石基地

狀態火熱!樊振東獨砍兩分&乒超單打6連勝 上海地產3-1黃石基地

直播吧
2025-06-11 13:40:05
尾盤,突然直線漲停!

尾盤,突然直線漲停!

證券時報e公司
2025-06-11 16:53:15
遼寧艦抵近關島,美國感到恐懼:扣下臺島66架戰機,只收錢不發貨

遼寧艦抵近關島,美國感到恐懼:扣下臺島66架戰機,只收錢不發貨

大道無形我有型
2025-06-11 21:32:40
克魯伊維特:日本太強大了,世界杯上任何球隊碰到他們都頭疼

克魯伊維特:日本太強大了,世界杯上任何球隊碰到他們都頭疼

雷速體育
2025-06-10 22:49:15
2025-06-11 22:31:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12860文章數 66065關注度
往期回顧 全部

科技要聞

華為Pura80 Ultra最高定價10999元

頭條要聞

媒體:國足在亞洲不是三流 是不入流

頭條要聞

媒體:國足在亞洲不是三流 是不入流

體育要聞

一位中國老板,復興了歐洲百年俱樂部

娛樂要聞

那爾那茜定向委培違約事件 持續發酵

財經要聞

中美經貿磋商機制首次會議在英國倫敦舉行

汽車要聞

5萬級5座純電微型車 奇瑞QQ多米正式上市

態度原創

手機
數碼
藝術
親子
家居

手機要聞

iPhone17系列再次被確認:全系邁入高刷時代,芯片性能也清晰了

數碼要聞

紅魔電競平板3 PRO發布:9.06英寸高刷OLED屏 國補后3499元起

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

親子要聞

妹妹給大11歲哥哥化妝,終于給哥哥打扮成自己喜歡的模樣

家居要聞

木質灰調 現代輕奢質感

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 滕州市| 保德县| 盐池县| 高要市| 伊川县| 理塘县| 卓尼县| 定州市| 广平县| 虎林市| 晋江市| 耒阳市| 衡阳市| 宁都县| 拉萨市| 衡南县| 宿州市| 瑞金市| 金坛市| 鹿邑县| 恭城| 海南省| 威远县| 淮滨县| 天峨县| 新晃| 洱源县| 丰都县| 富裕县| 静乐县| 肥西县| 共和县| 开鲁县| 镇远县| 宁武县| 固镇县| 博白县| 阿拉善左旗| 太保市| 漾濞| 甘德县|