99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

大模型應該怎么用?微軟最新研究:大模型對話次數越多,性能越差

0
分享至

春節在家,恰逢DeepSeek 爆火,村里的小伙伴知道我是搞互聯網的,紛紛詢問,大模型是個啥,咋用啊。

我說你可以把它當成一個知識淵博的小伙伴,有啥問題直接問它就好,如果得不到答案,那就多問幾次…

甚至后來,我還總結了一套與大模型交流的方法,無論是結構化提示詞,還是各種條件設定,其中很重要的一條是,要想更準確,必須要循序漸進,與大模型多輪對話…

我把這套方法奉為圭臬,在各種場合,甚為得意的與他人分享,儼然一副過來人的專家嘴臉…

直到前不久,被打臉了…

微軟研究院前不久發布了一篇論文,揭示了一個反常識的現象:當我們和AI進行長時間多輪對話時,它們會變得越來越"糊涂",給出的答案質量也會明顯下降。

看到結論,貌似不大合理,但這個現象又好像在哪見過,相信很多小伙伴都遇到過,在我們剛開始與大模型聊天時,它的回答即使不是那么精準,但基本還是到位的,但隨著對話的深入,我們會發現AI開始重復之前說過的話,或者給出一些前后矛盾的答案,甚至完全偏離了你原本想要解決的問題。

這一點,在推理模型上尤為明顯…

而微軟研究院的這項研究,用嚴謹的科學方法證實了這個現象的存在,并且表明,這不是個別模型的問題,而是幾乎所有大模型的通病。研究團隊測試了包括GPT-4、Claude、Gemini在內的15個主流AI模型,發現它們在多輪對話中的表現平均下降了39%。



這意味著,如果一個AI在單輪對話中能達到90分的水準,那么在多輪對話中可能只能維持55分左右的表現。

很驚奇,是不是,Why…

索性,微軟的這項研究不但發現了問題,還深入探究了問題的根源。

研究背景

這項研究由微軟研究院和Salesforce 研究院(Salesforce Research)聯合完成,論文于2025年5月發布在預印本平臺arXiv上。

這樣的組合本身就代表了研究團隊在AI領域的權威性,微軟作為OpenAI的重要合作伙伴,對大語言模型的實際應用有著深刻理解,而Salesforce作為企業服務領域的領軍者,則更關注AI在實際商業場景中的表現。這種產學結合的研究方式,往往能夠產生既有理論價值又有實踐意義的成果。

這項研究的規模相當龐大,研究團隊進行了超過20萬次的對話模擬實驗,涉及15個不同的AI模型和6種不同類型的任務。這樣的實驗規模在AI研究領域并不常見,也從側面說明了研究團隊對這個問題的重視程度和研究的嚴謹性。

核心發現:AI對話中的"迷失現象"

研究團隊發現,AI模型在處理信息時會面臨一個困境,當用戶在對話開始時就提供完整清晰的指令時,AI能夠發揮出最佳水平。但當信息被分散在多個對話輪次中逐步透露時,AI的表現就會顯著下降。

即使是最先進的AI模型也無法避免這個問題,無論是OpenAI的GPT-4系列,還是Anthropic的Claude系列,或是Google的Gemini系列,都表現出了相同的趨勢。這表明這個問題不是某個特定模型的缺陷,而是當前大語言模型架構的固有局限性。

正如前文中我們提到的,研究團隊對15個頂級大語言模型(包括Claude 3.7 Sonnet、GPT-4.1、Gemini 2.5 Pro等)進行了超過20萬次的對話模擬:所有模型在多輪對話中的表現都顯著低于單輪對話,平均下降幅度高達39%。

在測試過程中,研究團隊還發現了一個有意思的現象:那些在單輪對話中表現越好的模型,在多輪對話中的表現下降幅度并不一定更小。換句話說,模型的"聰明程度"和它在復雜對話中保持穩定表現的能力之間,并沒有必然的聯系。



在深入分析性能下降的原因時,研究團隊發現了兩個關鍵因素。

一個是"能力下降",即AI在多輪對話中的最佳表現相比單輪對話有所降低,但這個下降幅度相對較小,平均只有15%左右。

第二個是"可靠性下降",這是主要問題所在。AI在多輪對話中的表現變得極不穩定,同樣的對話可能產生截然不同的結果,這種不穩定性的增加幅度超過了100%。

如果把AI的表現比作考試成績,那么在單輪對話中,一個優秀的AI可能會穩定地得90-95分;但在多輪對話中,同樣的AI可能會出現30分到85分的巨大波動,平均分數也會下降到65分左右。這種不穩定性對于實際應用來說是非常糟糕的,因為用戶無法預期AI會給出什么樣的回答。

研究團隊通過大量的對話分析,總結出了AI在多輪對話中"迷失"的四個主要原因。

首先是"過早答題"現象,就像一個急于表現的學生,AI經常在還沒有收集到足夠信息的情況下就試圖給出完整的答案。這些基于不完整信息的早期答案往往包含錯誤的假設,而這些假設會影響后續的對話發展。

其次是"答案膨脹"現象,當AI發現自己之前的答案可能不夠準確時,它不是推翻重來,而是在原有答案基礎上不斷添加和修改內容。這導致最終的答案變得冗長復雜,反而偏離了用戶的真實需求。這就像一個人在解釋問題時越說越復雜,最終把自己都繞糊涂了。

第三個原因是"中途遺忘"現象,研究團隊發現,AI在處理長對話時,往往過分關注對話的開頭和結尾部分,而忽略中間的重要信息。這種現象在AI領域被稱為"lost-in-the-middle"效應,它導致AI無法有效整合對話中的所有關鍵信息。

最后一個原因是"冗余表達",AI在多輪對話中往往會產生過于詳細的回復,這些冗長的回復不僅浪費了計算資源,還可能包含不必要的假設和推測,進而影響對話的準確性和效率。

研究方法的巧思與局限

要想科學地驗證"AI在多輪對話中表現更差"這個假設,其實并不容易。畢竟,多輪對話和單輪對話本質上是不同的任務,如何確保比較的公平性是一個關鍵挑戰。

研究團隊設計了一個巧妙的實驗框架,將完整的單輪指令分解成多個"碎片"(shards),以模擬多輪對話中信息逐步揭示的過程。

例如,一個完整的指令"編寫一個Python函數,接受整數列表作為輸入,返回列表中的最大值和最小值的差"。

研究者將其分解為:

第一輪:"幫我寫一個Python函數"

第二輪:"這個函數需要接受整數列表作為輸入"

第三輪:"函數應該返回列表中的最大值和最小值之差"

這種"碎片化"模擬了真實對話中用戶逐步提供信息的情況。



為了確保實驗的規模和可重復性,研究團隊設計了一個自動化的對話模擬系統。這個系統可以模擬用戶和AI之間的多輪對話,并且能夠控制信息透露的節奏和方式。通過這種自動化的方式,他們能夠進行大規模的實驗,涉及多個不同的AI模型和任務類型。

研究團隊在六種不同類型的任務上進行了測試,包括編程、數據庫查詢、API調用、數學計算、數據描述和文檔摘要。這樣的選擇既涵蓋了技術性任務,也包括了語言性任務,能夠全面反映AI在不同領域的表現。更重要的是,這些任務都有明確的對錯標準,便于量化分析。

為了量化模型表現,他們定義了三個關鍵指標:平均表現(P,整體成功率)、能力(A,最佳情況下的表現)和不可靠性(U,最佳和最差表現之間的差距)。這些指標幫助研究者精確分析模型在不同對話設置中的表現差異。

研究的一個重要優勢是其大規模性:超過20萬次模擬對話,覆蓋15個頂級語言模型。這確保了研究結果的可靠性和普遍性。

無論是開源模型如Llama系列,還是閉源商業模型如GPT-4.1、Claude 3.7、Gemini 2.5 Pro,都展現出類似的"迷路"模式。



這項研究也有其局限性。

自動化的對話模擬雖然保證了實驗規模,但可能無法完全反映真實的人機對話情況,真實用戶的行為更加復雜多樣,可能會出現研究中沒有考慮到的情況。

同時,研究主要關注的是分析性任務,對于創意性任務的表現如何,還需要進一步研究。畢竟,創意性任務的評估標準更加主觀,難以進行大規模的自動化測試。

另外,研究主要基于英語環境,對于其他語言的AI表現是否也存在同樣的問題,目前還不清楚。考慮到不同語言的表達方式和思維模式存在差異,這個問題值得進一步探索。

研究聚焦的是純文本對話,但現在很多AI系統已經支持多模態交互,在圖像、音頻等多種信息輸入的情況下,AI的多輪對話表現如何,也是一個待解答的問題。

盡管存在這些局限性,但這項研究的價值依然不容否認。它為我們理解AI的真實能力提供了重要洞察。更重要的是,這項研究表明,我們在評估和使用AI系統時,不能僅僅依賴單輪測試的結果,而要考慮更加復雜的實際應用場景。

結論:如何避免AI在對話中"迷路"?

這項研究的意義遠不止于發現了一個技術問題,它實際上揭示了當前AI發展中的一個根本性挑戰。我們一直以來對AI能力的認知,很大程度上基于單輪對話的表現。無論是各種AI基準測試,還是媒體報道中的AI"神奇表現",多數都是基于單輪交互的結果。但這項研究告訴我們,這種評估方式可能嚴重高估了AI在實際應用中的表現。

對于AI系統開發者,研究團隊測試了兩種可能的改進方法。一種是"回顧"機制,在對話結束時添加一個總結所有之前信息的輪次。另一種是"雪球"機制,在每個新輪次都重復之前所有的信息。這些方法能在一定程度上緩解問題,提升15-20%的性能,但仍然無法達到單輪對話的水平。

對于模型開發者,研究表明,僅僅降低溫度參數(使輸出更確定性)并不能顯著改善多輪對話中的可靠性問題。研究者呼吁LLM開發者在未來迭代中優先考慮模型在多輪對話中的可靠性,而不僅僅是提高單輪能力。

對于普通用戶,研究團隊也提供了兩條非常實用的建議:

第一,如果對話沒有達到預期效果,嘗試重新開始新對話可能比繼續當前對話更有效。這是因為一旦模型在對話中"迷路",繼續對話往往無法讓它找回正確方向。

第二,在嘗試新對話之前,將之前對話中的信息整合起來。你可以要求AI:"請幫我整合我們到目前為止討論的所有內容",然后將這個整合后的信息用于新對話。這種方法可以顯著提高AI的表現。

這些建議也解釋了為什么許多AI工具的專業用戶(如使用AI編程助手Cursor的開發者)會養成"頻繁開始新對話"的習慣,即使工具允許無限延續對話。

未來,解決多輪對話中的"迷失問題"可能需要多個方面的技術突破。這包括更好的注意力機制、更強的上下文理解能力、更穩定的推理過程,以及更有效的對話狀態管理。這些技術挑戰的解決,不僅會提升AI在對話場景中的表現,也會推動整個AI技術的進步。

至頂AI實驗室洞見

目前的大語言模型在單輪能力方面已經取得了驚人進展,能夠解決越來越復雜的問題,甚至在一些復雜的基準測試中超越了大多數的人類,例如,數學,邏輯,編程等。

但這項研究表明,真正的對話能力不僅僅是回答問題的能力,還包括在信息逐步揭示的過程中保持一致性和可靠性的能力。

從認知科學的角度很好理解,當前AI系統與人類認知方式有著根本差異,人類在對話中能夠自然地整合零散信息,構建連貫的理解,并隨著新信息的加入不斷調整自己的認知框架。而大語言模型基本都缺乏這種動態整合能力,它們更像是在不斷疊加新信息,而非真正理解和重構知識。

這也是目前AI無法取代人類許多工作的一個重要原因。

這項研究同時也揭示了當前AI評估體系的一個重要盲點,大多數評估基準都是在理想化、簡化的環境中進行的,無法反映真實使用場景的復雜性,這導致了模型優化方向與實際需求之間的脫節。

其實大多時候,能力跟跑出來的AI基準測試分數無關,能不能解決真實場景下的問題才是關鍵。

真正的AI進步不僅僅是在特定任務上超越人類,而是能夠以更自然、更可靠的方式與人類協作,成為我們日常生活和工作中真正有用的助手。

論文地址:https://arxiv.org/pdf/2505.06120

本文來自至頂AI實驗室,一個專注于探索生成式AI前沿技術及其應用的實驗室。致力于推動生成式AI在各個領域的創新與突破,挖掘其潛在的應用場景,為企業和個人提供切實可行的解決方案。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
又贏了?郭希寬走出法庭揮拳慶祝,李圣表態:對庭審表現很滿意

又贏了?郭希寬走出法庭揮拳慶祝,李圣表態:對庭審表現很滿意

振華觀史
2025-06-26 21:10:32
歐盟只給中國30天,必須解決稀土供應,否則馮德萊恩取消訪華?

歐盟只給中國30天,必須解決稀土供應,否則馮德萊恩取消訪華?

小鬼頭體育
2025-06-26 16:03:07
考場外跪謝爺爺的雙胞胎兄弟高考成績出爐,均超山東一段線,爺爺:孩子正選擇院校,后續將申請助學貸款

考場外跪謝爺爺的雙胞胎兄弟高考成績出爐,均超山東一段線,爺爺:孩子正選擇院校,后續將申請助學貸款

極目新聞
2025-06-26 11:20:33
恩怨已久!阿庫尼亞追打鄧弗里斯,此前世界杯時兩人就發生過口角

恩怨已久!阿庫尼亞追打鄧弗里斯,此前世界杯時兩人就發生過口角

直播吧
2025-06-26 12:53:07
雷軍:小米YU7要挑戰特斯拉Model Y 網友:可是你腳小啊

雷軍:小米YU7要挑戰特斯拉Model Y 網友:可是你腳小啊

華庭講美食
2025-06-24 12:28:39
青島經理:里斯兩年前就向開拓者推薦楊瀚森,為保護他,上賽季只讓他出席1次發布會

青島經理:里斯兩年前就向開拓者推薦楊瀚森,為保護他,上賽季只讓他出席1次發布會

雷速體育
2025-06-26 10:58:18
文班亞馬宣布退役,回歸少林?交易約基奇,圍繞楊瀚森重建?

文班亞馬宣布退役,回歸少林?交易約基奇,圍繞楊瀚森重建?

籃球神吐槽
2025-06-25 22:51:39
十大元帥的后代,誰的軍銜最高?

十大元帥的后代,誰的軍銜最高?

顧史
2025-06-23 21:36:45
清華退學男生考貴州第二,清華主動挽回:只要你回來,學分還作數!

清華退學男生考貴州第二,清華主動挽回:只要你回來,學分還作數!

熙熙說教
2025-06-26 18:57:43
一位退休干部坦言:農民的待遇比城市居民要好!我對此表示很認同

一位退休干部坦言:農民的待遇比城市居民要好!我對此表示很認同

明月讀書吧
2025-06-26 14:35:03
在麗江市市長、昆明市市長、玉溪市委書記、云南省副省長等職上,張祖林收受1.22億,被判無期!

在麗江市市長、昆明市市長、玉溪市委書記、云南省副省長等職上,張祖林收受1.22億,被判無期!

新京報
2025-06-26 17:29:20
Deepseek分析今年高考最難的10個省份,看看是否有你的家鄉?

Deepseek分析今年高考最難的10個省份,看看是否有你的家鄉?

悠閑歷史
2025-06-25 14:49:18
河南真慘!高考成績出爐:本科線人數不足44萬,500分只能上大專

河南真慘!高考成績出爐:本科線人數不足44萬,500分只能上大專

涵豆說娛
2025-06-26 15:01:45
格力24年老大地位被終結,擊敗它的是國內最大空調集團,日收10億

格力24年老大地位被終結,擊敗它的是國內最大空調集團,日收10億

小樾說歷史
2025-06-12 16:38:56
WTT常規賽:張本智和大逆轉勝國乒!0-2連扳3局,拒絕爆冷一輪游

WTT常規賽:張本智和大逆轉勝國乒!0-2連扳3局,拒絕爆冷一輪游

全言作品
2025-06-26 20:21:40
突發!智界全系降價!

突發!智界全系降價!

電動知家
2025-06-26 11:12:44
不管本事如何,到了五十歲,你必須擁有這三項能力

不管本事如何,到了五十歲,你必須擁有這三項能力

阿鄭的讀書日常
2025-06-23 09:37:08
不作不死,香港那個“大班冰皮月餅”倒閉了!

不作不死,香港那個“大班冰皮月餅”倒閉了!

薦史
2025-06-26 00:36:29
中紀委再劃紅線!公務員下班后吃飯,這4種行為將被嚴肅追責!

中紀委再劃紅線!公務員下班后吃飯,這4種行為將被嚴肅追責!

鬼菜生活
2025-06-17 12:39:27
山西省晉中市發生地震!

山西省晉中市發生地震!

魯中晨報
2025-06-26 11:20:02
2025-06-27 01:08:49
至頂AI實驗室 incentive-icons
至頂AI實驗室
一個專注于探索生成式AI前沿技術及其應用的實驗室。
177文章數 145關注度
往期回顧 全部

科技要聞

小米YU7價格來了!標準版起售價25.35萬元

頭條要聞

小米YU7開啟預定3分鐘大定破20萬臺 只比SU7貴3萬

頭條要聞

小米YU7開啟預定3分鐘大定破20萬臺 只比SU7貴3萬

體育要聞

蓄謀已久的開拓者,就是最適合楊瀚森的球隊

娛樂要聞

倪妮,怎么突然下桌了?

財經要聞

央視再揭茅臺鎮“年份酒”造假黑幕

汽車要聞

智界全系2萬元現金減免 豪華智能限時普惠

態度原創

親子
房產
健康
公開課
軍事航空

親子要聞

孩子鼻火火可以試試用這些緩解

房產要聞

最強黑馬殺出!海南這些區域,教育正悄悄崛起!

呼吸科專家破解呼吸道九大謠言!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

滿足特朗普要求 北約峰會通過5%軍費目標

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 纳雍县| 民权县| 仲巴县| 酒泉市| 普安县| 循化| 革吉县| 大足县| 哈尔滨市| 苏尼特左旗| 平湖市| 丽江市| 阿尔山市| 舞阳县| SHOW| 介休市| 鹤岗市| 南城县| 任丘市| 扎兰屯市| 邢台县| 彰化县| 阿勒泰市| 惠安县| 汝南县| 巩留县| 浑源县| 永仁县| 永登县| 边坝县| 普定县| 茂名市| 建水县| 广汉市| 凌源市| 曲沃县| 昂仁县| 大埔县| 开封县| 东兴市| 九江市|