春節在家,恰逢DeepSeek 爆火,村里的小伙伴知道我是搞互聯網的,紛紛詢問,大模型是個啥,咋用啊。
我說你可以把它當成一個知識淵博的小伙伴,有啥問題直接問它就好,如果得不到答案,那就多問幾次…
甚至后來,我還總結了一套與大模型交流的方法,無論是結構化提示詞,還是各種條件設定,其中很重要的一條是,要想更準確,必須要循序漸進,與大模型多輪對話…
我把這套方法奉為圭臬,在各種場合,甚為得意的與他人分享,儼然一副過來人的專家嘴臉…
直到前不久,被打臉了…
微軟研究院前不久發布了一篇論文,揭示了一個反常識的現象:當我們和AI進行長時間多輪對話時,它們會變得越來越"糊涂",給出的答案質量也會明顯下降。
看到結論,貌似不大合理,但這個現象又好像在哪見過,相信很多小伙伴都遇到過,在我們剛開始與大模型聊天時,它的回答即使不是那么精準,但基本還是到位的,但隨著對話的深入,我們會發現AI開始重復之前說過的話,或者給出一些前后矛盾的答案,甚至完全偏離了你原本想要解決的問題。
這一點,在推理模型上尤為明顯…
而微軟研究院的這項研究,用嚴謹的科學方法證實了這個現象的存在,并且表明,這不是個別模型的問題,而是幾乎所有大模型的通病。研究團隊測試了包括GPT-4、Claude、Gemini在內的15個主流AI模型,發現它們在多輪對話中的表現平均下降了39%。
這意味著,如果一個AI在單輪對話中能達到90分的水準,那么在多輪對話中可能只能維持55分左右的表現。
很驚奇,是不是,Why…
索性,微軟的這項研究不但發現了問題,還深入探究了問題的根源。
研究背景
這項研究由微軟研究院和Salesforce 研究院(Salesforce Research)聯合完成,論文于2025年5月發布在預印本平臺arXiv上。
這樣的組合本身就代表了研究團隊在AI領域的權威性,微軟作為OpenAI的重要合作伙伴,對大語言模型的實際應用有著深刻理解,而Salesforce作為企業服務領域的領軍者,則更關注AI在實際商業場景中的表現。這種產學結合的研究方式,往往能夠產生既有理論價值又有實踐意義的成果。
這項研究的規模相當龐大,研究團隊進行了超過20萬次的對話模擬實驗,涉及15個不同的AI模型和6種不同類型的任務。這樣的實驗規模在AI研究領域并不常見,也從側面說明了研究團隊對這個問題的重視程度和研究的嚴謹性。
核心發現:AI對話中的"迷失現象"
研究團隊發現,AI模型在處理信息時會面臨一個困境,當用戶在對話開始時就提供完整清晰的指令時,AI能夠發揮出最佳水平。但當信息被分散在多個對話輪次中逐步透露時,AI的表現就會顯著下降。
即使是最先進的AI模型也無法避免這個問題,無論是OpenAI的GPT-4系列,還是Anthropic的Claude系列,或是Google的Gemini系列,都表現出了相同的趨勢。這表明這個問題不是某個特定模型的缺陷,而是當前大語言模型架構的固有局限性。
正如前文中我們提到的,研究團隊對15個頂級大語言模型(包括Claude 3.7 Sonnet、GPT-4.1、Gemini 2.5 Pro等)進行了超過20萬次的對話模擬:所有模型在多輪對話中的表現都顯著低于單輪對話,平均下降幅度高達39%。
在測試過程中,研究團隊還發現了一個有意思的現象:那些在單輪對話中表現越好的模型,在多輪對話中的表現下降幅度并不一定更小。換句話說,模型的"聰明程度"和它在復雜對話中保持穩定表現的能力之間,并沒有必然的聯系。
在深入分析性能下降的原因時,研究團隊發現了兩個關鍵因素。
一個是"能力下降",即AI在多輪對話中的最佳表現相比單輪對話有所降低,但這個下降幅度相對較小,平均只有15%左右。
第二個是"可靠性下降",這是主要問題所在。AI在多輪對話中的表現變得極不穩定,同樣的對話可能產生截然不同的結果,這種不穩定性的增加幅度超過了100%。
如果把AI的表現比作考試成績,那么在單輪對話中,一個優秀的AI可能會穩定地得90-95分;但在多輪對話中,同樣的AI可能會出現30分到85分的巨大波動,平均分數也會下降到65分左右。這種不穩定性對于實際應用來說是非常糟糕的,因為用戶無法預期AI會給出什么樣的回答。
研究團隊通過大量的對話分析,總結出了AI在多輪對話中"迷失"的四個主要原因。
首先是"過早答題"現象,就像一個急于表現的學生,AI經常在還沒有收集到足夠信息的情況下就試圖給出完整的答案。這些基于不完整信息的早期答案往往包含錯誤的假設,而這些假設會影響后續的對話發展。
其次是"答案膨脹"現象,當AI發現自己之前的答案可能不夠準確時,它不是推翻重來,而是在原有答案基礎上不斷添加和修改內容。這導致最終的答案變得冗長復雜,反而偏離了用戶的真實需求。這就像一個人在解釋問題時越說越復雜,最終把自己都繞糊涂了。
第三個原因是"中途遺忘"現象,研究團隊發現,AI在處理長對話時,往往過分關注對話的開頭和結尾部分,而忽略中間的重要信息。這種現象在AI領域被稱為"lost-in-the-middle"效應,它導致AI無法有效整合對話中的所有關鍵信息。
最后一個原因是"冗余表達",AI在多輪對話中往往會產生過于詳細的回復,這些冗長的回復不僅浪費了計算資源,還可能包含不必要的假設和推測,進而影響對話的準確性和效率。
研究方法的巧思與局限
要想科學地驗證"AI在多輪對話中表現更差"這個假設,其實并不容易。畢竟,多輪對話和單輪對話本質上是不同的任務,如何確保比較的公平性是一個關鍵挑戰。
研究團隊設計了一個巧妙的實驗框架,將完整的單輪指令分解成多個"碎片"(shards),以模擬多輪對話中信息逐步揭示的過程。
例如,一個完整的指令"編寫一個Python函數,接受整數列表作為輸入,返回列表中的最大值和最小值的差"。
研究者將其分解為:
第一輪:"幫我寫一個Python函數"
第二輪:"這個函數需要接受整數列表作為輸入"
第三輪:"函數應該返回列表中的最大值和最小值之差"
這種"碎片化"模擬了真實對話中用戶逐步提供信息的情況。
為了確保實驗的規模和可重復性,研究團隊設計了一個自動化的對話模擬系統。這個系統可以模擬用戶和AI之間的多輪對話,并且能夠控制信息透露的節奏和方式。通過這種自動化的方式,他們能夠進行大規模的實驗,涉及多個不同的AI模型和任務類型。
研究團隊在六種不同類型的任務上進行了測試,包括編程、數據庫查詢、API調用、數學計算、數據描述和文檔摘要。這樣的選擇既涵蓋了技術性任務,也包括了語言性任務,能夠全面反映AI在不同領域的表現。更重要的是,這些任務都有明確的對錯標準,便于量化分析。
為了量化模型表現,他們定義了三個關鍵指標:平均表現(P,整體成功率)、能力(A,最佳情況下的表現)和不可靠性(U,最佳和最差表現之間的差距)。這些指標幫助研究者精確分析模型在不同對話設置中的表現差異。
研究的一個重要優勢是其大規模性:超過20萬次模擬對話,覆蓋15個頂級語言模型。這確保了研究結果的可靠性和普遍性。
無論是開源模型如Llama系列,還是閉源商業模型如GPT-4.1、Claude 3.7、Gemini 2.5 Pro,都展現出類似的"迷路"模式。
這項研究也有其局限性。
自動化的對話模擬雖然保證了實驗規模,但可能無法完全反映真實的人機對話情況,真實用戶的行為更加復雜多樣,可能會出現研究中沒有考慮到的情況。
同時,研究主要關注的是分析性任務,對于創意性任務的表現如何,還需要進一步研究。畢竟,創意性任務的評估標準更加主觀,難以進行大規模的自動化測試。
另外,研究主要基于英語環境,對于其他語言的AI表現是否也存在同樣的問題,目前還不清楚。考慮到不同語言的表達方式和思維模式存在差異,這個問題值得進一步探索。
研究聚焦的是純文本對話,但現在很多AI系統已經支持多模態交互,在圖像、音頻等多種信息輸入的情況下,AI的多輪對話表現如何,也是一個待解答的問題。
盡管存在這些局限性,但這項研究的價值依然不容否認。它為我們理解AI的真實能力提供了重要洞察。更重要的是,這項研究表明,我們在評估和使用AI系統時,不能僅僅依賴單輪測試的結果,而要考慮更加復雜的實際應用場景。
結論:如何避免AI在對話中"迷路"?
這項研究的意義遠不止于發現了一個技術問題,它實際上揭示了當前AI發展中的一個根本性挑戰。我們一直以來對AI能力的認知,很大程度上基于單輪對話的表現。無論是各種AI基準測試,還是媒體報道中的AI"神奇表現",多數都是基于單輪交互的結果。但這項研究告訴我們,這種評估方式可能嚴重高估了AI在實際應用中的表現。
對于AI系統開發者,研究團隊測試了兩種可能的改進方法。一種是"回顧"機制,在對話結束時添加一個總結所有之前信息的輪次。另一種是"雪球"機制,在每個新輪次都重復之前所有的信息。這些方法能在一定程度上緩解問題,提升15-20%的性能,但仍然無法達到單輪對話的水平。
對于模型開發者,研究表明,僅僅降低溫度參數(使輸出更確定性)并不能顯著改善多輪對話中的可靠性問題。研究者呼吁LLM開發者在未來迭代中優先考慮模型在多輪對話中的可靠性,而不僅僅是提高單輪能力。
對于普通用戶,研究團隊也提供了兩條非常實用的建議:
第一,如果對話沒有達到預期效果,嘗試重新開始新對話可能比繼續當前對話更有效。這是因為一旦模型在對話中"迷路",繼續對話往往無法讓它找回正確方向。
第二,在嘗試新對話之前,將之前對話中的信息整合起來。你可以要求AI:"請幫我整合我們到目前為止討論的所有內容",然后將這個整合后的信息用于新對話。這種方法可以顯著提高AI的表現。
這些建議也解釋了為什么許多AI工具的專業用戶(如使用AI編程助手Cursor的開發者)會養成"頻繁開始新對話"的習慣,即使工具允許無限延續對話。
未來,解決多輪對話中的"迷失問題"可能需要多個方面的技術突破。這包括更好的注意力機制、更強的上下文理解能力、更穩定的推理過程,以及更有效的對話狀態管理。這些技術挑戰的解決,不僅會提升AI在對話場景中的表現,也會推動整個AI技術的進步。
至頂AI實驗室洞見
目前的大語言模型在單輪能力方面已經取得了驚人進展,能夠解決越來越復雜的問題,甚至在一些復雜的基準測試中超越了大多數的人類,例如,數學,邏輯,編程等。
但這項研究表明,真正的對話能力不僅僅是回答問題的能力,還包括在信息逐步揭示的過程中保持一致性和可靠性的能力。
從認知科學的角度很好理解,當前AI系統與人類認知方式有著根本差異,人類在對話中能夠自然地整合零散信息,構建連貫的理解,并隨著新信息的加入不斷調整自己的認知框架。而大語言模型基本都缺乏這種動態整合能力,它們更像是在不斷疊加新信息,而非真正理解和重構知識。
這也是目前AI無法取代人類許多工作的一個重要原因。
這項研究同時也揭示了當前AI評估體系的一個重要盲點,大多數評估基準都是在理想化、簡化的環境中進行的,無法反映真實使用場景的復雜性,這導致了模型優化方向與實際需求之間的脫節。
其實大多時候,能力跟跑出來的AI基準測試分數無關,能不能解決真實場景下的問題才是關鍵。
真正的AI進步不僅僅是在特定任務上超越人類,而是能夠以更自然、更可靠的方式與人類協作,成為我們日常生活和工作中真正有用的助手。
論文地址:https://arxiv.org/pdf/2505.06120
本文來自至頂AI實驗室,一個專注于探索生成式AI前沿技術及其應用的實驗室。致力于推動生成式AI在各個領域的創新與突破,挖掘其潛在的應用場景,為企業和個人提供切實可行的解決方案。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.