網易首頁 > 網易號 > 正文申請入駐

1萬tokens是檢驗長文本的新基準，超過后18款大模型集體失智

2025-07-17 14:34:39　來源: 量子位

北京舉報

分享至

聞樂發自凹非寺
量子位 | 公眾號 QbitAI

上下文擴展至1萬tokens，LLM集體“失智”！

且“智商”不是均勻下降，而是在一些節點突然斷崖式下跌。

比如Claude Sonnet 4，就是在1000tokens后準確率一路下滑，從90%降到60%。

或者是下降后放緩再下降，比如GPT-4.1Gemini 2.5 Flash

最終，當上下文長度來到1萬tokens，大家都只剩50%準確率。

這也就意味著，大模型在讀同一本書第10頁和第100頁時的“智商”可能不一樣。

并且不同大模型在“讀這本書”時突然降智的頁數也不同。

GPT-4.1可能讀到第10頁就“失智”了，Claude興許能堅持到第100頁。

這是Chroma團隊的最新研究結論，他們用升級版“大海撈針”（NIAH）測試了包括GPT-4.1、Claude 4、Gemini 2.5和Qwen3等在內的18個開源和閉源的主流大模型。

結果顯示，隨著輸入長度的增加，模型的性能越來越差

實驗還首次系統性地揭示了輸入長度對模型性能并非均勻影響，不同模型性能可能在某一tokens長度上準確率發生驟降。

這項工作得到了網友的肯定：

以往人們或許會遇到當輸入長度增加時大模型會出現性能不佳的情況，但并沒有人深入探究過這個問題。

目前代碼已開源，感興趣的朋友可復現～

1萬tokens是個坎兒

Gemini 1.5 Pro在2024年首次引入了1M上下文窗口，隨后GPT-4.1也加入到了1M上下文隊伍中。

更長的上下文意味著LLM每次調用可以處理更多信息，似乎能生成更合理的輸出。

確實，這些模型在“大海撈針”（NIAH）這些基準測試中表現良好。但實際上，現有基準測試有一個局限性是在于它們傾向于把輸入長度與任務難度混為一談

NIAH本質上是一個簡單的檢索任務，它是將一個已知事實（“針”）放置在一大段不相關文本（“干草堆”）中，然后要求模型檢索它。

這種方法主要評估大模型直接的詞匯匹配能力，無法代表更靈活、面向語義的任務。

其他更復雜的任務，例如包含非詞匯匹配的NoLiMa和測試文本片段缺失識別的AbsenceBench，已經揭示了模型性能在輸入長度增加時出現的顯著下降，但沒有進行更深入地探討。

為了解決經典NIAH的局限性，并更好地探究僅輸入長度對模型性能的影響，研究人員擴展了標準的NIAH任務。

研究人員基于保持任務復雜度不變，只改變輸入長度核心原則，設計了四項對照實驗。

先說結論，四項對照實驗（針-問題相似度、干擾信息、針-干草堆相似度、干草堆結構實驗）共同證明了LLMs的性能會隨輸入長度增加而顯著且非均勻地下降，且這種衰減受輸入內容的語義特征、結構等因素影響。

具體表現為

輸入長度是性能衰減的核心變量，無論任務簡單與否，模型處理長文本的可靠性都會下降；
語義關聯性（如針-問題相似度低、針與干草堆語義融合）會加劇衰減；
干擾信息和文本結構（如邏輯連貫的干草堆）會進一步削弱模型在長上下文任務中的表現；
不同模型對這些因素的敏感程度存在差異，但整體均無法維持穩定性能。

第一項是針-問題相似度實驗：驗證“針”與“問題”的語義相似度是否會影響模型在長上下文任務中的表現，尤其是輸入長度增加時，低相似度是否會加劇性能衰減。

實驗選取了保羅?格雷厄姆散文(PG essay)和arXiv論文作為背景數據（干草堆），針對其核心主題設計問題，并為每個問題生成8個與主題匹配且未出現在干草堆中的 “針”，通過5種嵌入模型計算“針-問題”余弦相似度，分為高、低相似度兩組。

實驗控制任務復雜度和干草堆內容，僅調整輸入長度（102到10?tokens）和相似度，以模型回答準確率為指標（由GPT-4.1評估，與人類判斷一致性超過99%）。

結果顯示，所有模型性能均隨輸入長度增加而下降，到1萬token左右下降最明顯，且低相似度組衰減更顯著——

高相似度組在10?tokens 時準確率約60%-80%，低相似度組降至40%-60%，高性能模型雖在短輸入時表現更好，長輸入下仍難避免衰減。

這表明，“針-問題”語義相似度是關鍵影響因素，相似度越低，長輸入下模型性能衰減越劇烈，揭示了現有模型處理模糊信息的局限性。

第二項是干擾信息實驗：探究當輸入長度變化時，與目標信息（針）相關但不匹配的干擾內容對LLMs性能的影響，尤其是干擾項數量和個體差異是否會加劇性能衰減。

研究團隊從保羅?格雷厄姆散文和arXiv論文兩類干草堆中，選取與問題語義相似度較高的“針”，并手動設計4個干擾項。

實驗設置了三種條件：基線（僅含“針”，無干擾項）、單一干擾項（“針”+1條隨機位置的干擾項）、多重干擾項（“針”+4條隨機分布的干擾項）。

通過控制任務復雜度（僅需檢索“針”并回答問題），僅調整輸入長度（從102到10?tokens）和干擾項數量，以模型回答的準確率為指標。

結果顯示，即使單一干擾項也會導致模型性能低于基線，而加入4條干擾項會進一步加劇性能衰減。

輸入長度為10?tokens時，多重干擾項條件下模型準確率比基線低30%-50%。

此外，模型對干擾項的響應存在差異：Claude系列傾向于在不確定時棄權（明確表示無法回答），幻覺率較低；GPT系列則更可能生成自信但錯誤的答案，受干擾影響更明顯；Gemini和Qwen模型的表現波動較大，易受干擾項數量和輸入長度的雙重影響。

第三項是針-干草堆相似度實驗：探究目標信息（針）與背景文本（干草堆）的語義相似度對 LLMs長上下文任務性能的影響。

實驗選取保羅?格雷厄姆散文和arXiv論文作為干草堆，針對其核心主題設計問題及8個匹配主題的“針”（確保未出現在干草堆中），通過5種嵌入模型計算“針-干草堆” 余弦相似度并取平均值以保證穩健性。

實驗控制任務復雜度，僅調整輸入長度（102到 10?tokens）和相似度，以模型回答準確率為指標。

結果顯示，針-干草堆相似度對模型性能的影響不統一，不同模型敏感度存在差異，但整體上隨著輸入長度增加，各相似度條件下的模型性能普遍下降。

第四項是干草堆結構實驗：探究背景文本（干草堆）的結構模式對LLMs長上下文任務性能的影響。

實驗選取保羅?格雷厄姆散文和arXiv論文作為干草堆，針對其核心主題設計問題及8個匹配主題的“針”（確保未出現在干草堆中），設置連貫結構（文本按原邏輯順序呈現）和打亂結構（文本順序隨機打亂）兩種條件。

實驗控制任務復雜度，僅調整輸入長度（102 到 10? tokens）和干草堆結構。

結果顯示，多數模型在連貫結構中隨輸入長度增加性能下降更顯著，而打亂結構下性能下降較緩和——

輸入長度10?tokens 時，連貫結構中部分模型準確率降至30%-40%，打亂結構則維持在50%-60%。

這表明干草堆結構是關鍵影響因素，現有模型處理復雜邏輯結構的長文本時挑戰更大。

團隊還設計了重復單詞實驗，說明即使是最基礎的文本復現任務，LLMs 在長上下文下的穩定性也存在嚴重缺陷，且輸入與輸出長度的同步增長會加劇這一問題。

這些實驗結果共同證明，盡管大型語言模型的上下文窗口不斷增長，但其性能并非均勻一致

基于LLMs在長文本任務上的缺陷，也有人給出了應對策略：給出明確、清晰的指令，并且在收集到足夠的信息后保存上下文，添加一個檢查點。

Chroma——開源的AI應用數據庫

Chroma致力于開發開源軟件，由Jeff Huber（左）和Anton Troynikov（右）共同創立。

公司公開發布的同名數據庫Chroma是一個開源的AI應用數據庫，旨在通過將知識和技能整合為大語言模型可調用的模塊，簡化LLM應用的構建過程。

團隊活躍于LLMs長上下文處理、檢索增強生成（RAG）等領域的研究，以解決大模型在實際應用中對長文本信息的記憶、提取和利用效率問題。

目前，Chroma計劃推出免費的技術預覽，并表示：

我們100%專注于構建有價值的開源軟件。

代碼地址：https://github.com/chroma-core/context-rot

[1]https://research.trychroma.com/context-rot
[2]https://news.ycombinator.com/item?id=44564248

— 完 —

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

10% KV無損數學推理！開源方法解決推理大模型「記憶過載」難題

量子位 2025-06-16 16:27:36
6 跟貼 6
重塑記憶架構：LLM正在安裝「操作系統」

機器之心Pro 2025-07-16 14:00:56
0 跟貼 0

M+框架來了，增加LLM隱空間記憶，不再受上下文窗口限制

機器之心Pro 2025-07-15 17:07:00
1 跟貼 1

MM-Eureka：極少數據實現多模態推理的R1-Zero時刻

機器之心Pro 2025-03-14 13:56:59
7 跟貼 7
谷歌發布新架構，用一半內存實現推理速度翻倍

DeepTech深科技 2025-07-17 17:49:23
0 跟貼 0

有望成為Transformer殺手,谷歌DeepMind架構MoR實現兩倍推理速度

機器之心Pro 2025-07-17 13:08:14
0 跟貼 0

搜狗輸入法2025表情包年中盤點：哪個最能戳中你的心？

雷科技 2025-07-17 22:00:32
0 跟貼 0
醫生揭露：老年癡呆的禍根！原來是這三種吃飯習慣，早看早知道

淡淡稻花香s 2025-07-15 02:05:18
0 跟貼 0

公公老年癡呆總尿褲子，兒媳趁沒人竟這樣對待，這一舉動必須曝光

不簡單生活 2025-07-17 08:48:25
2 跟貼 2
不想老年癡呆，這4種“傷腦”食物打死也別碰！很多人還不知道

紫夢雅馨z 2025-07-17 05:30:36
1 跟貼 1
類比的長河，為何流到大模型就被截流？

鈦媒體APP 2025-04-30 16:09:25
0 跟貼 0
4種飲食習慣可能是老年癡呆的誘因!若有這4種習慣,勸你盡早改

沙果嘮生活 2025-07-15 06:27:44
1 跟貼 1
MIRIX重塑AI記憶：超Gemini 410%，節省99.9%內存，APP同步上線

機器之心Pro 2025-07-15 17:25:30
3 跟貼 3
本科生推翻姚期智40年前的猜想，提出哈希表算法突破搜索效率極限

DeepTech深科技 2025-02-11 13:24:34
4 跟貼 4
線性擴散模型LiT，極簡線性注意力助力擴散模型AIPC時代端側部署

機器之心Pro 2025-02-01 15:01:13
2 跟貼 2
這6種人易老年癡呆,你若不在名單上,恭喜，癡呆離你還很遠

沙果嘮生活 2025-07-16 08:40:35
1 跟貼 1
天然維生素B12找到了，多吃3類食物，預防失智，老了頭腦依舊靈活

搞笑龍眼 2025-07-16 00:32:53
0 跟貼 0
中國團隊提出SRDA，一種專為AI大模型訓推設計的下一代計算架構

量子位 2025-06-09 17:50:16
0 跟貼 0
港科聯合SnapResearch發布ThinkDiff，為擴散模型裝上大腦

機器之心Pro 2025-07-16 18:00:06
0 跟貼 0
強化學習的兩個「大坑」，終于被兩篇ICLR論文給解決了

機器之心Pro 2025-07-17 18:17:19
0 跟貼 0
看到孫女被欺負的外公瞬間不癡呆

浩烽 2025-07-16 07:14:56
0 跟貼 0
關于“老年癡呆”幾個常見誤區，患者很幸福？癡呆就是記憶差？

羅夕夕博士 2025-07-17 17:54:27
3 跟貼 3
這4種食物加速大腦衰老!大腦萎縮快10倍,老年癡呆會纏上你

洛天依 2025-07-14 11:02:10
0 跟貼 0
多吃碳水會傷腦？《柳葉刀》子刊萬人研究：中年時期的飲食選擇可能影響癡呆癥風險

醫學新視點 2025-07-17 18:15:17
1 跟貼 1
IDC評測9家座艙大模型，斑馬智行全面領跑

甲子光年 2025-07-17 18:17:13
0 跟貼 0
帶狀皰疹疫苗可降低癡呆癥風險？國外頂尖團隊到底發現了什么？

鳳凰衛視 2025-07-17 17:59:24
0 跟貼 0
家長因女兒患惡性腫瘤致電動物園希望退年卡

澎湃新聞 2025-07-17 07:30:25
1244 跟貼 1244
商湯絕影端側多模態大模型亮相鏈博會|聚焦鏈博會

北青網-北京青年報 2025-07-17 21:34:02
0 跟貼 0
上海最貴？一碗面1588元，另收10%服務費，網友直呼：太瘋狂

環球網資訊 2025-07-16 09:10:08
13167 跟貼 13167
給泰國亮出三大條件，柬埔寨正式為戰爭做準備，下達全民皆兵指令

胡麒牧博士 2025-07-16 11:22:44
1 跟貼 1
河北邯鄲初中數學求值題，構造零零模型來解題！

三樂大掌柜 2025-07-17 07:48:11
2 跟貼 2
杜建英兒子長相酷似宗澤后，對比照驚人，宗家人對私生子態度曝光

古希臘掌管松餅的神 2025-07-16 14:54:22
4874 跟貼 4874
7月16日，上海網友發視頻稱，一群老人在麥當勞打牌。網友：用餐的人都沒地方坐。（編輯：琳琳）#麥當勞

中安在線 2025-07-17 11:55:36
9424 跟貼 9424
Transformer終結者！谷歌DeepMind全新MoR架構問世，新一代魔王來了

新智元 2025-07-17 12:54:17
6 跟貼 6
果然是波音的問題，印度下達指令，對所有波音飛機進行檢查

he深度 2025-07-15 17:06:27
0 跟貼 0
從量子通信到立體監控：解析中國偵察船在南海的電子戰能力

Hi秒懂科普 2025-07-15 13:31:14
0 跟貼 0
財政部調整超豪華小汽車消費稅政策

財聯社 2025-07-17 17:53:18
2699 跟貼 2699
小玥兒與霖霖露臉：外表與父母的相似度及公眾關注的適度性探討

光輝與陰暗 2025-07-16 05:04:29
1 跟貼 1
垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0
沒有動力來源的模型飛機居然奇跡的載人飛了起來

酷啵追影 2025-07-16 17:27:56
1 跟貼 1

量子位

追蹤人工智能動態

10878文章數 176189關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手機

時尚

藝術

教育

數碼

手機 / 數碼

房產 / 家居

1萬tokens是檢驗長文本的新基準，超過后18款大模型集體失智

1萬tokens是個坎兒

Chroma——開源的AI應用數據庫

沒有老黃不夸的中國公司了吧？？

遺產大戰細節：宗慶后逝世半年3人起訴 矛盾早已發生

遺產大戰細節：宗慶后逝世半年3人起訴 矛盾早已發生

楊力維和楊舒予，是姐妹，也是戰友

又相信愛情了，董璇二婚現場照曝光！

杭州成立專班介入宗慶后遺產糾紛

有望年內上市 奧迪A6L e-tron申報信息曝光

態度原創

小米16外觀曝光，或9月發？

宗氏家族爭產案，一個細節讓人反感

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

第二波！揚大、南林、常大...多所高校專業組投檔分數線公布！

倍思同芯充Pro充電頭登場：45W氮化鎵，預購價138元

1萬tokens是檢驗長文本的新基準，超過后18款大模型集體失智

遺產大戰細節：宗慶后逝世半年3人起訴矛盾早已發生

遺產大戰細節：宗慶后逝世半年3人起訴矛盾早已發生

楊力維和楊舒予，是姐妹，也是戰友

又相信愛情了，董璇二婚現場照曝光！

有望年內上市奧迪A6L e-tron申報信息曝光

小米16外觀曝光，或9月發？

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

第二波！揚大、南林、常大...多所高校專業組投檔分數線公布！