99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

1萬tokens是檢驗長文本的新基準,超過后18款大模型集體失智

0
分享至

聞樂 發自 凹非寺
量子位 | 公眾號 QbitAI

上下文擴展至1萬tokens,LLM集體“失智”!

且“智商”不是均勻下降,而是在一些節點突然斷崖式下跌。

比如Claude Sonnet 4,就是在1000tokens后準確率一路下滑,從90%降到60%。

或者是下降后放緩再下降,比如GPT-4.1Gemini 2.5 Flash

最終,當上下文長度來到1萬tokens,大家都只剩50%準確率。



這也就意味著,大模型在讀同一本書第10頁和第100頁時的“智商”可能不一樣。

并且不同大模型在“讀這本書”時突然降智的頁數也不同。

GPT-4.1可能讀到第10頁就“失智”了,Claude興許能堅持到第100頁。



這是Chroma團隊的最新研究結論,他們用升級版“大海撈針”(NIAH)測試了包括GPT-4.1、Claude 4、Gemini 2.5和Qwen3等在內的18個開源和閉源的主流大模型。

結果顯示,隨著輸入長度的增加,模型的性能越來越差

實驗還首次系統性地揭示了輸入長度對模型性能并非均勻影響,不同模型性能可能在某一tokens長度上準確率發生驟降。

這項工作得到了網友的肯定:

以往人們或許會遇到當輸入長度增加時大模型會出現性能不佳的情況,但并沒有人深入探究過這個問題。



目前代碼已開源,感興趣的朋友可復現~

1萬tokens是個坎兒

Gemini 1.5 Pro在2024年首次引入了1M上下文窗口,隨后GPT-4.1也加入到了1M上下文隊伍中。

更長的上下文意味著LLM每次調用可以處理更多信息,似乎能生成更合理的輸出。

確實,這些模型在“大海撈針”(NIAH)這些基準測試中表現良好。但實際上,現有基準測試有一個局限性是在于它們傾向于把輸入長度與任務難度混為一談

NIAH本質上是一個簡單的檢索任務,它是將一個已知事實(“針”)放置在一大段不相關文本(“干草堆”)中,然后要求模型檢索它。



這種方法主要評估大模型直接的詞匯匹配能力,無法代表更靈活、面向語義的任務。

其他更復雜的任務,例如包含非詞匯匹配的NoLiMa和測試文本片段缺失識別的AbsenceBench,已經揭示了模型性能在輸入長度增加時出現的顯著下降,但沒有進行更深入地探討。

為了解決經典NIAH的局限性,并更好地探究僅輸入長度對模型性能的影響,研究人員擴展了標準的NIAH任務。

研究人員基于保持任務復雜度不變,只改變輸入長度核心原則,設計了四項對照實驗。

先說結論,四項對照實驗(針-問題相似度、干擾信息、針-干草堆相似度、干草堆結構實驗)共同證明了LLMs的性能會隨輸入長度增加而顯著且非均勻地下降,且這種衰減受輸入內容的語義特征、結構等因素影響。

具體表現為

  1. 輸入長度是性能衰減的核心變量,無論任務簡單與否,模型處理長文本的可靠性都會下降;
  2. 語義關聯性(如針-問題相似度低、針與干草堆語義融合)會加劇衰減;
  3. 干擾信息和文本結構(如邏輯連貫的干草堆)會進一步削弱模型在長上下文任務中的表現;
  4. 不同模型對這些因素的敏感程度存在差異,但整體均無法維持穩定性能。

第一項是針-問題相似度實驗:驗證“針”與“問題”的語義相似度是否會影響模型在長上下文任務中的表現,尤其是輸入長度增加時,低相似度是否會加劇性能衰減。

實驗選取了保羅?格雷厄姆散文(PG essay)和arXiv論文作為背景數據(干草堆),針對其核心主題設計問題,并為每個問題生成8個與主題匹配且未出現在干草堆中的 “針”,通過5種嵌入模型計算“針-問題”余弦相似度,分為高、低相似度兩組。

實驗控制任務復雜度和干草堆內容,僅調整輸入長度(102到10?tokens)和相似度,以模型回答準確率為指標(由GPT-4.1評估,與人類判斷一致性超過99%)。



結果顯示,所有模型性能均隨輸入長度增加而下降,到1萬token左右下降最明顯,且低相似度組衰減更顯著——

高相似度組在10?tokens 時準確率約60%-80%,低相似度組降至40%-60%,高性能模型雖在短輸入時表現更好,長輸入下仍難避免衰減。

這表明,“針-問題”語義相似度是關鍵影響因素,相似度越低,長輸入下模型性能衰減越劇烈,揭示了現有模型處理模糊信息的局限性。

第二項是干擾信息實驗:探究當輸入長度變化時,與目標信息(針)相關但不匹配的干擾內容對LLMs性能的影響,尤其是干擾項數量和個體差異是否會加劇性能衰減。

研究團隊從保羅?格雷厄姆散文和arXiv論文兩類干草堆中,選取與問題語義相似度較高的“針”,并手動設計4個干擾項。

實驗設置了三種條件:基線(僅含“針”,無干擾項)、單一干擾項(“針”+1條隨機位置的干擾項)、多重干擾項(“針”+4條隨機分布的干擾項)。



通過控制任務復雜度(僅需檢索“針”并回答問題),僅調整輸入長度(從102到10?tokens)和干擾項數量,以模型回答的準確率為指標。



結果顯示,即使單一干擾項也會導致模型性能低于基線,而加入4條干擾項會進一步加劇性能衰減。

輸入長度為10?tokens時,多重干擾項條件下模型準確率比基線低30%-50%。



此外,模型對干擾項的響應存在差異:Claude系列傾向于在不確定時棄權(明確表示無法回答),幻覺率較低;GPT系列則更可能生成自信但錯誤的答案,受干擾影響更明顯;Gemini和Qwen模型的表現波動較大,易受干擾項數量和輸入長度的雙重影響。

第三項是針-干草堆相似度實驗:探究目標信息(針)與背景文本(干草堆)的語義相似度對 LLMs長上下文任務性能的影響。



實驗選取保羅?格雷厄姆散文和arXiv論文作為干草堆,針對其核心主題設計問題及8個匹配主題的“針”(確保未出現在干草堆中),通過5種嵌入模型計算“針-干草堆” 余弦相似度并取平均值以保證穩健性。

實驗控制任務復雜度,僅調整輸入長度(102到 10?tokens)和相似度,以模型回答準確率為指標。



結果顯示,針-干草堆相似度對模型性能的影響不統一,不同模型敏感度存在差異,但整體上隨著輸入長度增加,各相似度條件下的模型性能普遍下降。

第四項是干草堆結構實驗:探究背景文本(干草堆)的結構模式對LLMs長上下文任務性能的影響。



實驗選取保羅?格雷厄姆散文和arXiv論文作為干草堆,針對其核心主題設計問題及8個匹配主題的“針”(確保未出現在干草堆中),設置連貫結構(文本按原邏輯順序呈現)和打亂結構(文本順序隨機打亂)兩種條件。

實驗控制任務復雜度,僅調整輸入長度(102 到 10? tokens)和干草堆結構。



結果顯示,多數模型在連貫結構中隨輸入長度增加性能下降更顯著,而打亂結構下性能下降較緩和——

輸入長度10?tokens 時,連貫結構中部分模型準確率降至30%-40%,打亂結構則維持在50%-60%。

這表明干草堆結構是關鍵影響因素,現有模型處理復雜邏輯結構的長文本時挑戰更大。

團隊還設計了重復單詞實驗,說明即使是最基礎的文本復現任務,LLMs 在長上下文下的穩定性也存在嚴重缺陷,且輸入與輸出長度的同步增長會加劇這一問題。



這些實驗結果共同證明,盡管大型語言模型的上下文窗口不斷增長,但其性能并非均勻一致

基于LLMs在長文本任務上的缺陷,也有人給出了應對策略:給出明確、清晰的指令,并且在收集到足夠的信息后保存上下文,添加一個檢查點。





Chroma——開源的AI應用數據庫

Chroma致力于開發開源軟件,由Jeff Huber(左)和Anton Troynikov(右)共同創立。



公司公開發布的同名數據庫Chroma是一個開源的AI應用數據庫,旨在通過將知識和技能整合為大語言模型可調用的模塊,簡化LLM應用的構建過程。



團隊活躍于LLMs長上下文處理、檢索增強生成(RAG)等領域的研究,以解決大模型在實際應用中對長文本信息的記憶、提取和利用效率問題。

目前,Chroma計劃推出免費的技術預覽,并表示:

我們100%專注于構建有價值的開源軟件。

代碼地址:https://github.com/chroma-core/context-rot


[1]https://research.trychroma.com/context-rot
[2]https://news.ycombinator.com/item?id=44564248

— 完 —

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
開拆!長沙這個大工廠搬遷!超千畝大盤要來了!

開拆!長沙這個大工廠搬遷!超千畝大盤要來了!

星耀長沙
2025-07-16 22:58:33
已下架!七大著名酸奶全軍覆沒,實為科技糖水,以后別再被騙了!

已下架!七大著名酸奶全軍覆沒,實為科技糖水,以后別再被騙了!

阿纂看事
2025-07-16 21:30:01
男子情緒失控怒摔充電寶,機場立馬報警將其拘留5日

男子情緒失控怒摔充電寶,機場立馬報警將其拘留5日

映射生活的身影
2025-07-17 17:04:52
05年,清華教授13歲女兒在公交車上被掐死,生前哀求:再也不敢了

05年,清華教授13歲女兒在公交車上被掐死,生前哀求:再也不敢了

柳絮憶史
2025-07-08 14:11:59
維爾茨父親:拜仁和利物浦開出的條件差不多,拒絕是因為角色定位

維爾茨父親:拜仁和利物浦開出的條件差不多,拒絕是因為角色定位

雷速體育
2025-07-17 22:10:53
72歲唐僧賣房,曝陳麗華遺囑,兒女分400億,33年豪門生活成笑話

72歲唐僧賣房,曝陳麗華遺囑,兒女分400億,33年豪門生活成笑話

新語愛八卦
2025-06-24 16:49:35
比特幣創始人中本聰資產達1340億美元,但至今分文未取?

比特幣創始人中本聰資產達1340億美元,但至今分文未???

隨波蕩漾的漂流瓶
2025-07-16 17:40:03
新一輪強降雨18日下:8省有暴雨,臺風韋帕調整,高溫21日減弱

新一輪強降雨18日下:8省有暴雨,臺風韋帕調整,高溫21日減弱

環球科學貓
2025-07-17 10:53:09
湖人告知詹姆斯不再續約 明確設定結束合作時間點 退役或換隊自便

湖人告知詹姆斯不再續約 明確設定結束合作時間點 退役或換隊自便

籃球話題團
2025-07-18 01:30:03
曝宗慶后3個小孩每月將能領3000萬,如今生活拮據,只能住在公寓

曝宗慶后3個小孩每月將能領3000萬,如今生活拮據,只能住在公寓

古希臘掌管松餅的神
2025-07-15 10:16:33
林彪叛逃后,總理請示是否攔截,毛主席:他還是副主席,隨他去吧

林彪叛逃后,總理請示是否攔截,毛主席:他還是副主席,隨他去吧

帝哥說史
2025-05-20 06:35:03
某音上的“三星堆”小玩具,真的是越來越邪門了…

某音上的“三星堆”小玩具,真的是越來越邪門了…

BB姬
2025-07-08 22:20:16
世衛組織呼吁:停止使用電熱水壺,否則會誘發癌癥?告訴你真相!

世衛組織呼吁:停止使用電熱水壺,否則會誘發癌癥?告訴你真相!

39健康網
2025-05-22 13:41:13
突然減少!昆明人懵了,上千輛踏板型共享電單車為何放在停車場?官方回應→

突然減少!昆明人懵了,上千輛踏板型共享電單車為何放在停車場?官方回應→

都市條形碼
2025-07-16 14:12:47
78年王近山病逝,有人提議在遺體上蓋黨旗,為何鄧小平搖頭拒絕?

78年王近山病逝,有人提議在遺體上蓋黨旗,為何鄧小平搖頭拒絕?

南書房
2025-07-12 16:10:07
世事難料!這個老人的退休金從二千多直接翻到了七千,為什么這樣

世事難料!這個老人的退休金從二千多直接翻到了七千,為什么這樣

李蘇章
2025-07-14 07:00:11
米利托給33歲老將設置1.22億歐違約金,創阿根廷足壇紀錄

米利托給33歲老將設置1.22億歐違約金,創阿根廷足壇紀錄

雷速體育
2025-07-17 11:24:40
驅車700公里去戰友女兒婚禮,隨禮2萬,返程收到短信:看看后備箱

驅車700公里去戰友女兒婚禮,隨禮2萬,返程收到短信:看看后備箱

白云故事
2025-06-27 15:25:03
俄軍指揮部或遭受最大程度損失!海馬斯炮擊庫爾斯克

俄軍指揮部或遭受最大程度損失!海馬斯炮擊庫爾斯克

項鵬飛
2025-07-17 20:16:54
韓國政局再起風潮,副總理、部長候選人深陷丑聞,李在明展現手腕

韓國政局再起風潮,副總理、部長候選人深陷丑聞,李在明展現手腕

真實星球
2025-07-17 23:41:18
2025-07-18 02:56:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10878文章數 176189關注度
往期回顧 全部

科技要聞

沒有老黃不夸的中國公司了吧??

頭條要聞

遺產大戰細節:宗慶后逝世半年3人起訴 矛盾早已發生

頭條要聞

遺產大戰細節:宗慶后逝世半年3人起訴 矛盾早已發生

體育要聞

楊力維和楊舒予,是姐妹,也是戰友

娛樂要聞

又相信愛情了,董璇二婚現場照曝光!

財經要聞

杭州成立專班介入宗慶后遺產糾紛

汽車要聞

有望年內上市 奧迪A6L e-tron申報信息曝光

態度原創

手機
時尚
藝術
教育
數碼

手機要聞

小米16外觀曝光,或9月發?

宗氏家族爭產案,一個細節讓人反感

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

第二波!揚大、南林、常大...多所高校專業組投檔分數線公布!

數碼要聞

倍思同芯充Pro充電頭登場:45W氮化鎵,預購價138元

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 洞头县| 万盛区| 通化县| 句容市| 霍山县| 赣州市| 保靖县| 丹寨县| 乐山市| 山东省| 达尔| 安达市| 巍山| 临沭县| 旬阳县| 灵寿县| 垦利县| 盐津县| 茌平县| 称多县| 华蓥市| 江西省| 哈巴河县| 台中县| 阿克| 宝兴县| 承德县| 萨迦县| 长泰县| 清徐县| 江阴市| 昆山市| 汪清县| 荣成市| 永清县| 陇川县| 饶阳县| 襄垣县| 九江市| 平罗县| 仁寿县|