網易首頁 > 網易號 > 正文申請入駐

不是參數問題，是記憶力：DeepMind是如何讓 AI 讀完1000萬字

2025-05-06 08:34:37　來源: AI深度研究員

上海舉報

分享至

全文 5,000字 | 閱讀約30分鐘

為什么你調大模型參數，結果卻越來越像“聰明的鸚鵡”？因為它記不住你說的話。

兩年前，OpenAI 把上下文窗口拉到?128K?token，就已被譽為“史詩級升級”。

但 Google?DeepMind 最新公開的 Gemini?1.5 實測顯示：

在 10?M?token（≈1000?萬漢字）的極限長度上，模型檢索準確率仍能保持?>?99%?；
這意味著一次性“吞下”整座代碼庫、上萬頁合同，甚至一部45分鐘電影，已成為日常操作。

最近，Google DeepMind高級科學家，項目負責人Nikolay?Savinov回憶：“本來目標是?128K，我提議提到?100?萬；沒想到最后直接 10× 超標。”

參數不是瓶頸，記憶才是新賽點。

當上下文上限從?128K 跨越到?10?M，模型一次讀取的信息量提升80×，推理鏈條不再被“失憶”打斷。

隨之而來的，將是代碼審計、長文決策、跨模態檢索等場景的徹底改寫——

工程師：整倉代碼一鍵審核、生成文檔；
投資與法務：幾萬頁材料即時發現潛在風險；
多模態應用：圖文視頻混合推理成為“標配”。

接下來，我們將解讀DeepMind如何“給AI裝下1000?萬字”，以及這場“記憶紅利”會怎樣重寫技術路線、產品設計與個人競爭力。

（2025年5月4日，對話Google DeepMind高級科學家Nikolay?Savinov）

?? 第一節｜不是不會算，是記不住

Token是語言模型的“顆粒感世界”

你以為 AI 在讀文字，其實它在讀切片。

對人類來說，“strawberry”是一個完整的單詞；對語言模型來說，它可能被拆成兩個甚至三個token。

模型不是從字符層看世界，而是從token的角度拼出語言的認知地圖。

“你可以這樣理解 token：它略小于一個詞。可能是一個詞，也可能只是詞的一部分，甚至是一個標點。” ——Nikolay Savinov

這不是細節問題，而是整個智能系統的第一層世界觀。

模型與人的最大差異，就藏在這些微小單位中。

采訪時候，主持人舉這樣一個例子：

“比如你讓模型數apple中有多少個p，它也可能答錯。”

為什么？因為它看到的“apple”不是連續的字符序列，而是幾個獨立的token。

從它的視角看，“p” 不是出現在某個位置，而是出現在不同token里的殘影。

Savinov點破了關鍵：

“因為 token 化的方式不同，模型看待世界的方式和人類根本不同。”

這也就解釋了我們日常使用 AI 時的很多“詭異現象”：

明明模型知道“apple 是蘋果”，但它卻回答不出“apple 中有多少個 p”；

它知道“東京是日本的首都”，卻可能答不出“東京”二字一共有幾畫。

錯誤拆解，帶來認知扭曲

這不是它笨，而是它沒在“你的世界”里思考。

它擁有的是一套切片化世界的規則。

Token，不只是語言單位，它是整個神經網絡理解世界的“視網膜”。

而接下來的關鍵問題就是：

這張“視網膜”到底能看到多遠？

它一次能看到多少 token，決定了它一次能“理解”多少世界。

?? 第二節｜上下文，是 AI 的記憶體

記憶力，不藏在參數里，而藏在“窗口”里

AI 有兩種記憶：

一種，藏在模型的權重里——訓練時學到的，叫“權重內記憶”（in-weight memory）；
另一種，藏在你給它的提示里——對話、上傳的文件、歷史交互，這叫“上下文內記憶”（in-context memory）。

“當你給模型輸入時，它其實在讀取兩個來源的知識：一個是權重內的記憶，另一個就是你輸入的上下文。” ——Nikolay Savinov

模型有億萬個參數，但那是它過去的記憶，無法隨時更新、也無法個性化。

如果你今天換了公司，模型不會知道；你剛開完會議，模型更不會了解會議內容；甚至你提了一個“昨天還沒發生”的新概念，它會直接開始幻覺。

因為這些信息，都不在它的權重里。

模型不會主動記住你，除非你把它“輸入”進去。

這就意味著——上下文窗口，就是AI唯一的即時知識入口。

個性化、時效性、隱私內容，全靠上下文接入

Savinov 明確指出，有三類關鍵信息，必須依靠上下文窗口喂給模型：

1、私人信息

網絡對你一無所知，也無法讀取你的想法。

→ 比如你投資偏好、會議記錄、項目計劃，模型永遠不會自動知道；

2、時效信息

有些事實在預訓練時是真的，但在推理時已經過時了。

→ 比如某政策剛剛變化、某公司剛剛并購，參數記不住，但上下文可以；

3、罕見信息

有些知識在互聯網中只出現過一兩次，模型很難記住。

→ 比如公司內部的術語、某位客戶的歷史偏好，無法靠預訓練獲得。

換句話說，你不主動提供，它就永遠不知道。

模型并不聰明，只是你把它需要知道的東西，喂得足夠準。

窗口越長，AI 認知世界的能力越強

如果說Token是AI看世界的“顆粒度”，那么上下文窗口就是它的“視野范圍”。

主持人提出：“我們總說模型強大，但它的視野能有多寬？它能看多遠？”

Savinov的回答是直接的：

“上下文窗口就是你輸入的token數。它可以是你輸入的提示、也可以是上傳的視頻、PDF文件。”

過去，模型只能“看”128k以內的token，現在，DeepMind正在讓它“看”100萬，甚至1000萬。

窗口越大，它能看到的信息越多，串聯的能力就越強。

AI不再像金魚，而開始像象棋大師：能把前50步走法都記在心里。

?? 第三節｜RAG 與長上下文，正在融合

它不是RAG vs 長上下文，而是RAG + 長上下文

在OpenAI發布GPT-4 Turbo之后，很多人開始疑問：是不是長上下文窗口來了，RAG（檢索增強生成）就可以淘汰了？

Savinov給出了明確回應：

“社交媒體上有很多關于RAG是否過時的討論。從我的角度來看，并不是這樣。”

RAG根本沒死，只是它在變。它正從一個主角，轉變為一個協同組件——

專門為長上下文提供“內容上料”服務。

想象你有一個知識庫，里面有幾億個token。

你不可能把所有內容都塞進上下文窗口，哪怕你有1000萬token 的視野也不夠用。

RAG就是那位圖書館管理員：
它先把你的內容按塊分段，變成向量；
然后你發出問題，它計算哪些段最相關；

最后只把相關片段放進上下文窗口，供模型使用。

所以，RAG并不是冗余，而是長上下文的“過濾器”和“調度器”。

上下文窗口越長，RAG就越“敢放料”

在過去，為了避免上下文過長引發性能下降，RAG 系統通常設置很“保守”的召回規則。

只挑最重要的1~2段，其它略相關的內容就舍棄了。

但有了長上下文窗口，規則徹底變了。

“你會說，嘿，我的上下文足夠長了。那我就更慷慨一些，提取更多段落。” ——Savinov

這就是協同的本質：RAG作為召回系統，為上下文窗口提供更多“料”；

長上下文作為模型輸入，使召回的信息真正被用起來，而不是丟掉。

它們像兩只手：一只挑選信息，一只記住信息。

什么決定你用哪種組合？延遲與成本

當然，不是所有系統都需要RAG + 長上下文。

Savinov指出，一個關鍵考量是延遲要求：

“如果你的應用必須實時交互，那你還是得用較短的上下文；但如果你能等一會兒，那就可以用長上下文，召回更多事實。”

這也是為什么我們看到——

ToB場景（企業知識庫、法律文檔系統）更適合RAG + 長上下文；
ToC聊天助手，更傾向于短上下文 + 高速響應。

智能的“結構配置”，從來不是一刀切的，而是動態博弈的。

?? 第四節｜1000 萬 token，突破系統邊界

DeepMind 把目標定在1000萬

早在Gemini 1.5發布之初，Nikolay Savinov和團隊就已決定：

不是跟隨競爭對手，而是抬高整個賽道的天花板。

他表示：

“當時主流模型的上下文窗口只有128k到200k。我們覺得，如果只是匹配這些規格，太沒意思了。”

于是，他們把目標直接定到了100萬，很快又推動到了200 萬。

但這不是終點。Savinov 說得很坦率：

“我們想，100萬只是一個雄心的開始。很快我們測試了1000萬上下文，效果幾乎完美。”

這個“幾乎完美”的描述，不是市場營銷，而是技術驗證：

他們實測發現，在1000萬上下文中，AI 能夠準確檢索“單針信息”（needle-in-haystack），召回準確率極高。

換句話說，AI真正做到了——一次性讀完1000萬字，還能答對問題。

為什么不開放？因為推理成本太高

這項突破并沒有立即產品化，原因也很現實：

“我們本可以上線這個模型，但運行這個推理非常昂貴。” ——Savinov

具體來說：

1000萬上下文需要極高顯存與計算資源；
每次推理都像“重新啟動一次服務器”，成本高得驚人；
當前階段，芯片數量不足，推理效率未優化，無法大規模提供給用戶。

這不是能力問題，而是成本與供應鏈問題。

所以，他們最終選擇將發布窗口定在100萬與200萬之間——既技術領先，又勉強可控。

不在信息量，而在“注意力爭奪”

如果說運行成本是現實限制，模型內部的“注意力競爭”才是真正的瓶頸。

他解釋得非常清晰：

“注意力是稀缺的。Token越多，競爭就越激烈。如果一個干擾項看起來和目標信息很像，它就可能搶走大部分注意力。”

這意味著：

模型不是“越多 token 越好”；
信息太多，反而可能“淹沒關鍵點”；
所以，不只是窗口要長，更要有分辨能力與注意力調度機制。

這也直接引出了當前長上下文研究的前沿挑戰：

不止是檢索“單個關鍵信息”，還要處理多個關鍵信息；
不止是過濾無關內容，還要識別高度相似但錯誤的干擾項。

過去，AI的“短視”限制了它的判斷；

今天，AI的“注意力管理”將決定它的智能上限。

?? 第五節｜AI 開始組織你的信息

上下文，是由AI自動“拎”出來

你以為上下文只是你復制粘貼的提示，

但DeepMind的判斷是：上下文未來將由AI自己打包、自己調度。

Nikolay Savinov回答：

“如果你每次都要手動上傳文件、貼鏈接、復制內容，這太乏味了。你不會愿意這樣做。”

繼續說：使用AI最糟糕的部分，就是你要自己喂它吃東西。

明明你電腦上、網頁上、系統里已經有內容， AI卻無法主動“理解上下文環境”，只能等你輸入。

但現在，代理系統正在打破這個局限。它不僅消費上下文，也主動生成上下文。

代理要記得上一步，才能判斷下一步

Savinov指出，代理的“連續性決策”高度依賴長上下文：

“代理需要跟蹤先前的狀態、觀察、行動，當然還有當前狀態。”

你可以理解為：

它不是一次性問答，而是一連串行為鏈。每個動作、選擇、失敗反饋都必須被“記住”。

這意味著：

代理對上下文的需求，不是“回答問題”那么簡單；
它是行為級記憶，類似于“腳本 + 狀態 +日志”三合一的認知過程。

上下文變成了AI的操作日志、短期記憶和行為計劃本。

代理也要會自動決定何時、為何取信息

更關鍵的是——代理不只是被動地吃上下文，它還會主動取上下文。

Savinov的描述非常前沿：

“模型可以在某一時刻決定：我要獲取更多信息。它會自己發起工具調用，把內容打包進上下文。”

這就是下一代AI代理的本質：

它不是回答你一個問題，而是為達成任務，自動規劃信息結構與行動路徑。

比如，它要寫一封郵件，就會：

自動調用CRM數據庫 → 獲取客戶背景
檢索近期溝通記錄 → 確保語境連續
從你電腦提案中抽取關鍵詞 → 保持風格一致
全部打包進上下文 → 然后才生成文本

這個過程，你甚至不用知道。它會在后臺自動完成。

AI 不再是響應，而是調度；不再是問答，而是主動獲取。

上下文不再是輸入，而是系統結構的一部分。

代理，不再是工具，而是擁有記憶、調度與目標的執行單元。

而這一切，都建立在一個前提上——長上下文可用，且足夠強大。

?? 第六節｜當記憶成為平臺，系統會重寫

參數戰爭結束，記憶結構才是系統的真正邊界

過去兩年，AI圈最火的問題是：你的模型有多大？參數是多少？

但現在，真正的前沿正在悄悄轉移。

Savinov一句話說得很準：

“參數不是限制，真正的限制是模型能記住什么、如何記住、記多久。”

AI模型不再只是大腦，而是一套“記憶+理解+行為”的整體系統。

參數決定你能理解多深，
上下文決定你能記得多遠，
調度機制決定你能執行多復雜的任務。

而今天的DeepMind，已經把這個系統，推進到了百萬級記憶空間。

“1000萬 token”只是中間站，“1億”才是未來拐點

Savinov 在訪談中明確指出，1000萬不是終點，而是第二階段的起點：

“我們首先要把當前100萬~200萬的上下文質量提升到近乎完美；然后壓縮成本，讓1000萬上下文成為商品化服務；最后，是邁向1億 token。”

他坦率承認，這一步難度極高：

“我認為它會發生，但我不知道什么時候會到來。我們可能需要更多深度學習方面的創新。”

這并不是空頭承諾，而是一份極其清晰的系統升級路線圖。

1 億 token 是什么概念？

那將意味著：

一個 AI 模型可以完整讀下一個大型開源代碼庫，不再拆分；
可以全盤記住你近一年的所有業務溝通、郵件、文檔，隨時檢索；
可以同時持有多個智能體的任務鏈條、狀態變化、外部反饋，實現真正的“多任務調度”；

換句話說，你不是在用一個工具，而是在接入一個“超級組織者”。

軟件的邊界，也將被“記憶系統”重寫

這一變革的核心，不只是模型能干什么，而是整個軟件形態的變化：

Savinov表示：

“未來系統的推理質量、響應速度、個性化能力，都會依賴它的長上下文設計。”

那些能記住你的人，是新一代“AI助理”；
那些能追蹤流程的，是新一代“AI運營系統”；
那些能組織結構化輸入的，是新一代“AI IDE”。

這不再是工具對人的增強，而是系統本身在主動運行、管理、決策。

不是你在輸入prompt，而是 AI 在定義工作節奏。

不是參數太少，而是記憶力還不夠強。

但當記憶突破 1億token，AI將不再理解你，而是取代你理解世界。

?? 你低估的，不是模型，而是系統轉型的速度

我們總以為，AI的進步靠的是參數堆疊、算力暴力。

但DeepMind的這場訪談提醒我們——

真正決定智能邊界的，是它有沒有“記住你”的能力。

我們對1000萬token 上下文做了測試，結果幾乎完美。

這不是性能指標的升級，而是整個系統的轉變：

它不再只回答你，而是開始：

讀完你全部資料；
理解過去每一次對話；
主動補充缺失的信息；
甚至，規劃你沒想到的下一步。

這一次，AI 不再只是工具。它開始擁有“記憶力”，開始構建“世界觀”。

當它讀得足夠多、記得足夠久、調用得足夠準，

你會發現：

它不是在幫你理解，而是替你做任務。

你覺得，當 AI 擁有記憶后，最先被改變的，會是哪類工作？

評論區等你答案。

本文由AI深度研究院出品，內容獨家整理自DeepMind科學家Nikolay Savino對話

星標公眾號，點這里 1. 點擊右上角 2. 點擊"設為星標" ← AI深度研究員 ? ← 設為星標

原文鏈接：https://www.youtube.com/watch?v=NHMJ9mqKeMQ&ab_channel=GoogleforDevelopers

來源：官方媒體/網絡新聞

排版：Atlas

編輯：深思

主編：圖靈

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

6個絕版的老物件，90后見都沒見過，能認出4樣的得喊您一聲行家！

舊時候老物件

2025-05-12 16:45:10

唐山多家大型醫院被曝光！

唐山微生活

2025-05-29 21:26:17

iPhone 16 Pro 再次刷新底價，這次真的太離譜了

花果科技

2025-05-28 21:39:56

出逃王妃夏琳走出迷境，大獎賽穿紅衣光彩奪目，妾室同臺面不改色

聰明的橙子hj

2025-05-28 17:22:17

有趣，勇士隊吉米·巴特勒在關鍵時刻贏得斯蒂芬·庫里的高度贊揚

好火子

2025-05-29 16:31:07

“生二胎后，我越來越厭惡大女兒，真不是重男輕女”一位媽媽自述

青眼財經

2025-05-29 19:01:04

美女美圖4670期

鄉野小珥

2025-05-28 16:05:48

第一夫人的反差美學：年齡與發型的碰撞

述家娛記

2025-05-23 11:28:11

退役才2年！34歲皇馬巨星已胖成球，帶球狼狽摔倒，最高身價1.5億

迪迪的娛樂故事

2025-05-28 05:58:42

目前看到過的最深度段子

霹靂炮

2025-05-27 23:22:15

不宣而戰，德國出兵，日本對著俄羅斯門口實彈射擊

不吃草de兔子

2025-05-28 19:05:40

李嘉誠：“黃臺之瓜，何堪再摘”

難得君

2025-03-18 10:33:44

中央紀委副書記、國家監委副主任傅奎：堅定扛起落實中央八項規定精神政治責任

金臺資訊

2025-05-29 10:31:42

大學黨委書記，任央企副總經理!

中國教育在線

2025-05-29 17:08:57

貝拉達：曼聯夏窗轉會計劃雄心勃勃，復興在即！

7號觀察室

2025-05-30 00:46:08

跨界4：短暫的平靜后，云成來了

金昔說故事

2025-05-29 16:33:10

楊揚，成功連任

新京報

2025-05-29 21:08:14

A股：明天，5月30日，股市考驗開始了？

明心

2025-05-29 15:21:52

中國男籃又一17歲2米13新星崛起：獲4所NCAA名校邀約，新阿聯上線

李喜林籃球絕殺

2025-05-29 10:27:23

砸手里了！休賽期難甩手的5個垃圾合同：比爾剩2年1億，或被買斷

你的籃球頻道

2025-05-29 13:59:08

AI深度研究員

一個專注于人工智能（AI）前沿技術、理論研究和實際應用的自媒體

182文章數 132關注度

往期回顧全部

科技要聞

英偉達財報炸裂黃仁勛卻嘆退出中國太可惜

頭條要聞

巴西檢方宣布正在起訴比亞迪外交部回應

頭條要聞

巴西檢方宣布正在起訴比亞迪外交部回應

體育要聞

納達爾，法網，漫長告別

娛樂要聞

辛柏青沉默8天后，這些事還是發生了

財經要聞

若對等關稅叫停，特朗普還能怎么加關稅

汽車要聞

首搭鴻蒙座艙5 嵐圖FREE+將于6月預售

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手機

親子

本地

時尚

公開課

手機要聞

華為 Mate XT 三折疊手機獲鴻蒙 HarmonyOS 5.0.1.125 升級

親子要聞

那個被截肢的1歲寶寶，本可以避免這場悲劇

本地新聞

云游中國 |來仰天湖大草原，一起策馬奔騰

這些才是適合夏天的打扮！色彩不沉悶、適當露膚，輕盈又舒適

公開課

手機 / 數碼

房產 / 家居

不是參數問題，是記憶力：DeepMind是如何讓 AI 讀完1000萬字

英偉達財報炸裂 黃仁勛卻嘆退出中國太可惜

巴西檢方宣布正在起訴比亞迪 外交部回應

巴西檢方宣布正在起訴比亞迪 外交部回應

納達爾，法網，漫長告別

辛柏青沉默8天后，這些事還是發生了

若對等關稅叫停，特朗普還能怎么加關稅

首搭鴻蒙座艙5 嵐圖FREE+將于6月預售

態度原創

華為 Mate XT 三折疊手機獲鴻蒙 HarmonyOS 5.0.1.125 升級

那個被截肢的1歲寶寶，本可以避免這場悲劇

云游中國 |來仰天湖大草原，一起策馬奔騰

這些才是適合夏天的打扮！色彩不沉悶、適當露膚，輕盈又舒適

英偉達財報炸裂黃仁勛卻嘆退出中國太可惜

巴西檢方宣布正在起訴比亞迪外交部回應

巴西檢方宣布正在起訴比亞迪外交部回應