全文 5,000字 | 閱讀約30分鐘
為什么你調大模型參數,結果卻越來越像“聰明的鸚鵡”? 因為它記不住你說的話。
兩年前,OpenAI 把上下文窗口拉到?128K?token,就已被譽為“史詩級升級”。
但 Google?DeepMind 最新公開的 Gemini?1.5 實測顯示:
在 10?M?token(≈1000?萬漢字)的極限長度上,模型檢索準確率仍能保持?>?99%?;
這意味著一次性“吞下”整座代碼庫、上萬頁合同,甚至一部45分鐘電影,已成為日常操作。
最近,Google DeepMind高級科學家,項目負責人Nikolay?Savinov回憶:“本來目標是?128K,我提議提到?100?萬;沒想到最后直接 10× 超標。”
參數不是瓶頸,記憶才是新賽點。
當上下文上限從?128K 跨越到?10?M,模型一次讀取的信息量提升80×,推理鏈條不再被“失憶”打斷。
隨之而來的,將是代碼審計、長文決策、跨模態檢索等場景的徹底改寫——
工程師:整倉代碼一鍵審核、生成文檔;
投資與法務:幾萬頁材料即時發現潛在風險;
多模態應用:圖文視頻混合推理成為“標配”。
接下來,我們將解讀DeepMind如何“給AI裝下1000?萬字”,以及這場“記憶紅利”會怎樣重寫技術路線、產品設計與個人競爭力。
(2025年5月4日,對話Google DeepMind高級科學家Nikolay?Savinov)
?? 第一節|不是不會算,是記不住
Token是語言模型的“顆粒感世界”
你以為 AI 在讀文字,其實它在讀切片。
對人類來說,“strawberry”是一個完整的單詞; 對語言模型來說,它可能被拆成兩個甚至三個token。
模型不是從字符層看世界,而是從token的角度拼出語言的認知地圖。
“你可以這樣理解 token:它略小于一個詞。可能是一個詞,也可能只是詞的一部分,甚至是一個標點。” ——Nikolay Savinov
這不是細節問題,而是整個智能系統的第一層世界觀。
模型與人的最大差異,就藏在這些微小單位中。
采訪時候,主持人舉這樣一個例子:
“比如你讓模型數apple中有多少個p,它也可能答錯。”
為什么?因為它看到的“apple”不是連續的字符序列,而是幾個獨立的token。
從它的視角看,“p” 不是出現在某個位置,而是出現在不同token里的殘影。
Savinov點破了關鍵:
“因為 token 化的方式不同,模型看待世界的方式和人類根本不同。”
這也就解釋了我們日常使用 AI 時的很多“詭異現象”:
明明模型知道“apple 是蘋果”,但它卻回答不出“apple 中有多少個 p”;
它知道“東京是日本的首都”,卻可能答不出“東京”二字一共有幾畫。
錯誤拆解,帶來認知扭曲
這不是它笨,而是它沒在“你的世界”里思考。
它擁有的是一套切片化世界的規則。
Token,不只是語言單位,它是整個神經網絡理解世界的“視網膜”。
而接下來的關鍵問題就是:
這張“視網膜”到底能看到多遠?
它一次能看到多少 token,決定了它一次能“理解”多少世界。
?? 第二節| 上下文,是 AI 的記憶體
記憶力,不藏在參數里,而藏在“窗口”里
AI 有兩種記憶:
一種,藏在模型的權重里——訓練時學到的,叫“權重內記憶”(in-weight memory);
另一種,藏在你給它的提示里——對話、上傳的文件、歷史交互,這叫“上下文內記憶”(in-context memory)。
“當你給模型輸入時,它其實在讀取兩個來源的知識:一個是權重內的記憶,另一個就是你輸入的上下文。” ——Nikolay Savinov
模型有億萬個參數,但那是它過去的記憶,無法隨時更新、也無法個性化。
如果你今天換了公司,模型不會知道; 你剛開完會議,模型更不會了解會議內容; 甚至你提了一個“昨天還沒發生”的新概念,它會直接開始幻覺。
因為這些信息,都不在它的權重里。
模型不會主動記住你,除非你把它“輸入”進去。
這就意味著——上下文窗口,就是AI唯一的即時知識入口。
個性化、時效性、隱私內容,全靠上下文接入
Savinov 明確指出,有三類關鍵信息,必須依靠上下文窗口喂給模型:
1、私人信息
網絡對你一無所知,也無法讀取你的想法。
→ 比如你投資偏好、會議記錄、項目計劃,模型永遠不會自動知道;
2、時效信息
有些事實在預訓練時是真的,但在推理時已經過時了。
→ 比如某政策剛剛變化、某公司剛剛并購,參數記不住,但上下文可以;
3、罕見信息
有些知識在互聯網中只出現過一兩次,模型很難記住。
→ 比如公司內部的術語、某位客戶的歷史偏好,無法靠預訓練獲得。
換句話說,你不主動提供,它就永遠不知道。
模型并不聰明,只是你把它需要知道的東西,喂得足夠準。
窗口越長,AI 認知世界的能力越強
如果說Token是AI看世界的“顆粒度”,那么上下文窗口就是它的“視野范圍”。
主持人提出:“我們總說模型強大,但它的視野能有多寬?它能看多遠?”
Savinov的回答是直接的:
“上下文窗口就是你輸入的token數。它可以是你輸入的提示、也可以是上傳的視頻、PDF文件。”
過去,模型只能“看”128k以內的token, 現在,DeepMind正在讓它“看”100萬,甚至1000萬。
窗口越大,它能看到的信息越多,串聯的能力就越強。
AI不再像金魚,而開始像象棋大師:能把前50步走法都記在心里。
?? 第三節|RAG 與長上下文,正在融合
它不是RAG vs 長上下文,而是RAG + 長上下文
在OpenAI發布GPT-4 Turbo之后,很多人開始疑問:是不是長上下文窗口來了,RAG(檢索增強生成)就可以淘汰了?
Savinov給出了明確回應:
“社交媒體上有很多關于RAG是否過時的討論。 從我的角度來看,并不是這樣。”
RAG根本沒死,只是它在變。它正從一個主角,轉變為一個協同組件——
專門為長上下文提供“內容上料”服務。
想象你有一個知識庫,里面有幾億個token。
你不可能把所有內容都塞進上下文窗口,哪怕你有1000萬token 的視野也不夠用。
RAG就是那位圖書館管理員:
它先把你的內容按塊分段,變成向量;
然后你發出問題,它計算哪些段最相關;
最后只把相關片段放進上下文窗口,供模型使用。
所以,RAG并不是冗余,而是長上下文的“過濾器”和“調度器”。
上下文窗口越長,RAG就越“敢放料”
在過去,為了避免上下文過長引發性能下降,RAG 系統通常設置很“保守”的召回規則。
只挑最重要的1~2段,其它略相關的內容就舍棄了。
但有了長上下文窗口,規則徹底變了。
“你會說,嘿,我的上下文足夠長了。那我就更慷慨一些,提取更多段落。” ——Savinov
這就是協同的本質:RAG作為召回系統,為上下文窗口提供更多“料”;
長上下文作為模型輸入,使召回的信息真正被用起來,而不是丟掉。
它們像兩只手:一只挑選信息,一只記住信息。
什么決定你用哪種組合?延遲與成本
當然,不是所有系統都需要RAG + 長上下文。
Savinov指出,一個關鍵考量是延遲要求:
“如果你的應用必須實時交互,那你還是得用較短的上下文; 但如果你能等一會兒,那就可以用長上下文,召回更多事實。”
這也是為什么我們看到——
ToB場景(企業知識庫、法律文檔系統)更適合RAG + 長上下文;
ToC聊天助手,更傾向于短上下文 + 高速響應。
智能的“結構配置”,從來不是一刀切的,而是動態博弈的。
?? 第四節|1000 萬 token,突破系統邊界
DeepMind 把目標定在1000萬
早在Gemini 1.5發布之初,Nikolay Savinov和團隊就已決定:
不是跟隨競爭對手,而是抬高整個賽道的天花板。
他表示:
“當時主流模型的上下文窗口只有128k到200k。 我們覺得,如果只是匹配這些規格,太沒意思了。”
于是,他們把目標直接定到了100萬,很快又推動到了200 萬。
但這不是終點。Savinov 說得很坦率:
“我們想,100萬只是一個雄心的開始。很快我們測試了1000萬上下文,效果幾乎完美。”
這個“幾乎完美”的描述,不是市場營銷,而是技術驗證:
他們實測發現,在1000萬上下文中,AI 能夠準確檢索“單針信息”(needle-in-haystack),召回準確率極高。
換句話說,AI真正做到了——一次性讀完1000萬字,還能答對問題。
為什么不開放?因為推理成本太高
這項突破并沒有立即產品化,原因也很現實:
“我們本可以上線這個模型,但運行這個推理非常昂貴。” ——Savinov
具體來說:
1000萬上下文需要極高顯存與計算資源;
每次推理都像“重新啟動一次服務器”,成本高得驚人;
當前階段,芯片數量不足,推理效率未優化,無法大規模提供給用戶。
這不是能力問題,而是成本與供應鏈問題。
所以,他們最終選擇將發布窗口定在100萬與200萬之間——既技術領先,又勉強可控。
不在信息量,而在“注意力爭奪”
如果說運行成本是現實限制,模型內部的“注意力競爭”才是真正的瓶頸。
他解釋得非常清晰:
“注意力是稀缺的。Token越多,競爭就越激烈。 如果一個干擾項看起來和目標信息很像,它就可能搶走大部分注意力。”
這意味著:
模型不是“越多 token 越好”;
信息太多,反而可能“淹沒關鍵點”;
所以,不只是窗口要長,更要有分辨能力與注意力調度機制。
這也直接引出了當前長上下文研究的前沿挑戰:
不止是檢索“單個關鍵信息”,還要處理多個關鍵信息;
不止是過濾無關內容,還要識別高度相似但錯誤的干擾項。
過去,AI的“短視”限制了它的判斷;
今天,AI的“注意力管理”將決定它的智能上限。
?? 第五節|AI 開始組織你的信息
上下文,是由AI自動“拎”出來
你以為上下文只是你復制粘貼的提示,
但DeepMind的判斷是:上下文未來將由AI自己打包、自己調度。
Nikolay Savinov回答:
“如果你每次都要手動上傳文件、貼鏈接、復制內容,這太乏味了。你不會愿意這樣做。”
繼續說:使用AI最糟糕的部分,就是你要自己喂它吃東西。
明明你電腦上、網頁上、系統里已經有內容, AI卻無法主動“理解上下文環境”,只能等你輸入。
但現在,代理系統正在打破這個局限。 它不僅消費上下文,也主動生成上下文。
代理要記得上一步,才能判斷下一步
Savinov指出,代理的“連續性決策”高度依賴長上下文:
“代理需要跟蹤先前的狀態、觀察、行動,當然還有當前狀態。”
你可以理解為:
它不是一次性問答,而是一連串行為鏈。 每個動作、選擇、失敗反饋都必須被“記住”。
這意味著:
代理對上下文的需求,不是“回答問題”那么簡單;
它是行為級記憶,類似于“腳本 + 狀態 +日志”三合一的認知過程。
上下文變成了AI的操作日志、短期記憶和行為計劃本。
代理也要會自動決定何時、為何取信息
更關鍵的是——代理不只是被動地吃上下文,它還會主動取上下文。
Savinov的描述非常前沿:
“模型可以在某一時刻決定:我要獲取更多信息。 它會自己發起工具調用,把內容打包進上下文。”
這就是下一代AI代理的本質:
它不是回答你一個問題,而是為達成任務,自動規劃信息結構與行動路徑。
比如,它要寫一封郵件,就會:
自動調用CRM數據庫 → 獲取客戶背景
檢索近期溝通記錄 → 確保語境連續
從你電腦提案中抽取關鍵詞 → 保持風格一致
全部打包進上下文 → 然后才生成文本
這個過程,你甚至不用知道。它會在后臺自動完成。
AI 不再是響應,而是調度;不再是問答,而是主動獲取。
上下文不再是輸入,而是系統結構的一部分。
代理,不再是工具,而是擁有記憶、調度與目標的執行單元。
而這一切,都建立在一個前提上——長上下文可用,且足夠強大。
?? 第六節|當記憶成為平臺,系統會重寫
參數戰爭結束,記憶結構才是系統的真正邊界
過去兩年,AI圈最火的問題是:你的模型有多大?參數是多少?
但現在,真正的前沿正在悄悄轉移。
Savinov一句話說得很準:
“參數不是限制,真正的限制是模型能記住什么、如何記住、記多久。”
AI模型不再只是大腦,而是一套“記憶+理解+行為”的整體系統。
參數決定你能理解多深,
上下文決定你能記得多遠,
調度機制決定你能執行多復雜的任務。
而今天的DeepMind,已經把這個系統,推進到了百萬級記憶空間。
“1000萬 token”只是中間站,“1億”才是未來拐點
Savinov 在訪談中明確指出,1000萬不是終點,而是第二階段的起點:
“我們首先要把當前100萬~200萬 的上下文質量提升到近乎完美; 然后壓縮成本,讓1000萬上下文成為商品化服務; 最后,是邁向1億 token。”
他坦率承認,這一步難度極高:
“我認為它會發生,但我不知道什么時候會到來。 我們可能需要更多深度學習方面的創新。”
這并不是空頭承諾,而是一份極其清晰的系統升級路線圖。
1 億 token 是什么概念?
那將意味著:
一個 AI 模型可以完整讀下一個大型開源代碼庫,不再拆分;
可以全盤記住你近一年的所有業務溝通、郵件、文檔,隨時檢索;
可以同時持有多個智能體的任務鏈條、狀態變化、外部反饋,實現真正的“多任務調度”;
換句話說,你不是在用一個工具,而是在接入一個“超級組織者”。
軟件的邊界,也將被“記憶系統”重寫
這一變革的核心,不只是模型能干什么,而是整個軟件形態的變化:
Savinov表示:
“未來系統的推理質量、響應速度、個性化能力,都會依賴它的長上下文設計。”
那些能記住你的人,是新一代“AI助理”;
那些能追蹤流程的,是新一代“AI運營系統”;
那些能組織結構化輸入的,是新一代“AI IDE”。
這不再是工具對人的增強,而是系統本身在主動運行、管理、決策。
不是你在輸入prompt,而是 AI 在定義工作節奏。
不是參數太少,而是記憶力還不夠強。
但當記憶突破 1億token,AI將不再理解你,而是取代你理解世界。
?? 你低估的,不是模型,而是系統轉型的速度
我們總以為,AI的進步靠的是參數堆疊、算力暴力。
但DeepMind的這場訪談提醒我們——
真正決定智能邊界的,是它有沒有“記住你”的能力。
我們對1000萬token 上下文做了測試,結果幾乎完美。
這不是性能指標的升級,而是整個系統的轉變:
它不再只回答你,而是開始:
讀完你全部資料;
理解過去每一次對話;
主動補充缺失的信息;
甚至,規劃你沒想到的下一步。
這一次,AI 不再只是工具。 它開始擁有“記憶力”,開始構建“世界觀”。
當它讀得足夠多、記得足夠久、調用得足夠準,
你會發現:
它不是在幫你理解,而是替你做任務。
你覺得,當 AI 擁有記憶后,最先被改變的,會是哪類工作?
評論區等你答案。
本文由AI深度研究院出品,內容獨家整理自DeepMind科學家Nikolay Savino對話
星標公眾號, 點這里 1. 點擊右上角 2. 點擊"設為星標" ← AI深度研究員 ? ← 設為星標
原文鏈接:https://www.youtube.com/watch?v=NHMJ9mqKeMQ&ab_channel=GoogleforDevelopers
來源:官方媒體/網絡新聞
排版:Atlas
編輯:深思
主編:圖靈
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.