長上下文,AI領域的一個專業名詞。簡單說,就是讓AI能“記住”并理解更多信息。
今天上下文長度達到百萬Token,它對AI意味著什么?對我們的工作生活又有哪些影響?
Tina周五在前哨AI小課群分享了一期重磅播客,谷歌DeepMind的員工級研究科學家、長上下文預訓練聯合負責人回答了這一系列問題。
今天我們為你整理了這場對話的精彩內容,助你輕松掌握這項AI新進展。
如果你還想了解更多AI工具進展,學會用好AI工具,歡迎現在加入前哨AI小課,今晚直播就教你解決一個大痛點:
開發屬于你的AI助手,自動搞定數據分析、可視化…
你對AI的“超長記憶力”有什么期待?或者有哪些“腦洞大開”的應用場景?歡迎在評論區留言分享!
別忘了點贊、轉發,把這篇文章分享給更多朋友,一起見證“超人AI助手”的誕生!
10秒掌握核心觀點 :
AI的“記憶力”正在指數級增長,能同時處理的信息遠超人類。
“長上下文”不僅是技術突破,更將催生編程、科研、創作等領域的新范式。
未來AI不僅是工具,更是能理解復雜指令、深度協作的“超人助手”。
接下來讓我們看看AI大佬如何解釋長上下文。
什么是Token與上下文窗口?
主持人:讓我們從最基礎的層面開始。什么是Token?大家應該如何理解它?
Nikolay Savinov:你可以把Token理解為比一個詞略短一些的單位,尤其是在文本中。
Token可以是一個詞,也可以是詞的一部分。它還可能包括標點符號,比如逗號、句號等等。
對于圖像和音頻,情況略有不同。但對于文本,簡單理解就是一個詞的片段。
主持人:我們為什么需要Token?人類通常熟悉的是字符。為什么人工智能和大型語言模型 (LLM)會有Token這個特殊概念?它實際上實現了什么?
Nikolay Savinov:這是個好問題,實際上很多研究人員也問過自己。
確實有不少論文嘗試去掉Token,直接依賴字符級別的生成。但這樣做有利有弊。
最主要的缺點是生成速度會變慢,因為模型大致是逐個Token生成,如果一次生成一個詞,會比逐個字符生成快得多。
所以,這些嘗試可以說并沒有真正成功,我們仍在使用Token。
主持人:對于那些沒有花太多時間思考Token的人來說,Andrej Karpathy有很多精彩的視頻和推文,解釋了分詞器 (Tokenizer) 是大型語言模型中所有怪異現象和復雜性的根源。
你遇到的很多奇怪的邊緣案例,大部分都源于模型不是從字符層面,而是從Token層面看待事物。
Nikolay Savinov:是的,我認為這是對問題的一個很好的描述。
你需要意識到,Token是模型看待世界的方式,它讓AI的視角與人類截然不同。
當你看到“strawberry”這個詞,你看到的是一串字母,但模型看到的可能只是一個Token。
主持人:我認為這自然而然地引向了關于上下文窗口 (Context Window)的討論。你能解釋一下大家應該如何理解上下文窗口嗎?
作為大型語言模型用戶或AI模型開發者,我為什么需要關心上下文窗口?
Nikolay Savinov:上下文窗口基本上就是我們輸入給大型語言模型的那些上下文Token。
它可以是當前的提示 (Prompt),也可以是之前與用戶的交互。還可能是用戶上傳的文件,比如視頻或PDF。
當你向模型提供上下文時,模型實際上從兩個來源獲取知識。
一個來源我稱之為權重內記憶或預訓練記憶。這是大型語言模型通過在互聯網數據切片上訓練學到的知識。它不需要額外的上下文信息就能記住其中一些事實。
另一種記憶是你明確提供給模型的上下文內記憶。理解這兩者的區別非常重要,因為上下文內記憶比權重內記憶更容易修改和更新。
對于某些知識,權重內記憶可能就足夠了。但有些事實在預訓練時是正確的,但在推理時可能就過時了,你需要通過某種方式更新這些事實。上下文就提供了這種更新機制。
此外,還有不同類型的知識,比如個人隱私信息。網絡本身不了解你的個人情況,也無法讀取你的思想。如果你想讓它對你真正有幫助,你應該能夠將你的隱私信息輸入到上下文中,這樣它才能進行個性化處理。
最后,還有一類需要在上下文中插入的知識是稀有事實,也就是在互聯網上很少出現的信息。
我們面臨的權衡是,對于短上下文模型,你提供額外上下文的能力有限。基本上,知識來源之間會存在競爭。
如果上下文非常大,你就可以不必那么挑剔地選擇插入內容,并且可以獲得更高相關知識的召回率和覆蓋率。更高的上下文覆蓋率意味著你能緩解權重內記憶的那些問題。
機會1:信息處理進化—AI讀書,過目不忘
主持人:一百萬Token僅僅是一個營銷數字嗎?或者在一百萬或兩百萬Token之后,從長上下文的角度來看,技術上是否真的發生了某些變化?
Nikolay Savinov:當我開始研究長上下文時,當時的競爭對手最多也就支持12.8萬或20萬Token。我當時在思考如何為長上下文項目設定目標。
當時這只是Gemini項目的一小部分。我最初認為,僅僅追趕競爭對手聽起來并不那么令人興奮。
所以我認為,一百萬是一個足夠有野心的進步。與20萬相比,這大約是5倍的提升。
在我們發布一百萬Token后不久,我們實際上也推出了兩百萬Token的版本,大約是之前的10倍。我想,比之前的技術水平高出一個數量級,這是一個好目標。
主持人:在擴展到一兩百萬Token之后,繼續向上擴展的限制是什么?
是因為從服務角度來看成本太高或太昂貴嗎?還是說,支撐一兩百萬Token的架構在超過這個規模后就完全失效了?
Nikolay Savinov:當我們發布1.5 Pro模型時,實際上在1000萬Token下進行了一些推理測試,并且也得到了一些質量數據。
例如,對于單針檢索,在整個1000萬Token的上下文中幾乎是完美的。我們本可以發布這個模型。
但是運行這樣的推理非常昂貴。所以我想我們不確定人們是否愿意為此支付高昂的費用,所以我們從一個價格更合理的版本開始。
我的感覺是,我們實際上需要更多的創新。這不僅僅是暴力擴展的問題。要真正實現近乎完美的1000萬上下文,我們需要學習更多的創新方法。
機會2:RAG技術升級—“智能檢索”更強大
主持人:后續問題之一是關于如何通過檢索增強生成 (RAG)系統引入上下文。你能簡要描述一下RAG嗎?
Nikolay Savinov:當然。RAG是一種簡單的工程技術。它是在你將信息打包到大型語言模型上下文之前的額外步驟。
想象你有一個知識庫,你將其分割成小的文本塊,然后使用特殊的嵌入模型將每個文本塊轉換為實值向量。
基于這些實值向量,當測試時收到查詢,你也可以嵌入該查詢。然后你可以將查詢的實值向量與知識庫中的文本塊進行比較。
對于與查詢接近的文本塊,你會認為找到了相關內容。所以你會將這些文本塊打包到上下文中,然后在此基礎上運行大型語言模型。這就是RAG的工作原理。
主持人:為什么RAG這種將正確上下文引入模型的概念,沒有直接內置到模型本身呢?
Nikolay Savinov:我想說的是,在我們發布1.5 Pro模型后,社交媒體上有很多關于RAG是否會過時的爭論。
從我的角度來看,并非如此。例如企業知識庫包含數十億的Token,而不是數百萬。對于這種用例和規模,你仍然需要RAG。
我認為實際情況是,RAG不會立即被淘汰,而是長上下文和RAG會協同工作。
長上下文對RAG的好處在于,你將能夠通過RAG從上下文中檢索更多相關的“針”(有用信息)。這樣做可以提高有用信息的召回率。
所以我認為兩者之間有很好的協同作用。
真正的限制在于應用的延遲要求。如果你需要實時交互,那么就必須使用較短的上下文。但如果你能多等一會兒,那么使用長上下文會更好,因為這樣可以提高召回率。
機會3:推理與創作能力突破
主持人:你對推理能力和長上下文之間的相互作用感到驚訝嗎?推理能力是否真的讓長上下文更有用?
Nikolay Savinov:我認為兩者之間存在更深層次的聯系。
這種聯系在于,如果下一個Token的預測任務隨著上下文長度的增加而改進,那么你可以從兩個方面來解釋。
一種方式是說,我將在輸入中加載更多上下文,那么我對簡短答案的預測也會改進。
但另一種方式是說,輸出Token與輸入Token非常相似。所以,如果你允許模型將輸出反饋到其自身的輸入中,那么它在某種程度上就變得像輸入了。
理論上,如果你擁有非常強大的長上下文能力,它也應該有助于推理。
另一個論點是,長上下文對推理非常重要,因為如果你僅僅通過生成一個Token來做決策,即使答案是二元的,并且完全可以只生成一個Token,但優先生成一個思考軌跡可能更可取。
原因很簡單,是架構層面的。如果你在做預測時需要在上下文中進行多次邏輯跳轉,那么你會受到網絡深度的限制,因為這大致相當于注意力層的數量。這會限制你在上下文中的跳轉次數。
但現在,如果你想象自己正在將輸出反饋到輸入中,那么你就不再受到限制了。
主持人:長上下文輸入和長上下文輸出能力之間的關聯有多大?這兩者之間是否存在相互作用?
Nikolay Savinov:我不認為它們有根本的不同。
重要的一點是,直接從預訓練出來的模型,在生成大量Token方面并沒有真正的限制。
你可以輸入,比如說,50萬Token,然后告訴它復制這50萬Token,它實際上會做到。我們確實嘗試過,它是有效的。
但是這種能力在后訓練階段需要非常謹慎的處理。
我認為推理只是長輸出任務的一種。例如,翻譯是另一種。而推理有一種非常特殊的格式。
它將推理軌跡打包到一些分隔符中,模型實際上知道我們要求它在那里進行推理。
但對于翻譯來說,整個輸出,而不僅僅是推理軌跡,都會很長。這是我們希望模型鼓勵產生的另一種能力。
所以這只是一個正確對齊模型的問題。我們實際上正在研究長輸出。
機會4:編程范式革新
主持人:你對未來三年長上下文的發展有何展望?三年后我們還會談論長上下文嗎?
Nikolay Savinov: (主要基于其對未來的預測) 我認為首先會發生的是,當前100萬或200萬上下文的質量將大幅提高,我們將很快在幾乎所有類似檢索的任務上達到極限。
當我們實現近乎完美的一百萬上下文時,它將解鎖我們從未想象過的、令人難以置信的應用。這東西已經可以同時接收比人類更多的信息。
之后,長上下文的成本將會降低。
我認為很快,我們將看到1000萬上下文窗口成為商品,或者說提供商提供1000萬上下文窗口將成為常態。
當這種情況發生時,對于某些應用(如編碼)來說,將是顛覆性的。
因為我認為對于100萬或200萬上下文,你只能在上下文中容納中小型代碼庫。但是1000萬上下文實際上可以完全容納大型編碼項目。
這一點一旦實現,我們將擁有能夠實現整個上下文近乎完美召回的創新。
這對于編碼應用來說將是不可思議的,因為人類編碼的方式是,你需要盡可能多地在內存中保存信息才能成為高效的編碼員,而且你需要不斷地在文件之間跳轉。
你的注意力廣度總是有限的,但那時大型語言模型不會有這個問題。
它們將一次性在其內存中保存所有這些信息,并且能夠精確地再現這些信息的任何部分。
不僅如此,它們還將能夠真正地將點點滴滴聯系起來。它們會發現文件之間的聯系,因此它們將是非常高效的編碼員。
我想我們很快就會擁有超人般的編碼AI助手。它們將是無與倫比的,并將基本上成為世界上每個編碼員的新工具。
機會5:更自主、更全能的AI助手
主持人:你如何看待眾多智能體 (Agentic) 用例與長上下文的相互作用?
Nikolay Savinov:這是一個有趣的問題。我認為智能體既是長上下文的消費者,也是供應者。讓我解釋一下。
智能體為了有效運作,需要跟蹤最后的狀態,比如它們之前采取的行動、觀察到的情況等等。當然還有當前的狀態。
為了在內存中保存所有這些先前的交互,你需要更長的上下文。這就是長上下文幫助智能體的地方,也是智能體消費長上下文的地方。
但還有另一個互補的視角,即智能體實際上也是長上下文的供應者。
這是因為手動打包長上下文非常繁瑣。如果你每次都必須手動上傳所有想要的文檔,或者上傳視頻,或者從網上復制粘貼一些內容,這真的很麻煩。你不想這樣做。你希望模型自動完成。
實現這一點的一種方法是通過智能體的工具調用。如果模型可以自行決定,嘿,在這一點上,我要獲取更多信息,那么它就會自行打包上下文。
所以從這個意義上說,智能體是長上下文的供應者。
開發者如何用好“長上下文”?
主持人:對于開發者來說,他們應該如何思考長上下文和RAG的最佳實踐?你對開發者如何最有效地使用長上下文有什么總體建議?
Nikolay Savinov:我認為第一條建議是盡量依賴上下文緩存 (Context Caching)。
讓我解釋一下上下文緩存的概念。當你第一次向模型提供長上下文并提問時,會花費更長的時間和更高的成本。
而如果你在第一個問題之后,基于相同的上下文提出第二個問題,那么你可以依賴上下文緩存,使其回答更便宜也更快。
這是我們目前為某些模型提供的功能之一。所以,是的,盡量多利用這個功能。
嘗試將用戶上傳的文件緩存到上下文中,因為這不僅處理速度更快,而且平均而言,輸入Token的價格也會降低約四倍。
這對于你希望與文檔集合或大型視頻進行對話的場景非常重要。你想對它提出一些問題,或者是一個代碼庫。
而且你提到這些知識不應該改變是正確的?;蛘呷绻懈膭拥牡胤?,最好的改變方式是放在最后。
因為那樣的話,我們會在底層找到與緩存前綴匹配的前綴,然后丟棄其余部分。
有時開發者會問,問題應該放在上下文之前還是之后?這就是答案。你想把它放在上下文之后,因為如果你想依賴緩存并從成本節省中獲益,那就應該放在那里。
如果你把改動放在開頭,例如把所有問題都放在開頭,那么你的緩存就會從頭開始。
我們已經談到的一點是與RAG的結合。如果你需要處理數十億Token的上下文,那么你需要與RAG結合。
而且,在某些需要檢索多個“針”的應用中,即使你需要的上下文短得多,與RAG結合可能仍然有益。
另一件我們已經討論過的事情是,不要用不相關的東西填充上下文。它會影響多針檢索。
另一個有趣的事情是,我們談到了權重內記憶和上下文內記憶之間的相互作用。
我必須提到的一點是,如果你想用上下文內記憶來更新你的權重內知識,那么網絡必然會依賴兩種知識。這兩者之間可能會產生矛盾。
我認為通過仔細的提示來明確解決這種矛盾是有益的。
例如,你可以在問題開頭說“基于以上信息”等等。當你這樣說時,你就向模型暗示它實際上必須依賴上下文內記憶,而不是權重內記憶。這就為模型解決了這種模糊性。
總結一下:
百萬Token:讓AI讀完一部《三體》可能只需幾秒,理解力大增;
RAG + 長上下文:強強聯手,打造信息檢索與知識問答的超級加速器;
千萬級Token:有望重塑編程協作模式,釋放開發者無限創造力。
你對AI的“超長記憶力”有什么期待?或者有哪些“腦洞大開”的應用場景?
歡迎在評論區留言分享!
也別忘了點贊、轉發,把這篇文章分享給更多朋友,一起見證“超人AI助手”的誕生!
↓點擊加入,讓你來領導AI,不要讓AI領導你
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.