關于這篇論文,技術角度太復雜了,我們來通過一個日常使用中的問題來解釋這個工作的重要性。
很多人用DeepSeek其實忽略了一點,那就是對話的長度是有限制的,有些人會在同一個對話欄里跟DeepSeek一直對話,直到不能繼續。
出現這個現象的原因就在于Context(上下文),說白了就是現如今大模型的記憶力是有限的,它的記憶力長度其實是設定好的,根據DeepSeek的官方文檔,R1的長度就是64K。
然后一個中文字符占0.6token。
64000/0.6 約等于 10.6萬個中文字符。
一般來說一個單次對話不會超過10.6字。
但是,人類的記憶是可以跨越數十年的,90歲的時候都可以回憶起小時候的某個記憶片段。
大模型也是有記憶的,不知道大家在使用DeepSeek R1模式的時候有沒有注意到它的「回憶和記憶」現象。
這是我首先問的DeepSeek的一件事,就是“
吃了火鍋拉肚子怎么辦”,它回復的非常專業。
從原理到解決方法到后續的預防,它都提到了。
重要的事情在后面,就是我接著又問了DeepSeek一個問題
我今天打算做一個火雞面當晚飯,怎么做好吃?
然后你看DeepSeek的思考過程,注意劃紅線的地方。
“首先,我得回想一下用戶之前的對話歷史。之前他提到吃了火鍋后拉肚子,可能是因為太辣或者太油膩。所以現在他要做火雞面,雖然火雞面本身也是辣的,但可能需要考慮他的腸胃狀況。不過這次他可能已經恢復好了,或者想繼續挑戰辣味。但作為回答者,我可能需要提醒他注意辣度,或者給出調整辣度的建議。 用戶可能是一個喜歡辛辣食物的人,但之前因為吃火鍋導致腸胃不適,所以在制作火雞面時可能需要平衡辣度和腸胃的承受能力。或者他可能已經恢復,只是單純想要美味的做法。 同時,提醒用戶根據自身情況調整辣度,特別是考慮到之前拉肚子的情況,可能需要適量減少辣醬的使用或者搭配解辣的食物。”
你發現沒,它會把你之前的情況考慮的得非常周到,幾乎處處在考慮你的身體情況,這就是「上下文」帶來的記憶能力。
就跟人的記憶一樣,一個人的記憶會造成長期的影響。如果你不小心胳膊骨折,那你在以后的所有相關事情上都會特別注意。
但你在DeepSeek新開一個對話框的話,你會發現同樣的火雞面做法問題,它就是單純的給你一個做法,它并不知道你拉肚子了。
記憶被截斷了。
新開一個對話框就是一段全新的記憶,但實際上人不是。
而AI想要進化到AGI,其中一個特性就應該是盡可能長的記憶,就跟人一樣,不一定將所有的細節都記住,而是將很多事情的某個片段或者重要信息記住,然后在需要的時候想起這個點。
然后從點到線,從線到面的復現整個過程。
而DeepSeek的新論文,說白了就說讓記憶提取的成本變低,只需要原本1/10的成本就可以做到性能相似的結果,這也給增大記憶留下了更多的可能性。
甚至你會發現NSA這個工作是暗合人類記憶能力背后原理的。
人類會將重要事情記得非常牢,而別的事情可能會通過幾件重要的事情連帶地提取出來。
而DeepSeek的工作也類似,也是將重要的事情提取出來,然后其他的暫時沉寂下去,這樣繼續優化下去。
未來的AI大模型一定不需要那么多的對話框,只需要一個對話框,一份記憶,你的AI會跟你在長久的對話中獲得不斷的提升,這種提升不一定是智力上的,而是心靈的契合程度。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.