真奇怪,你說這大模型到底是用什么辦法理解人類文字的啊?
前幾天我老婆這么問我。
我告訴她,大模型會把每個詞都用數字來表示。
這樣預測下一個詞,就變成了在做一道計算題。
只要不停地往后做計算題,它就可以不停地輸出文字。
她聽完好像更疑惑了的樣子:可是一個詞語的含義那么豐富,用數字是怎么能把這些豐富含義都表達出來的呢?
比如像「蘋果」既可以是一種水果,又可以是一家公司,數字到底要怎么表達出復雜含義呢?
于是我決定換個方式給她通俗解釋一下。
我們先假設「國王」這個詞用1表示,「女王」這個詞也用1表示。
是不是可以看作,這兩個詞在某一個維度上是相同的,比如「地位」當然也可能是別的維度。
而如果「女王」這個詞用2表示,就說明這兩個詞在某一個維度上是不同的,這個維度可能是「性別」,也可以是別的。
你看,用一個數字,就可以從一個維度上來描述兩個詞的區別。
現在我們開始用兩個數字來表示每一個詞。
假設「國王」是(2,1),「女王」是(2,2)。
是不是可以看作,它們在某一個維度上(地位)是一樣的,而在另一個維度上(性別)是不一樣的。
你看,我們用更多的數字來表示每一個詞,就可以更細致地來描述它。
現在我們再加兩個詞。
「男人」這個詞,在性別上和國王相同,都是1,但是地位和國王不同,記為1,所以男人是(1,1)。
「女人」這個詞和在性別上和女王相同(都是2),地位上和男人相同所以記為(1,2)。
有趣的事情就發生了,你會發現:國王減去男人再加上女人,等于女王。
你看,在地位上,二減一再加一等于二。在性別上,一減一加二等于二,而二、二剛好就是女王。
我們僅僅用了兩個數來表示每一個詞,再配合簡單的加減法,就模擬出了這四個詞在兩個維度上的區別和相互關系。
那如果更多的數來表示每一個詞,比如三個、十個數、一百個數、一千個數,并且用更復雜的計算方法,不就可以從更多維度更細致地描述每一個詞之間的關系?
實際上大模型就是這么干的。
在GPT-1里,每一個詞用768個精確到小數點后七位數的數字來表示。
在GPT-2里,每一個詞是用1600個數來表示。
GPT-3,是用12288個數。
在DeepSeek 第二代模型里,用了21000個數來表示每一個詞。DeepSeek-V3用7168個數來表示每一個詞。
不過大模型不會告訴你,每一個數究竟代表什么意思,雖然肯定代表著某種含義或者屬性。
用來表示每一個詞的這一堆數字,專業術語叫「詞嵌入」,英文叫 embedding。
詞嵌入,為什么要叫這么奇怪的名字呢?
其實詞嵌入這個名字還挺形象。你看啊,剛才我們用兩個數字來表示一個詞,兩個數字是不是可以看作是一個二維坐標?或者是二維向量。
那么用兩個數字來表示一個詞,是不是就相當于把這個詞,嵌入到一個空間里。
用三個數字來表示一個詞,就相當于把詞嵌入到一個三維空間里。
用7168個數來表示每個詞,就相當于把這些詞嵌入到一個7168維的空間里,雖然我畫不出來,也想象不出來,但7168維的空間在數學上確實存在。
這就是為什么它叫詞嵌入,因為真的是把詞嵌入到數學空間里。
順便說一下,詞嵌入和Token ID是兩個完全不同的東西。
Token ID是一個詞在詞庫里的編號,而詞嵌入是直接用一堆數來模擬這個數。
TokenID相當于圖書館里某本書的編號,而詞嵌入相當于這本書的摘要。
那每一個詞的詞嵌入的值是怎么定出來的呢?
剛開始都是隨機的,相當于所有詞隨機散亂地分布在一個房間里。
在大模型訓練階段,就開始「打掃」房間,會根據人類現有大量文字的分布規律,把每個詞收拾到最合適的位置上,意思相近的詞通常會離得更近一些。
訓練完以后,每個詞的位置關系就可以體現出它和其他詞的關系,就像前面這個例子。
而一個詞的含義,本質上就是由它和其他詞的關系決定。
比方說,我們在解釋一個詞的時候,會用很多其他詞來解釋它,而用來解釋的這些詞,又需要用另一些詞來解釋,如此往復,最后發現,詞和詞相互交織在一起才形成了每一個詞的含義。
那像「蘋果」這個詞,又可以表示一種水果,又可以表示一家公司品牌。
那它的詞嵌入的位置,究竟是在水果這邊,還是在公司這邊呢?
答案:都不是。
一開始,處在一個中間狀態,就像薛定諤的貓。
當它和其他詞出現在一起,會相互發生計算,改變它原來的值,坍塌為某一種更具體的含義。
比如當蘋果前面出現了一個吃字,那這個吃字就會和蘋果發生計算,把蘋果的詞嵌入更新為水果那個蘋果。
而如果「蘋果」的后面跟了一個「手機」或者「公司」,那這些詞同樣會和蘋果發生計算,把蘋果的詞嵌入更新為專門指代公司品牌的值。
這就像人一樣,也得通過上下文來判斷一個詞的含義。
所以回過頭來,大模型是怎么理解文字的?
每一個詞都是大量的數學計算。
—收工—??
以下是本篇內容的視頻版
喜歡的話別忘了支持一下
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.