2025 年 1 月震撼了 AI 領域??此苿莶豢蓳醯?OpenAI 以及實力雄厚的美國科技巨頭,都被我們可以稱之為大語言模型( LLM )領域的“黑馬”所震驚。DeepSeek 是一家中國公司,以前鮮為人知,卻突然向 OpenAI 發起了挑戰。實際上,DeepSeek-R1 在基準測試上雖然略遜于美國巨頭的頂級模型,但它讓大家頓時開始關注硬件和能耗使用方面的效率問題。
由于無法獲得最先進的高端硬件,DeepSeek 顯然在效率創新上有著更大的動力,而這恰恰是大公司較少關注的領域。OpenAI 聲稱他們有證據顯示 DeepSeek 可能使用了他們的模型進行訓練,但目前沒有具體證據證明這一點。所以,無論這一說法是否屬實,還是 OpenAI 僅僅為了安撫投資者而為之,都存在爭議。不過,DeepSeek 已經發布了他們的工作成果,而且人們已經驗證了這些結果至少在較小規模上的可復現性。
那么,DeepSeek 怎么能取得如此巨大的成本節省,而美國公司卻無法做到呢?答案很簡單:他們擁有更強的動力。要詳細說來,則需要一點技術背景的解釋。
DeepSeek 使用了 KV-cache 優化
對 GPU 內存的一項重要成本節省措施是對大語言模型中每個注意力層使用的 Key-Value 緩存( KV cache )進行優化。
大語言模型由 Transformer 塊組成,每個塊包括一個注意力層和一個常規的前饋網絡。前饋網絡從概念上模擬任意關系,但實際上,它難以始終準確地捕捉數據中的模式。注意力層則解決了語言建模中的這一問題。
模型使用 token 來處理文本,為了簡單起見,我們這里稱之為“單詞”。在大語言模型中,每個單詞都會被分配一個高維度向量( 比如說, 一千個維度 );從概念上講,每個維度代表一種概念,比如熱或冷、綠色、柔軟、名詞等。一個單詞的向量表示即代表了它的含義及各個維度上的數值。
然而,我們的語言允許其他單詞來修飾一個單詞的含義。舉例來說,“蘋果”本身有一定含義,但我們可以有一個“綠色蘋果”作為修飾后的版本。更極端的情況是,在 iPhone 上下文中的“蘋果”與草地情境中的“蘋果”有所不同。那么,如何讓系統根據其他單詞來修正一個單詞的向量含義呢?這正是注意力機制發揮作用的地方。
注意力模型給每個單詞分配了另外兩個向量:一個是 key,另一個是 query。query 表示單詞中可被修正的含義特質,而 key 則代表它能為其他單詞提供何種修正。例如,單詞“綠色”可以提供關于顏色和綠色度的信息,所以“綠色”的 key 在“綠色度”這一維度上會有一個較高的數值;另一方面,“蘋果”可能是綠色或不是,因此“蘋果”的 query 向量在綠色度這一維度上也會有較高數值。如果我們將“綠色”的 key 與“蘋果”的 query 計算點積,其結果應該會相對較大,而“桌子”的 key 與“蘋果”的 query 點積則不會這么高。然后,注意力層會將“綠色”這一單詞的少量數值加到“蘋果”這一單詞的數值上,從而使“蘋果”的數值被修正得稍微偏綠。
在大語言模型生成文本時,是逐個單詞依次生成的。當生成下一個單詞時,之前生成的所有單詞都會成為上下文的一部分,但這些單詞的 keys 和 values 已經被計算好了。當新的單詞添加到上下文中時,就需要根據它的 query 以及所有之前單詞的 keys 和 values 更新其數值,這也是為何所有這些數值都存儲在 GPU 內存中,這就是 KV cache 。
DeepSeek 發現單詞的 key 與 value 之間存在關聯性,所以“綠色”這一單詞的含義和它影響綠色程度的能力顯然密切相關。因此,可以將兩者壓縮為一個(可能更小的)向量,并在處理過程中輕松解壓。DeepSeek 發現這雖然會對基準測試的結果造成影響,但卻節省了大量 GPU 內存。
DeepSeek 應用了 MoE
神經網絡的本質在于對于每個 query,整個網絡都需要被評估(或計算)。然而,并非所有的計算都是有用的。網絡中的權重或參數中蘊藏著對世界的知識,但關于埃菲爾鐵塔的知識并不能用來回答有關南美部落歷史的問題;同樣,知道“蘋果是一種水果”在回答關于廣義相對論的問題時也毫無用處。然而,無論這些信息是否有用,在計算網絡時,所有部分都會被處理,這在文本生成過程中會產生巨大的計算成本,而這些成本本應被避免。這就引出了專家混合模型( MoE )的概念。
在 MoE 模型中,神經網絡被劃分為多個較小的子網絡,稱為專家。需要注意的是,這里的“專家”并非預先明確定義的主題專家;網絡會在訓練過程中自行發現這些分工。不過,網絡會給每個 query 分配一個相關性分數,并只激活匹配分數較高的部分,這大大節省了計算成本。雖然某些問題確實需要多個領域的專業知識來得到良好回答,從而可能導致這類 query 的性能下降,但由于這些領域都是從數據中自動識別,此類情況非常少見。
強化學習的重要性
大語言模型被訓練為通過鏈式思考模型來思考,其微調目標在于模仿思考過程后再給出答案。模型被要求將它的思考過程(在生成答案之前先生成思考過程)用語言表達出來,之后系統會對思考過程和最終答案進行評估,并通過強化學習(正確匹配獎勵,錯誤匹配懲罰)進行訓練。
這需要使用包含思考 token 的昂貴訓練數據。DeepSeek 僅要求系統在標簽 < think > 和 < /think > 之間生成思考內容,并在標簽 < answer > 和 < /answer > 之間生成答案。模型僅僅依據形式(標簽的使用)和答案的匹配情況來獲得獎勵或懲罰,從而大大降低了訓練數據的成本。在 RL 初期,模型嘗試生成的思考內容非常少,導致答案錯誤。最終,模型學會了生成既長又連貫的思考過程,這就是 DeepSeek 所稱的“頓悟”時刻。從那以后,答案的質量顯著提升。
DeepSeek 還采用了其他一些優化技巧,不過這些內容過于技術性,此處不再詳述。
對 DeepSeek 及更大市場的最終思考
在任何技術研究中,我們首先需要探索可能,然后再去提高效率,這是一種自然的進程。DeepSeek 對大語言模型領域的貢獻是驚人的,無論其訓練是否使用了 OpenAI 的輸出,其學術貢獻都不容忽視,同時也可能改變初創企業的運營方式。但這并不意味著 OpenAI 或其他美國巨頭就必須陷入絕望,這正是研究的運作方式——一組人的研究成果會惠及另一組人。DeepSeek 當然也得益于 Google、OpenAI 以及眾多其他研究者早期的研究成果。
然而,如今認為 OpenAI 將無限期壟斷大語言模型領域的觀點已不太可能成立。無論多少監管游說或相互指責,都無法維持其壟斷局面。技術已經掌握在眾多手中,并且公開透明,使得技術的進步不可阻擋。雖然這對 OpenAI 的投資者來說可能有些頭疼,但對我們大家來說,這無疑是一場勝利。未來屬于眾人,我們永遠感激 Google、OpenAI 等早期貢獻者。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.