(圖片來(lái)源:pixabay)
連日來(lái),隨著DeepSeek持續(xù)霸榜熱搜,其創(chuàng)始人梁文峰的許多觀點(diǎn)也熱傳于網(wǎng)絡(luò)。
"中國(guó)AI和美國(guó)有一兩年差距,但真實(shí)的gap是原創(chuàng)和模仿之差"“過(guò)去三十多年IT浪潮里,我們基本沒(méi)有參與到真正的技術(shù)創(chuàng)新里” "經(jīng)驗(yàn)包袱太重的人,創(chuàng)新動(dòng)力不足”……他的話(huà)語(yǔ)樸實(shí)且坦誠(chéng),道理講得很白,卻給人耳目一新之感。這一點(diǎn),與大家在使用DeepSeek時(shí)的感受是相當(dāng)一致的。
在國(guó)內(nèi)輿論場(chǎng)中,梁文峰本人與DeepSeek是深度捆綁的,有人稱(chēng)他是人工智能上甘嶺的“黃繼光”,有人說(shuō)他是中國(guó)的“馬斯克”,但在筆者看來(lái),更重要的或許在于做好DeepSeek與梁文峰思維的解碼,換言之,大家應(yīng)當(dāng)更加清楚地知道,當(dāng)我們?cè)谡務(wù)揇eepSeek時(shí),到底在談?wù)撌裁矗蛘哒f(shuō)應(yīng)該談?wù)撌裁础?/p>
其一:突圍,山重水復(fù)疑無(wú)路
ChatGPT問(wèn)世以來(lái),全球AI競(jìng)賽正式進(jìn)入“大力出奇跡”時(shí)代。巨參數(shù)、大數(shù)據(jù)、強(qiáng)算力成為大模型研發(fā)的基礎(chǔ),規(guī)模法則(scaling law)被認(rèn)為是智能“涌現(xiàn)”的核心:OpenAI的GPT-4參數(shù)規(guī)模突破1.8萬(wàn)億,訓(xùn)練數(shù)據(jù)集包含13萬(wàn)億token;微軟、谷歌等一眾科技巨頭均斥巨資囤積算力。而在規(guī)模法則的另一面,全球高質(zhì)量文本數(shù)據(jù)迅速枯竭;單次訓(xùn)練成本逐漸失控;美國(guó)對(duì)芯片采取針對(duì)性出口管制,以維護(hù)其算力霸權(quán)及AI技術(shù)優(yōu)勢(shì)。
當(dāng)美國(guó)科技大廠(chǎng)已投入巨資,構(gòu)建起了一套由他們制定的行業(yè)標(biāo)準(zhǔn)、生存法則時(shí),當(dāng)很多人潛意識(shí)中已默許,AI領(lǐng)域未來(lái)發(fā)展的話(huà)語(yǔ)權(quán)、主導(dǎo)權(quán)和控制權(quán)正牢牢掌握在西方手中時(shí),來(lái)自中國(guó)的DeepSeek卻突然闖了進(jìn)來(lái)。
其用架構(gòu)算法、訓(xùn)練方式、工程優(yōu)化等系統(tǒng)性創(chuàng)新,在千億參數(shù)規(guī)模下展現(xiàn)出與GPT-o1-1217相當(dāng)?shù)耐评砟芰Γ燥@著降低的訓(xùn)練成本,走出一條震驚世界的差異化技術(shù)路徑,實(shí)現(xiàn)國(guó)產(chǎn)大模型的突圍。
正如有論者指出,DeepSeek讓許多人認(rèn)識(shí)到一個(gè)一直存在但被忽視的重要趨勢(shì),那就是中國(guó)在生成式AI領(lǐng)域正在快速追趕美國(guó)。要知道,拜登政府2022年實(shí)施并在此后多次收緊禁止向中國(guó)出售最先進(jìn)芯片及芯片制造設(shè)備的禁令,目的就是限制中國(guó)獲取尖端技術(shù)。DeepSeek團(tuán)隊(duì)正是在美國(guó)AI芯片禁運(yùn)的壓力下,不得不在較低性能的H800 GPU上訓(xùn)練模型。但正是這樣的“降維”,反而推動(dòng)了算法優(yōu)化的突破。
其二:創(chuàng)新,東風(fēng)夜放花千樹(shù)
DeepSeek的成功,挑戰(zhàn)了AI領(lǐng)域“規(guī)模至上”的傳統(tǒng)思維。那么從技術(shù)角度看,DeepSeek主要?jiǎng)?chuàng)造了哪些核心創(chuàng)新?
首先是模型架構(gòu)。混合專(zhuān)家模型(MoE)通過(guò)將模型分成多個(gè)專(zhuān)家,并在每個(gè)特定任務(wù)中只激活少量合適的專(zhuān)家,從而在推理過(guò)程中減少參數(shù)量,提升效率。據(jù)透露,GPT-4便采用了MoE框架,而DeepSeek-V3對(duì)MoE框架進(jìn)行了重要?jiǎng)?chuàng)新,新框架包含細(xì)粒度多數(shù)量的專(zhuān)業(yè)專(zhuān)家和更通用的共享專(zhuān)家。
就MoE框架而言,其面臨的一個(gè)重要難題是如何確定哪個(gè)標(biāo)記(token)會(huì)到達(dá)哪個(gè)專(zhuān)家或子模塊。DeepSeek引入了新的無(wú)損負(fù)載均衡技術(shù)和路由網(wǎng)絡(luò)方法,有效降低了通信開(kāi)銷(xiāo),突破了傳統(tǒng)方法增加通信開(kāi)銷(xiāo)換取高效推理的瓶頸,使得新框架更加穩(wěn)定高效。
其次是算法突破。多頭潛在注意力機(jī)制(Multi-Head Latent Attention,MLA)是DeepSeek最關(guān)鍵的技術(shù)突破,它顯著降低了模型推理成本。在過(guò)去,推理能力最大的限制之一即為加載上下文所需的內(nèi)存: KV緩存是Transformer中的一種內(nèi)存機(jī)制,它將每一步生成的鍵(Key)和值(Value)保存到緩存中,隨著上下文長(zhǎng)度的增加,KV緩存顯著增加。而MLA可將每個(gè)查詢(xún)所需的KV緩存降低90%以上。
第三是訓(xùn)練方式。DeepSeek-R1-Zero首次證明了基于大規(guī)模強(qiáng)化學(xué)習(xí)(RL)與高質(zhì)量合成數(shù)據(jù)(Synthetic Data)結(jié)合的技術(shù)路徑,可在不依賴(lài)標(biāo)注數(shù)據(jù)、監(jiān)督微調(diào)(SFT)的情況下,獲得高水平推理能力。在R1-Zero訓(xùn)練中,DeepSeek應(yīng)用組相對(duì)優(yōu)化策略(GRPO)和兩個(gè)簡(jiǎn)單的獎(jiǎng)勵(lì)函數(shù)(回答準(zhǔn)確性和思維過(guò)程格式準(zhǔn)確性獎(jiǎng)勵(lì)),使得R1-Zero自發(fā)形成了評(píng)估和優(yōu)化推理的能力,產(chǎn)生令人驚嘆的“頓悟時(shí)刻”(Aha Moment)。
DeepSeek-R1則是在R1-Zero基礎(chǔ)上,進(jìn)一步利用少量標(biāo)注數(shù)據(jù)監(jiān)督微調(diào)作為冷啟動(dòng),并結(jié)合強(qiáng)化學(xué)習(xí)進(jìn)行后訓(xùn)練,顯著提升了模型生成結(jié)果的可讀性及面向開(kāi)放問(wèn)題的推理能力。此外,DeepSeek也驗(yàn)證了模型蒸餾技術(shù)在推理能力上的有效性。
第四是數(shù)據(jù)策略。DeepSeek采用高質(zhì)量合成數(shù)據(jù)的數(shù)據(jù)策略與其訓(xùn)練方式、推理任務(wù)相匹配,極大降低了數(shù)據(jù)成本。“數(shù)據(jù)質(zhì)量?jī)?yōu)先”的核心原則也已逐漸成為領(lǐng)域共識(shí):比數(shù)據(jù)規(guī)模更重要的是數(shù)據(jù)質(zhì)量與知識(shí)密度,相應(yīng)地,DeepSeek采取了拒絕采樣(rejection sampling)等基于驗(yàn)證的數(shù)據(jù)篩選與增強(qiáng)方法。
最后是工程技術(shù)。除了在架構(gòu)、算法、技術(shù)路徑等方面形成“軟突破”,成功降低訓(xùn)練成本,提升模型效率,DeepSeek團(tuán)隊(duì)強(qiáng)大的工程優(yōu)化能力也同樣令人驚嘆。DeepSeek繞過(guò)了英偉達(dá)的通用編程框架CUDA,使用了更底層也更復(fù)雜的PTX(Parallel Thread Execution)匯編語(yǔ)言直接操控GPU指令集,從而實(shí)現(xiàn)芯片算力的效用最大化。這一“硬突破”也一定程度上威脅到英偉達(dá)生態(tài)的護(hù)城河,為未來(lái)適配國(guó)產(chǎn)GPU留下巨大的想象空間。
其三:未來(lái),長(zhǎng)風(fēng)破浪會(huì)有時(shí)
DeepSeek的橫空出世讓人們重新反思大模型、AGI領(lǐng)域暴力美學(xué)式的思維慣性,也重新關(guān)注算法、架構(gòu)、優(yōu)化等技術(shù)創(chuàng)新的巨大潛力。更重要的是,DeepSeek-R1還可以免費(fèi)使用,而且是開(kāi)源的。低成本與開(kāi)放性的強(qiáng)強(qiáng)聯(lián)合可能有助于普及AI技術(shù),讓其他國(guó)家(尤其是美國(guó)以外)的開(kāi)發(fā)者能夠入局。當(dāng)美國(guó)公司在為試圖進(jìn)入該領(lǐng)域的競(jìng)爭(zhēng)對(duì)手設(shè)置盡可能多的障礙時(shí),中國(guó)卻在開(kāi)放這項(xiàng)技術(shù),這確實(shí)是一種諷刺。
曾幾何時(shí),硅谷將AI技術(shù)塑造為一個(gè)珍貴且神奇的成就,將埃隆·馬斯克、薩姆·奧爾特曼等領(lǐng)軍人物描繪成引領(lǐng)人類(lèi)進(jìn)入新世界的先知。而DeepSeek撕掉了此前籠罩在AI之上的神秘面紗。
它專(zhuān)注創(chuàng)新,在人工智能全球競(jìng)爭(zhēng)白熱化的關(guān)鍵時(shí)期形成突破,為中國(guó)的智能生態(tài)構(gòu)建奠定關(guān)鍵基礎(chǔ);它擁抱開(kāi)源,拒絕“Close AI”,為全世界技術(shù)社區(qū)做出堅(jiān)實(shí)貢獻(xiàn)。當(dāng)我們贊嘆DeepSeek產(chǎn)品的巨大成功,也應(yīng)當(dāng)關(guān)注其團(tuán)隊(duì)的系統(tǒng)性創(chuàng)新能力,這既包含多方面的技術(shù)突破,也包括如何聚合“高密度技術(shù)人才”、如何為年輕團(tuán)隊(duì)提供高效的創(chuàng)新土壤。
最后,也要指出DeepSeek的關(guān)鍵破局點(diǎn),是在保持推理能力相當(dāng)?shù)那闆r下,實(shí)現(xiàn)了訓(xùn)練及計(jì)算成本的極大降低。而從數(shù)學(xué)原理上說(shuō),并未跳出大模型浪潮范疇,這也意味著,DeepSeek也無(wú)法解決這一技術(shù)路線(xiàn)下不可解釋、幻覺(jué)等內(nèi)在問(wèn)題。因此,關(guān)于智能“涌現(xiàn)”的根本奧秘,關(guān)于現(xiàn)有模型的智能邊界與潛力,關(guān)于模型的解釋性、泛化性、穩(wěn)定性,尤其是幻覺(jué)引發(fā)的認(rèn)知安全風(fēng)險(xiǎn),仍是值得深入探索的重要議題;長(zhǎng)期而言,算力依然是人工智能的基礎(chǔ)設(shè)施,我們也期待芯片領(lǐng)域誕生屬于中國(guó)的DeepSeek時(shí)刻。
(文/王鑫 北京航空航天大學(xué)人工智能學(xué)院副教授)
歡迎下載“北京青年報(bào)”客戶(hù)端
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.