99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

DeepSeek 成功證明:動力是 AI 創新的關鍵

0
分享至

2025 年 1 月震撼了 AI 領域??此苿莶豢蓳醯?OpenAI 以及實力雄厚的美國科技巨頭,都被我們可以稱之為大語言模型( LLM )領域的“黑馬”所震驚。DeepSeek 是一家中國公司,以前鮮為人知,卻突然向 OpenAI 發起了挑戰。實際上,DeepSeek-R1 在基準測試上雖然略遜于美國巨頭的頂級模型,但它讓大家頓時開始關注硬件和能耗使用方面的效率問題。

由于無法獲得最先進的高端硬件,DeepSeek 顯然在效率創新上有著更大的動力,而這恰恰是大公司較少關注的領域。OpenAI 聲稱他們有證據顯示 DeepSeek 可能使用了他們的模型進行訓練,但目前沒有具體證據證明這一點。所以,無論這一說法是否屬實,還是 OpenAI 僅僅為了安撫投資者而為之,都存在爭議。不過,DeepSeek 已經發布了他們的工作成果,而且人們已經驗證了這些結果至少在較小規模上的可復現性。

那么,DeepSeek 怎么能取得如此巨大的成本節省,而美國公司卻無法做到呢?答案很簡單:他們擁有更強的動力。要詳細說來,則需要一點技術背景的解釋。

DeepSeek 使用了 KV-cache 優化

對 GPU 內存的一項重要成本節省措施是對大語言模型中每個注意力層使用的 Key-Value 緩存( KV cache )進行優化。

大語言模型由 Transformer 塊組成,每個塊包括一個注意力層和一個常規的前饋網絡。前饋網絡從概念上模擬任意關系,但實際上,它難以始終準確地捕捉數據中的模式。注意力層則解決了語言建模中的這一問題。

模型使用 token 來處理文本,為了簡單起見,我們這里稱之為“單詞”。在大語言模型中,每個單詞都會被分配一個高維度向量( 比如說, 一千個維度 );從概念上講,每個維度代表一種概念,比如熱或冷、綠色、柔軟、名詞等。一個單詞的向量表示即代表了它的含義及各個維度上的數值。

然而,我們的語言允許其他單詞來修飾一個單詞的含義。舉例來說,“蘋果”本身有一定含義,但我們可以有一個“綠色蘋果”作為修飾后的版本。更極端的情況是,在 iPhone 上下文中的“蘋果”與草地情境中的“蘋果”有所不同。那么,如何讓系統根據其他單詞來修正一個單詞的向量含義呢?這正是注意力機制發揮作用的地方。

注意力模型給每個單詞分配了另外兩個向量:一個是 key,另一個是 query。query 表示單詞中可被修正的含義特質,而 key 則代表它能為其他單詞提供何種修正。例如,單詞“綠色”可以提供關于顏色和綠色度的信息,所以“綠色”的 key 在“綠色度”這一維度上會有一個較高的數值;另一方面,“蘋果”可能是綠色或不是,因此“蘋果”的 query 向量在綠色度這一維度上也會有較高數值。如果我們將“綠色”的 key 與“蘋果”的 query 計算點積,其結果應該會相對較大,而“桌子”的 key 與“蘋果”的 query 點積則不會這么高。然后,注意力層會將“綠色”這一單詞的少量數值加到“蘋果”這一單詞的數值上,從而使“蘋果”的數值被修正得稍微偏綠。

在大語言模型生成文本時,是逐個單詞依次生成的。當生成下一個單詞時,之前生成的所有單詞都會成為上下文的一部分,但這些單詞的 keys 和 values 已經被計算好了。當新的單詞添加到上下文中時,就需要根據它的 query 以及所有之前單詞的 keys 和 values 更新其數值,這也是為何所有這些數值都存儲在 GPU 內存中,這就是 KV cache 。

DeepSeek 發現單詞的 key 與 value 之間存在關聯性,所以“綠色”這一單詞的含義和它影響綠色程度的能力顯然密切相關。因此,可以將兩者壓縮為一個(可能更小的)向量,并在處理過程中輕松解壓。DeepSeek 發現這雖然會對基準測試的結果造成影響,但卻節省了大量 GPU 內存。

DeepSeek 應用了 MoE

神經網絡的本質在于對于每個 query,整個網絡都需要被評估(或計算)。然而,并非所有的計算都是有用的。網絡中的權重或參數中蘊藏著對世界的知識,但關于埃菲爾鐵塔的知識并不能用來回答有關南美部落歷史的問題;同樣,知道“蘋果是一種水果”在回答關于廣義相對論的問題時也毫無用處。然而,無論這些信息是否有用,在計算網絡時,所有部分都會被處理,這在文本生成過程中會產生巨大的計算成本,而這些成本本應被避免。這就引出了專家混合模型( MoE )的概念。

在 MoE 模型中,神經網絡被劃分為多個較小的子網絡,稱為專家。需要注意的是,這里的“專家”并非預先明確定義的主題專家;網絡會在訓練過程中自行發現這些分工。不過,網絡會給每個 query 分配一個相關性分數,并只激活匹配分數較高的部分,這大大節省了計算成本。雖然某些問題確實需要多個領域的專業知識來得到良好回答,從而可能導致這類 query 的性能下降,但由于這些領域都是從數據中自動識別,此類情況非常少見。

強化學習的重要性

大語言模型被訓練為通過鏈式思考模型來思考,其微調目標在于模仿思考過程后再給出答案。模型被要求將它的思考過程(在生成答案之前先生成思考過程)用語言表達出來,之后系統會對思考過程和最終答案進行評估,并通過強化學習(正確匹配獎勵,錯誤匹配懲罰)進行訓練。

這需要使用包含思考 token 的昂貴訓練數據。DeepSeek 僅要求系統在標簽 < think > 和 < /think > 之間生成思考內容,并在標簽 < answer > 和 < /answer > 之間生成答案。模型僅僅依據形式(標簽的使用)和答案的匹配情況來獲得獎勵或懲罰,從而大大降低了訓練數據的成本。在 RL 初期,模型嘗試生成的思考內容非常少,導致答案錯誤。最終,模型學會了生成既長又連貫的思考過程,這就是 DeepSeek 所稱的“頓悟”時刻。從那以后,答案的質量顯著提升。

DeepSeek 還采用了其他一些優化技巧,不過這些內容過于技術性,此處不再詳述。

對 DeepSeek 及更大市場的最終思考

在任何技術研究中,我們首先需要探索可能,然后再去提高效率,這是一種自然的進程。DeepSeek 對大語言模型領域的貢獻是驚人的,無論其訓練是否使用了 OpenAI 的輸出,其學術貢獻都不容忽視,同時也可能改變初創企業的運營方式。但這并不意味著 OpenAI 或其他美國巨頭就必須陷入絕望,這正是研究的運作方式——一組人的研究成果會惠及另一組人。DeepSeek 當然也得益于 Google、OpenAI 以及眾多其他研究者早期的研究成果。

然而,如今認為 OpenAI 將無限期壟斷大語言模型領域的觀點已不太可能成立。無論多少監管游說或相互指責,都無法維持其壟斷局面。技術已經掌握在眾多手中,并且公開透明,使得技術的進步不可阻擋。雖然這對 OpenAI 的投資者來說可能有些頭疼,但對我們大家來說,這無疑是一場勝利。未來屬于眾人,我們永遠感激 Google、OpenAI 等早期貢獻者。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
美國宣布不再擔任俄烏談判調解人

美國宣布不再擔任俄烏談判調解人

風華講史
2025-05-03 08:19:26
生日驚魂泰倫-盧此前生涯搶七大戰4勝0負 今日生日夜金身告破

生日驚魂泰倫-盧此前生涯搶七大戰4勝0負 今日生日夜金身告破

直播吧
2025-05-04 10:05:17
中國不宰游客的六座城市,游客幾乎零差評!70歲前一定要去一次!

中國不宰游客的六座城市,游客幾乎零差評!70歲前一定要去一次!

背包旅行
2025-03-22 06:05:27
80后女演員成“惡婆婆專業戶”:“以前愛笑,現在面相都變兇了”!

80后女演員成“惡婆婆專業戶”:“以前愛笑,現在面相都變兇了”!

封面新聞
2025-05-02 04:45:06
賽后采訪:老馬說,我沒戴隱形眼鏡;小特說,如果老馬保持好狀態,趙心童會很難

賽后采訪:老馬說,我沒戴隱形眼鏡;小特說,如果老馬保持好狀態,趙心童會很難

舟望停云
2025-05-04 07:47:37
飯館免費為環衛工提供午餐2年,女兒結婚關門5天,回來店被砸了

飯館免費為環衛工提供午餐2年,女兒結婚關門5天,回來店被砸了

黑貓故事所
2025-05-04 08:05:07
衛報:英國政府將明文禁止英超在海外舉辦比賽

衛報:英國政府將明文禁止英超在海外舉辦比賽

直播吧
2025-05-03 14:26:15
馬麗淚崩了!感謝王琦,說可能不會再和沈騰合作,不想老公被罵

馬麗淚崩了!感謝王琦,說可能不會再和沈騰合作,不想老公被罵

鄭丁嘉話
2025-05-04 10:04:21
他是王京花獨子,21歲成影帝,24歲當父親,29歲離婚如今卻遭群嘲

他是王京花獨子,21歲成影帝,24歲當父親,29歲離婚如今卻遭群嘲

趣文說娛
2025-05-04 09:50:29
莫迪瘋了!印巴大戰已經開打,南亞要炸鍋了?

莫迪瘋了!印巴大戰已經開打,南亞要炸鍋了?

大嘴說天下
2025-05-01 22:44:25
600萬人連夜退票!6小時挪1公里!服務區排長龍,廁所告急!

600萬人連夜退票!6小時挪1公里!服務區排長龍,廁所告急!

觀察鑒娛
2025-05-03 12:06:36
勇士若輸掉G7生死戰!球隊大名單必將發生大變動,究竟誰走誰留?

勇士若輸掉G7生死戰!球隊大名單必將發生大變動,究竟誰走誰留?

田先生籃球
2025-05-03 18:48:59
48歲趙薇“女兒”因長得太好看,被全網“禁止整容”,如今17歲變化大到不敢認!

48歲趙薇“女兒”因長得太好看,被全網“禁止整容”,如今17歲變化大到不敢認!

美芽
2025-04-12 12:04:23
梅婷田雨聯手炸場!央視40集年代劇來了,這陣容夢回《父母愛情》

梅婷田雨聯手炸場!央視40集年代劇來了,這陣容夢回《父母愛情》

迪迪的娛樂故事
2025-05-04 08:16:38
合同到期,洛夫頓下家或鎖定,韓德君退役,首鋼晉級,李楠或重獎

合同到期,洛夫頓下家或鎖定,韓德君退役,首鋼晉級,李楠或重獎

樂聊球
2025-05-03 08:13:06
陳芋汐三冠加冕夜 全紅嬋這個動作讓央視解說破音

陳芋汐三冠加冕夜 全紅嬋這個動作讓央視解說破音

明月聊史
2025-05-04 10:00:48
遼寧一外援表忠想續約:我愛遼寧,期待再會,遼蜜:再會不了了

遼寧一外援表忠想續約:我愛遼寧,期待再會,遼蜜:再會不了了

南海浪花
2025-05-04 11:51:59
下周重磅日程:美聯儲利率決議,中國CPI、進出口和金融數據,AMD中芯國際財報

下周重磅日程:美聯儲利率決議,中國CPI、進出口和金融數據,AMD中芯國際財報

華爾街見聞官方
2025-05-04 11:21:11
一夜一百萬?賴昌星親自揭露與董文華的關系,董為何會選擇退圈?

一夜一百萬?賴昌星親自揭露與董文華的關系,董為何會選擇退圈?

燕小姐說歷史
2024-12-31 08:53:48
發現一個悲哀的現象:特別長壽的老人,幾乎都是子女用生命在托舉

發現一個悲哀的現象:特別長壽的老人,幾乎都是子女用生命在托舉

婉秋聊育兒
2025-04-26 05:24:04
2025-05-04 13:08:49
至頂頭條 incentive-icons
至頂頭條
記錄和推動數字化創新
11474文章數 49629關注度
往期回顧 全部

科技要聞

新勢力車企,誰領先?誰危險?

頭條要聞

牛彈琴:武契奇被公開警告后突然發病 或不參加俄閱兵

頭條要聞

牛彈琴:武契奇被公開警告后突然發病 或不參加俄閱兵

體育要聞

北京請神馬布里?許利民真有“玄學”!

娛樂要聞

55歲王菲跟“李亞鵬時期”完全不同!

財經要聞

一個時代的結束!巴菲特年底將卸任

汽車要聞

小米SU7大優惠!5月限時購車權益送輔助駕駛

態度原創

家居
手機
本地
時尚
公開課

家居要聞

意式輕奢 低飽和質感美學

手機要聞

消息稱蘋果計劃明年秋推折疊屏iPhone和iPhone 18 Pro 系列

本地新聞

春色滿城關不住 | 花漾千陽!塬上秘境藏幾重詩意?

今年夏天最流行的10件衣服,誰穿誰時髦!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 恩施市| 永德县| 鞍山市| 沁阳市| 安龙县| 搜索| 双流县| 庆安县| 南投县| 张家港市| 梁山县| 四川省| 若尔盖县| 英吉沙县| 江西省| 桂东县| 马尔康县| 尉犁县| 通海县| 石屏县| 铅山县| 睢宁县| 新乡市| 玉屏| 威宁| 钟山县| 高要市| 石狮市| 故城县| 申扎县| 茌平县| 宜兴市| 怀来县| 商洛市| 宁阳县| 大连市| 九寨沟县| 古田县| 青海省| 延川县| 田东县|