2025年年初,DeepSeek 成為全球人工智能(AI)領域的焦點,其DeepSeek-V3 和DeepSeek-R1 版本在行業內引發了結構性震動。
DeepSeek-V3 是一個擁有 6710 億個參數的混合專家模型(MoE),每個token(模型處理文本的基本單位)激活 370 億個參數。該模型在 14.8 萬億個高質量 token上進行預訓練,采用 MLA 和 MoE 架構。DeepSeek-V3 的發布幾乎沒有預熱和炒作,僅憑借其出色的效果和超低的成本迅速走紅。
DeepSeek-R1 則是在 DeepSeek-V3 的基礎上構建的推理模型,它在后訓練階段大規模使用強化學習技術,僅憑極少標注數據便大幅提升了模型的推理能力。在數學、代碼、自然語言推理等任務上,DeepSeek-R1 的效果已可比肩 OpenAI-o1 正式版。
DeepSeek-R1 在基準測試中的表現
DeepSeek-V3技術突破
DeepSeek-V3 的模型架構整體上基于 Transformer 的 MoE 架構,并在細節實現上做了大量的創新和優化,如大量小專家模型、多頭潛在注意力、無輔助損失的負載平衡、多 token預測技術(MTP)等,大幅提升了模型的性能。
在模型訓練方面,DeepSeek 依托自研的輕量級分布式訓練框架 HAI-LLM,通過算法、框架和硬件的緊密配合,突破了跨節點 MoE 訓練中的通信瓶頸,實現了高效穩定的訓練。DeepSeek-V3 是業界率先使用 FP8 進行混合精度訓練的開源模型。
在推理部署方面,DeepSeek-V3 采用預填充(Prefilling)和解碼(Decoding)分離的策略,以及冗余專家策略,在提高推理速度的同時確保了系統的穩定性和可靠性。
DeepSeek 架構圖
DeepSeek-R1技術突破
01. 純強化學習訓練
DeepSeek-R1-Zero 的核心創新之一是采用純強化學習(Reinforcement Learning,RL)進行訓練。這一方法顛覆了傳統的依賴有監督微調(Supervised Fine-Tuning,SFT)和人類反饋強化學習(Reinforcement Learning from Human Feedback,RLHF)的訓練模式,首次驗證了無須任何 SFT 數據,僅通過強化學習即可實現推理能力的自主進化。
02. GRPO 算法
GRPO 算法是 DeepSeek-R1-Zero 使用的另一個重要的創新算法。與傳統的強化學習算法(如 PPO 、 DPO )不同, GRPO 算法通過組內獎勵對比直接優化策略網絡。具體而言,GRPO 算法將同一問題生成的 N 條候選答案劃為一組,以組內平均獎勵為基線,計算相對優勢值。這種方法不需要額外訓練價值模型,降低了訓練復雜度,提高了訓練效率。
GRPO 與 PPO 對比示意圖
03. 獎勵模型的創新
在強化學習的訓練過程中, DeepSeek 研究團隊選擇 面向結果的獎勵模型 ,而不是通常的面向過程的獎勵模型。這種方式可以較好地避免獎勵欺騙,同時,由于不需要大量標注數據,可以降低訓練復雜度。
結果獎勵和過程獎勵
“冷啟動 + 多階段 RL”
為了解決純強化學習訓練帶來的可讀性差和多語言混雜等問題,DeepSeek-R1 采用“冷啟動 + 多階段 RL”的訓練策略。在冷啟動階段,引入數千條高質量的長思維鏈數據對基礎模型進行微調,強制規范輸出格式,提高可讀性。隨后,通過兩階段強化學習進一步優化模型的性能。
推理導向 RL:結合規則獎勵(如答案準確性、語言一致性),優化模型在數學、編程等結構化任務中的表現。
通用對齊 RL:融入人類偏好獎勵模型,確保模型在開放域任務中的安全性與實用性。
DeepSeek-R1 的訓練過程
DeepSeek-R1-Zero 在訓練初期沒有人工示范,完全靠自己摸索。就像讓小孩自己解謎題,結果他居然悟出了很多強大的解題技巧!但僅靠自我摸索的 DeepSeek-R1-Zero 給出的答案有時很難讀懂,甚至會中英文混雜,或者偏離人們習慣的表達方式。
因此,在訓練 DeepSeek-R1 時,DeepSeek 研究團隊對模型進行了兩次額外的調整:第一次是喂給它一些冷啟動的例子,相當于給模型打好基礎,讓它知道回答時的基本禮儀和清晰度;第二次是在強化學習之后,收集在訓練中表現優秀的解題示例,再混合一些人工整理的題目,重新訓練模型。通過這樣的流程,DeepSeek-R1 就像一個經歷了自學、糾錯、再學習、再實戰的學生,已成長為解題高手。
上述過程還揭示了一個少有人注意的基本原則,那就是要讓模型自由地思考。在許多 AI實驗中,模型的結構約束越少,則當計算資源增加時,最終性能的上限越高。反之,如果在早期給模型添加過多的結構約束,則它的最終表現可能會受到限制,失去了更多自主探索的可能性。在各種訓練模型推理能力的范式中,基于結果獎勵的強化學習給模型的約束最少。以結果為導向,用結果來激勵——“Don’t teach, incentivize.”也就是說,不要去“教”模型,而要“激勵”它自主探索。
《DeepSeek核心技術揭秘》是剖析 DeepSeek 技術原理的專業技術書,以全面的內容、深入的技術原理解析和前瞻性的行業洞察,為技術人員、研究人員和大模型相關技術愛好者提供了寶貴的學習資料。
本書目錄結構
第1 章 介紹 DeepSeek 的一系列技術突破與創新,如 架構創新、訓練優化、推理與部署優化 等,讓讀者對 DeepSeek 的性能突破形成直觀的認識。同時,介紹 DeepSeek 的 模型家族 ,涵蓋通用語言模型、多模態模型、代碼生成與理解等領域,展現了 DeepSeek 在大模型的不同細分領域取得的成就。
第2章為初學者深入淺出地講解 DeepSeek 的使用方法。從推理模型與通用模型的差異,到具體的使用案例,讀者可以直觀地感受 DeepSeek 在實際應用中的強大功能。對提示工程的詳細介紹,可以幫助讀者了解如何通過精心設計的提示詞更好地發揮 DeepSeek 的能力。對提示詞鏈的高級使用技巧的介紹,為讀者進一步提升 DeepSeek 使用效果提供參考。
第3章和第4章是本書的核心與精華。
第3章深入剖析 DeepSeek-V3 的模型架構、訓練框架、推理階段優化、后訓練優化等關鍵技術。從混合專家模型(MoE)的起源與發展,到 DeepSeek-V3 的 MoE 優化,再到對多頭潛在注意力(MLA)機制和多 token 預測的詳細解讀,幫助讀者全面了解 DeepSeek-V3 在技術上的先進性和創新性。同時,對訓練框架的并行策略、FP8 混合精度訓練及推理階段的優化等內容的深入分析,展示了 DeepSeek 在提升效率和性能方面的不懈追求。
第4章關于 DeepSeek-R1 的技術剖析同樣精彩紛呈。預備知識的介紹為讀者理解后續內容打下了堅實的基礎。對 DeepSeek-R1-Zero 的組相對策略優化(GRPO)算法、獎勵模型等關鍵技術的深入剖析,可以幫助讀者了解 DeepSeek 在強化學習領域的創新性探索。對DeepSeek-R1 的訓練過程和推理能力的蒸餾等內容的詳細闡述,能讓讀者對這一創新技術的特點有全面的認知。
第5章從宏觀的角度分析 DeepSeek 對人工智能技術格局的影響,包括打破硬件依賴迷思、沖擊英偉達 CUDA 護城河、引發大模型技術路線的重新思考等多個方面。同時,總結了DeepSeek 成功背后的啟示,如領導者敏銳的技術直覺、長期主義的堅持、極致的工程優化等,為讀者提供了寶貴的經驗和啟示。
第6章對 DeepSeek“開源周”的多個技術項目進行了深入的分析。通過對 FlashMLA、DeepEP、DeepGEMM、DualPipe 與 EPLB、3FS 等項目的介紹,展示了 DeepSeek 在開源領域的積極探索,體現了其推動大模型技術普及和發展的決心。這些技術項目的詳細解讀,能讓讀者了解 DeepSeek 在降低人工智能技術門檻、促進技術交流與合作方面的巨大貢獻。
第7章對大模型的發展進行了討論。從 MoE 的發展趨勢、MLA 的展望,大模型的訓練方法、推理部署,到 GPU 硬件及推理模型的發展趨勢,以前瞻性的視角為讀者描繪了大模型的發展藍圖。
DeepSeek核心+配套視頻課程
本書由一線資深技術人員編寫,知識點講解清晰。內容完全圍繞DeepSeek核心技術展開,提煉精華,不討論與DeepSeek有關的大模型基礎,而是關注DeepSeek本身。
盧菁,北京科技大學博士,北京大學博士后,B站、視頻號優秀科技博主。曾任職于騰訊、愛奇藝等知名互聯網公司,主要從事人工智能技術的應用和研發工作,主要研究方向為大模型、多模態、自然語言處理、知識圖譜、推薦系統等。著有《速通機器學習》《速通深度學習數學基礎》。
戴志仕,資深AI架構師,“寒武紀人工智能”公眾號的創立者。2024年CCF國際AIOps挑戰賽優秀獎獲得者。擁有十余年人工智能算法研究和產業落地經驗,成功實施過多個人工智能項目。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.