99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

一本書讀懂 DeepSeek 全家桶核心技術

0
分享至

2025年年初,DeepSeek 成為全球人工智能(AI)領域的焦點,其DeepSeek-V3 和DeepSeek-R1 版本在行業內引發了結構性震動。

DeepSeek-V3 是一個擁有 6710 億個參數的混合專家模型(MoE,每個token(模型處理文本的基本單位)激活 370 億個參數。該模型在 14.8 萬億個高質量 token上進行預訓練,采用 MLA 和 MoE 架構。DeepSeek-V3 的發布幾乎沒有預熱和炒作,僅憑借其出色的效果和超低的成本迅速走紅。

DeepSeek-R1 則是在 DeepSeek-V3 的基礎上構建的推理模型,它在后訓練階段大規模使用強化學習技術,僅憑極少標注數據便大幅提升了模型的推理能力。在數學、代碼、自然語言推理等任務上,DeepSeek-R1 的效果已可比肩 OpenAI-o1 正式版。


DeepSeek-R1 在基準測試中的表現

DeepSeek-V3技術突破

DeepSeek-V3 的模型架構整體上基于 Transformer 的 MoE 架構,并在細節實現上做了大量的創新和優化,如大量小專家模型、多頭潛在注意力、無輔助損失的負載平衡、多 token預測技術(MTP等,大幅提升了模型的性能。

在模型訓練方面,DeepSeek 依托自研的輕量級分布式訓練框架 HAI-LLM,通過算法、框架和硬件的緊密配合,突破了跨節點 MoE 訓練中的通信瓶頸,實現了高效穩定的訓練。DeepSeek-V3 是業界率先使用 FP8 進行混合精度訓練的開源模型。

在推理部署方面,DeepSeek-V3 采用預填充(Prefilling)和解碼(Decoding)分離的策略,以及冗余專家策略,在提高推理速度的同時確保了系統的穩定性和可靠性。


DeepSeek 架構圖

DeepSeek-R1技術突破

01. 純強化學習訓練

DeepSeek-R1-Zero 的核心創新之一是采用純強化學習(Reinforcement Learning,RL)進行訓練。這一方法顛覆了傳統的依賴有監督微調(Supervised Fine-Tuning,SFT)和人類反饋強化學習(Reinforcement Learning from Human Feedback,RLHF)的訓練模式,首次驗證了無須任何 SFT 數據,僅通過強化學習即可實現推理能力的自主進化。

02. GRPO 算法

GRPO 算法是 DeepSeek-R1-Zero 使用的另一個重要的創新算法。與傳統的強化學習算法(如 PPO 、 DPO )不同, GRPO 算法通過組內獎勵對比直接優化策略網絡。具體而言,GRPO 算法將同一問題生成的 N 條候選答案劃為一組,以組內平均獎勵為基線,計算相對優勢值。這種方法不需要額外訓練價值模型,降低了訓練復雜度,提高了訓練效率。


GRPO 與 PPO 對比示意圖

03. 獎勵模型的創新

在強化學習的訓練過程中, DeepSeek 研究團隊選擇 面向結果的獎勵模型 ,而不是通常的面向過程的獎勵模型。這種方式可以較好地避免獎勵欺騙,同時,由于不需要大量標注數據,可以降低訓練復雜度。


結果獎勵和過程獎勵

“冷啟動 + 多階段 RL

為了解決純強化學習訓練帶來的可讀性差和多語言混雜等問題,DeepSeek-R1 采用“冷啟動 + 多階段 RL”的訓練策略。在冷啟動階段,引入數千條高質量的長思維鏈數據對基礎模型進行微調,強制規范輸出格式,提高可讀性。隨后,通過兩階段強化學習進一步優化模型的性能。

  • 推理導向 RL結合規則獎勵(如答案準確性、語言一致性),優化模型在數學、編程等結構化任務中的表現。

  • 通用對齊 RL融入人類偏好獎勵模型,確保模型在開放域任務中的安全性與實用性。


    DeepSeek-R1 的訓練過程

    DeepSeek-R1-Zero 在訓練初期沒有人工示范,完全靠自己摸索。就像讓小孩自己解謎題,結果他居然悟出了很多強大的解題技巧!但僅靠自我摸索的 DeepSeek-R1-Zero 給出的答案有時很難讀懂,甚至會中英文混雜,或者偏離人們習慣的表達方式。

    因此,在訓練 DeepSeek-R1 時,DeepSeek 研究團隊對模型進行了兩次額外的調整:第一次是喂給它一些冷啟動的例子,相當于給模型打好基礎,讓它知道回答時的基本禮儀和清晰度;第二次是在強化學習之后,收集在訓練中表現優秀的解題示例,再混合一些人工整理的題目,重新訓練模型。通過這樣的流程,DeepSeek-R1 就像一個經歷了自學、糾錯、再學習、再實戰的學生,已成長為解題高手。

    上述過程還揭示了一個少有人注意的基本原則,那就是要讓模型自由地思考。在許多 AI實驗中,模型的結構約束越少,則當計算資源增加時,最終性能的上限越高。反之,如果在早期給模型添加過多的結構約束,則它的最終表現可能會受到限制,失去了更多自主探索的可能性。在各種訓練模型推理能力的范式中,基于結果獎勵的強化學習給模型的約束最少。以結果為導向,用結果來激勵——“Don’t teach, incentivize.”也就是說,不要去“教”模型,而要“激勵”它自主探索。


《DeepSeek核心技術揭秘》是剖析 DeepSeek 技術原理的專業技術書,以全面的內容、深入的技術原理解析和前瞻性的行業洞察,為技術人員、研究人員和大模型相關技術愛好者提供了寶貴的學習資料。


本書目錄結構

第1 章 介紹 DeepSeek 的一系列技術突破與創新,如 架構創新、訓練優化、推理與部署優化 等,讓讀者對 DeepSeek 的性能突破形成直觀的認識。同時,介紹 DeepSeek 的 模型家族 ,涵蓋通用語言模型、多模態模型、代碼生成與理解等領域,展現了 DeepSeek 在大模型的不同細分領域取得的成就。

第2章為初學者深入淺出地講解 DeepSeek 的使用方法。從推理模型與通用模型的差異,到具體的使用案例,讀者可以直觀地感受 DeepSeek 在實際應用中的強大功能。對提示工程的詳細介紹,可以幫助讀者了解如何通過精心設計的提示詞更好地發揮 DeepSeek 的能力。對提示詞鏈的高級使用技巧的介紹,為讀者進一步提升 DeepSeek 使用效果提供參考。

第3章和第4章是本書的核心與精華。

第3章深入剖析 DeepSeek-V3 的模型架構、訓練框架、推理階段優化、后訓練優化等關鍵技術。從混合專家模型(MoE)的起源與發展,到 DeepSeek-V3 的 MoE 優化,再到對多頭潛在注意力(MLA)機制和多 token 預測的詳細解讀,幫助讀者全面了解 DeepSeek-V3 在技術上的先進性和創新性。同時,對訓練框架的并行策略、FP8 混合精度訓練及推理階段的優化等內容的深入分析,展示了 DeepSeek 在提升效率和性能方面的不懈追求。

第4章關于 DeepSeek-R1 的技術剖析同樣精彩紛呈。預備知識的介紹為讀者理解后續內容打下了堅實的基礎。對 DeepSeek-R1-Zero 的組相對策略優化GRPO)算法、獎勵模型等關鍵技術的深入剖析,可以幫助讀者了解 DeepSeek 在強化學習領域的創新性探索。對DeepSeek-R1 的訓練過程和推理能力的蒸餾等內容的詳細闡述,能讓讀者對這一創新技術的特點有全面的認知。

第5章從宏觀的角度分析 DeepSeek 對人工智能技術格局的影響,包括打破硬件依賴迷思、沖擊英偉達 CUDA 護城河、引發大模型技術路線的重新思考等多個方面。同時,總結了DeepSeek 成功背后的啟示,如領導者敏銳的技術直覺、長期主義的堅持、極致的工程優化等,為讀者提供了寶貴的經驗和啟示。

第6章對 DeepSeek“開源周”的多個技術項目進行了深入的分析。通過對 FlashMLA、DeepEP、DeepGEMM、DualPipe 與 EPLB、3FS 等項目的介紹,展示了 DeepSeek 在開源領域的積極探索,體現了其推動大模型技術普及和發展的決心。這些技術項目的詳細解讀,能讓讀者了解 DeepSeek 在降低人工智能技術門檻、促進技術交流與合作方面的巨大貢獻。

第7章對大模型的發展進行了討論。從 MoE 的發展趨勢、MLA 的展望,大模型的訓練方法、推理部署,到 GPU 硬件及推理模型的發展趨勢,以前瞻性的視角為讀者描繪了大模型的發展藍圖。


DeepSeek核心+配套視頻課程

本書由一線資深技術人員編寫,知識點講解清晰。內容完全DeepSeek核心技術展開,提煉精華,不討論與DeepSeek有關的大模型基礎,而是關注DeepSeek本身。

盧菁,北京科技大學博士,北京大學博士后,B站、視頻號優秀科技博主。曾任職于騰訊、愛奇藝等知名互聯網公司,主要從事人工智能技術的應用和研發工作,主要研究方向為大模型、多模態、自然語言處理、知識圖譜、推薦系統等。著有《速通機器學習》《速通深度學習數學基礎》。

戴志仕,資深AI架構師,“寒武紀人工智能”公眾號的創立者。2024年CCF國際AIOps挑戰賽優秀獎獲得者。擁有十余年人工智能算法研究和產業落地經驗,成功實施過多個人工智能項目。


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
600415,“大牛股”盤中跌停!發生了什么

600415,“大牛股”盤中跌停!發生了什么

新浪財經
2025-06-27 16:49:07
里夫斯拒四年8920萬續約:明夏可追五年2.46億 湖媒直言該交易他

里夫斯拒四年8920萬續約:明夏可追五年2.46億 湖媒直言該交易他

顏小白的籃球夢
2025-06-27 00:54:08
2025溫網女單簽表公布!鄭欽文首輪遇苦主,王欣瑜首輪穆霍娃

2025溫網女單簽表公布!鄭欽文首輪遇苦主,王欣瑜首輪穆霍娃

女網連連看
2025-06-27 20:30:13
“假球”都解釋不了,中國三人男籃闖進世界杯8強,劇情太狗血

“假球”都解釋不了,中國三人男籃闖進世界杯8強,劇情太狗血

真理是我親戚
2025-06-27 15:27:29
二道販子太可惡!小米yu7閑魚訂單鋪天蓋地,雷總管管吧

二道販子太可惡!小米yu7閑魚訂單鋪天蓋地,雷總管管吧

牛斯克
2025-06-27 09:31:18
張學良兒子張閭琳辭世:9歲赴美,娶陳濟棠侄女,所生兩子皆成才

張學良兒子張閭琳辭世:9歲赴美,娶陳濟棠侄女,所生兩子皆成才

柳絮憶史
2025-06-17 08:35:03
追求標準答案危害無窮

追求標準答案危害無窮

水寒說語文
2025-06-26 17:30:16
緊急避雷!“毒兒童牙膏”相繼曝光,絕非危言聳聽,家長速自查!

緊急避雷!“毒兒童牙膏”相繼曝光,絕非危言聳聽,家長速自查!

阿傖說事
2025-06-26 08:02:00
你上下行速度多少!工信部:1000Mbps及以上接入速率的固網寬帶接入達2.23億戶

你上下行速度多少!工信部:1000Mbps及以上接入速率的固網寬帶接入達2.23億戶

快科技
2025-06-25 16:18:11
這是阿嬌你敢相信嗎?看著也不胖啊!而且非常平板該有的都沒看到

這是阿嬌你敢相信嗎?看著也不胖啊!而且非常平板該有的都沒看到

素衣讀史
2025-06-21 14:13:38
硅谷殺妻案背后:于軒一從沒有被愛過,對方一直與前女友藕斷絲連

硅谷殺妻案背后:于軒一從沒有被愛過,對方一直與前女友藕斷絲連

史行途
2025-06-27 18:32:58
貝佐斯夫婦威尼斯婚禮歡迎晚宴賓客們, 小李子,卡戴珊家族等人

貝佐斯夫婦威尼斯婚禮歡迎晚宴賓客們, 小李子,卡戴珊家族等人

老吳教育課堂
2025-06-27 15:55:43
中國游戲超越日本!來自日本玩家の認可!IGN日本高度評價《歸唐》!甘肅文旅廳宣布支持開發組古跡掃描

中國游戲超越日本!來自日本玩家の認可!IGN日本高度評價《歸唐》!甘肅文旅廳宣布支持開發組古跡掃描

Steam社區
2025-06-26 11:57:21
月薪3萬offer,進去半年就廢了?高薪陷阱,正在毀掉一批年輕人…

月薪3萬offer,進去半年就廢了?高薪陷阱,正在毀掉一批年輕人…

火山詩話
2025-06-26 16:49:29
黃一鳴自曝:王思聰每次約她,車費都給10萬,來給5萬,回再給5萬

黃一鳴自曝:王思聰每次約她,車費都給10萬,來給5萬,回再給5萬

漢史趣聞
2025-06-24 10:07:59
今年養老金調整有點“小意外”,通知要7月公布嗎?誰能漲的多?

今年養老金調整有點“小意外”,通知要7月公布嗎?誰能漲的多?

小舟談歷史
2025-06-26 08:44:01
李湘和16歲女兒回國,直奔商場買鞋買衣服,王詩齡不化妝很清純

李湘和16歲女兒回國,直奔商場買鞋買衣服,王詩齡不化妝很清純

檸檬有娛樂
2025-06-27 10:13:46
補助標準99元/人,今年全國老年人免費健康體檢項目再擴容

補助標準99元/人,今年全國老年人免費健康體檢項目再擴容

每日經濟新聞
2025-06-26 21:32:42
我媽和二嬸不對付,鄰居蓋房占地二嬸吵不贏,我媽擼起袖子沖上去

我媽和二嬸不對付,鄰居蓋房占地二嬸吵不贏,我媽擼起袖子沖上去

多多故事薈
2025-06-10 09:10:03
李月汝首發狂砍15+10,主帥稱贊表現出色

李月汝首發狂砍15+10,主帥稱贊表現出色

發財西瓜
2025-06-27 12:25:38
2025-06-27 21:40:49
機器學習與Python社區 incentive-icons
機器學習與Python社區
機器學習算法與Python
3014文章數 11024關注度
往期回顧 全部

科技要聞

雷軍:小米汽車成功沒靠營銷,靠的是能力

頭條要聞

美國打擊伊朗核設施后 美軍一將領進入特朗普核心圈

頭條要聞

美國打擊伊朗核設施后 美軍一將領進入特朗普核心圈

體育要聞

曼城“庫里”連線,送尤文晚安好夢

娛樂要聞

炸裂!榜一大姐深夜怒錘頂流

財經要聞

合新鐵路建設材料以次充好 多家單位被罰

汽車要聞

配置升級/貴賓座椅 全新GL8陸上公務艙售22.99萬

態度原創

游戲
健康
藝術
旅游
軍事航空

英雄聯盟新英雄蕓阿娜模型圖 溫泉皮有“玉足”

呼吸科專家破解呼吸道九大謠言!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

軍事要聞

美媒揭美軍37小時奔襲伊朗細節

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 电白县| 新竹市| 宜州市| 三都| 泰和县| 新干县| 景德镇市| 金门县| 麻城市| 于田县| 徐州市| 巴马| 青浦区| 灵山县| 新营市| 通海县| 城步| 门头沟区| 寿光市| 垫江县| 英德市| 昭平县| 昌邑市| 铁力市| 东乡县| 平顶山市| 武穴市| 象山县| 邵武市| 乳山市| 郎溪县| 遂川县| 准格尔旗| 林甸县| 易门县| 荆门市| 文成县| 略阳县| 平原县| 穆棱市| 广汉市|