網易首頁 > 網易號 > 正文申請入駐

DeepSeek的文采如何煉成？ |【經緯低調分享】

2025-02-12 11:47:04　來源: 經緯創投

北京舉報

分享至

DeepSeek打響了小算力辦大事的第一槍。

DeepSeek空降熱搜后，將離譜且正經的推算邏輯展示出來，造出不少娛樂爆梗。同時，不少資深玩家也看到DeepSeek的可塑性，甚至對標GPT。連馬斯克都下場，給予正面評價。

很多人都很好奇，DeepSeek的華麗文風究竟是如何做到的？數據質量是 DeepSeek 成功的關鍵因素。包含鏈式思考的數據能引導模型在推理時深入反思，讓生成的回答邏輯清晰、語言優美，使其在面對不同領域和任務時，都能輕松切換風格，無論是嚴謹的技術解答，還是充滿詩意的創意寫作，都能應對自如。

那么，DeepSeek的文風有多「華麗」？其背后的具體數據和模型有哪些考究？以下，Enjoy：

本文授權轉載自公眾號“DeepTech深科技”。

作者丨多加

“他們說我是魔、是妖、是異數。可誰見過，蓮花在淤泥里，如何長出自己的形狀。”“我割開血肉，剔出龍筋，還給東海一個太平。卻還不清，這具身體的債。”“乾坤圈在手腕上，長成另一道年輪。風火輪碾過陳塘關的黃昏，碾碎每一塊試圖定義我的石碑。”這是筆者讓 DeepSeek 根據當前熱門電影《哪吒之魔童鬧海》為哪吒寫的一首詩的節選。

（來源：DeepSeek）

旅游博主“福瑞環宇”用 DeepSeek 寫了一首關于使徒保羅的詩，寫完之后這位博主感慨道：“寫出來一看簡直要去地上找下巴。它竟然能把特洛伊和特羅亞區分得那么清楚，也藝術性地寫出了特羅亞的位置、保羅在特羅亞發生的兩件重要的事，還給人呈現了一個全然擺上的保羅，最后一句‘一粒麥子埋入歐洲的春秋’更是驚艷又深沉到無以復加。”

通過后訓練階段兩個步驟協同實現華麗風格

事實上，DeepSeek 不僅會寫詩，其走心的回答風格已經讓不少用戶直呼“戳中心窩”。毫無疑問，DeepSeek 華麗抒情走心的文風展現了 AI 溫暖的一面。那么，是什么技術促成了這樣的風格？

上海交通大學副教授趙波表示，通過一些試用可以發現，DeepSeek 主要包含八種角色設定：電影角色、新聞主持、歷史人物、動漫游戲、文學角色、職業角色、搞笑角色和科幻角色。每種角色大類又分別包含其類型中的經典人物。DeepSeek 可以按照用戶要求，模仿特定角色的語言或行文風格與用戶交互。這一能力來源自然是訓練數據，這需要 DeepSeek 的開發者針對豐富的角色/風格/場景，收集對應的多輪對話和指令跟隨數據來訓練模型。而這些數據的來源可能是原始資料數據、人工標注數據、模型合成數據等。

美國耶魯大學助理教授楊卓然從微觀角度給出了一些解讀。他表示根據 DeepSeek?V3 技術報告，DeepSeek的華麗文風主要是通過后訓練階段的兩個步驟協同實現的。

第一個步驟是監督微調（SFT，Supervised Fine-Tuning）。在監督微調階段，模型接觸到了大量高質量的語言表達示例，尤其是針對創意寫作等非推理任務的數據。楊卓然表示，具體來說對于創意寫作任務，初始回答由 DeepSeek?V2.5 生成，隨后經過人工審核來確保內容的準確性和風格的一致性。正是在這部分數據中，模型學習到了大量語言表達優美、用詞講究的示例，這為它后續生成華麗文風奠定了基礎。

第二個步驟是強化學習（RL，Reinforcement Learning）。在強化學習階段，模型利用獎勵機制進一步優化生成結果。對于諸如創意寫作這樣的開放式任務，獎勵模型會對生成的回答進行評分，不僅要求答案準確，還鼓勵模型在措辭、句式和邏輯上表現得更加精致、富有文采。獎勵模型基于監督微調階段得到的 DeepSeek?V3 checkpoints 進行訓練，并通過高溫采樣和多步優化，使模型在生成時逐步融合精美的修辭和細膩的表達方式。

北京郵電大學副教授白婷則綜合 DeepSeek 的多款模型，從宏觀角度給出了一些解讀。她表示，DeepSeek 曾在技術報告里提到一些關鍵技術：比如 DeepSeek-V2 使用了 Multi-Head Latent Attention 和 Sparse MoE 架構，其中 Multi-Head Latent Attention 是為了提高模型效率，MoE 架構則能通過利用多專家能力來提高模型能力。DeepSeek-V3 把多專家架構加入輔助函數進行負載均衡的優化，同時也加入了強化學習進行增強。DeepSeek-R1 版本則是解決模型推理能力，它直接使用強化學習去指導思維鏈的生成，并通過知識蒸餾賦予小模型以更大的能力。

白婷指出， DeepSeek 所采用的技術并非獨創，此前學界和業界已經開始使用這些技術，甚至一些團隊的某些單項技術上做得比 DeepSeek 還要更好。“為什么 DeepSeek 能取得如此的成功和關注度？我想其中包含了許多大模型研究者都可望不可及的兩點：大量算力資源和大量高質量的訓練數據以及適宜的訓練策略。”她表示。算力無需多言，有實力的大公司在這方面基本不相上下。而華麗的文風或者說是 DeepSeek 的回復較其他模型更“像人”，則是因為受到了上述關鍵技術手段的影響，但更為關鍵核心要素則是高質量訓練數據、訓練策略和大量迭代優化的結果。

02?

數據即模型：數據質量帶動模型性能

2024 年 3 月，DeepSeek 公司的研究員陳德里曾在一場業界大會上發表過題為《和而不同：大語言模型價值觀對齊解耦化》的演講，演講中他提到：“在實際模型生產過程中，我們會進行模型的迭代式開發；即每輪的訓練結束之后，都會有一個獨立的測試團隊，對模型在上述各個維度上的安全性進行充分的測試，并給出反饋意見來指導進行下一個周期的數據迭代和模型訓練。”由此可見， DeepSeek 在模型數據方面一定有獨到之處。

（來源：https://maimai.cn/article/detail?fid=1826052238&efid=WRuDmSQ74-wciyw4PYW5Qw）

楊卓然指出，數據質量對模型訓練至關重要，不僅影響模型獲取和表達知識的能力，還決定了模型生成內容的風格和準確性。

其一，高質量數據可以提升模型表達和推理能力。優質數據包含準確、連貫且富有表現力的語言樣本。例如，包含鏈式思考（COT，Chain of Thought）數據可以引導模型在推理時進行反思，進而在生成回答時展現出清晰的邏輯和優美的語言表達。這正是模型能夠生成既準確又具有華麗文風的關鍵因素之一。

其二，高質量數據可以降低噪音和確保一致性。數據中的錯誤、噪音或不一致信息會導致模型生成內容出現語法或邏輯問題。高質量的數據則能有效減少這些問題，使模型更好地學習到語言規律，從而提高整體生成質量。

其三，高質量數據可以提升泛化能力。數據的多樣性和全面性使得模型在面對不同領域和任務時都能生成高質量的回答。豐富且準確的樣本幫助模型在多種場景下自如切換風格，無論是精煉的技術解答還是文采斐然的創意寫作，都能游刃有余。

其四，只需少量高質量數據就能顯著提高模型能力。最近一些論文比如《s1: Simple test-time scaling》和《LIMO: Less is More for Reasoning》也強調，數據質量極為關鍵。即便只有少量高質量的數據，也能顯著提升模型的能力，因為高質量數據中蘊含的信息更為準確和代表性，為模型提供了高效的學習信號。“這種‘精煉’數據不僅幫助模型在推理和生成上達到更高水準，還能更快收斂以及降低訓練成本。”楊卓然表示。

白婷也認同上述觀點。她表示：“以我們開發的百家智能體大模型（baijia.online）為例，我們在阿里 Qwen-7B 上的微調后的結果反超 DeepSeek-2.5-238B。”當通過收集大量低資源、分散的歷史語料，以此來構造訓練數據和訓練策略，此時模型基座的能力強弱就不再是取得決勝性因素的關鍵。也就是說，高質量訓練數據的使用能夠大大增強大模型在某一目標任務上的能力。事實上，DeepSeek 也有角色扮演的能力，比如它能很好地扮演李白。但是，對于低資源的人物，其效果就比較一般，所以數據質量和訓練策略是其背后的兩大原因。“比如我們開發的百家智能體大模型就采用了 RLAIF 的方式將高資源角色豐富的朝代、背景等信息遷移協同低資源人物的構造。”她說。

DeepSeek 的回復比其他模型更具某種風格，比如更加活潑、更加嚴謹等，這其實反映在工程師對于對話數據的構造和提示方式上。而對于模型生成內容質量的影響，一種是將所有數據都通過預訓練方式內化到模型內部，一種是通過檢索的方式將更加精準的知識召回。前者的泛化性很強，但是容易出現幻覺，畢竟龐大的知識會導致混亂，不能專而精深。而后者則是一種人機協同的方式，檢索的內容可以是人類構建的帶有一定可信度的網頁內容、史料等，使得大模型回復更加可信。

趙波也表示，數據質量對模型訓練起到決定性作用。可以說數據即模型，有多高質量的數據就可以得到多強大的模型。隨著訓練數據的不斷收集，大模型研究團隊對數據的關注逐漸從數據規模轉移到數據質量。大量實例證明：小規模高質量數據能夠訓練得到比大規模低質量數據更好的模型，并且訓練成本更低。趙波舉例稱，2023 年微軟的 Phi-2 模型使用“教科書質量”的訓練數據實現了小模型高性能。此外，合成數據也已成為大模型訓練數據的重要來源，通過合成可以低成本地獲得大量高質量數據。目前，主流大模型的訓練都使用了大量的合成數據。趙波和團隊也于 2023 年 7 月推出過針對多模態大模型訓練的百萬級高質量合成數據集 SVIT 等。

尾聲

白婷補充稱，無論是 AGI 還是 Agent, 其本質上都是模擬并超越人類這一目前最高等的智能體。從 DeepSeek 的設計上來看，不管是早期 DeepSeek-V2 版本中多專家 MoE 的群體決策，還是 DeepSeek-R1 版本中思維鏈的推理能力，知識蒸餾的學習能力的加強，都能很契合地對應到人類做出決策時的反應和采取的行為。但是，只有這些能力是遠遠不夠的，更高效強大的記憶系統、共情能力、反思進化能力、個性化能力，都是后期大模型發展、超越、服務人類時需要具備的能力。在此，也期待 DeepSeek 帶來更驚艷的表現。

參考資料：

https://mp.weixin.qq.com/s/QlJLnbPbb8weY-lqLYoOCg

https://chat.deepseek.com/sign_in

https://mp.weixin.qq.com/s/h3b8l45ZMOkMM4hxhvzUxA

https://maimai.cn/article/detail?fid=1826052238&efid=WRuDmSQ74-wciyw4PYW5Qw

排版：初嘉實

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.