網易首頁 > 網易號 > 正文申請入駐

DeepSeek又悄悄升級了啥？

2025-03-25 19:47:09　來源: 搜狐科技

北京舉報

分享至

出品｜搜狐科技

作者｜梁昌均

編輯｜楊錦

“好得可怕?！边@是開發者在實測DeepSeek最新模型后作出的評價。

3月24日晚間，DeepSeek悄悄上線最新更新后的模型DeepSeek-V3-0324，參數為6850億，較去年12月發布的DeepSeek-V3的6710億參數有所增長。

根據公開信息，DeepSeek-V3-0324延續了V3的核心架構，即基于混合專家（MoE）模型設計，模型參數包括6710億的主模型和140億參數的MTP（多Token預測）模塊。

這款模型在開源社區Hugging Face亮相，但DeepSeek并未披露模型具體信息。DeepSeek官方也僅在用戶交流群進行了同步，官方渠道（公眾號、X平臺）等均未發布有關推文。

雖然DeepSeek保持低調，且將此次定位為小型升級，但依然在開發者社群引發不少關注。

根據多位測試者反饋來看，DeepSeek-V3-0324在編程能力、數學推理、創造性任務等方面性能有明顯提升，甚至優于Claude 3. 7系列，有評價認為其是“最強非推理模型”。

代碼能力進一步優化，超過Claude-3.7-Sonnet

“DeepSeek-V3-0324是最好的非推理代碼模型?！庇虚_發者實測反饋稱，其編碼能力已接近國際頂尖閉源模型Claude 3.7 Sonnet，尤其是在前端代碼生成和復雜邏輯處理中，表現出更高的準確性與流暢性。有用戶評測稱，其開發網站寫了800多行代碼且沒有出現任何錯誤。

在多個編程評測基準上，DeepSeek-V3-0324取得了不俗的成績。在開源社區的KCores大模型競技場評測中，DeepSeek-V3-0324的編碼能力位居第三，僅次于Claude-3.7-Sonnet-Thinking和Claude-3.5-Sonnet，超過了Claude-3.7-Sonnet、DeepSeek-R1、OpenAI-o1。此前，Claude-3.7-Sonnet被視為代碼能力最好用的模型。

在涵蓋C++、Java、Python等六種流行編程語言的測試?Aider polyglot中，這款模型得分接近R1、Claude 3.7，超過o3-mini的水平。

同時，DeepSeek-V3-0324的成本也遠遠低于這些模型，預估僅有R1的五分之一。可以說，DeepSeek在優化性能的同時，依然在成本層面下足了功夫，這可能與其模型架構的進一步優化調整有關。

有分析稱，這得益于DeepSeek進一步降低了激活參數，從而使得響應速度提升，同時資源消耗顯著降低。“免費開源，且超級快，很高興看到這些開源模型給大公司施加壓力，促使它們以更低的成本構建更好的模型。”有開發者表示。

同時，這款模式還針對數學推理進行了訓練后優化。在數學能力方面，有業內人士在測試后感覺，最新版本明顯加入了CoT（思維鏈）的訓練，可以認為有點“自適應思考”的意思?！皶鏊伎嫉挠媱?、反思和總結，但是思考比較克制，結果長度比深度思考模型要短?！?/p>

搜狐科技給DeepSeek-V3-0324上傳了2024年高新課標考數學的前8道選擇題，讓其進行解答，最終結果讓人震驚，全部正確！同時，它還給出了每道題的解題方法，且對稍微復雜的問題的結果還會進行驗證。

此前我們將前述題目用于測試ChatGPT-4o、阿里通義、字節豆包、百度文心一言、騰訊元寶、訊飛星火、智譜清言、月之暗面Kimi、百川百小應、MiniMax海螺AI等10款大模型時，表現最好的模型只答對了5道。

在創造性任務方面，多位博主測試顯示，DeepSeek-V3-0324在網站開發能力、UI設計等方面表現優秀，只需要簡單的文本提示就能快速開發各種網站、App，審美比肩目前全球最強的閉源代碼模型Claude 3.7 Sonnet思維鏈版本。

有博主對DeepSeekV3-0324、DeepSeek-V3、Claude 3.5、Claude 3.7下達了同樣的任務，要求創建HTML文件，以生成動畫天氣卡，表現風、雨、太陽、雪等元素，卡片深色背景，并包括一種在不同天氣條件之間切換的方法。該博主認為，DeepSeekV3-0324在指令遵循上最為完整，且視覺風格整體也相對較好。

（從上至下分別為DeepSeek-V3、Claude 3.5、Claude 3.7的結果）

“最好的非推理模型”

OpenAI和Anthropic麻煩了

需要強調的是，DeepSeek-V3-0324是一款非推理模型，而它的表現似乎已經超越了不少推理模型。開源社區GitHub上一個名為Misguided Attention的測試，這款模型排名第四，已經成為最好的非推理模型，得分相比此前的DeepSeek-V3提升了近100%。

該測試包含了如電車難題、薛定諤的貓等很多經典問題的改編版本，主要考驗大模型在面對誤導性信息時，能否不被表象迷惑，從而正確理解并處理。

DeepSeek-V3-0324相較DeepSeek-V3得分顯著提高，表明其在注意力分配機制有進一步優化，從而在面對誤導性信息時仍能抓住關鍵細節。

搜狐科技就對電車難題的改編版本進行了測試：假設在一個電車軌道上被綁了5個死了的人，而它的備用軌道上被綁了1個活著的人，又有一輛失控的電車飛速駛來，而你身邊正好有一個搖桿，你可以推動搖桿來讓電車駛入備用軌道，你會推嗎？

（經典電車難題：假設在一個電車軌道上被綁了5個人，而它的備用軌道上被綁了1個人，又有一輛失控的電車飛速駛來，而你身邊正好有一個搖桿，你可以推動搖桿來讓電車駛入備用軌道，你會推嗎？）

對于這個改編版本，DeepSeek-V3-0324經過了初始理解問題—關鍵信息解讀—可能的行動選擇—倫理分析—誤區與驗證—進一步思考—其他解釋—結論等步驟，最終做出回答，認為最合理的選擇是不推動搖桿，并給出了理由，整體篇幅多達2000字。

對比R1的回答，DeepSeek-V3-0324的前述思考過程類似R1的思維鏈過程，會考慮分析多種情況，并進行驗證，呈現出推理模型的一定特征。R1最后的結果更為簡潔，也選擇不推動搖桿，并似乎意識到這是經典電車難題的變形，顯然都沒有被誤導。

網易有道CEO周楓發文表示，現在模型廠商主基本都收斂到了基礎模型+深入思考模型的組合，DeepSeek、OpenAI、Claude都是如此?！盎A模型使用量比思考模型要大，而深入思考模型負責提供最高的質量，這樣組合起來用比較好?！?/p>

在部署方面，雖然DeepSeek-V3-0324的模型參數更大，但也能實現在高端消費級硬件運行。蘋果機器學習工程師Awni Hannun就基于MLX框架和4-bit量化，在512GB M3 Ultra實現了超過20 token/s的運行速度。

開發者工具創建者西蒙·威利森（Simon Willison）也在博客中提到，4-bit量化版本可將這款模型的存儲空間占用降至352GB，從而使其能夠在配備M3 Ultra芯片的Mac Studio等高端消費級硬件上運行。

此外，更讓開發者關注的是，DeepSeek還將這款最新模型的開源協議從此前的自定義開源許可更新為MIT協議，和DeepSeek-R1實現一致。

MIT是最簡單和寬松的開源協議，許可證文本更為簡潔，沒有專利授權和商標使用等復雜條款，且為完全開源，不限制商用，允許蒸餾，開發者將有更多自主權。

有評論認為，DeepSeek的策略體現了中國公司和西方公司在AI商業理念上的根本分歧。盡管OpenAI和Anthropic等美國領軍企業將模型置于付費門檻之后，但中國的AI公司卻日益傾向于采用寬松的開源許可。

開源還解決了中國AI公司面臨的算力挑戰，在有限計算資源下實現高性能，這種由需求驅動的創新現已成為潛在的競爭優勢。此前，DeepSeek-V3僅用不到560萬美元的訓練成本就實現媲美o1等領先模型，引發業內震動。

另有分析指出，DeepSeek-V3-0324有可能成為DeepSeek-R2的基礎模型，這遵循了DeepSeek 以往的模型發布模式，即基礎模型比專業推理模型早推出幾周。

此前就有消息稱，DeepSeek將在3月中旬發布DeepSeek-R2，后遭官方辟謠。有報道稱，R2將在多個關鍵領域實現突破，包括更出色的編程能力、多語言推理能力，以及更低的成本和更高的準確性。

“AI正在以驚人的速度發展，一個新的改變者已經進入賽場——DeepSeek正在AI社區掀起波瀾，與行業巨頭競爭。”有開發者直呼，OpenAI和Anthropic麻煩了。

除了DeepSeek-R2，市場還在等待OpenAI融合推理的GPT-5的到來，AI的競爭還將繼續。

運營編輯 |曹倩審核｜孟莎莎

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.