出品|搜狐科技
作者|梁昌均
編輯|楊錦
“好得可怕。”這是開發者在實測DeepSeek最新模型后作出的評價。
3月24日晚間,DeepSeek悄悄上線最新更新后的模型DeepSeek-V3-0324,參數為6850億,較去年12月發布的DeepSeek-V3的6710億參數有所增長。
根據公開信息,DeepSeek-V3-0324延續了V3的核心架構,即基于混合專家(MoE)模型設計,模型參數包括6710億的主模型和140億參數的MTP(多Token預測)模塊。
這款模型在開源社區Hugging Face亮相,但DeepSeek并未披露模型具體信息。DeepSeek官方也僅在用戶交流群進行了同步,官方渠道(公眾號、X平臺)等均未發布有關推文。
雖然DeepSeek保持低調,且將此次定位為小型升級,但依然在開發者社群引發不少關注。
根據多位測試者反饋來看,DeepSeek-V3-0324在編程能力、數學推理、創造性任務等方面性能有明顯提升,甚至優于Claude 3. 7系列,有評價認為其是“最強非推理模型”。
代碼能力進一步優化,超過Claude-3.7-Sonnet
“DeepSeek-V3-0324是最好的非推理代碼模型。”有開發者實測反饋稱,其編碼能力已接近國際頂尖閉源模型Claude 3.7 Sonnet,尤其是在前端代碼生成和復雜邏輯處理中,表現出更高的準確性與流暢性。有用戶評測稱,其開發網站寫了800多行代碼且沒有出現任何錯誤。
在多個編程評測基準上,DeepSeek-V3-0324取得了不俗的成績。在開源社區的KCores大模型競技場評測中,DeepSeek-V3-0324的編碼能力位居第三,僅次于Claude-3.7-Sonnet-Thinking和Claude-3.5-Sonnet,超過了Claude-3.7-Sonnet、DeepSeek-R1、OpenAI-o1。此前,Claude-3.7-Sonnet被視為代碼能力最好用的模型。
在涵蓋C++、Java、Python等六種流行編程語言的測試?Aider polyglot中,這款模型得分接近R1、Claude 3.7,超過o3-mini的水平。
同時,DeepSeek-V3-0324的成本也遠遠低于這些模型,預估僅有R1的五分之一。可以說,DeepSeek在優化性能的同時,依然在成本層面下足了功夫, 這可能與其模型架構的進一步優化調整有關。
有分析稱,這得益于DeepSeek進一步降低了激活參數,從而使得響應速度提升,同時資源消耗顯著降低。“免費開源,且超級快,很高興看到這些開源模型給大公司施加壓力,促使它們以更低的成本構建更好的模型。”有開發者表示。
同時,這款模式還針對數學推理進行了訓練后優化。在數學能力方面,有業內人士在測試后感覺,最新版本明顯加入了CoT(思維鏈)的訓練,可以認為有點“自適應思考”的意思。“會做思考的計劃、反思和總結,但是思考比較克制,結果長度比深度思考模型要短。”
搜狐科技給DeepSeek-V3-0324上傳了2024年高新課標考數學的前8道選擇題,讓其進行解答,最終結果讓人震驚,全部正確!同時,它還給出了每道題的解題方法,且對稍微復雜的問題的結果還會進行驗證。
此前我們將前述題目用于測試ChatGPT-4o、阿里通義、字節豆包、百度文心一言、騰訊元寶、訊飛星火、智譜清言、月之暗面Kimi、百川百小應、MiniMax海螺AI等10款大模型時,表現最好的模型只答對了5道。
在創造性任務方面,多位博主測試顯示,DeepSeek-V3-0324在網站開發能力、UI設計等方面表現優秀,只需要簡單的文本提示就能快速開發各種網站、App,審美比肩目前全球最強的閉源代碼模型Claude 3.7 Sonnet思維鏈版本。
有博主對DeepSeekV3-0324、DeepSeek-V3、Claude 3.5、Claude 3.7下達了同樣的任務,要求創建HTML文件,以生成動畫天氣卡,表現風、雨、太陽、雪等元素,卡片深色背景,并包括一種在不同天氣條件之間切換的方法。該博主認為,DeepSeekV3-0324在指令遵循上最為完整,且視覺風格整體也相對較好。
(從上至下分別為DeepSeek-V3、Claude 3.5、Claude 3.7的結果 )
“最好的非推理模型”
OpenAI和Anthropic麻煩了
需要強調的是,DeepSeek-V3-0324是一款非推理模型,而它的表現似乎已經超越了不少推理模型。開源社區GitHub上一個名為Misguided Attention的測試,這款模型排名第四,已經成為最好的非推理模型,得分相比此前的DeepSeek-V3提升了近100%。
該測試包含了如電車難題、薛定諤的貓等很多經典問題的改編版本,主要考驗大模型在面對誤導性信息時,能否不被表象迷惑,從而正確理解并處理。
DeepSeek-V3-0324相較DeepSeek-V3得分顯著提高,表明其在注意力分配機制有進一步優化,從而在面對誤導性信息時仍能抓住關鍵細節。
搜狐科技就對電車難題的改編版本進行了測試:假設在一個電車軌道上被綁了5個死了的人,而它的備用軌道上被綁了1個活著的人,又有一輛失控的電車飛速駛來,而你身邊正好有一個搖桿,你可以推動搖桿來讓電車駛入備用軌道,你會推嗎?
(經典電車難題:假設在一個電車軌道上被綁了5個人,而它的備用軌道上被綁了1個人,又有一輛失控的電車飛速駛來,而你身邊正好有一個搖桿,你可以推動搖桿來讓電車駛入備用軌道,你會推嗎?)
對于這個改編版本,DeepSeek-V3-0324經過了初始理解問題—關鍵信息解讀—可能的行動選擇—倫理分析—誤區與驗證—進一步思考—其他解釋—結論等步驟,最終做出回答,認為最合理的選擇是不推動搖桿,并給出了理由,整體篇幅多達2000字。
對比R1的回答,DeepSeek-V3-0324的前述思考過程類似R1的思維鏈過程,會考慮分析多種情況,并進行驗證,呈現出推理模型的一定特征。R1最后的結果更為簡潔,也選擇不推動搖桿,并似乎意識到這是經典電車難題的變形,顯然都沒有被誤導。
網易有道CEO周楓發文表示,現在模型廠商主基本都收斂到了基礎模型+深入思考模型的組合,DeepSeek、OpenAI、Claude都是如此。“基礎模型使用量比思考模型要大,而深入思考模型負責提供最高的質量,這樣組合起來用比較好。”
在部署方面,雖然DeepSeek-V3-0324的模型參數更大,但也能實現在高端消費級硬件運行。蘋果機器學習工程師Awni Hannun就基于MLX框架和4-bit量化,在512GB M3 Ultra實現了超過20 token/s的運行速度。
開發者工具創建者西蒙·威利森(Simon Willison)也在博客中提到,4-bit量化版本可將這款模型的存儲空間占用降至352GB,從而使其能夠在配備M3 Ultra芯片的Mac Studio等高端消費級硬件上運行。
此外,更讓開發者關注的是,DeepSeek還將這款最新模型的開源協議從此前的自定義開源許可更新為MIT協議,和DeepSeek-R1實現一致。
MIT是最簡單和寬松的開源協議,許可證文本更為簡潔,沒有專利授權和商標使用等復雜條款,且為完全開源,不限制商用,允許蒸餾,開發者將有更多自主權。
有評論認為,DeepSeek的策略體現了中國公司和西方公司在AI商業理念上的根本分歧。盡管OpenAI和Anthropic等美國領軍企業將模型置于付費門檻之后,但中國的AI公司卻日益傾向于采用寬松的開源許可。
開源還解決了中國AI公司面臨的算力挑戰,在有限計算資源下實現高性能,這種由需求驅動的創新現已成為潛在的競爭優勢。此前,DeepSeek-V3僅用不到560萬美元的訓練成本就實現媲美o1等領先模型,引發業內震動。
另有分析指出,DeepSeek-V3-0324有可能成為DeepSeek-R2的基礎模型,這遵循了DeepSeek 以往的模型發布模式,即基礎模型比專業推理模型早推出幾周。
此前就有消息稱,DeepSeek將在3月中旬發布DeepSeek-R2,后遭官方辟謠。有報道稱,R2將在多個關鍵領域實現突破,包括更出色的編程能力、多語言推理能力,以及更低的成本和更高的準確性。
“AI正在以驚人的速度發展,一個新的改變者已經進入賽場——DeepSeek正在AI社區掀起波瀾,與行業巨頭競爭。”有開發者直呼,OpenAI和Anthropic麻煩了。
除了DeepSeek-R2,市場還在等待OpenAI融合推理的GPT-5的到來,AI的競爭還將繼續。
運營編輯 |曹倩審核|孟莎莎
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.