DeepSeek小心，帝國反擊戰(zhàn)到來了

2025-02-26 19:44:39　來源: 直面派

北京舉報

分享至

DeepSeek R1引發(fā)的一場推理模型大作戰(zhàn)還在繼續(xù)，且參戰(zhàn)名單正隨著時間推移逐步拉長。

僅僅昨天一天時間之內(nèi)，這場戰(zhàn)局就又吸引來了4家明星大模型公司：先是阿里發(fā)布推理模型QwQ-Max-Preview預覽版，接著Anthropic宣布推出全球首個“混合推理”模型Claude 3.7 Sonnet，之后字節(jié)也被曝出豆包正在小范圍測試自研的深度思考型推理模型。

作為被各路對標的DeepSeek，也有了新動作。昨晚，路透社爆料稱，DeepSeek正在加速推出R2模型，該模型原計劃在5月初發(fā)布，但現(xiàn)在官方希望能盡早發(fā)布。

香港科技大學校董會主席、美國國家工程院外籍院士沈向洋在近期分享中指出，“對于大模型，之前的研究焦點是GPT模式，現(xiàn)在的焦點是Reasoner模式，這是一種新的學習范式。”

DeepSeek R1，無疑成了這場范式變革的重點參考對象。在此之前，騰訊也上線了自研的深度思考模型“混元T1”，百度文小言上線深度搜索功能，馬斯克的xAI也發(fā)布了帶有深度思考能力的Grok 3新模型。

就連OpenAI，都在DeepSeek壓力下，進一步開放了自家推理模型o1和o3-mini的思維鏈。

DeepSeek R1這塊投向推理側(cè)的大模型技術迭代新石子，其漣漪效應正逐漸擴散至全行業(yè)。這一幕頗像2023年行業(yè)對ChatGPT的追趕。彼時，科技大廠如百度、阿里，爭先發(fā)布自家大模型；王慧文攜5000萬美元振臂一呼，正式開啟了一場席卷全行業(yè)的大模型創(chuàng)業(yè)熱潮，楊植麟、王小川、李開復等先后創(chuàng)辦起月之暗面、百川智能、零一萬物等明星大模型公司，爭分奪秒搶奪市場融資并對外發(fā)布產(chǎn)品。

不過，在ChatGPT時刻到來后就落后一步的字節(jié)，如今在追趕DeepSeek時刻上又有了慢人一步的跡象。在國內(nèi)其他科技大廠已經(jīng)相繼完成深度思考能力的亮相后，字節(jié)的自研推理大模型才剛剛進入灰度測試階段。

DeepSeek R2新模型可能提早發(fā)布的消息，無疑又給字節(jié)上了上競爭強度。但好消息是，那些搶在字節(jié)前面發(fā)布推理模型的同行們，還沒來得及松一口氣就同樣又遭遇心頭一緊。

如同馬斯克著急推出半成品Grok 3一樣，阿里新推理模型QwQ-Max-Preview，也只是一個預覽版，而非正式版模型。

在LiveCodeBench編程測試中，QwQ-Max-Preview也只是小幅超越OpenAI o1中檔推理模型，以及DeepSeek R1 Preview預覽版（注意，不是DeepSeek R1正式版）。阿里官方介紹，QwQ-Max正式版將在后續(xù)推出。

如同DeepSeek R1是在V3基礎模型上訓練出來的一樣，QwQ-Max同樣基于阿里的旗艦版模型Qwen2.5-Max而來，后者是于1月29日發(fā)布的一款MoE稠密模型，在公開的基準測試中，官方稱其性能超越DeepSeek V3。

不同于阿里QwQ-Max-Preview，同一天發(fā)布的Anthropic新模型Claude 3.7 Sonnet，則是個徹徹底底的完整體，官方直接放出了多項評測指標對比。

在傳統(tǒng)基準測試項目中，Claude 3.7 Sonnet在指令遵循、通用推理、多模態(tài)能力以及智能體編碼方面的表現(xiàn)，都趕超了OpenAI o1和DeepSeek R1。

無論是馬斯克，還是阿里，在模型尚未完備之際就如此著急推出，秀技術肌肉之外，搶在DeepSeek前面，趁著對方多模態(tài)尚不完善之際，打出產(chǎn)品的差異化競爭優(yōu)勢，或許才是更重要的因素。

1月20日發(fā)布的DeepSeek R1，盡管支持深度思考的推理模式，但其并非一款多模態(tài)推理大模型，不支持圖片生成，也不支持語音模式。如在圖片識別上，DeepSeek R1所做到的識圖，更多是通過OCR掃描技術，簡單將圖片上的文字一一復制下來，無法理解文字之間的邏輯對應關系。

接入DeepSeek R1的騰訊，就利用DeepSeek R1的這一短板，在近期的元寶內(nèi)上線了圖生文功能，借助其自研模型的多模態(tài)能力加持，讓DeepSeek也可以理解圖片內(nèi)容。

馬斯克同樣預告了Grok 3的語音模式，提前測試過這一功能的希馮·齊利斯（Shivon Zilis）——Neuralink高管，同時也是和馬斯克育有一對雙胞胎的孩子媽，大贊和Grok 3進行的語音對話，稱“是我一生中最出乎意料、最值得的時光之一。”

堅持推出自家推理模型的背后，更是各家大模型廠商對用戶的一場全新爭奪戰(zhàn)。

DeepSeek的異軍突起，再次激發(fā)大廠對AI to C的重視。

在阿里發(fā)布推理模型QwQ-Max-Preview的公告中，一并透露的還有將發(fā)布Qwen Chat APP的消息，并稱其可能獨立于通義APP。阿里解釋稱，該專用APP將優(yōu)先考慮實時響應能力與流行生產(chǎn)力工具的集成，使全球受眾能夠使用先進的人工智能。

一旦成真，阿里也將成為全球大模型玩家中，首個內(nèi)部同時上線兩款AI助手應用的科技大廠。通義APP未能在用戶規(guī)模上打開局面的客觀現(xiàn)實，或許是促成阿里這一決策的重要背景。

在阿里打算重起爐灶之外，如騰訊、百度則選擇了接入DeepSeek來爭奪C端用戶。但這一舉措的潛在風險，依然不小。

目前，各家還都能依賴DeepSeek外溢的流量，吸引到用戶。一旦DeepSeek解決服務卡頓問題，這些用戶難免不會再次流失。

且這樣的危險信號已經(jīng)發(fā)出。據(jù)鳳凰網(wǎng)科技，目前DeepSeek官方通過技術優(yōu)化，已經(jīng)讓用戶在體驗側(cè)少了觸發(fā)服務繁忙的頻次。

歸根到底，通過自研大模型，在技術上帶來體驗突破，才是徹底留住用戶的最有效手段。這一策略，不僅適用于C端，同時更適用于對B端開發(fā)者群體的爭奪。

盡管如騰訊般，開始選擇徹底擁抱DeepSeek，并將開源的DeepSeek接入自家一系列產(chǎn)品，但面對這場涉及AIGC安卓夢想的爭奪，沒有大廠想要放棄。

過去兩年中，大模型給傳統(tǒng)應用帶來的體驗升級，讓越來越多人開始認同一種觀點，即所有應用都值得用大模型重做一遍。

基于上述共識，在自研大模型之余，科技大廠都相繼發(fā)布了自家的大模型服務平臺，既做淘金者，又爭當賣鏟子的人，都向著成為AIGC時代的安卓夢想發(fā)起沖鋒。

截至目前，包括騰訊、阿里、百度、字節(jié)在內(nèi)，一眾科技大廠都表達了仍會堅持大模型自研到底的決心。

為了繼續(xù)向AIGC時代的安卓夢想邁進，各家大廠為了聚攏開發(fā)者生態(tài)，都加快了在開源上的進度：阿里在QwQ-Max-Preview亮相后，同步宣布未來將以Apache2.0許可協(xié)議開源自家推理模型；國內(nèi)一直堅持閉源的百度，也開始重新?lián)肀ч_源路線。騰訊、字節(jié)也都在推動旗下垂類模型陸續(xù)開源。

另一邊的DeepSeek，同樣也沒閑著。在新一代模型尚未發(fā)布的間隙，面對競爭對手紛紛開源搶奪注意力的策略，DeepSeek選擇了加碼，相繼開源了FlashMLA代碼庫、DeepEP通信庫，以及FP8計算庫DeepGEMM把自己低成本高性能的訓練秘密公之于眾，讓有實力的開發(fā)者可以在H800等英偉達低效芯片基礎上，也能提高模型的運行效率。

同時，關閉20天的官方API充值服務也于2月25日恢復正常。據(jù)字母榜（ID：wujicaijing）獲悉，當天DeepSeek官方還發(fā)布了一則特別提示，稱“當前白天時段服務器資源依舊緊張，凌晨 0:30 到上午 8:30 相對空閑，若業(yè)務允許，建議開發(fā)者調(diào)整至該時段以獲得更為流暢的API調(diào)用體驗。”

被路透社同天曝光的R2新模型提速發(fā)布消息，則成了DeepSeek應對這輪推理模型競賽而拋出的新武器。

眼下，唯一沒有對外大范圍提供推理模型服務的科技大廠，只剩下了字節(jié)。

對大模型技術演進路線的判斷失誤，或許是字節(jié)沒能及時跟進推出新模型的原因之一。

據(jù)晚點LatePost報道，在近期的All Hands會上，字節(jié)CEO梁汝波反思道，DeepSeek R1創(chuàng)新點之一的長鏈思考模式不是業(yè)界首創(chuàng)，去年9月OpenAI o1發(fā)布長鏈思考模型、成為行業(yè)熱點后，字節(jié)就意識到了技術的重大變化，但 “沒有覺得要馬上復現(xiàn)出來......現(xiàn)在回頭看，如果一開始重大問題就爭先，我們有機會更早實現(xiàn)。”

這不是字節(jié)在大模型領域第一次錯判形勢。

ChatGPT爆火后，在去年初的All Hands會上，梁汝波就曾反思，“公司層面的半年度技術回顧，直到2023年才開始考慮GPT，而業(yè)內(nèi)做得比較好的大模型創(chuàng)業(yè)公司，都是在2018年至2021年創(chuàng)立的。”

當時，字節(jié)在大模型研發(fā)方面除了進度緩慢之外，內(nèi)部還一度將AI重心移向了細分垂直賽道的AI for Science。這直接導致字節(jié)在大模型推出時間上落后了百度、阿里一大截。

2022年11月ChatGPT發(fā)布之后，百度、阿里等國內(nèi)大廠相繼在2023年三四月份推出自研大模型文心和通義，但直到去年8月份，字節(jié)才對外亮相了云雀大模型（豆包大模型前身）。

在服務B端開發(fā)者群體上，字節(jié)也因此慢了一步。從2023年4月起，百度、阿里、騰訊相繼通過旗下云服務對外提供大模型接入服務。直到一年后的2024年5月，字節(jié)自主研發(fā)的豆包大模型才開始通過火山引擎正式對外提供服務。

好在，借助2024年大模型技術迭代趨緩的利好因素，字節(jié)在過去一年大力補課，不僅使得豆包一度成為國內(nèi)月活用戶最多的AI應用，而且從大模型性能到多模態(tài)布局，也都相繼追趕上了國內(nèi)頭部廠商。

進入2025年，DeepSeek R1引發(fā)的推理模型熱潮，則又一次將追趕壓力推到了字節(jié)面前。

稍顯不同的是，這次迎來壓力拷問的不只是字節(jié)一家。尤其隨著DeepSeek R2模型提早到來的動作，一眾科技大廠，都難逃再被DeepSeek對比的緊張氣氛。

歡迎在評論區(qū)留言~
如需開白請加小編微信：dongfangmark

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.