網易首頁 > 網易號 > 正文申請入駐

DeepSeek 復盤：128 天后，為什么用戶流量一直在下跌？

2025-07-13 10:34:31　來源: FounderPark

北京舉報

分享至

本篇內容轉載自「錦秋集」

semianalysis寫了一篇文章，通過深入分析DeepSeek和Anthropic兩家公司的策略選擇，揭示了一個行業共同面臨的根本挑戰：計算資源的稀缺。

DeepSeek R1發布128天后的數據呈現出一個看似矛盾的現象：官方平臺用戶流失，但第三方托管的模型使用量卻暴增20倍。為什么用戶會拋棄價格極低的官方服務，轉而選擇第三方平臺？

本文通過Token經濟學這一分析框架找到了答案。

文章指出，AI服務的定價本質上是三個性能指標的權衡游戲。

第一是延遲，即用戶發送請求到收到第一個字符的等待時間；

第二是吞吐量，即模型每秒能生成多少個token，直接影響對話的流暢度；

第三是上下文窗口，決定了模型能"記住"多少對話歷史，對于分析長文檔或大型代碼庫至關重要。

關鍵洞察在于：通過調整這三個參數，服務商可以實現任何價格水平。

DeepSeek選擇了極端配置——數秒的延遲、每秒僅25個token的輸出速度、業界最小的64K上下文窗口，換取了極低的價格和最大化的研發資源。

有趣的是，作為西方AI領軍企業的Anthropic也面臨著相似的困境。Claude在編程領域的巨大成功反而加劇了計算資源的緊張，導致API輸出速度下降30%。為了應對這一挑戰，Anthropic不得不向亞馬遜和Google尋求大規模的計算支持。

本文超越了表面的價格戰和市場份額之爭，深入剖析了AI公司在計算資源、用戶體驗和技術發展之間的復雜權衡。

DeepSeek選擇犧牲用戶體驗換取研發資源，通過開源策略擴大影響力；Anthropic則通過提升"智能密度"來優化資源利用效率。這兩種截然不同卻同樣理性的策略，恰恰反映了計算資源作為AI時代"新石油"的根本性制約作用。

隨著推理云服務的崛起和AI應用的普及，如何在有限的計算資源下實現技術突破和商業成功的平衡，將成為決定AI公司命運的關鍵。這份報告為理解這一核心議題提供了極具洞察力的分析框架。

以下為原文內容。原文：https://semianalysis.com/2025/07/03/deepseek-debrief-128-days-later/

超 9000 人的「AI 產品市集」社群！不錯過每一款有價值的 AI 應用。

邀請從業者、開發人員和創業者，飛書掃碼加群：

進群后，你有機會得到：

最新、最值得關注的 AI 新品資訊；
不定期贈送熱門新品的邀請碼、會員碼；
最精準的AI產品曝光渠道

盡管 AI 的進步通常被歸功于 transformers、RNNs 或 diffusion 等里程碑式的研究，但這種看法忽略了人工智能的根本瓶頸：數據。擁有好的數據意味著什么？

如果我們真心希望推動 AI 的發展，那我們應該研究的不是深度學習優化，而是互聯網本身?；ヂ摼W才是真正解鎖了 AI 模型規?；瘮U展（scaling）的技術。

DeepSeek R1發布至今已過去150多天。當時，它作為首個公開發布的、能與OpenAI推理能力相匹配的模型，震撼了整個股市和西方AI界。

然而，真正引發恐慌的是其極低的定價策略——輸入僅需0.55美元/百萬token，輸出僅需2.19美元/百萬token，比當時最先進的o1模型便宜了90%以上。市場擔心DeepSeek（乃至整個中國）會讓AI模型徹底商品化。

此后，推理模型的價格戰愈演愈烈，OpenAI最近也將旗艦模型降價80%。

值得注意的是，DeepSeek在發布后繼續通過強化學習（RL）不斷迭代升級。模型在多個領域都有顯著提升，尤其是編程能力。這種持續迭代改進正是我們之前分析過的AI發展新范式的典型特征。

今天，我們將深入分析DeepSeek對AI模型競賽格局的影響，以及當前AI市場份額的變化情況。

01AI熱潮之后的冷靜用戶增長的曇花一現

DeepSeek剛發布時，消費端應用流量確實出現了爆發式增長，市場份額急劇攀升。但需要注意的是，由于難以準確追蹤中國用戶數據，加上西方AI實驗室在中國無法訪問，以下數據實際上低估了DeepSeek的真實覆蓋范圍。

盡管如此，這種爆發式增長并未持續。與其他AI應用相比，DeepSeek的增長勢頭明顯放緩，市場份額開始下滑。

網頁端的數據更能說明問題——DeepSeek的流量自發布以來持續下降，而同期其他主要AI服務商的用戶數量都在穩步增長。

第三方平臺的逆勢增長

有趣的是，雖然DeepSeek自有平臺表現不佳，但在第三方平臺上托管的DeepSeek模型卻呈現完全不同的景象。R1和V3在第三方平臺的使用量持續飆升，比R1剛發布時增長了近20倍。

進一步分析數據發現，如果只看DeepSeek自己托管的token使用量，其在總token中的占比每月都在下降。

這就引出了一個關鍵問題：既然DeepSeek的模型越來越受歡迎，價格又極具競爭力，為什么用戶紛紛放棄官方平臺，轉向其他開源服務商？

答案就在token經濟學中。

02Token經濟學的奧秘理解AI服務的本質

在AI世界里，token是最基本的單位。AI模型通過閱讀互聯網上的token來學習，然后輸出文本、音頻、圖像或動作token。簡單來說，token就是文本的最小單位（比如"fan"、"tas"、"tic"），大語言模型處理的是這些小單位，而不是完整的詞或字母。

當黃仁勛（Jensen）談到數據中心變成AI工廠時，這些工廠的原料和產品都是token。就像傳統工廠一樣，AI工廠的盈利模式也遵循P×Q公式：P是每個token的價格，Q是輸入輸出token的總量。

但與傳統工廠不同的是，token價格并非固定不變。模型服務商可以根據以下三個關鍵指標來靈活調整定價：

三大關鍵性能指標（KPI）

延遲（Time-to-First-Token）指模型生成第一個token需要多長時間。技術上說，這是模型完成prefix階段（將輸入token編碼到KV Cache）并開始在decode階段產生第一個token所需的時間。
吞吐量（Throughput）或交互性指token的生成速度，通常以"每秒每用戶token數"來衡量。有些服務商也用TPOT（Time Per Output Token）這個反向指標。作為參考，人類閱讀速度約為每秒3-5個詞，而大多數模型的輸出速度設定在每秒20-30個token。
上下文窗口（Context Window）指模型的"短期記憶"容量——在遺忘早期對話內容之前，能保存多少token。不同應用場景需要不同大小的上下文窗口。比如，分析大型文檔或代碼庫就需要更大的上下文窗口，這樣模型才能完整理解并推理整個內容。

關鍵在于：通過調整這三個指標，服務商可以實現任何價格水平。因此，單純比較每百萬token的價格（$/Mtok）意義不大，因為這忽略了實際應用場景和用戶需求。

03DeepSeek的策略選擇價格背后的真相

讓我們通過token經濟學的視角，分析DeepSeek為何在自家模型上逐漸失去市場份額。

從延遲與價格的關系圖可以看出，DeepSeek的官方服務已經不是同等延遲下最便宜的選擇。實際上，DeepSeek之所以能提供如此低價，主要是因為他們讓用戶等待數秒才能收到第一個token的響應。相比之下，其他服務商以同樣的價格提供服務，但響應時間快得多。

用戶可以選擇向Perplexity AI或Friendli支付2-3美元，獲得幾乎零延遲的服務。微軟Azure的價格雖然是DeepSeek的2.5倍，但延遲少了25秒。更糟糕的是，現在幾乎所有R1 0528實例都由延遲低于5秒的服務商托管。

如果我們再加入context window這個維度，DeepSeek的另一個妥協就顯而易見了。為了在有限的推理計算資源下提供超低價服務，他們只提供64K的context window——這是主流服務商中最小的。

較小的context window嚴重限制了編程等應用場景，因為這些場景需要模型記住大量代碼片段才能進行有效推理。在同樣的價格下，Lambda和Nebius等服務商能提供2.5倍大的context window。

硬件層面的權衡

通過對DeepSeek V3在AMD和NVIDIA芯片上的benchmark測試，我們可以看到服務商是如何優化每token成本的：通過在單個GPU或GPU集群上同時處理更多用戶請求（batching），服務商可以降低每token的成本，代價是用戶需要忍受更高的延遲和更慢的響應速度。

Batch size越大、throughput越低，每token成本就越低，但用戶體驗會大打折扣。

DeepSeek的真實意圖

需要明確的是，這是DeepSeek的主動選擇。他們并不想通過用戶服務賺錢，也不想通過聊天應用或API服務大量輸出token。公司的唯一目標是實現AGI（通用人工智能），對終端用戶體驗并不關心。

通過極高的batch率，他們將推理和對外服務所需的計算資源降到最低，從而將最大量的計算資源保留用于內部研發。正如我們之前分析的，出口管制確實限制了中國在大規模模型服務方面的能力。

在這種情況下，開源成為DeepSeek的最佳選擇。他們將計算資源留在內部，讓其他云服務商托管他們的模型，從而贏得全球影響力和市場采用率。雖然出口管制嚴重限制了中國大規模部署推理服務的能力，但并未同等程度地阻礙他們訓練優秀模型的能力——騰訊、阿里巴巴、百度甚至小紅書最近發布的成果都證明了這一點。

04Anthropic的相似困境計算資源的普遍瓶頸

在AI領域，計算資源就是一切。和DeepSeek一樣，Anthropic也面臨計算資源緊張的問題。

Anthropic將產品重點放在了編程領域，在Cursor等編程應用中獲得了廣泛采用。我們認為Cursor的使用情況是最好的評判標準，因為它反映了用戶最關心的兩個要素：成本和體驗。Anthropic在這方面已經保持領先地位超過一年——在AI行業，這相當于幾十年。

看到Cursor等token消費應用的成功后，Anthropic推出了Claude Code——一個集成在終端中的編程工具。Claude Code的使用量迅速增長，把OpenAI的Codex遠遠甩在了后面。

Google隨后也推出了類似工具：Gemini CLI。雖然功能相似，但Google憑借TPU的計算優勢，能夠免費為用戶提供超大的請求配額。

成功的代價

Claude Code雖然性能出色、設計精良，但成本高昂。從某種程度上說，Anthropic在編程領域的成功反而給公司帶來了巨大壓力——他們的計算資源捉襟見肘。

這一點在Claude 3.5 Sonnet的API輸出速度上表現得最為明顯。自發布以來，速度下降了30%，現在僅略高于每秒55個token。原因和DeepSeek如出一轍：為了用有限的計算資源處理海量請求，不得不提高batch處理規模。

編程應用通常需要更長的對話（更多token），這比普通聊天應用更加消耗計算資源。相比之下，o3和Gemini 2.5 Pro等競品的運行速度明顯更快，這反映出OpenAI和Google擁有更充足的計算資源。

尋求更多計算資源

Anthropic正在積極獲取更多計算資源，已經與亞馬遜達成了一項重大合作。

Anthropic將獲得超過50萬片Trainium芯片用于推理和訓練。不過這項合作仍在推進中——盡管外界普遍認為Claude 4是在AWS Trainium上預訓練的，但實際上它是用GPU和TPU訓練的。

Anthropic還向另一個主要投資方Google尋求計算支持，從GCP租用了大量計算資源，特別是TPU?？吹竭@種模式的成功后，Google Cloud正在向其他AI公司推廣類似服務，最近還與OpenAI達成了協議。不過需要澄清的是，Google只向OpenAI提供GPU，而非TPU。

05效率可以彌補速度少即是多

雖然Claude的速度反映了計算資源限制，但Anthropic的整體用戶體驗仍優于DeepSeek。首先，雖然速度不快，但每秒55個token還是比DeepSeek的25個要好。其次，也是更重要的一點：Anthropic的模型回答問題所需的token數量遠少于其他模型。

這意味著盡管單個token的生成速度較慢，但用戶獲得完整答案的總時間反而更短。

雖然不同任務的情況有所不同，但Gemini 2.5 Pro和DeepSeek R1-0528的輸出量是Claude的3倍以上。在運行Artificial Analysis的綜合智能指數評測時，Gemini 2.5 Pro、Grok 3和DeepSeek R1使用的token數量明顯更多。Claude在所有主流推理模型中輸出token數最少，相比Claude 3.5 Sonnet有了顯著改進。

這個現象揭示了token經濟學的另一個維度：服務商不僅在提升模型智能，更在提升每個token的"智能密度"。

06推理云服務的崛起

隨著Cursor、Windsurf、Replit、Perplexity等"GPT Wrappers"或AI驅動應用走向主流，越來越多公司開始效仿Anthropic的模式——將token作為服務直接銷售，而不是像ChatGPT那樣打包成月度訂閱。

我們相信，隨著廉價計算資源的普及以及軟硬件的快速創新，這個封閉模式之外的長尾市場將持續增長，成為創新和AI普及的重要推動力。

以代碼生成為例，DeepSeek R1能力的提升極大地推動了應用普及。最新的R1版本0528在編程性能上比1月版本有了顯著提升。其他實驗室的推理模型也在穩步改進。

雖然OpenAI在這項特定benchmark中繼續保持領先，但R1在成本效益上的巨大優勢不容忽視。對于預算有限或需要處理大量任務的用戶來說，R1無疑值得一試。

OpenAI在6月將o3 API價格下調80%，可能是對封閉模式與開源方案之間價值差距日益擴大的默認。在Aider benchmark中，這將相對于R1的價格性能比從8-9倍降到了3-5倍。不過我們推測，這次降價的真正目標可能是Anthropic。

07關于DeepSeek R2延期的真相組織調整與發展

突如其來的關注讓DeepSeek措手不及。公司已將所有研發團隊從杭州遷至北京，運營人員數量翻了一倍多，以加強安全保障并應對媒體需求。

雖然組織結構發生了重大變化，但他們保持了核心團隊的高效運轉。比如，他們的招聘速度仍然遠超任何中國大型競爭對手。

延期的真正原因

有報道稱DeepSeek R2因出口管制而延期。雖然我們詳細討論過出口管制對中國AI生態的限制作用，但我們認為R2訓練延期并非因為出口管制——真正受限的是服務能力。

事實上，R1-0528相比之前版本取得了顯著進步，特別是在編程領域。這正是通過擴展RL（強化學習）計算實現的——OpenAI也是通過同樣的方法從o1發展到o3。DeepSeek的進步速度依然很快，特別是考慮到他們將大部分計算資源保留用于內部研究。

此外，訓練進度放緩可能還有其他原因，比如需要滿足額外的審查和安全要求。在中國，DeepSeek仍被視為"國家隊"——他們最近還為華為開發最新的Pangu（盤古）模型提供了技術支持。他們依然是開源模型領域的領軍者。

08結語

這份分析揭示了AI行業在計算資源、商業模式和技術發展之間的復雜平衡。DeepSeek選擇了一條獨特的道路：通過犧牲用戶體驗來最大化研發資源，通過開源策略擴大全球影響力。而Anthropic等公司則在資源限制下努力優化效率，提供更好的用戶體驗。

隨著推理云服務的興起和開源生態的發展，AI行業的競爭格局正在重塑。價格戰只是表象，真正的較量在于如何在有限資源下實現技術突破，以及如何在商業成功與技術理想之間找到平衡。

轉載原創文章請添加微信：founderparker

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.