本篇內容轉載自「錦秋集」
semianalysis寫了一篇文章,通過深入分析DeepSeek和Anthropic兩家公司的策略選擇,揭示了一個行業共同面臨的根本挑戰:計算資源的稀缺。
DeepSeek R1發布128天后的數據呈現出一個看似矛盾的現象:官方平臺用戶流失,但第三方托管的模型使用量卻暴增20倍。為什么用戶會拋棄價格極低的官方服務,轉而選擇第三方平臺?
本文通過Token經濟學這一分析框架找到了答案。
文章指出,AI服務的定價本質上是三個性能指標的權衡游戲。
第一是延遲,即用戶發送請求到收到第一個字符的等待時間;
第二是吞吐量,即模型每秒能生成多少個token,直接影響對話的流暢度;
第三是上下文窗口,決定了模型能"記住"多少對話歷史,對于分析長文檔或大型代碼庫至關重要。
關鍵洞察在于:通過調整這三個參數,服務商可以實現任何價格水平。
DeepSeek選擇了極端配置——數秒的延遲、每秒僅25個token的輸出速度、業界最小的64K上下文窗口,換取了極低的價格和最大化的研發資源。
有趣的是,作為西方AI領軍企業的Anthropic也面臨著相似的困境。Claude在編程領域的巨大成功反而加劇了計算資源的緊張,導致API輸出速度下降30%。為了應對這一挑戰,Anthropic不得不向亞馬遜和Google尋求大規模的計算支持。
本文超越了表面的價格戰和市場份額之爭,深入剖析了AI公司在計算資源、用戶體驗和技術發展之間的復雜權衡。
DeepSeek選擇犧牲用戶體驗換取研發資源,通過開源策略擴大影響力;Anthropic則通過提升"智能密度"來優化資源利用效率。這兩種截然不同卻同樣理性的策略,恰恰反映了計算資源作為AI時代"新石油"的根本性制約作用。
隨著推理云服務的崛起和AI應用的普及,如何在有限的計算資源下實現技術突破和商業成功的平衡,將成為決定AI公司命運的關鍵。這份報告為理解這一核心議題提供了極具洞察力的分析框架。
以下為原文內容。 原文:https://semianalysis.com/2025/07/03/deepseek-debrief-128-days-later/
超 9000 人的「AI 產品市集」社群!不錯過每一款有價值的 AI 應用。
邀請從業者、開發人員和創業者,飛書掃碼加群:
進群后,你有機會得到:
最新、最值得關注的 AI 新品資訊;
不定期贈送熱門新品的邀請碼、會員碼;
最精準的AI產品曝光渠道
盡管 AI 的進步通常被歸功于 transformers、RNNs 或 diffusion 等里程碑式的研究,但這種看法忽略了人工智能的根本瓶頸:數據。擁有好的數據意味著什么?
如果我們真心希望推動 AI 的發展,那我們應該研究的不是深度學習優化,而是互聯網本身?;ヂ摼W才是真正解鎖了 AI 模型規?;瘮U展(scaling)的技術。
DeepSeek R1發布至今已過去150多天。當時,它作為首個公開發布的、能與OpenAI推理能力相匹配的模型,震撼了整個股市和西方AI界。
然而,真正引發恐慌的是其極低的定價策略——輸入僅需0.55美元/百萬token,輸出僅需2.19美元/百萬token,比當時最先進的o1模型便宜了90%以上。市場擔心DeepSeek(乃至整個中國)會讓AI模型徹底商品化。
此后,推理模型的價格戰愈演愈烈,OpenAI最近也將旗艦模型降價80%。
值得注意的是,DeepSeek在發布后繼續通過強化學習(RL)不斷迭代升級。模型在多個領域都有顯著提升,尤其是編程能力。這種持續迭代改進正是我們之前分析過的AI發展新范式的典型特征。
今天,我們將深入分析DeepSeek對AI模型競賽格局的影響,以及當前AI市場份額的變化情況。
01AI熱潮之后的冷靜用戶增長的曇花一現
DeepSeek剛發布時,消費端應用流量確實出現了爆發式增長,市場份額急劇攀升。但需要注意的是,由于難以準確追蹤中國用戶數據,加上西方AI實驗室在中國無法訪問,以下數據實際上低估了DeepSeek的真實覆蓋范圍。
盡管如此,這種爆發式增長并未持續。與其他AI應用相比,DeepSeek的增長勢頭明顯放緩,市場份額開始下滑。
網頁端的數據更能說明問題——DeepSeek的流量自發布以來持續下降,而同期其他主要AI服務商的用戶數量都在穩步增長。
第三方平臺的逆勢增長
有趣的是,雖然DeepSeek自有平臺表現不佳,但在第三方平臺上托管的DeepSeek模型卻呈現完全不同的景象。R1和V3在第三方平臺的使用量持續飆升,比R1剛發布時增長了近20倍。
進一步分析數據發現,如果只看DeepSeek自己托管的token使用量,其在總token中的占比每月都在下降。
這就引出了一個關鍵問題:既然DeepSeek的模型越來越受歡迎,價格又極具競爭力,為什么用戶紛紛放棄官方平臺,轉向其他開源服務商?
答案就在token經濟學中。
02Token經濟學的奧秘理解AI服務的本質
在AI世界里,token是最基本的單位。AI模型通過閱讀互聯網上的token來學習,然后輸出文本、音頻、圖像或動作token。簡單來說,token就是文本的最小單位(比如"fan"、"tas"、"tic"),大語言模型處理的是這些小單位,而不是完整的詞或字母。
當黃仁勛(Jensen)談到數據中心變成AI工廠時,這些工廠的原料和產品都是token。就像傳統工廠一樣,AI工廠的盈利模式也遵循P×Q公式:P是每個token的價格,Q是輸入輸出token的總量。
但與傳統工廠不同的是,token價格并非固定不變。模型服務商可以根據以下三個關鍵指標來靈活調整定價:
三大關鍵性能指標(KPI)
延遲(Time-to-First-Token)指模型生成第一個token需要多長時間。技術上說,這是模型完成prefix階段(將輸入token編碼到KV Cache)并開始在decode階段產生第一個token所需的時間。
吞吐量(Throughput)或交互性指token的生成速度,通常以"每秒每用戶token數"來衡量。有些服務商也用TPOT(Time Per Output Token)這個反向指標。作為參考,人類閱讀速度約為每秒3-5個詞,而大多數模型的輸出速度設定在每秒20-30個token。
上下文窗口(Context Window)指模型的"短期記憶"容量——在遺忘早期對話內容之前,能保存多少token。不同應用場景需要不同大小的上下文窗口。比如,分析大型文檔或代碼庫就需要更大的上下文窗口,這樣模型才能完整理解并推理整個內容。
關鍵在于:通過調整這三個指標,服務商可以實現任何價格水平。因此,單純比較每百萬token的價格($/Mtok)意義不大,因為這忽略了實際應用場景和用戶需求。
03DeepSeek的策略選擇價格背后的真相
讓我們通過token經濟學的視角,分析DeepSeek為何在自家模型上逐漸失去市場份額。
從延遲與價格的關系圖可以看出,DeepSeek的官方服務已經不是同等延遲下最便宜的選擇。實際上,DeepSeek之所以能提供如此低價,主要是因為他們讓用戶等待數秒才能收到第一個token的響應。相比之下,其他服務商以同樣的價格提供服務,但響應時間快得多。
用戶可以選擇向Perplexity AI或Friendli支付2-3美元,獲得幾乎零延遲的服務。微軟Azure的價格雖然是DeepSeek的2.5倍,但延遲少了25秒。更糟糕的是,現在幾乎所有R1 0528實例都由延遲低于5秒的服務商托管。
如果我們再加入context window這個維度,DeepSeek的另一個妥協就顯而易見了。為了在有限的推理計算資源下提供超低價服務,他們只提供64K的context window——這是主流服務商中最小的。
較小的context window嚴重限制了編程等應用場景,因為這些場景需要模型記住大量代碼片段才能進行有效推理。在同樣的價格下,Lambda和Nebius等服務商能提供2.5倍大的context window。
硬件層面的權衡
通過對DeepSeek V3在AMD和NVIDIA芯片上的benchmark測試,我們可以看到服務商是如何優化每token成本的:通過在單個GPU或GPU集群上同時處理更多用戶請求(batching),服務商可以降低每token的成本,代價是用戶需要忍受更高的延遲和更慢的響應速度。
Batch size越大、throughput越低,每token成本就越低,但用戶體驗會大打折扣。
DeepSeek的真實意圖
需要明確的是,這是DeepSeek的主動選擇。他們并不想通過用戶服務賺錢,也不想通過聊天應用或API服務大量輸出token。公司的唯一目標是實現AGI(通用人工智能),對終端用戶體驗并不關心。
通過極高的batch率,他們將推理和對外服務所需的計算資源降到最低,從而將最大量的計算資源保留用于內部研發。正如我們之前分析的,出口管制確實限制了中國在大規模模型服務方面的能力。
在這種情況下,開源成為DeepSeek的最佳選擇。他們將計算資源留在內部,讓其他云服務商托管他們的模型,從而贏得全球影響力和市場采用率。雖然出口管制嚴重限制了中國大規模部署推理服務的能力,但并未同等程度地阻礙他們訓練優秀模型的能力——騰訊、阿里巴巴、百度甚至小紅書最近發布的成果都證明了這一點。
04Anthropic的相似困境計算資源的普遍瓶頸
在AI領域,計算資源就是一切。和DeepSeek一樣,Anthropic也面臨計算資源緊張的問題。
Anthropic將產品重點放在了編程領域,在Cursor等編程應用中獲得了廣泛采用。我們認為Cursor的使用情況是最好的評判標準,因為它反映了用戶最關心的兩個要素:成本和體驗。Anthropic在這方面已經保持領先地位超過一年——在AI行業,這相當于幾十年。
看到Cursor等token消費應用的成功后,Anthropic推出了Claude Code——一個集成在終端中的編程工具。Claude Code的使用量迅速增長,把OpenAI的Codex遠遠甩在了后面。
Google隨后也推出了類似工具:Gemini CLI。雖然功能相似,但Google憑借TPU的計算優勢,能夠免費為用戶提供超大的請求配額。
成功的代價
Claude Code雖然性能出色、設計精良,但成本高昂。從某種程度上說,Anthropic在編程領域的成功反而給公司帶來了巨大壓力——他們的計算資源捉襟見肘。
這一點在Claude 3.5 Sonnet的API輸出速度上表現得最為明顯。自發布以來,速度下降了30%,現在僅略高于每秒55個token。原因和DeepSeek如出一轍:為了用有限的計算資源處理海量請求,不得不提高batch處理規模。
編程應用通常需要更長的對話(更多token),這比普通聊天應用更加消耗計算資源。相比之下,o3和Gemini 2.5 Pro等競品的運行速度明顯更快,這反映出OpenAI和Google擁有更充足的計算資源。
尋求更多計算資源
Anthropic正在積極獲取更多計算資源,已經與亞馬遜達成了一項重大合作。
Anthropic將獲得超過50萬片Trainium芯片用于推理和訓練。不過這項合作仍在推進中——盡管外界普遍認為Claude 4是在AWS Trainium上預訓練的,但實際上它是用GPU和TPU訓練的。
Anthropic還向另一個主要投資方Google尋求計算支持,從GCP租用了大量計算資源,特別是TPU??吹竭@種模式的成功后,Google Cloud正在向其他AI公司推廣類似服務,最近還與OpenAI達成了協議。不過需要澄清的是,Google只向OpenAI提供GPU,而非TPU。
05效率可以彌補速度少即是多
雖然Claude的速度反映了計算資源限制,但Anthropic的整體用戶體驗仍優于DeepSeek。首先,雖然速度不快,但每秒55個token還是比DeepSeek的25個要好。其次,也是更重要的一點:Anthropic的模型回答問題所需的token數量遠少于其他模型。
這意味著盡管單個token的生成速度較慢,但用戶獲得完整答案的總時間反而更短。
雖然不同任務的情況有所不同,但Gemini 2.5 Pro和DeepSeek R1-0528的輸出量是Claude的3倍以上。在運行Artificial Analysis的綜合智能指數評測時,Gemini 2.5 Pro、Grok 3和DeepSeek R1使用的token數量明顯更多。Claude在所有主流推理模型中輸出token數最少,相比Claude 3.5 Sonnet有了顯著改進。
這個現象揭示了token經濟學的另一個維度:服務商不僅在提升模型智能,更在提升每個token的"智能密度"。
06推理云服務的崛起
隨著Cursor、Windsurf、Replit、Perplexity等"GPT Wrappers"或AI驅動應用走向主流,越來越多公司開始效仿Anthropic的模式——將token作為服務直接銷售,而不是像ChatGPT那樣打包成月度訂閱。
我們相信,隨著廉價計算資源的普及以及軟硬件的快速創新,這個封閉模式之外的長尾市場將持續增長,成為創新和AI普及的重要推動力。
以代碼生成為例,DeepSeek R1能力的提升極大地推動了應用普及。最新的R1版本0528在編程性能上比1月版本有了顯著提升。其他實驗室的推理模型也在穩步改進。
雖然OpenAI在這項特定benchmark中繼續保持領先,但R1在成本效益上的巨大優勢不容忽視。對于預算有限或需要處理大量任務的用戶來說,R1無疑值得一試。
OpenAI在6月將o3 API價格下調80%,可能是對封閉模式與開源方案之間價值差距日益擴大的默認。在Aider benchmark中,這將相對于R1的價格性能比從8-9倍降到了3-5倍。不過我們推測,這次降價的真正目標可能是Anthropic。
07關于DeepSeek R2延期的真相組織調整與發展
突如其來的關注讓DeepSeek措手不及。公司已將所有研發團隊從杭州遷至北京,運營人員數量翻了一倍多,以加強安全保障并應對媒體需求。
雖然組織結構發生了重大變化,但他們保持了核心團隊的高效運轉。比如,他們的招聘速度仍然遠超任何中國大型競爭對手。
延期的真正原因
有報道稱DeepSeek R2因出口管制而延期。雖然我們詳細討論過出口管制對中國AI生態的限制作用,但我們認為R2訓練延期并非因為出口管制——真正受限的是服務能力。
事實上,R1-0528相比之前版本取得了顯著進步,特別是在編程領域。這正是通過擴展RL(強化學習)計算實現的——OpenAI也是通過同樣的方法從o1發展到o3。DeepSeek的進步速度依然很快,特別是考慮到他們將大部分計算資源保留用于內部研究。
此外,訓練進度放緩可能還有其他原因,比如需要滿足額外的審查和安全要求。在中國,DeepSeek仍被視為"國家隊"——他們最近還為華為開發最新的Pangu(盤古)模型提供了技術支持。他們依然是開源模型領域的領軍者。
08結語
這份分析揭示了AI行業在計算資源、商業模式和技術發展之間的復雜平衡。DeepSeek選擇了一條獨特的道路:通過犧牲用戶體驗來最大化研發資源,通過開源策略擴大全球影響力。而Anthropic等公司則在資源限制下努力優化效率,提供更好的用戶體驗。
隨著推理云服務的興起和開源生態的發展,AI行業的競爭格局正在重塑。價格戰只是表象,真正的較量在于如何在有限資源下實現技術突破,以及如何在商業成功與技術理想之間找到平衡。
轉載原創文章請添加微信:founderparker
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.