新智元報(bào)道
編輯:Aeneas 好困
【新智元導(dǎo)讀】曾以低價(jià)高性能震撼市場(chǎng)的DeepSeek,為何在自家平臺(tái)遇冷,市場(chǎng)份額下滑?背后隱藏的「Token經(jīng)濟(jì)學(xué)」和這場(chǎng)精心策劃的戰(zhàn)略轉(zhuǎn)移,正悄然改變著AI的價(jià)值鏈與分發(fā)模式。
最近,全世界的大廠都在蠢蠢欲動(dòng)了!
GPT-5、Grok 4,甚至Claude,都已經(jīng)紛紛有了消息,一場(chǎng)惡戰(zhàn)仿佛就在眼前!
DeepSeek這邊,似乎也有新動(dòng)靜了。
就在昨天,一個(gè)疑似DeepSeek的新模型現(xiàn)身LM Arena。
也有人猜測(cè),這個(gè)模型更可能是DeepSeek V4,而DeepSeek R2會(huì)稍后發(fā)布。
套路很可能和之前是一樣的,先在第一個(gè)月發(fā)布V3,然后在下個(gè)月發(fā)布R1。
所以,曾經(jīng)轟動(dòng)全球AI圈的中國(guó)大模型DeepSeek R1,如今怎樣了?
到今天為止,DeepSeek R1已經(jīng)發(fā)布超過(guò)150天了。
當(dāng)時(shí)一經(jīng)問(wèn)世,它就以O(shè)penAI同等級(jí)的推理能力和低90%的價(jià)格而迅速出圈,甚至一度撼動(dòng)了西方的資本市場(chǎng)。
可是如今,它在用戶留存和官網(wǎng)流量上卻雙雙遇冷,市場(chǎng)份額持續(xù)下滑。
DeepSeek就這樣曇花一現(xiàn),紅極一時(shí)后迅速衰落了?
其實(shí)不然,在這背后,其實(shí)隱藏著另一條增長(zhǎng)曲線——
在第三方平臺(tái)上,R1已經(jīng)成爆炸性增長(zhǎng),這背后,正是折射出AI模型分發(fā)與價(jià)值鏈的悄然變革。
SemiAnalysis今天發(fā)布的這篇文章,挖出了不少一手的內(nèi)幕信息。
DeepSeek,盛極而衰?
DeepSeek發(fā)布后,消費(fèi)者應(yīng)用的流量一度激增,市場(chǎng)份額也隨之急劇上升。
為此,SemiAnalysis做出了下面這份統(tǒng)計(jì)曲線。
當(dāng)然,他們也承認(rèn),由于中國(guó)的用戶活動(dòng)數(shù)據(jù)難以追蹤,且西方實(shí)驗(yàn)室在中國(guó)無(wú)法運(yùn)營(yíng),下面這些數(shù)據(jù)實(shí)際上低估了DeepSeek的總覆蓋范圍。
不過(guò)即便如此,曾經(jīng)它爆炸性的增長(zhǎng)勢(shì)頭也未能跟上其他AI應(yīng)用的步伐,可以確定,DeepSeek的市場(chǎng)份額此后已然下滑。
而在網(wǎng)絡(luò)瀏覽器流量方面,它的數(shù)據(jù)就更為慘淡了:絕對(duì)流量一直在下降,但其他頂尖模型的用戶數(shù)卻噌噌飛漲,十分可觀。
不過(guò),雖然DeepSeek自家托管模型的用戶增長(zhǎng)乏力,但在第三方平臺(tái)那里,就完全是冰火兩重天了。
可以看到,R1和V3模型的總使用量一直在持續(xù)快速增長(zhǎng),自R1首次發(fā)布以來(lái),已經(jīng)增長(zhǎng)將近20倍!
如果進(jìn)一步深挖數(shù)據(jù),就會(huì)發(fā)現(xiàn):只看由DeepSeek自己托管的那部分Token流量,那它在總Token中的份額的確是逐月下降的。
那么,問(wèn)題來(lái)了:為何在DeepSeek模型本身越來(lái)越受歡迎、官方價(jià)格非常低廉的情況下,用戶反而從DeepSeek自家的網(wǎng)頁(yè)應(yīng)用和API流失,轉(zhuǎn)向了其他開(kāi)源提供商呢?
SemiAnalysis點(diǎn)出了問(wèn)題關(guān)鍵——
答案就在于「Token經(jīng)濟(jì)學(xué)」,以及在平衡模型服務(wù)的各項(xiàng)KPI時(shí)所做的無(wú)數(shù)權(quán)衡。
這些權(quán)衡意味著,每個(gè)Token的價(jià)格并非一個(gè)孤立的數(shù)字,而是模型提供商根據(jù)其硬件和模型配置,在對(duì)各項(xiàng)KPI進(jìn)行決策后得出的最終結(jié)果。
Token經(jīng)濟(jì)學(xué)基礎(chǔ)
我們都知道,Token是構(gòu)成AI模型的基本單元。AI模型通過(guò)讀取以Token為單位的互聯(lián)網(wǎng)信息進(jìn)行學(xué)習(xí),并以文本、音頻、圖像或行為指令等Token形式生成輸出。
所謂Token,就是像「fan」、「tas」、「tic」這樣的小文本片段。LLM在處理文本時(shí),并非針對(duì)完整的單詞或字母,而是對(duì)這些片段進(jìn)行計(jì)數(shù)和處理。
這些Token,便是老黃口中數(shù)據(jù)中心「AI工廠」的輸入和輸出。
如同實(shí)體工廠一樣,AI工廠也遵循一個(gè)「P x Q」(價(jià)格 x 數(shù)量)的公式來(lái)盈利:其中,P代表每個(gè) Token的價(jià)格,Q代表輸入和輸出Token的總量。
但與普通工廠不同,Token的價(jià)格是一個(gè)可變參數(shù),模型服務(wù)商可以根據(jù)其他屬性來(lái)設(shè)定這個(gè)價(jià)格。
以下,就是幾個(gè)關(guān)鍵的性能指標(biāo)(KPI)。
延遲(Latency)或首個(gè)Token輸出時(shí)間(Time-to-First-Token)
指模型生成第一個(gè)Token所需的時(shí)長(zhǎng)。這也可以理解為模型完成「預(yù)填充」階段(即將輸入提示詞編碼到KVCache中)并開(kāi)始在「解碼」階段生成第一個(gè)Token所需的時(shí)間。
吞吐量(Throughput)或交互速度(Interactivity)
指生成每個(gè)Token的速度,通常以「每個(gè)用戶每秒可生成的Token數(shù)量」來(lái)衡量。
當(dāng)然,有些服務(wù)商也會(huì)使用其倒數(shù)——即生成每個(gè)輸出Token的平均間隔時(shí)間(Time Per Output Token, TPOT)。
人類的閱讀速度約為每秒3-5個(gè)單詞,而大部分模型服務(wù)商設(shè)定的輸出速度約為每秒20-60個(gè)Token。
上下文窗口(Context Window)
指在模型「遺忘」對(duì)話的早期部分、并清除舊的Token之前,其「短期記憶」中能夠容納的Token數(shù)量。
不同的應(yīng)用場(chǎng)景需要大小各異的上下文窗口。
例如,分析大型文檔和代碼庫(kù)時(shí),就需要更大的上下文窗口,以確保模型能夠?qū)A繑?shù)據(jù)進(jìn)行連貫的推理。
對(duì)于任何一個(gè)給定的模型,你都可以通過(guò)調(diào)控這三大KPI,設(shè)定出幾乎任何價(jià)位的單位Token價(jià)格。
因此,單純基于「每百萬(wàn)Token的價(jià)格」($/Mtok)來(lái)討論優(yōu)劣,并沒(méi)有什么意義,因?yàn)檫@種方式忽略了具體工作負(fù)載的性質(zhì),以及用戶對(duì)Token的實(shí)際需求。
DeepSeek的策略權(quán)衡
所以,DeepSeek在R1模型服務(wù)上采用了何種Token經(jīng)濟(jì)學(xué)策略,以至于市場(chǎng)份額會(huì)不斷流失?
通過(guò)對(duì)比延遲與價(jià)格的關(guān)系圖,可以看到,在同等延遲水平上,DeepSeek的自有服務(wù)已不再是價(jià)格最低的選擇。
事實(shí)上,DeepSeek之所以能提供如此低廉的價(jià)格,一個(gè)重要原因在于,用戶等待數(shù)秒后,才能收到模型返回的第一個(gè)Token。
相比之下,其他服務(wù)商的延遲會(huì)短得多,價(jià)格卻幾乎沒(méi)有差別。
也就是說(shuō),Token消費(fèi)者只需花費(fèi)2-4美元,就能從Parasail或Friendli這類服務(wù)商那里,獲得近乎零延遲的體驗(yàn)。
同樣,微軟Azure的服務(wù)價(jià)格雖比DeepSeek高2.5倍,但延遲卻減少了整整25秒。
這樣看來(lái),DeepSeek現(xiàn)在面臨的處境就尤為嚴(yán)峻了。
原因在于,現(xiàn)在幾乎所有托管R1 0528模型的實(shí)例都實(shí)現(xiàn)了低于5秒的延遲。
沿用同一圖表,但這次我們將上下文窗口的大小用氣泡面積來(lái)表示。
從中可以看到,DeepSeek為了用有限的推理算力資源來(lái)提供低價(jià)模型,所做的另一項(xiàng)權(quán)衡。
他們采用的64K上下文窗口,幾乎是主流模型服務(wù)商中最小的之一。
較小的上下文窗口限制了編程等場(chǎng)景的發(fā)揮,因?yàn)檫@類任務(wù)需要模型能夠連貫地記憶代碼庫(kù)中的大量Token,才能進(jìn)行有效推理。
從圖表中可見(jiàn),若花費(fèi)同樣的價(jià)格,用戶可以從Lambda和Nebius等服務(wù)商那里獲得超過(guò)2.5倍的上下文窗口大小。
如果深入硬件層面,在AMD和英偉達(dá)芯片上對(duì)DeepSeek V3模型的基準(zhǔn)測(cè)試,就可以看清服務(wù)商是如何確定其「每百萬(wàn)Token價(jià)格」($/Mtok)的——
模型服務(wù)商會(huì)通過(guò)在單個(gè)GPU或GPU集群上同時(shí)處理更多用戶的請(qǐng)求(即「批處理」),來(lái)降低單位Token的總成本。
這種做法的直接后果,就是終端用戶需要承受更高的延遲和更慢的吞吐量,從而導(dǎo)致用戶體驗(yàn)急劇下降。
之所以DeepSeek完全不關(guān)心用戶的體驗(yàn)到底如何,實(shí)際上是一種主動(dòng)作出的戰(zhàn)略選擇。
畢竟,從終端用戶身上賺錢,或是通過(guò)聊天應(yīng)用和API來(lái)消耗大量Token,并不是他們的興趣所在。
這家公司的唯一焦點(diǎn)就是實(shí)現(xiàn)AGI!
而通過(guò)采用極高批處理方式,DeepSeek可以最大限度地減少用于模型推理和對(duì)外服務(wù)的計(jì)算資源消耗,從而將盡可能多的算力保留在公司內(nèi)部,從而用于研發(fā)。
另外還有一點(diǎn):出口管制也限制了中國(guó)AI生態(tài)系統(tǒng)在模型服務(wù)方面的能力。
因此,對(duì)DeepSeek而言,開(kāi)源就是最合乎邏輯的選擇:將寶貴的計(jì)算資源留作內(nèi)部使用,同時(shí)讓其他云服務(wù)商去托管其模型,以此贏得全球市場(chǎng)的認(rèn)知度和用戶基礎(chǔ)。
不過(guò),SemiAnalysis也承認(rèn),這卻并沒(méi)有削弱中國(guó)公司訓(xùn)練模型的能力——無(wú)論是騰訊、阿里、百度,還是小紅書(shū)最近發(fā)布的新模型,都證明了這一點(diǎn)。
Anthropic也一樣?
和DeepSeek一樣,Anthropic的算力也是同樣受限的。
可以看到,它產(chǎn)品研發(fā)的重心顯然放在了編程上,而且已經(jīng)在Cursor等應(yīng)用中大放異彩。
Cursor的用戶使用情況,就是評(píng)判模型優(yōu)劣的終極試金石,因?yàn)樗苯臃从沉擞脩糇铌P(guān)心的兩個(gè)問(wèn)題——成本與體驗(yàn)。
而如今,Anthropic的模型已雄踞榜首超過(guò)一年——在瞬息萬(wàn)變的AI行業(yè)里,這個(gè)時(shí)長(zhǎng)仿佛已經(jīng)如十年。
而在Cursor上大獲成功后,Anthropic立馬順勢(shì)推出了Claude Code,一款集成在終端里的編程工具。
它的用戶量一路飆升,將OpenAI的Codex模型遠(yuǎn)遠(yuǎn)甩在身后。
為了對(duì)達(dá)Claude Code,谷歌也緊急發(fā)布了Gemini CLI。
它與Claude Code功能相似,但因?yàn)楸晨抗雀鑄PU,卻有非凡的算力優(yōu)勢(shì)——用戶能免費(fèi)使用的額度,幾乎無(wú)上限。
不過(guò),盡管Claude Code的性能和設(shè)計(jì)都十分出色,價(jià)格卻不菲。
Anthropic在編程上的成功,反而給公司帶來(lái)了巨大壓力——他們?cè)谒懔ι弦呀?jīng)捉襟見(jiàn)肘。
這一點(diǎn),在Claude 4 Sonnet的API輸出速度上就已經(jīng)體現(xiàn)得淋漓盡致。自發(fā)布以來(lái),它的生成速度已下降了40%,略高于每秒45個(gè)Token。
背后的原因,也和DeepSeek如出一轍——為了在有限的算力下處理所有涌入的請(qǐng)求,他們不得不提高批處理的速率。
此外,編程類的使用場(chǎng)景往往涉及更長(zhǎng)的對(duì)話和更多的Token數(shù)量,這就進(jìn)一步加劇了算力的緊張狀況。
無(wú)論是何種原因,像o3和Gemini 2.5 Pro這類對(duì)標(biāo)模型的運(yùn)行速度要快得多,這也反映出OpenAI和谷歌所擁有的算力規(guī)模要龐大得多。
現(xiàn)在,Anthropic正集中精力獲取更多算力,已經(jīng)和亞馬遜達(dá)成了協(xié)議。它將獲得超過(guò)五十萬(wàn)枚Trainium芯片,用于模型訓(xùn)練和推理。
另外,Claude 4模型并非在AWS Trainium上預(yù)訓(xùn)練的,而是在GPU和TPU上訓(xùn)練。
速度劣勢(shì)可由效率彌補(bǔ)
Claude 的生成速度雖然暴露了其算力上的局限,但總體而言,Anthropic的用戶體驗(yàn)(UX)要優(yōu)于 DeepSeek。
首先,其速度雖然偏低,但仍快于DeepSeek的每秒25個(gè)Token。
其次,Anthropic的模型回答同一個(gè)問(wèn)題所需的Token數(shù)量遠(yuǎn)少于其他模型。
這意味著,盡管生成速度不占優(yōu),用戶實(shí)際感受到的端到端響應(yīng)時(shí)間反而顯著縮短了。
值得一提的是,在所有領(lǐng)先的推理模型中,Claude的總輸出Token量是最低的。
相比之下,Gemini 2.5 Pro和DeepSeek R1 0528等模型的輸出內(nèi)容,「啰嗦」程度都是Claude的三倍以上。
Token經(jīng)濟(jì)學(xué)的這一方面揭示出,服務(wù)商正在從多個(gè)維度上改進(jìn)模型,其目標(biāo)不再僅僅是提升智能水平,而是致力于提高「每單位Token所承載的智能」。
隨著Cursor、Windsurf、Replit、Perplexity等一大批「GPT套殼」應(yīng)用(或稱由AI Token驅(qū)動(dòng)的應(yīng)用)迅速流行并獲得主流市場(chǎng)的認(rèn)可。
我們看到,越來(lái)越多的公司開(kāi)始效仿Anthropic的模式,專注于將Token作為一種服務(wù)來(lái)銷售,而不是像ChatGPT那樣以月度訂閱的方式打包。
參考資料:
https://semianalysis.com/2025/07/03/deepseek-debrief-128-days-later/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.