AI算力的“軍備競賽”邏輯,正在被中國公司的算法創新改寫。
作者|王博 王藝
AI領域的Killer App(殺手級應用)出現了。
國產DeepSeek-R1模型發布不到一周,就讓發布不到12天的DeepSeek App沖到了蘋果APP store國區和美區免費總榜的第一名。
DeepSeek也引爆了海內外的社交網站,相比DeepSeek-R1剛發布時的大量技術分析和圈內討論,這次更多是用戶的實際使用體驗——DeepSeek破圈了。
游戲科學創始人、CEO,《黑神話:悟空》制作人馮驥直呼:“DeepSeek,可能是個國運級別的科技成果。”
圖片來源:馮驥 微博賬號
微軟CEO薩提亞·納德拉(Satya Nadella)在X上發帖稱:“隨著人工智能越來越高效,越來越容易獲得,我們將看到它的使用率急劇上升,成為我們用之不盡的商品。”而網友則直接給他留言:“這要歸功于DeepSeek。”
圖片來源:Satya Nadella X賬號
我們跟很多人聊過Killer App,也設想過Killer App產生的條件和場景,從第一性原理來說,Killer App的出現離不開模型能力的爆發。
但模型能力爆發后,如果普通人用不到也很難稱之為Killer App,比如需要付費才可使用接入了OpenAI o1模型的ChatGPT。DeepSeek-R1對標的就是OpenAI o1,而DeepSeek-R1開源、免費。
ChatGPT收費機制,圖片來源:OpenAI
DeepSeek的爆火告訴所有人,一個會思考、夠聰明、易使用且免費的AI應用就是Killer App。
在甲辰龍年的末尾,DeepSeek給AI行業添上了畫龍點睛的一筆。
但英偉達CEO黃仁勛的年怕是過不好了,截至美東時間1月27日上午11點,英偉達股票一度下挫超過13%,市值蒸發約4650億美元,創了美股市值蒸發紀錄。
英偉達股票走勢,圖片來源:Nasdaq
DeepSeek的技術特點「甲子光年」在一文中有過分析。其實在性能和開源之外,DeepSeek更讓硅谷震驚的,是其R1模型通過重新設計訓練流程,在保持高準確性的同時顯著降低了內存占用和計算開銷,僅用了少量的低端GPU(以A100為主)就實現了高端GPU(以H100為代表)才有的性能,這為原來以算力為核心邏輯驅動的大模型行業開辟了新的道路。
硅谷科技圈反應過來了,X上不少網友驚呼:DeepSeek是在戳美股泡沫啊,是在革英偉達的命啊!
一位名為Kakashiii網友發表暴論:“英偉達的一切都將開始瓦解。”目前,該帖文閱讀量已超過130萬次。
備注:Magnificent 7指的是Apple、Amazon、Microsoft、Alphabet、Meta、Tesla、NVIDIA這七大巨頭,圖片來源:@kakashiii111 X賬號
一旦大模型企業不再囤卡,不再搞算力的軍備競賽,英偉達的“壁壘”還會牢固嗎?
1.進擊的DeepSeek
kakashiii的話并不是危言聳聽。
一直以來,Scaling Law(規模法則)都是大模型發展的核心定律,大廠之間算力的軍備競賽也從未停止。微軟、谷歌、Meta、亞馬遜等大廠分別擁有幾十到上百萬塊H100,馬斯克也多次表示算力決定生死,為旗下的xAI搭建了10萬卡的訓練集群。
但是DeepSeek展現了“神秘的東方力量”,其在最近的一個月內接連發布了DeepSeek-V3基座模型和DeepSeek-R1系列推理模型。
其中,DeepSeek-V3僅用2048塊英偉達H800 GPU和557.6萬美元的成本,便完成了6710億參數模型的訓練,而同等規模的GPT-4訓練成本高達10億美元;
DeepSeek-R1則通過重新設計訓練流程、以“少量SFT數據+多輪強化學習”的辦法,在提高了模型準確性的同時,也顯著降低了內存占用和計算開銷——百萬輸入 tokens 1 元(緩存命中)/ 4 元(緩存未命中),每百萬輸出tokens 16元,大約是 OpenAI o1運行成本的三十分之一。
可以說,算法結構的優化,讓DeepSeek實現了完全的“降本增效”,直接對AI行業“堆砌算力”的既有模式發起了沖擊。
「甲子光年」分析,這一技術路徑的革新將帶來兩大影響。
AI初創企業生存模式將會轉變。一些依賴高價GPU集群的AI企業可能因成本劣勢破產,導致二手市場GPU供給激增,中小AI企業將會更傾向去購買更便宜的低端GPU。
硬件需求也將迎來結構性轉移。從去年開始,以訓練為主導的算力需求就在向推理側轉移,而今后,這種趨勢還將繼續,大量中小AI企業將不再訓練基座模型,轉而投向DeepSeek這樣的開源模型的懷抱。英偉達在訓練市場的地位也將面臨價值重估。
2.躍躍欲試的AMD
DeepSeek的技術突破意外成為AMD挑戰英偉達的“杠桿”。
1月25日,AMD宣布在其Instinct MI300X GPU上集成了全新的DeepSeek-V3模型,并與SGLang集成。這意味著AMD將聯合DeepSeek共建ROCm開源框架,通過優化推理性能和英偉達爭奪市場份額。
圖片來源:AMD X賬號
ROCm(Radeon Open Compute Platform)是AMD開發的一個開源軟件平臺,旨在為高性能計算(HPC)、人工智能(AI)和機器學習(ML)提供支持。它允許開發者在AMD的GPU上運行并行計算任務,類似于NVIDIA的CUDA平臺。
此前,美國初創云基礎設施企業TensorWave就與AMD的合作,通過利用AMD的硬件和ROCm軟件平臺,為AI用戶提供更為便捷和高效的計算解決方案。
TensorWave聯合創始人兼CEO達里克·霍頓(Darrick Horton)去年10月告訴科技媒體TechCrunch,AMD MI300X的價格要比英偉達H100便宜得多,而且基準測試顯示,MI300X在運行(但不訓練)AI模型時性能超越了H100,特別是在Llama 2這樣的文本生成模型上。
就在AMD宣布在其Instinct MI300X GPU上集成了全新的DeepSeek-V3模型后,TensorWave官方X賬號就轉發了AMD人工智能和嵌入式營銷負責人布萊恩·馬登(Bryan Madden)的評論“如果您想訪問MI300X集群,請與我們的朋友TensorWave聯系”。
DeepSeek的出現,進一步削弱了硬件綁定效應,再加上DeepSeek以MIT協議開源模型權重,允許開發者自由修改,昇騰、寒武紀、摩爾線程等其他芯片廠商也將有機會將DeepSeek集成到自己的平臺中,這些都對英偉達CUDA生態造成了潛在威脅。
更值得一提的是,DeepSeek采取的開源策略正在加速生態分化。通過發布基于Qwen、Llama開源模型的六個蒸餾“小模型”,DeepSeek支持在非CUDA的環境中進行模型微調;HuggingFace還發起了Open-R1項目,進一步推動了技術擴散。
圖片來源:HuggingFace
3.危與機并存的英偉達
Kakashiii發表的“英偉達的一切都將開始瓦解”的觀點也遭到了不少人的質疑。
亞馬遜云科技零售和消費類電子產品生成式人工智能主管邁克爾·康納(Michael Connor)就評論道:“強大的顯卡在訓練和推理中都是必需的,即使使用 DeepSeek。”
圖片來源:Michael Connor X賬號
一直比較看好英偉達的花旗分析師阿提夫·馬利克(Atif Malik)認為:“雖然 DeepSeek的成就可能是開創性的,但我們質疑的是,如果沒有使用先進的GPU對其進行微調或通過蒸餾技術構建最終模型所基于的底層LLMs,DeepSeek的成就就不可能實現。”
馬利克同時分析,雖然美國公司在最先進AI模型方面的主導地位可能會受到挑戰,但美國獲得更先進芯片的機會是一個優勢,因此他預計領先的AI企業不會放棄更先進的GPU。
“因為這些GPU在規模上能提供更具吸引力的$/TFLOPs(一個衡量計算性能性價比的指標) 。”馬利克說,“我們認為,星際之門(Stargate)等最近宣布的AI資本支出就是對先進芯片需求的回應。”
Panoptes Group前創始人、人工智能研究員、現牛津大學在讀博士JundeWu就表示,很多人擔心DeepSeek的低成本訓練會沖擊顯卡市場,但他認為是利好。
他的觀點之一是,很多人認為模仿DeepSeek就不需要那么多卡了,但其實DeepSeek-R1的低成本訓練方法也是可以Scaling的。在DeepSeek出來之前,其他大模型用PRM(Process Reward Model)的時候,由于需要額外的卡訓練PRM模型來監督推理過程,已經觀察到Scaling Law失效、邊際效應遞減了,但是DeepSeek的出現證明了多一張卡、性能就成正比提升,這對顯卡市場顯然是一種利好。
圖片來源:JundeWu X賬號
他的觀點之二是,很多人認為DeepSeek做的是推理,但其實DeepSeek-R1是通過后訓練,來訓練模型有更強的推理能力,這種訓練和預訓練對顯卡的需求沒有本質區別。
因此,JundeWu認為,未來對顯卡市場和Scaling Law最大的威脅不是模型,而是數據。
還有業內人士分析,雖然訓練消耗的算力較少,但是由于智能的持續升級和相應的用戶需求上升,推理模型也會需要更多的算力;另外,DeepSeek的技術將導致模型能力走向分化,只有那些擁有高端GPU的人才有能力創建更復雜的模型。
除了社交網絡上的討論,在更為私密和專業的小圈子里,對于此次DeepSeek-R1的爆紅和其對英偉達生態的影響的討論則更為理性。
「甲子光年」獲得的一份來自“拾象”的《DeepSeek-R1閉門學習討論》文件紀要中,就有參會者表示,DeepSeek-R1只是站在巨人的肩膀上取得的成功,但探索大模型最前沿的技術需要的時間和人力成本還要高很多,R1的出現并不代表以后的訓練成本會同時降低。
「甲子光年」分析,短期內英偉達仍握有三大優勢:
高端芯片的統治力:預計2025年英偉達從Blackwell架構產品線獲得的收入有可能會超過市場的預期,超過Hopper架構創造的記錄,最多可達到2100億美元的水平,而且大型云廠商的訂單已覆蓋未來數年產能。 CUDA生態壁壘:90%的AI開發者依賴CUDA平臺,遷移成本極高。 供應鏈控制:臺積電CoWoS(一種先進的半導體封裝技術)產能優先分配英偉達,2025年預計英偉達占據CoWoS總需求的63%,表明其在采用CoWoS技術方面的領導地位。
DeepSeek掀起的AI算力革命,并不是要替代英偉達,而是迫使行業重新思考算力投入的性價比。
模型進化帶來的算力革命,這其中有著太多不確定,但唯一確定的是:AI算力的“軍備競賽”邏輯,正在被中國公司的算法創新改寫。
(封面圖來源:電影《星際穿越》)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.