AI芯片的戰(zhàn)場正經(jīng)歷從“單一算力崇拜”到“場景化適配”的深刻轉(zhuǎn)向。
01
GPU的黃昏?訓(xùn)練市場的壟斷與瓶頸
自2010年斯坦福大學(xué)吳恩達(dá)團(tuán)隊(duì)首次用GPU加速深度學(xué)習(xí)訓(xùn)練以來,NVIDIA通過CUDA生態(tài)構(gòu)建了一道看似不可逾越的護(hù)城河。
從編程框架、編譯器到開發(fā)者社區(qū),CUDA將GPU的并行計(jì)算能力轉(zhuǎn)化為AI開發(fā)的“操作系統(tǒng)”,讓開發(fā)者如同在Windows上寫代碼般自然。這種軟硬件協(xié)同的生態(tài)霸權(quán),使得AMD、Intel等競爭對手即使推出同等算力的芯片,也難以撼動其統(tǒng)治地位。
NVIDIA盡享訓(xùn)練芯片市場紅利
然而,當(dāng)AI模型參數(shù)從GPT-3的1750億膨脹到GPT-5的數(shù)十萬億,當(dāng)單臺服務(wù)器需要搭載8塊功耗700W的H100芯片才能滿足訓(xùn)練需求時(shí),GPU的“暴力計(jì)算”模式開始顯露出致命裂痕。
目前在訓(xùn)練階段,訓(xùn)練集群對加速計(jì)算芯片的需求已提升到萬卡級別。然而,一塊H100售價(jià)超過2萬美元,但推理任務(wù)的單位算力成本是訓(xùn)練的5倍以上。OpenAI聯(lián)合創(chuàng)始人Ilya Sutskever的警告一語成讖:“當(dāng)數(shù)據(jù)紅利耗盡,算力必須從堆規(guī)模轉(zhuǎn)向摳效率?!?/p>
02
與時(shí)俱進(jìn),推理芯片的逆襲
在全球AI市場面對以GPU為代表的訓(xùn)練芯片感到壓力時(shí),隨著DeepSeek的出現(xiàn),全球AI算力市場迎來歷史性拐點(diǎn)。以DeepSeek-7B為代表的開源模型推動推理需求激增,單個(gè)千億級大模型落地需配套5-10倍推理芯片投入,而屬于ASIC陣營的推理芯片憑借低延遲、高能效的優(yōu)勢開始嶄露頭角。
在推理階段,AI模型已訓(xùn)練完成,需要對輸入的數(shù)據(jù)進(jìn)行快速地預(yù)測和分類。此時(shí)對芯片的計(jì)算精度要求相對較低,但對計(jì)算速度、能效和成本等要求較高。ASIC正好滿足這些需求,其高度定制化的設(shè)計(jì)能針對推理任務(wù)進(jìn)行優(yōu)化,以較低的功耗實(shí)現(xiàn)快速的推理計(jì)算,且在大規(guī)模部署的場景下,ASIC的成本優(yōu)勢更加明顯。
但ASIC也有開發(fā)周期長且靈活性差的劣勢,由于ASIC的設(shè)計(jì)和制造是針對特定算法和應(yīng)用場景進(jìn)行的,一旦設(shè)計(jì)完成其功能就固化下來,難以對芯片的功能和性能進(jìn)行修改和升級,如果AI算法發(fā)生較大變化,ASIC可能無法快速適應(yīng)這種變化。
此外,ASIC的生態(tài)系統(tǒng)還不夠完善,開發(fā)者在使用ASIC時(shí)可能需要花費(fèi)更多時(shí)間和精力去搭建開發(fā)環(huán)境、編寫底層代碼等,開發(fā)難度較大。
訓(xùn)練與推理算力集群差異
這樣的陣營特性,決定訓(xùn)練與推理芯片兩者的關(guān)系絕非替代,而是通過差異化的功能定位,共同推動AI生態(tài)的發(fā)展,如英偉達(dá)Jetson系列針對邊緣端推理優(yōu)化,而英特爾Movidius則專攻視覺推理場景。從這個(gè)角度看,推理芯片更像是“應(yīng)用引擎”,雖然計(jì)算強(qiáng)度較低,但對低延遲、低功耗要求苛刻。
03
從“大腦”到“觸角”的技術(shù)分工
AI芯片的演化始終圍繞模型訓(xùn)練與模型推理兩大核心任務(wù),訓(xùn)練芯片如同人工智能的“大腦”,負(fù)責(zé)通過海量數(shù)據(jù)構(gòu)建復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型,必須具備高精度浮點(diǎn)運(yùn)算能力(如FP32/FP16)和通用性,以支持多樣化算法開發(fā),而推理芯片則是模型的“觸角”,在商業(yè)化落地中直接處理用戶輸入數(shù)據(jù),強(qiáng)調(diào)單位能耗算力、低時(shí)延與成本控制。
作為AI系統(tǒng)的“大腦”,訓(xùn)練芯片承擔(dān)著構(gòu)建神經(jīng)網(wǎng)絡(luò)模型的核心任務(wù)。這類芯片需要處理TB級的多模態(tài)數(shù)據(jù),在反向傳播算法中反復(fù)調(diào)整數(shù)十億參數(shù),這對計(jì)算精度和通用性提出了嚴(yán)苛要求。以英偉達(dá)A100為代表的GPU架構(gòu),憑借高達(dá)6912個(gè)CUDA核心的并行計(jì)算能力,將混合精度訓(xùn)練(FP32/FP16)的效率提升到新高度。
當(dāng)訓(xùn)練完成的模型投入實(shí)際應(yīng)用時(shí),推理芯片就成為連接數(shù)字智能與現(xiàn)實(shí)世界的“觸角”。這類芯片需要將計(jì)算效能轉(zhuǎn)化為商業(yè)價(jià)值,尤其是當(dāng)模型部署至智能手機(jī)或無人機(jī)時(shí),定制化ASIC芯片憑借硬件級優(yōu)化成為更優(yōu)選擇。
訓(xùn)練芯片與推理芯片在技術(shù)路線上“分道揚(yáng)鑣”
04
從“一超多強(qiáng)”到“群雄割據(jù)”
訓(xùn)練芯片領(lǐng)域仍呈現(xiàn)“一超多強(qiáng)”格局,英偉達(dá)占據(jù)絕對優(yōu)勢,其A100/H100系列GPU因支持大規(guī)模分布式訓(xùn)練成為行業(yè)標(biāo)配。但AMD的MI300系列、谷歌TPU及云廠商自研芯片(如AWS Inferentia)正通過差異化算力方案爭奪份額,而推理芯片市場格局就有些“群雄割據(jù)”的味道了。
與訓(xùn)練芯片的“高算力、高成本”不同,推理芯片市場因“低功耗、實(shí)時(shí)響應(yīng)”需求催生了技術(shù)路線的百花齊放。在推理芯片市場,傳統(tǒng)GPU廠商(英偉達(dá)、AMD)、ASIC專用芯片(如華為昇騰、Groq LPU)、FPGA方案(英特爾)以及終端SoC(如高通AI引擎)形成多元競爭。
這一碎片化格局的背后,是推理需求的爆炸式增長與成本敏感性的雙重驅(qū)動,如華為昇騰通過昇騰計(jì)算生態(tài)構(gòu)建全棧解決方案,已在智慧城市、自動駕駛等領(lǐng)域落地;而初創(chuàng)企業(yè)如SambaNova則聚焦于稀疏化模型推理優(yōu)化。值得關(guān)注的是,美國對A100/H100的出口限制加速了國內(nèi)廠商崛起,寒武紀(jì)、海光信息等企業(yè)正縮小技術(shù)代差。
同時(shí),在AI算力需求爆發(fā)式增長的背景下,推理芯片的競爭邏輯已發(fā)生根本性轉(zhuǎn)變。硬件性能的“紙面參數(shù)”不再是唯一衡量標(biāo)準(zhǔn),能否構(gòu)建“模型-芯片-工具鏈”的閉環(huán)生態(tài),正成為決定市場勝負(fù)的關(guān)鍵,但軟件生態(tài)的完善需要開發(fā)者社區(qū)的長期培育,即便是AWS、谷歌TPU這樣的科技巨頭自研芯片,也受限于工具鏈成熟度,難以吸引外部開發(fā)者,這讓開源與閉源的融合成為新趨勢。
開源框架(如PyTorch)為開發(fā)者提供創(chuàng)新空間,而閉源工具鏈(如TensorRT)則通過深度優(yōu)化保障性能。華為昇騰、寒武紀(jì)等企業(yè)亦在探索類似路徑,前者為昇騰推出的MindStudio開發(fā)平臺,集成模型壓縮、量化、編譯全流程工具,成功降低了算法工程師的部署成本,并顯著提升了模型推理效率。
市面主流GPU與ASIC規(guī)格對比
值得一提的是DeepSeek開源模型家族也通過FlashMLA、DeepEP等工具鏈,將昇騰、沐曦等20余家國產(chǎn)芯片的適配周期縮短至20天。無問芯穹的Infini-AI平臺進(jìn)一步打通壁仞、燧原等七大國產(chǎn)芯片的異構(gòu)算力池,開發(fā)者可一鍵調(diào)用預(yù)優(yōu)化模型權(quán)重,成功提升部署效率。這種開源驅(qū)動的“滾雪球效應(yīng)”,加速了國產(chǎn)芯片生態(tài)從被動適配轉(zhuǎn)向主動定義標(biāo)準(zhǔn)。
05
點(diǎn)評
權(quán)力游戲的終章?
AI芯片之爭并非零和博弈。訓(xùn)練與推理的雙極需求,決定了GPU與ASIC將長期共存。NVIDIA的通用霸權(quán)與博通的專用效率,正共同推動AI從“實(shí)驗(yàn)室模型”走向“全民應(yīng)用”。下一階段的勝者,必是那些能同時(shí)駕馭云端訓(xùn)練與邊緣推理,并構(gòu)建完整生態(tài)閉環(huán)的玩家。
微信訂閱
歡迎通過郵局渠道訂閱2025年《電腦報(bào)》
郵發(fā)代號:77-19
單價(jià):8元,年價(jià):400元
編輯|張毅
主編|黎坤
總編輯|吳新
爆料聯(lián)系:cpcfan1874(微信)
壹零社:用圖文、視頻記錄科技互聯(lián)網(wǎng)新鮮事、電商生活、云計(jì)算、ICT領(lǐng)域、消費(fèi)電子,商業(yè)故事。《中國知網(wǎng)》每周全文收錄;中國科技報(bào)刊100強(qiáng);2021年微博百萬粉絲俱樂部成員;2022年抖音優(yōu)質(zhì)科技內(nèi)容創(chuàng)作者
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.