文|戴菁
2025年是AI游戲規則被改寫的一年。
在DeepSeek以中式務實震驚全球之前,AI大模型競賽是一條由資本和GPU所主導的不計成本之路,參賽者的技術信仰只有一個Scaling Law,大力出奇跡。DeepSeek-R1掀起的AI普及浪潮,相當于在大路旁邊開辟了一個分岔,它迫使主要參與者開始反思,讓更多人把AI用起來的前提不僅是技術領先,還要有足夠低的成本、超預期的體驗。
最直觀的例子是,ChatGPT-o1雖然與DeepSeek能力相當,但一個月200美元的訂閱費已經將大多數普通人拒之門外。幡然醒悟的OpenAI,將1月31日上線的推理模型o3-mini設置為免費用戶也可使用。
目之所及,AI大模型的花式降本將成為2025年的主線之一。抵達方式有很多,比如高效算力,又或者算法和工程創新。具體到中國,在DeepSeek的激勵之下,BAT、字節、華為等國內AI大廠已經加緊在上述方向你追我趕。
2月5日,業內再傳新進展——首個國產芯片萬卡集群正式點亮,本土化AI在高效算力上向前一步。
01
本土自研萬卡集群正式點亮
在宣布低價接入DeepSeek模型兩天后,百度再公布算力降本新進展。
2月5日,百度智能云宣布點亮昆侖芯三代萬卡集群。這也是國內首個正式點亮的自研萬卡集群。
從全球范圍來看,以合理成本獲得可靠的算力,在當前的AI競爭中至關重要。谷歌、Meta、亞馬遜、特斯拉等公司都在加快自研芯片的進程,希望以此打破算力瓶頸、降低模型成本。與微軟因為GPU供應問題而貌合神離的OpenAI,也屢被傳出計劃自研AI芯片。
不過,擁有自研芯片只是實現萬卡集群的第一步。要訓練基礎大模型,需要將一萬張以上的加速卡(如GPU、TPU或其他專用AI芯片)組成一個高性能的「超級計算機」,工程難度極高。
中國工程院院士、清華大學計算機系教授鄭緯民此前表示,當下構建國產自主萬卡系統充滿挑戰,但「至關重要」。
以百度自研萬卡集群為例,它不僅為百度帶來堅實的算力支持,也有望推動模型降本趨勢,成為中國科技界在人工智能領域的又一次突破。
客觀而言,國產芯片早期頂多相當于AI大廠基礎設施的一個「副本」,更多是作為算力供應的一個補充而存在,主要滿足單任務算力消耗。而在算力空前緊張、技術追求自主可控的趨勢下,國產智算開始承受更多期待,集群效能最大化成為核心目標。
這個核心目標受市場需求驅動。目前國內客戶對大模型的關鍵訴求至少有兩個:一是縮短訓練時間。百度智能云事業群總裁沈抖此前提到,由于大模型行業的發展日新月異,客戶普遍希望能在兩周內完成訓練,最晚也應在一個月內完成。
二是降本。從信息時代到AI時代,降低技術成本曲線是科技行業永恒的主題。按照目前的硅谷規律,模型訓練成本每年大約能降低四分之一,但這遠不及市場期待。否則DeepSeek也不會在美國引發「強震」。據多方測算,DeepSeek-R1的整體成本約為OpenAI o1模型的1/30。
DeepSeek已經讓全世界看到中國AI花小錢辦大事的務實能力。《華爾街日報》稱之為「夠用就好」策略,英國《金融時報》則直言,「并不是每個司機都需要一輛法拉利。」而百度點亮國產萬卡集群,則屬于中國AI從算力層面尋求成本突破的一個解法。
理論上,超大規模并行計算能力可實現訓練效率躍升,萬卡集群可將千億參數模型的訓練周期大幅降低,滿足AI原生應用快速迭代的需求;同時也能支持更大模型與復雜任務和多模態數據,支撐Sora類應用的開發。
另一方面,萬卡集群能夠支持多任務并發能力,通過動態資源切分,單集群可同時訓練多個輕量化模型,通過通信優化與容錯機制,提升集群綜合利用率,實現訓練成本指數級下降。
不過在實踐中,超大規模集群的調度效率至關重要。比如怎么做模型的拆分,如何將訓練、微調、推理任務混合部署,都會影響算力的有效發揮。
百度能率先點亮自研萬卡集群,其實背后離不開百舸AI異構計算平臺4.0等超前基礎設施的支撐。
2024年9月升級的百舸4.0屬于大模型降本的「全能型選手」。僅降低通信瓶頸一項,便將帶寬有效性提升到90%以上。在提供容錯與穩定性機制上,通過避免由于單卡故障率隨規模指數上升而造成的集群有效性大幅下降,保障有效訓練率達到98%。
據了解,在百舸4.0的支撐下,百度自研3萬卡集群也已經在路上。
從行業發展角度來看,百度通過自研大規模集群的建設,不僅解決了自身算力供應的問題,也為整個行業提供了新的思路和方向。
02
AI應用爆發的杰文斯悖論
中外科技公司狂卷AI成本,行業影響深遠。
如果沒有DeepSeek「上線20天日活2000萬」的現場教學,科技界或許很難將大模型降本帶來的變量具像化。盡管業界領袖都認為這一天早晚會到來。
比如微軟CEO納德拉,在DeepSeek爆發前夕,他還在社交媒體上布道,「隨著人工智能變得更加高效和普及,我們將看到它的使用量猛增,成為一種永遠無法滿足的商品」,經濟學中的「杰文斯悖論」會在AI領域復現。
AI芯片初創公司Groq的首席執行官此前直言,運行AI模型的成本越低,AI能力顯然就越強,「如果推理成本太高,人們就不會太多使用」,而更高的使用率才能催生更好的模型。
翻譯過來,英偉達的軟肋,未嘗不是AI開發者以及整個AI生態的幸事。
在移動互聯網時代,從應用層到基礎設施的倒三角型利益分配,催生了數量眾多的超級應用和明星獨角獸,支撐了移動生態的長久繁榮。而在生成式AI時代初期,絕大多數AI投資最終流向了基礎設施層企業——強如微軟,其AI基礎設施投資中約有一半的錢也要用來買卡。
這一客觀現實無形中抬高了AI應用開發的門檻。
DeepSeek的崛起,意味著AI行業的發展正從硬件基礎設施層向軟件應用層轉移。花旗在最新產業研報中預測:DeepSeek、百度等中國模型的高效低成本將有助于加速全球AI應用開發,可能在全球引發更多技術創新,并推動2025年人工智能應用的拐點。
舉個例子,百度自研萬卡集群所代表的低成本算力,可以支撐Sora類多模態應用的開發。目前海外視頻生成的成本并不算低。Runway生成一條5秒視頻的價格為1.2美元,Sora生成一個5秒480P視頻成本約為0.5美元,如果多模態模型成本繼續下探,理論上會有更多的多模態應用出現。
而DeepSeek-R1的高效推理能力,可能會直接帶來企業智能體領域的突破性進展。企業智能體的目標是處理工作任務,如果能以更低的推理成本擁有智能體類的AI員工,企業客戶的盈利能力也將間接得到提升。
為了加速AI應用開發的繁榮,在DeepSeek出圈以來,百度智能云、華為云、阿里云、騰訊云、火山引擎等也在爭相接入DeepSeek模型,并以優惠條件吸引更多的企業客戶和開發者。
這其中,百度在「砍門檻」上算是比較激進的一家。2月3日百度智能云直接宣布打折——千帆ModelBuilder平臺上的DeepSeek-R1僅為官方刊例價的5折,DeepSeek-V3僅為官方刊例價的3折,并提供限時免費服務。
「砍門檻」的背后,是百度智能云在推理引擎性能優化技術、推理服務工程架構創新以及推理服務全鏈路安全保障上的深度融合。
在推理引擎性能上,針對DeepSeek模型MLA結構的計算進行了極致的性能優化,并通過計算、通信、內存不同資源類型算子的有效重疊及高效的Prefill/Decode分離式推理架構等,在核心延遲指標TTFT/TPOT滿足SLA的條件下,實現模型吞吐的大幅度提升。
在推理服務的工程架構上,百度智能云做了嚴格的推/拉模式的性能對比。為了進一步提升系統的穩定性和用戶體驗,設計了請求失敗的續推機制,這顯著增強了系統的容錯能力和服務SLA達標率。同時針對多輪對話和system設定等場景中存在重復Prompt前綴的情況,實現了主流的KV-Cache復用技術,并輔以全局Cache感知的流量調度策略。
在穩定安全保障上,集成了百度智能云獨家內容安全算子,實現模型安全增強與企業級高可用保障,基于大模型全生命周期數據安全與模型保護機制,在千帆平臺上的模型均擁有使用安全的安全保障。
DeepSeek模型上線首日,已有超1.5萬家客戶通過千帆平臺進行模型調用。
「價格戰」背后,本質還是一個由于AI應用所主導的AI生態之爭。
在這個過程中,對沖基金橋水判斷,AI對算力的需求不會放緩,反而可能加速。「杰文斯悖論」似乎永不過時。
這也是為什么微軟、Meta、谷歌、百度、字節今年都在算力上加大投入。根據目前的公開信息,微軟計劃在截至今年6月份的財年對AI數據中心投資800億美元,Meta今年計劃在AI基礎設施等領域投入650億美元。用谷歌CEO皮查伊的話說,大家都想擁抱更多的發展機會。
在納德拉宣布微軟在 AI 和云基礎設施方面的800 億美元后,馬斯克轉發了這一消息
縱觀全球AI競爭,擁有更高性能、更低成本的算力,始終是AI巨頭保證領先地位的重要抓手。
國內頭部企業如百度,除了已經路上的3萬卡集群,百舸4.0設計之初可支持10萬卡用量,這一「留白」為中國AI企業更低門檻的創新突破積蓄了一定的空間。
憑借其強大的算力優勢、成本效益以及百舸平臺的全方位賦能,百度等國內AI公司有望為人工智能的發展注入新的活力。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.