3月26日,商湯科技發布2024年財報,總體收入同比增長10.8%,虧損同比大幅收窄33.7%,其中生成式AI增長103.1%,營收占比從2023年的35%來到64%[1]。
考慮到時下生成式AI“退潮裸泳”的大背景,這種表現令人側目。新舊勢力紛紛遭遇“落地墻”圍堵,商湯卻像是每個班都有的學霸,別人還在回顧知識點,ta已經開始刷題了。
在AI公司中,商湯的學霸光環向來耀眼。提到中國AI產業,商湯是絕不會忽略的一家公司。出道至今研發實力從未掉出過第一梯隊,研發成果如數家珍。但光環背后,一度是面包和理想的長久拉鋸。
2018年—2022年間,商湯開始投入基礎設施建設,研發費用率由此飆升,背負起巨大的盈利壓力,但也由此生長出了獨一無二的商業模式。如今守得云開見月明,是科技產業對長期主義者的又一次褒獎。
從“大裝置”開始
上海臨港,距離特斯拉超級工廠3公里,是商湯SenseCore AI大裝置所在地——商湯智算中心AIDC,后者是當前亞洲最大的超算平臺之一[2]。
商湯智算中心AIDC
AIDC正式啟動于2021年,SenseCore AI大裝置的打造則從更早之前就開始了,是商湯埋的最深的一個伏筆。
2017年,商湯創始人湯曉鷗在CCF青年精英大會提出深度學習的三大要素:算法設計、高性能的計算能力以及大數據[3]。同一時期,成為一個AI落地平臺的愿景也在商湯內部逐步成型,自此開始了商湯對算力的前瞻性布局。
第二年,商湯開始在超算中心已有的6000張GPU的基礎上,著手建設SenseCore AI大裝置[2]。這是商湯研發費用飆升的開始,也是其“大裝置+大模型”商業模式構建的起點。
SenseCore AI大裝置并不只是一個單純的算力輸出設施,而是包含提供底層計算基礎設施服務(IaaS)與深度學習平臺服務(PaaS)、模型部署及推理服務(MaaS)三大部分的能力,旨在為模型的整個生產周期提供全套標準化的工具鏈,以降低模型開發的資金和時間成本。
軟硬件“兩條腿走路”,是SenseCore AI大裝置區別于目前大模型生產工具的差異化分界點。
硬件工具主要由計算基礎設施層提供。其中AIDC的算力規模是最直接的衡量指標之一。截至2024年底,商湯通過運營模式將算力總規模提升至23,000PetaFlops, 同比增長92%支撐起了在中國大模型應用top3的市場規模。
商湯AIDC的差異化在于,訓練上,采用了自動化多維并行策略,并且優化了通信和算子,明顯提高了集群的訓練效率,每秒處理的Token數量(TGS)可達1600+,在未經特別優化的狀態下,要好于DeepSeek官方報告。推理上,系統支持開源和自研雙引擎的低比特量化推理,在內測商湯自己的多模態模型時,其推理能力比2024年7月日日新5.5發布的時候提升了50%。如果拿來跑DeepSeek R1,比如在推理吞吐性能關鍵指標上,比業界平均成績要快25%,比頭部廠商效率也要高15%。
商湯AIDC的軟件部分涉及深度學習平臺層、模型層。深度學習平臺層可以理解為“模型生產流水線”,提供包括訓練數據平臺、SenseParrots訓練框架、模型壓縮工具及跨平臺模型部署工具;模型層類似于一個模型制造工廠,基于商湯自研的基模型和特定場景的衍生模型,向客戶直接提供模型產品。
軟硬件工具環環相扣、一應俱全,使得客戶可以自由地選擇“套餐“,既可以租用流水線和工具構建自家模型,也可以直接要求模型定制化服務。
就像一個超級賣場,消費者可以購買工具,也可以直接購買產品,賣場不僅提供產品說明、使用指導,還附帶送貨到家、上門安裝等保姆級服務。
這是商湯“大裝置-大模型-應用”三位一體戰略的顯現,構建了從底層算力到終端應用的極其完整的全產業生態鏈閉環,形成了商湯獨特的競爭壁壘。
營收的增長標志著這一商業模式的走通,背后助推的是商湯始終保持高位的研發投入和大膽的前瞻性布局,而多年所積累的工程經驗,也加速了商湯的盈利兌現,成為另一條護城河。
實踐出真知
“人工智能需要很多人工”,是上一波AI浪潮的“疑難雜癥”。模型不是建好就能用,部署環節往往意味著大量的人力內耗,堵死了當年許多初創AI公司的盈利通道。
生成式AI以“預訓練->微調”的模式結構性地解放了一部分人力,卻并沒有降低工程經驗的重要性,反而在諸多垂直領域,工程經驗的厚度直接決定了模型落地的效果。
以自動駕駛為例,小鵬前自動駕駛副總裁吳新宙就認為自動駕駛本質是一個工程問題[4]。特斯拉入華不久的FSD,端到端在算法層面做到了頂級,但落地層面投入不足,面對國內交規和路況水土不服。
商湯的工程能力經歷過上一輪AI浪潮的檢驗,面對生成式AI的新業態,一方面能夠對變化的技術快速反應,一方面可以直接移植其行業沉淀,精確打擊痛點。
十幾年的行業實踐給商湯積累了深厚的行業知識和大量的真實數據,得以快速建立龐大的模型矩陣,以日日新SenseNova大模型為基礎,推出生成式AI應用,以及針對B端企業級客戶的垂直行業推出深度定制行業大模型。
具體到應用層面,商湯在企業級應用構建了“一基兩翼”的布局,“兩翼”分別為生產力工具、交互工具的應用與產品,前者直接以企業助手、金融數據先兵、政務助手等形態為客戶提高工作效率;后者則是在智能陪伴、智能硬件交互、智能營銷上發揮作用,比如加速大模型在機器人、智能車艙等智能硬件的應用布局,用大模型提高電商GMV等。
同時,過去的工程經驗指導了工具層面的設置,使得商湯有足夠多的工具來應答客戶不同層級的需求。完備的工具箱與洞悉需求的產品設計形成良性循環,顯化為新客戶的增長和老客戶的留存。
例如在當前競爭白熱化、最考驗“模型+落地”綜合能力的智能駕駛領域,商湯絕影2024年新增定點車型41個,新增定點車輛數超過1100萬輛;在商湯傳統優勢視覺AI方面,客戶復購率按年提升了31個百分點,合作超過3年的客戶中有約四成亦是生成式AI客戶。
這里隱含了商湯模型開發不同于主流的的思路:
相比于DeepSeek和OpenAI“拿著模型的錘子找應用的釘子”,商湯的思路是直搗黃龍,直接從最終目標應用出發,以應用驅動模型。
Deepseek應用層面很大程度依賴其開源的生態,但開源的背面缺乏穩定的商業及技術支持與維護服務。反過來正是閉源模型的優勢,能夠持續做針對性的性能調優。比如商湯基于與手機廠商的深度合作,其端側大模型在高通旗艦平臺上推理速度小于1.5秒,比手機云端處理快10倍。
根據SuperCLUE《中文大模型基準測評2024年度報告》,商湯“日日新”融合大模型以總分68.3與DeepSeek-V3一起并列國內榜首。
根據SuperCLUE和OpenCompass榜單,商湯日日新5.5性能領先Gemini 2.0 Flash-Exp與GPT-4o,排名全國第一。而即將于4月10日發布的6.0版本據悉性能預期對標Gemini 2.0 Pro。
OpenCompass榜單
尾聲
商湯董事會執行主席兼CEO徐立說,通用模型的能力比單純的規模更重要。性能參數的堆砌之下,模型競爭更加實際的一面已經顯露,其仍然遵循衡量技術的最高標尺,即是否切實改善了人們的生產生活。
Deepseek的出現是一種信號,無論是新晉明星公司,還是歷經浮沉的老玩家,都開始面臨商業化的靈魂拷問。其背面是對勝利者的重新定義:誰先跑出一條成功的商業化路徑,誰才是生成式AI的最終贏家。
在AI的賽道上,商湯一度是孤獨的長跑者,被質疑過,卻從未迷茫過。持續的研發投入、落地能力的反復打磨,修煉出了獨一無二的商業模式,和應對生成式AI最快的反應能力,讓如今的厚積薄發來得順理成章。
生成式AI不僅僅是技術變革,其不同于以往的產業邏輯正在改寫科技行業成功學新范式,商湯已率先落筆,為中國AI提供了商業落地實踐的最新成功樣本。
參考資料
[1]商湯科技2024年財報
[2]AI時代領先者,大裝置+大模型推動AGI落地,中銀證券
[3]湯曉鷗談AI的明天:深度學習的三大核心要素,以及在中國創業要像百米賽跑,黑智
[4]小鵬吳新宙:對手如何出牌,不會打亂我們的節奏,晚點Auto
作者:何律衡
編輯:李墨天
責任編輯:何律衡
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.