昨日晚間,阿里巴巴集團公布新季度業績,阿里云收入同比增長18%,達到301.27億元,創下三年來的最快增速。其中最值得關注的一組數據是:AI相關產品收入連續第七個季度保持三位數的同比增長。
從我個人的角度,我更傾向于以AI公司的模式重估阿里的價值,因為它具有頭部AI公司典型的“五力要素”,即分別具有:
——基礎大模型的研發能力和研發團隊
——反復拉鋸戰中抹平代差的高韌性
——億級日活的toC應用作為試驗場
——世界級領先的生態
——面向產業界的廣泛落地
在我們考察的頭部AI公司中,阿里不僅“五力”俱全,而且幾乎都是長板,再加上極其具有規模效應和成本優勢的云基礎設施,我們似乎可以看到,“云+AI”的滾雪球式增長,將進一步推高“AI敘事”帶來的價值重估,與未來更高的發展天花板。
——導語
01
無冕之王
評價一個企業的大模型競爭力,除了跑分屠榜以外,還應該看看它在實際中的市場影響力。
一組數據是,自2023年8月開源以來,通義千問的衍生模型數量已突破10萬大關,將Meta的Llama系列遠遠甩在身后。而Qwen2.5-1.5B-Instruct模型更是達到26.6%的全球下載量占比,第二名LLama 3.1-8B僅占比6.44%。
另一組數據則是,截至2025年4月,阿里通義已開源200余個模型,全球下載量超過3億次。
這不僅是數字意義上的優勝,某種程度來講,這組數據更能說明阿里的AI業務已經在某種意義上成為全球AI的“無冕之王”。
這也從某種意義上證明,當年的開源選擇是非常正確的決定。在彼時,開源派和閉源派可謂各執一詞,討論哪種模式更有助于企業的發展。而以上這些數據也說明,這一爭議暫可告一段落。
在筆者看來,下載量和衍生模型數量,也可以看作另一種意義上的“市場占有率”,它可以反映某個模型得到市場認可、被二次開發和應用的實際情況。
大模型賽道仍在極早期,讓用戶“用起來”就贏在了起跑線上,這個樸素的道理誰都懂。但是,越是國際性、開放性的社區,就越依賴模型本身的特點和質量來贏得青睞,它很難采取類似于toC賽道的補貼、引流等策略,故而其反映出的規模和選擇傾向,也更接近于全球AI開發者的真實選擇。
并不是只有下游開發者才是通義的用戶,高端玩家同樣是——李飛飛團隊以千問Qwen2.5-32B-Instruct開源模型為底座,訓練出新模型s1,取得了與Open AI的o1和DeepSeek的R1等尖端推理模型數學及編碼能力相當的效果;DeepSeek官方曾透露,其將DeepSeek-R1的推理能力蒸餾 6個模型開源給社區,這當中4個模型是基于Qwen-32B蒸餾的模型;伯克利Tiny Zero及上海交大LIMO也都在通義系列模型底座基礎上激活其更強的推理性能。
在這個意義上,阿里不但是“無冕之王”,甚至在中美爭奪全球AI第一創新策源地的反復拉鋸中,極大的擴充了中國陣營的“站隊”比例,它更體現的是這種國運級別的PK中,中國力量的崛起。
02
高韌性,抹平代際差異
被吳國打敗后,勾踐臥薪嘗膽,暗中實施"十年生聚,十年教訓"計劃,不但主動引進強敵吳國的冶煉術以改良越國兵器,還推行"勸農桑"政策使國庫收入增長300%,最終于公元前473年滅吳,成為春秋最后一位霸主。
大模型賽道亦如是,我們在“頭部玩家”這一系列文章的“五力要素”中曾特別指出,大模型的競爭就是一個你追我趕,不斷接受失敗和總結創新的過程。它需要極高的韌性,在巨大的壓力下反復抹平代價差異,最終在一個二十年級別的賽道中取得終局勝利。
DeepSeek橫空出世的時候,曾經引發其它AI公司和相關概念股的大跌。于是,很多人就提出一個問題,如果一家百人規模的公司就可以搞出如此世界級的跨越式創新,那大廠們的巨額投資和龐大規模,是否意味著資源的錯配和極大的浪費?
對于大模型賽道來說,有兩種打法,平推式和跳躍式,DeepSeek就是典型的跳躍式,但跳躍式的出現是不可預估的。
說100來人的深度求索可以搞出劃時代的產品,進而推論大廠的路徑是高開銷、低效益的,這恰恰不正確。對于大廠來說,重要的不是搞出一兩款爆款模型(有當然更好),而是無論外部如何變化,一方面按自己的節奏推進,另一方面在業界前沿方向上進行研究和跟進,這是一個反復拉鋸的過程,最終比拼的是耐心和韌性。
最鮮明的一個案例是,深度求索在1月20日同步推出了R1系列模型,一時間譽滿天下;然后就在整整三個月之后的4月29日凌晨,阿里巴巴開源新一代通義千問模型Qwen3(簡稱千問3),參數量僅為DeepSeek-R1的1/3,成本大幅下降,性能全面超越R1、OpenAI-o1等全球頂尖模型,登頂全球最強開源模型。
什么叫抹平代際差異,這就是!如果要一定給出一個時限,那么應該是在90天以內。
比R1更進一步的是,千問3是國內首個“混合推理模型”,相當于把R1+V3融合在一起。千問3把“快思考”與“慢思考”集成進同一個模型,對簡單需求可低算力“秒回”答案,對復雜問題可多步驟“深度思考”,大大節省算力消耗。
在模型的整體性能方面,千問3更是“強到飛起”——在奧數水平的AIME25測評中,千問3斬獲81.5分,刷新開源紀錄;在考察代碼能力的LiveCodeBench評測中,千問3突破70分大關,表現甚至超過Grok3;在評估模型人類偏好對齊的ArenaHard測評中,千問3以95.6分超越OpenAI-o1及DeepSeek-R1。
這個成果浸透了阿里AI工程師們的汗水,但究其根本,之所以能夠迎頭趕上,是“五力要素”中的另一個能力——端到端的基礎大模型研發能力。
一個幾乎可以稱為定理的觀點是——企業的AI全棧能力最終決定響應速度,以千問3為例,因為擁有底層研發能力,可以沒有限制條件的自主進行優化模型架構、訓練策略和推理效率。
這種底層能力甚至要滲透到硬件層,通過軟硬一體全棧優化,阿里云打造出一套全新的穩定高效的AI Infra,連續訓練有效時長大于99%,模型算力利用率提升20%以上——同時也印證了一個道理——越有規模的企業并非越肆無忌憚的燒錢,而是利用規模優勢做到更省。
前面我們提到了跳躍式進步,但大廠更多的是采取平推模式——不刻意追求單點突破,而是發揮規模優勢和超級韌性,按照“你打你的,我打我的”的邏輯來操作。
總而言之,底氣渾厚的大廠與做出跨越級創新的小廠,更多的是競合多于競爭。如果說R1打開了深度推理這扇門,那它堪比發明了汽車的本茨;而阿里在其中的作用類似福特,福特是真正意義上的汽車工業之父,他并沒有推翻本茨的優勢,但洞察了本茨的劣勢。并利用自己的流水線模式,將汽車的成本降到了一個非常低的水平,同時大幅度的提升了可靠性,最終成就了“每個人都買得起,用得起”的汽車產業之王。
回望千問3,其技術突破、成本優勢、生態勢能共同構成"馬拉松式競爭"的三重推力,正如阿里CTO周靖人所言:"大模型不是算法單點突破,而是從芯片到框架的全棧戰爭”。
03
億級應用,頂級玩家的標配
之前我們曾反復談到過,一個頭部玩家至少得有一個億級用戶規模的APP作為自家AI能力的試驗場,阿里亦然。但有所不同的是,阿里不但在自己的主流業務場景如淘寶、釘釘中融入AI能力,更創造了依靠AI加持,創下最快打造全新億級應用的記錄之一。
作為一個長期觀察搜索行業的業者,夸克在最初問世的時候,并沒有得到我的太多看好。原因也很簡單,谷歌、百度所代表的第三代基于超鏈分析的搜索已經非常成熟,市場集中度也非常高。搜索這個行業有個特點,就是在沒有發生代際更替的情況下,后發者很難趕上領跑者。
除了在第三代搜索技術的框架內創新點已經不多之外,成本也是重要的考量——“全面”是衡量搜索引擎的核心指標,但“全面”也意味著需要向前追溯很多年,建立相應的索引庫。但這件事對后發者是一件很難算過來賬的事情——越是早期的索引,其被檢索的概率就越低,而如果從當下做起往前去索引,其邊際成本就會無限高,而效果則相當低。
但如果不做,又意味著在全面、相關度體驗上很難超過頭部搜索企業,這也是為何搜索行業的格局很難變動的原因——故此,當夸克問世時,我并不太看好這個產品。
但是在今年我開始對夸克刮目相看,今年1月15日,夸克升級品牌Slogan—“2億人的AI全能助手”,亮出加速探索AI To C應用的全新業務態勢,第三方數據顯示,夸克用戶規模持續保持高速增長,并領跑AI應用賽道,其中00后年輕用戶占比超過一半。
如果單獨PK搜索體驗,夸克仍很難說就“超越”了傳統搜索。但令人稱許的是,夸克也沒有停留在這一階段,而是依賴AI的加持,走了一條差異化搜索的路徑——夸克具備多模態和深度思考能力,不僅能處理簡單的搜索任務,個性化指令也能輕松拿捏。
同時,在處理用戶指令的過程中,隨著“深度搜索”這樣的差異化功能的上線,可以更為精準的從語義層面辨識用戶的問題,實現了從“理解問了什么”到“理解并判斷應該給用戶什么樣的答案”的飛躍;而在提供答案的過程中,夸克的深度搜索,也從“懂得要搜什么”、“懂得去哪里搜”和“懂得該怎么搜”。
這種與傳統搜索“非對抗式競爭”的方法,讓夸克得到了前所未有的增長,而其背后正是千問的不斷進化——如我們前面提到的快思考和慢思考、優化調用算力、提升回復效率等,依靠的已經不完全是大力出奇跡,而真正意義上是一種體系性的演化。
和很多大廠“魔改”自己的經典產品相比,夸克從一個嘗試性的業務,被明確為其成為阿里的AI旗級業務,真正發生質變的時間就在這一年甚至半年內。除了阿里在云服務、基礎模型能力上有深厚的積累以外,我覺得阿里的一個思路是非常正確的,那就是給夸克定義為“讓用戶用最低的成本接觸到AI的魅力”的toC導向。
在ChatGPT代表的生成式AI的能力逐漸成為行業主流后,大量的企業都試圖讓用戶感受到大模型的魅力,但觀察其產品路徑,要么是無感的集成在原有的億級應用中,用穩步滲透的方式改善用戶體驗,要么直接做成對話式的APP,給用戶提供直接和模型對話的機會。
但從產品角度來講,前者不容易被感知;后者的門檻則較高——除了重度知識工作者,一般用戶打開這類應用的頻次偏低……而夸克的聰明之處就在于,它“改良”了一個超高頻應用——搜索,又針對的全都是傳統搜索核心能力區之外的價值增量,這樣在用戶感知和用戶活躍度上都有保證,這充分說明了阿里對于“AI就是要讓用戶去用”有深入的認知。
目前來看,阿里擁有的億級日活產品可能是大廠里最多的,除了夸克還有釘釘、淘寶、通義等,這在大廠中也算是優勢明顯。
04
在產業化方向上做工
一個新的觀察維度日益受到重視,那就是大模型在產業端的應用和落地情況。
幾乎所有頭部玩家都在這樣幾個方向上發力——代碼、內容生成和智能體。
但千問3的打法不僅于此。
首先,千問善用、用足自己了的資源優勢,以千問3為例,它同步推出的矩陣包含2款30B、235B的MoE模型,以及0.6B、1.7B、4B、8B、14B、32B等6款密集模型,每款模型均斬獲同尺寸開源模型SOTA(最佳性能)。
這樣的好處,是快速鋪開應用面,如4B模型是手機端的絕佳尺寸;8B可在電腦和汽車端側絲滑部署應用;32B最受企業大規模部署歡迎,有條件的開發者也可輕松上手……這種能力則非創業企業可以具備。
借助于不同尺寸的模型矩陣,千問3對手機、智能眼鏡、智能駕駛、人形機器人等智能設備和場景的部署更為友好,所有企業都可免費下載和商用千問3系列模型,將大大加速AI大模型在終端上的應用落地。
當然,尺寸僅僅解決了部署問題,讓應用跑起來的核心要素是成本——千問3在部署成本不到DeepSeek R1四成的情況下,性能全面超越國內領先模型。
而隨著進一步拉低模型普及成本,高性能、高性價比的模型將加速中國AI應用的寒武紀大爆發。
當然,僅有推理模型是不夠的,許多智能體以工具的形態出現,而有數據估算,一款百萬級DAU的AI產品,倘若Agent化,消耗的tokens要翻30萬倍。
對此, 千問3 在工具調用能力(function call)方面表現出色,在伯克利函數調用BFCL評測榜中,千問3創下70.76的新高,將大幅降低Agent調用工具的門檻。
在國際權威研究機構Omdia發布的《2025年度中國商用大模型》廠商評估報告中,阿里第二年獲評領導者,通義大模型性能及商用能力蟬聯中國第一。
各行各業正在加速接入通義系列大模型。近期,寶馬宣布基于通義系列模型聯合開發AI引擎,應用于中國市場的寶馬新世代系列車型。目前,通義大模型已經服務了OPPO、vivo、榮耀、小鵬、蔚來、極氪、建行、招行、中國人壽、海爾、美的、創維、微博、攜程、國家電網、數字重慶、中國科學院等大型企業和機構。
通義靈碼成為中國最受歡迎的AI編程助手。目前,通義靈碼插件下載量超1500萬,累計生成超30億行代碼,服務上萬家企業。
結語
一分耕耘 一分收獲
多年以前,在云計算還是一個概念的時候,阿里就開始探索這一領域,期間遭遇過無數的挫折,但最終成為了亞太地區最頂尖的云計算服務商。
這也是第二代互聯網巨頭中,目前唯一一個穩定形成toC和toB雙引擎驅動的企業。
當人們知道云計算是AI的搖籃和抓手的時候,阿里云已經在賽道上遙遙領先。
阿里的“無冕之王”地位不是輕易得到的,阿里云AI是目前中國互聯網公司里,在 AI 上投入最堅決、布局最全的。未來 3 年在 AI 上的 3800 億資本開支史無前例,從基礎設施、大模型、應用上都有完整布局,且阿里云和通義大模型家族都位列全球第一梯隊。
我們不得不深思,如今的阿里,到底是一家互聯網電商公司,還是一家AI企業?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.