網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

什么是真正好用的推理模型？階躍Step 3給出了答案

2025-07-27 21:10:55　來源: 量子位

上海舉報

分享至

衡宇發(fā)自凹非寺
量子位 | 公眾號 QbitAI

推理模型和具身智能，絕對是今年WAIC上最搶眼的存在。

一個搶占了現(xiàn)階段AI發(fā)展的話語權，一個是外界給予重望的“下一件有形之物”——尤其是推理模型這條線，逛展剛第二天，我的腦子已經(jīng)有點“轟炸過載”了。

當迷失在各家的最新推理模型性能指標之中時，一個念頭突然冒了出來。我把這個念頭寫在這里，同時也是想問問各位朋友們：

什么樣的推理模型，能稱得上真正好用？

在我這里，答案或許是：

多模態(tài)，推理強，用得起，最好還是開源的。

幾句話說起來簡單，但真能兼顧這幾點的模型，在市場上幾乎處于空缺狀態(tài)。

直到我發(fā)現(xiàn)了階躍星辰在WAIC期間發(fā)布的新一代基礎大模型Step 3——市場上的這個空缺，終于被填上了。

Step 3是一個總參數(shù)321B的MoE模型，具備多模態(tài)推理能力，將于下周四（7月31日）正式開源。

在MMMU等多個多模態(tài)榜單上，它一現(xiàn)身就取得了開源多模態(tài)推理模型新SOTA的成績。

更重要的是，Step 3不是單純追求效果的“學術卷”，階躍稱這款模型兼顧智能與效率。

實測顯示，Step 3的推理解碼成本僅為DeepSeek的1/3，且效率更高；在國產(chǎn)芯片上的跑分更是一騎絕塵，推理效率最高可達DeepSeek-R1的300%。

多模態(tài)卷王的新SOTA“四字訣”

過去一年，行業(yè)在變。

生成式AI步入推理時代后，多模態(tài)模型全面涌現(xiàn)，推理能力成為新焦點，開源成為廠商和用戶的首選考量。

與此同時，各個榜單里更替速度極快的高排名，不再是衡量一個模型性能的唯一定論。效率、成本、部署友好性，都成為綜合考察點的一部分。

階躍看到了這些現(xiàn)象和趨勢，并直接在Step 3身上體現(xiàn)了自己對這些需求的回應。

階躍將其概括為四字訣：多、開、好、省。

這也是階躍對“什么是真正好用的推理模型”簡短有力的回應。

多

多，指多模態(tài)。

是的，Step 3依舊是熟悉的階躍味道——它是個多模態(tài)模型。

Step 3是一個321B參數(shù)的視覺語言模型（VLM），激活參數(shù)38B。其架構包含獨立的視覺編碼器（5B參數(shù)）和語言模型（316B參數(shù)）。

多模態(tài)卷王之所以還在多模態(tài)這條路上卷，是因為階躍觀察到，多模態(tài)對用戶來說才是剛需。

“數(shù)學和代碼是各大榜單最喜歡測試模型能力的方向。”階躍星辰創(chuàng)始人、CEO姜大昕表示，就連測試Step 3的時候，都免不了會選擇相關測試集，“但實際應用場景中，用戶并不需要這個模型是個數(shù)學奧賽金牌選手，我們往往需要的是一個能說會看的模型。”

作為階躍首個全尺寸原生多模態(tài)推理模型，Step 3擁有強大的視覺感知和復雜推理能力，可準確完成日常生活中的各類視覺分析問題。

比如，只報上身高體重，然后丟給它商場中某品牌褲子的標簽，問自己能不能穿。

它成功識別出了品牌，還因為提問中沒有清晰表示提問的“我”是男是女，于是分情況進行了分析和回答：

日常生活外，跨領域的復雜知識理解、數(shù)學與視覺信息的交叉分析也不在Step 3的話下。

現(xiàn)在，階躍AI App和網(wǎng)頁（stepfun.com）上，所有普通用戶都已經(jīng)能體驗到Step 3的多模態(tài)推理能力。

尤記得今年2月，也是在上海，階躍承諾將在多模態(tài)推理領域持續(xù)深耕，如今放出Step 3，也算是對這個承諾的階段性兌現(xiàn)。

開

25日，Step 3公開發(fā)布，并承諾于7月31日正式開源。

這一舉打破了市場上“強模型不開源，開源模型不強”的尷尬局面。

瞥了一眼，GitHub上的項目倉已經(jīng)建好了～

雖然“will be released soon”，但已經(jīng)107顆星星在手，nice。

好

這個“好”字，姜大昕作出如下解釋：

模型不僅要知識豐富，善解人意，還要有這個嚴謹?shù)倪壿嬐评砟芰Α?br/>

如他所述，尤其是從今年上半年開始，強推理能力已經(jīng)成為新一代模型的標配。

給它一張沒有任何文字信息的WAIC現(xiàn)場實拍圖，它一眼就看出吃瓜群眾圍得里三層外三層，是為了看右下角兩個戴著頭盔的機器人在拳擊。

再追問，Step 3甚至能根據(jù)場館布置特色和風格，推測出這是發(fā)生在WAIC上的一幕：

省

“該省省，該花花”這套生活哲學，終于也被活學活用到大模型身上了。

“省”字對應的其實是所有用戶——無論是企業(yè)還是開發(fā)者——最樸實無華的需求：在模型能力足夠好的前提下，成本要盡可能地降低。

Step 3給出的解決方案是系統(tǒng)協(xié)同設計（Model-system Co-design），即重點通過模型系統(tǒng)架構的創(chuàng)新來提升解碼效率并降低推理成本。

這里關鍵介紹兩點創(chuàng)新：

一個是系統(tǒng)層的AFD分布式推理系統(tǒng)。

傳統(tǒng)情況下，模型關于Attention和FNN的推理計算任務，會交給同一組GPU同時處理，常常導致資源浪費。

AFD全稱為Attention-FFN Disaggregation，它的做法是將Attention和FNN拆開，使兩者在獨立子系統(tǒng)中運行，實現(xiàn)分布式推理和流水線優(yōu)化。

這樣一來，Attention和FNN可以分別部署到不同GPU集群，避免專家負載不均和網(wǎng)絡擁堵問題，顯著提升解碼效率。

實驗結果表明，AFD分布式推理系統(tǒng)優(yōu)于與DeepSeek-V3采用的專家并行方案DeepSeek EP。

另一個創(chuàng)新是模型層的MFA注意力機制。

MFA全稱Multi-Matrix Factorization Attention。其實早在去年年底，階躍就在Step-2的基礎上首次公開發(fā)布了MFA機制。

它是一種硬件感知的低秩注意力設計，通過矩陣分解優(yōu)化KV緩存和計算效率，同時保持高注意力表達力。

技術報告顯示，Step 3的KV緩存大小小于DeepSeek-V3，更適用于長上下文場景。

值得注意的是，MFA的算術強度控制在128，這是一個權衡結果——高于H20的74，避免內存墻；又低于H800的591，避免算力浪費。

這個設計直接帶來三個結果：跨硬件兼容性、成本優(yōu)勢擴大、長上下文彈性。

同時，Step 3支持FP8全量化，將內存訪問減半并兼容“低比特存儲-高比特計算”方案，進一步降低延遲。

系統(tǒng)層和模型層兩處創(chuàng)新，二者協(xié)同，讓Step 3僅使用32張Hopper GPU，吞吐量就達到4039 tokens/GPU/s；而DeepSeek官方數(shù)據(jù)顯示，使用128張Hopper GPU的DeepSeek-V3，官方吞吐量為2324 tokens/GPU/s。

一套操作下來，最終達到的效果是這樣的——

在A800上，Step 3的成本低于所有同類模型；在H20上，Step 3的成本僅有DeepSeek-V3的30%。

整體看下來，在SOTA已經(jīng)不是驚艷四座新鮮事的現(xiàn)在，Step 3給推理時代的大模型SOTA提供了一個新的定義：

既是最強，又是最值。

Step 3可稱作“開源”“多模態(tài)”“推理”“SOTA”四角俱全的代表——被行業(yè)里叫做多模態(tài)卷王，不是沒道理。

推理落地難，軟、硬、Infra一起卷

Step 3無愧于階躍多模態(tài)推理模型新旗艦，但是——

如果沒有配套的算力環(huán)境，即便Step 3再好，也可能只是高處不勝寒。

真正讓它落地有聲的，是產(chǎn)業(yè)鏈的聯(lián)合進化。

過去模型落地常卡在兩個點，一個是API價格太高，一個是國產(chǎn)卡推不動。

但誰都知道，API價格戰(zhàn)固然能帶來一時普及，唯有在模型與系統(tǒng)架構上實現(xiàn)本質性突破，才能支撐AI長久可持續(xù)地走進日常與產(chǎn)業(yè)。

為了打破推理大模型普及最大瓶頸——成本，階躍不靠API價格戰(zhàn)，而是朝硬件下手，推動模型和算力層協(xié)同發(fā)展。

在設計之初，Step 3就考慮了國產(chǎn)芯片適配。

Step 3的友好，是對所有芯片友好。

目前，華為昇騰已首先實現(xiàn)Step 3的搭載和運行；沐曦、天數(shù)智芯和燧原等也已初步實現(xiàn)運行Step 3。

敲黑板，這里提到的適配的不是閹割版，而是在完整多模態(tài)能力下實現(xiàn)高性價比推理。

更棋高一著的事情是，為了進一步打通上下游，階躍聯(lián)合近10家芯片及基礎設施廠商發(fā)起“模芯生態(tài)創(chuàng)新聯(lián)盟”。

據(jù)了解，該聯(lián)盟是一個打通了芯片、模型、Infra完整技術鏈路的創(chuàng)新生態(tài)體系。

Step 3發(fā)布當天，該聯(lián)盟公開的首批成員包括華為昇騰、沐曦、壁仞科技、燧原科技、天數(shù)智芯、無問芯穹、寒武紀、摩爾線程、硅基流動等。

姜大昕表示，階躍會從底層和各個芯片、Infra伙伴進行聯(lián)合創(chuàng)新，提升模型適配性和算力應用效率。

芯片廠提供可落地的推理算力，模型廠做硬件友好的模型架構，Infra平臺做高效調度、服務部署與推理加速，最終實現(xiàn)推理能用、成本可控、國產(chǎn)芯片跑得起來。

終端智能Agent落地成果豐碩，2025全年預計收入沖刺10億

如果說模型能力是基礎盤，那么應用落地就是成敗的分水嶺。

在這方面，階躍的表現(xiàn)可以說是：多模態(tài)推理模型能跑的地方，它都跑過了。

尤其是在終端智能Agent方向，階躍已經(jīng)形成清晰的落地節(jié)奏，且來自汽車、手機、具身智能、IoT等領域的客戶都很買單。

在這兩天的WAIC上，展示場景落地能力的階躍展臺，也是被人從眾爭相圍觀體驗的熱門展位。

看到上圖左下角這個蛋艙沒？

這就是搭載了階躍多模態(tài)模型能力的下一代智能座艙，能感知用戶狀態(tài)，記住車主偏好，開啟人機共駕時代。

而在離我們當下現(xiàn)實生活更近的汽車端，可以看看旁邊的吉利銀河M9。

它首發(fā)搭載階躍星辰端到端語音大模型——這是行業(yè)內端到端語音大模型首次實現(xiàn)量產(chǎn)上車。

手機是階躍Agent終端落地的另一個重點場景。

它使用人群最廣泛、占據(jù)我們日常最大使用時長，因此也是一個更普惠所有用戶的場景。

階躍官方表示，目前，國內Top10手機廠商過半都已接入階躍的多模態(tài)能力，OPPO、榮耀、中興的旗艦機型都已搭載適配。

一方面通過高效推理降低了端側的功耗壓力，另一方面真正做到了在本地實現(xiàn)AI伴聊“AI視頻通話搭子”、記錄手機碎片化信息的“AI記憶收納師”等功能。

說適配搭載階躍能力的手機是每個人的隨身Agent，并不夸張。

大模型很熱，但很多時候熱在人們的交談里，熱在媒體的報道里，或者只是熱在你爭我奪的各種榜單上。

而階躍，已經(jīng)讓多模態(tài)大模型可用、可跑、可部署、可落地。

這就讓它成為當前基礎模型賽道中，少數(shù)幾個具備清晰商業(yè)化路徑和收入規(guī)模的玩家之一。

據(jù)階躍方面透露，2025年全年預計收入近10億人民幣。

此次發(fā)布的Step 3，是階躍在推理模型當?shù)赖默F(xiàn)在，給出的一套系統(tǒng)性打法。

它其實不是天降神兵般突然出現(xiàn)的一個兼顧智能與效率的多模態(tài)推理模型，而是階躍一路卷來，鉆研技術與工程，又洞悉市場需求的一份答卷。

而且它靠著“多開好省”四字秘訣，一腳踹開了推理模型商用落地的那扇門。

沒錯哦，當別人還只在卷參數(shù)卷指標，階躍已經(jīng)開始算收入了；別人還在拼一張張榜單，Step 3已經(jīng)裝進了車里、手機里、機器人里。

最強模型的牌面總在刷新，最強的皇冠王座可以輪換，但市場不會撒謊。

那些真正好用、能落地、能適配的模型才是開發(fā)者和企業(yè)長久追著找的剛需款。

在一輪輪淘汰賽之后，誰是AI產(chǎn)業(yè)的長期務實性選項，已經(jīng)越來越清楚了。

Step 3的“多開好省”聽著像是口號，實則可能是一道選擇題：

你想做SOTA的路過者，還是能跑進終端、留在產(chǎn)業(yè)線里的長跑者？

階躍已經(jīng)選了它的答案。

你呢？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.