新智元報(bào)道
編輯:定慧 桃子
【新智元導(dǎo)讀】新一代多模態(tài)推理基模Step 3橫空出世了!是專為推理時(shí)代打造的最適合應(yīng)用的模型,以最高可達(dá)DeepSeek-R1 300%的推理效率擊破行業(yè)天花板。7月31日,Step 3將正式開(kāi)源,問(wèn)鼎開(kāi)源最強(qiáng)多模推理模型。
2025年,AI模型到底有多卷?
谷歌和OpenAI從年初開(kāi)始「打生打死」,發(fā)布會(huì)一場(chǎng)接一場(chǎng),最近OpenAI更是為了和谷歌DeepMind爭(zhēng)奪「IMO金牌第一推理模型」互相撕臉。
閉源模型們神仙打架,開(kāi)源模型卻是「格局已變」。
開(kāi)源模型這塊,國(guó)內(nèi)已經(jīng)快一枝獨(dú)秀了,DeepSeek、Qwen、StepFun、Kimi K2等成為海外討論的焦點(diǎn)。
曾經(jīng)的開(kāi)源之光Meta的Llama已經(jīng)被人遺忘,逼得扎克伯格顧不得體面瘋狂挖人。
喧囂之后:什么才是真正「好用」的AI模型?
時(shí)至今日,整個(gè)行業(yè)都意識(shí)到,真正的問(wèn)題是,到底什么樣的模型才能真正服務(wù)于千行百業(yè),而不僅僅是刷新各個(gè)Bench的榜單。
遺憾的是,放眼望去,能同時(shí)滿足「開(kāi)源」,又能提供「多模態(tài)能力」,還能「推理」的模型,還真的數(shù)不出幾個(gè),更別說(shuō)好用了。
2025 WAIC大會(huì)上,階躍星辰的新一代主力基座模型Step 3,帶來(lái)了意想不到的驚喜。
Step 3:開(kāi)源多模態(tài)推理新標(biāo)桿
新一代旗艦基模Step 3的發(fā)布,標(biāo)志著階躍多模態(tài)大模型又一個(gè)新里程碑。
它采用了原創(chuàng)MFA架構(gòu),通過(guò)模型和系統(tǒng)聯(lián)合創(chuàng)新,實(shí)現(xiàn)了行業(yè)領(lǐng)先的推理效率、極致性價(jià)比。
要說(shuō)Step 3的核心亮點(diǎn),可以概括為四個(gè)字——「多開(kāi)好省」。
具體來(lái)說(shuō),多代表「多模態(tài)」,開(kāi)代表「開(kāi)源」,好代表「強(qiáng)智能」,省代表「低成本」。
接下來(lái),就我們一一拆解,這四大維度背后代表的真正含義。
作為AI界「多模態(tài)卷王」,階躍首發(fā)的Step 3綜合實(shí)力究竟有多強(qiáng)?
Step 3在MMMU、MathVision、SimpleVQA、AIME 2025、LiveCodeBench(2024.08-2025.05)等榜單上直接拿下了開(kāi)源多模態(tài)推理模型的SOTA成績(jī)。
榜單成績(jī)刷的再高,不如真正拉出來(lái)遛一遛。
能看會(huì)道,雙商太高了
現(xiàn)在,直接進(jìn)入階躍AI的網(wǎng)頁(yè)版和手機(jī)版,即可開(kāi)啟Step 3的最新體驗(yàn)。
傳送門(mén):https://www.stepfun.com/chats/new
在視覺(jué)推理實(shí)測(cè)中,Step 3能夠?qū)D片中的細(xì)節(jié),充分理解到位。
比如,扔給階躍AI一張貓咪圖,并問(wèn)「圖片里有幾只貓」?
Step 3思考后給出回復(fù),一眼識(shí)別出「一只貓+影子」,并給出了導(dǎo)致視覺(jué)錯(cuò)覺(jué)的原因。
再上一個(gè)難度測(cè)試,當(dāng)你看到如下這張圖后,能否發(fā)現(xiàn)圖片中寫(xiě)了什么?
別說(shuō)AI了,眼神不太好的人,硬是盯半天也不一定能看出來(lái)。
Step 3經(jīng)過(guò)長(zhǎng)時(shí)間推理后,一步一步解讀出圖片中從上至下的字母,并將其組合成「AI MAKE LIFE BETTER」的正確答案。
再比如,正在減肥期間的你,想要隨時(shí)監(jiān)測(cè)食物卡路里,同樣交給Step 3就可以了。
上傳一張食物訂單圖,提問(wèn)「2個(gè)人一餐吃了這些,人均攝入多少卡路里」?
不一會(huì)兒功夫,Step 3就給你算的明明白白。
再來(lái)個(gè)經(jīng)典視覺(jué)難題「吉娃娃還是松餅」,堪稱AI視覺(jué)領(lǐng)域的「圖靈測(cè)試」,曾難倒了不少大模型。
那么,Step 3的表現(xiàn)又如何呢?
令人驚喜的是,經(jīng)過(guò)縝密的思考之后,Step 3準(zhǔn)確列出了圖中所有吉娃娃的所在位置。
再比如室友小聚,需要AA制但又懶得分賬時(shí),可以把相關(guān)圖片上傳給Step 3。
一張聊天截圖,一張購(gòu)物單,問(wèn)下每個(gè)人均攤多少?
在仔細(xì)推敲之后,Step 3針對(duì)5個(gè)人的花費(fèi)給出了詳細(xì)的解答。
多開(kāi)好省,最適合應(yīng)用
更重要的是,這充分體現(xiàn)了Step 3「多開(kāi)好省」的核心亮點(diǎn)。
這四大維度,對(duì)于用戶來(lái)說(shuō)至關(guān)重要。
人們?cè)谶x擇模型時(shí),這一過(guò)程就好比「木桶理論」,不僅要關(guān)注模型的單一優(yōu)勢(shì),而是要綜合考量多維度的整體表現(xiàn)。
作為階躍首個(gè)全尺寸、原生多模態(tài)推理模型,Step 3非常適合落地應(yīng)用。
一直以來(lái),數(shù)學(xué)、代碼成為業(yè)界考驗(yàn)?zāi)P湍芰Φ闹匾较颍趯?shí)際應(yīng)用中,多模態(tài)才是真正的剛需。
谷歌DeepMind CEO Hassabis曾在公開(kāi)演講中提到,「原生多模態(tài)模型是通向AGI的關(guān)鍵」。
也就是說(shuō),未來(lái)的AI系統(tǒng)需要超越單一模態(tài),真正理解和整合多種感官信息,才能在復(fù)雜場(chǎng)景中發(fā)揮作用,從「實(shí)驗(yàn)室標(biāo)桿」走向「產(chǎn)業(yè)剛需」。
在「性能好」方面,Step 3不僅知識(shí)豐富,還具備了嚴(yán)謹(jǐn)?shù)倪壿嫼投嗖酵评砟芰Γ瑵M足了強(qiáng)化學(xué)習(xí)范式下,對(duì)強(qiáng)大推理能力的需求。
發(fā)布會(huì)上,階躍官宣,預(yù)計(jì)7月31日,Step 3將面向全球企業(yè)和開(kāi)發(fā)者開(kāi)源。
如此強(qiáng)大的多模態(tài)推理模型開(kāi)源后,意味著企業(yè)和開(kāi)發(fā)者都可以基于自身?xiàng)l件進(jìn)行私有化部署,對(duì)其進(jìn)行訓(xùn)練和微調(diào)。
Step 3的另一大殺手锏,便是對(duì)所有芯片友好。這也是「省」一大特點(diǎn)背后的關(guān)鍵因素。
要降低推理模型的成本,核心要素是提高解碼效率。
市面上的主流開(kāi)源模型,雖然針對(duì)解碼做了大量?jī)?yōu)化,但這些優(yōu)化方案主要適配國(guó)際高端芯片,在中端及國(guó)產(chǎn)芯片上的解碼效率仍有提升空間。
為了突破這點(diǎn),Step 3進(jìn)行了系統(tǒng)性的技術(shù)創(chuàng)新,在架構(gòu)設(shè)計(jì)階段就充分考量了系統(tǒng)與硬件的特性,能夠?qū)崿F(xiàn)廣泛硬件平臺(tái)上的高效推理,解碼效率達(dá)到行業(yè)領(lǐng)先水平。
根據(jù)原理分析,Step 3在國(guó)產(chǎn)芯片上的推理效率最高可達(dá)DeepSeek-R1的300%。
在基于NVIDIA Hopper 架構(gòu)的芯片進(jìn)行分布式推理時(shí),實(shí)測(cè)Step 3相較于DeepSeek-R1的吞吐量提升超70%。
這意味著Step 3具備廣泛的普適性,在各種硬件環(huán)境下部署,都能大幅降低推理成本。
那么Step 3究竟采用了怎樣的技術(shù)架構(gòu),才能實(shí)現(xiàn)如此卓越的多模態(tài)推理能力與成本效率?
系統(tǒng)創(chuàng)新,提升推理效率
大模型技術(shù)發(fā)展至今,尤其是在長(zhǎng)上下文推理任務(wù)中,大部分模型都面臨較低的解碼效率。
Step 3能做到「大而實(shí)惠」,得益于階躍星辰在軟硬件協(xié)同設(shè)計(jì)優(yōu)化,這是模型和硬件平衡的藝術(shù)。
Step 3在國(guó)產(chǎn)芯片上的推理效率最高可達(dá)DeepSeek-R1的300%,且對(duì)所有芯片友好。
在基于NVIDIA Hopper架構(gòu)的芯片進(jìn)行分布式推理時(shí),實(shí)測(cè)Step 3相較于DeepSeek-R1的吞吐量提升超70%。
Step 3總共擁有316B參數(shù),激活參數(shù)為38B。此外還有一個(gè)5B參數(shù)的視覺(jué)編碼器。
對(duì)于FFN前饋神經(jīng)網(wǎng)絡(luò),Step 3采用了受到DeepSeekMoE啟發(fā)的共享專家設(shè)計(jì)。
對(duì)于MFA,Step 3配置了64個(gè)注意力頭,KV維度256,Query維度2048。
Step 3能夠?qū)崿F(xiàn)高性價(jià)比(高成本效益)的解碼,其核心在于一套深度集成的模型-系統(tǒng)協(xié)同設(shè)計(jì) (model-system co-design)理念。
注意力-前饋網(wǎng)絡(luò)解耦
Step 3的推理系統(tǒng),可能是首個(gè)利用注意力-前饋網(wǎng)絡(luò)解耦(Attention-FFN Disaggregation,AFD)理念并實(shí)現(xiàn)高吞吐量解碼的生產(chǎn)級(jí)服務(wù)系統(tǒng)之一。
AFD是Step 3實(shí)現(xiàn)高效解碼的系統(tǒng)級(jí)基石。
它將傳統(tǒng)大語(yǔ)言模型中交錯(cuò)的Attention層和FFN(前饋網(wǎng)絡(luò))層在物理上分離開(kāi),部署到不同的專用GPU集群上。
這種架構(gòu)上的分離使得每個(gè)子系統(tǒng)可以采用最適合其計(jì)算特性的不同并行策略。
在處理4K平均上下文長(zhǎng)度的特定場(chǎng)景下,Step 3僅需32個(gè)GPU,遠(yuǎn)少于DSv3在類(lèi)似任務(wù)中所需的128個(gè)GPU。
當(dāng)上下文長(zhǎng)度為8K,Step 3的理論解碼成本最低。每1M解碼token的成本約為0.055美元。
各模型在不同硬件上的理論解碼成本分析(單位:美元)。注意:這些模型的激活參數(shù)數(shù)量不同:DSv3 37B,Qwen3 MoE 22B,Qwen3 32B,MM M1 46B,ERNIE 4.5 47B,Pangu Pro MoE 16.5B和Step 3 38B
不同模型和推理配置的解碼成本(每1M個(gè)token)
Step 3在非Hopper系列的廉價(jià)硬件上依然保持很高的成本效益。
軟硬協(xié)同
計(jì)算強(qiáng)度(Arithmetic Intensity)指計(jì)算操作與內(nèi)存訪問(wèn)字節(jié)數(shù)的比率。
Step 3的MFA的算術(shù)強(qiáng)度設(shè)計(jì)為128,這使得它能更好地匹配各類(lèi)加速器(如A800、910B)的硬件特性,避免了因算力或帶寬的單一瓶頸而導(dǎo)致效率低下。
解碼過(guò)程中不同注意力設(shè)計(jì)的計(jì)算和內(nèi)存訪問(wèn)
Step?3的MFA同時(shí)實(shí)現(xiàn)了低計(jì)算和內(nèi)存訪問(wèn)。
上圖顯示它的所需計(jì)算量是DSv3的四分之 一,其所需內(nèi)存訪問(wèn)量是Qwen3的三分之一。
使用AFD,注意力機(jī)制和FFN組件都可以分別輕松擴(kuò)展。
AFD架構(gòu)中的模塊解耦。FFN可以部署在TP-only、 EP-only或混合TP+EP的方式,具體取決于硬件和模型架構(gòu)
這為利用非旗艦硬件進(jìn)行注意力部分或FFN部分的處理創(chuàng)造了更多機(jī)會(huì)。
此外,Step 3還為AFD量身定制了高性能AF通信庫(kù)StepMesh。
上圖展示了為AFD量身定制的StepMesh通信工作流程:
1) 異步 API 和專用線程;
2) 基于CPU的操作執(zhí)行;
3) 預(yù)注冊(cè)張量以實(shí)現(xiàn)高效通信。
用于多個(gè)加速器的StepMesh框架
上圖展示了StepMesh框架,該框架設(shè)計(jì)為高度可擴(kuò)展的架構(gòu),能夠集成新型加速器。
此框架將加速器視為后端,并建立了一組用于AFD通信的關(guān)鍵后端接口。
這些接口涵蓋了內(nèi)存分配和流同步等核心功能。
通過(guò)遵循這些定義良好的接口,新型加速器可以輕松集成到StepMesh框架中。
StepMesh實(shí)現(xiàn)了異構(gòu)加速器之間的無(wú)縫通信,不同類(lèi)型硬件都能夠高效協(xié)作。
兩年多箭齊發(fā),真·多模態(tài)卷王
階躍星辰雖然僅成立兩年多,但其實(shí)已經(jīng)是名副其實(shí)的「多模態(tài)卷王」。
隨著Step 3發(fā)布,階躍也構(gòu)建起獨(dú)創(chuàng)的「1+N」的 Step 系列大模型矩陣,持續(xù)突破技術(shù)邊界。
「1」是指Step 3基礎(chǔ)大模型;「N」則為Step系列的多模態(tài)大模型矩陣,廣泛覆蓋語(yǔ)音、視覺(jué)理解、圖像編輯、圖像和視頻生成、音樂(lè)等領(lǐng)域。
本次WAIC期間,階躍升級(jí)了多模態(tài)模型,包括階躍首個(gè)多模理解生成一體化模型Step 3o Vision,第二代端到端語(yǔ)音大模型Step-Audio 2,都可以在「階躍AI」官網(wǎng)(stepfun.com)和「階躍AI」App進(jìn)行體驗(yàn)。
我們淺玩了一下「階躍AI」的視頻通話功能后發(fā)現(xiàn),真有點(diǎn)鋼鐵俠里「賈維斯」那味兒了。
它可以開(kāi)啟攝像頭,觀察周?chē)h(huán)境,還能識(shí)別環(huán)境中的復(fù)雜物體。
比如可以識(shí)別出套著黑色外殼的蘋(píng)果耳機(jī),也可以在白色桌面上識(shí)別出透光的眼鏡。
即使在環(huán)境光強(qiáng)反射下,依然能夠穩(wěn)定識(shí)別全英文包裝的藥品。
可以一字不差的檢測(cè)出手里拿著的是「BLACKMORES」魚(yú)油品牌,并且還準(zhǔn)確給出了產(chǎn)品功效的解讀。
成立兩年多以來(lái),Step系列已經(jīng)發(fā)布了26款自研基座模型,多模態(tài)占比超七成,而且模型性能也保持著行業(yè)的頂尖水平。
在不斷追求模型智能上限的同時(shí),階躍也在持續(xù)探索著模型的落地應(yīng)用。
與其他廠商只發(fā)模型不同,Step 3更進(jìn)一步,實(shí)現(xiàn)了商業(yè)價(jià)值的大幅聯(lián)動(dòng)。階躍認(rèn)為要讓大模型真正用起來(lái),不僅僅是訓(xùn)練一個(gè)模型,需要全產(chǎn)業(yè)鏈的聯(lián)合創(chuàng)新。
在發(fā)布會(huì)現(xiàn)場(chǎng),階躍星辰宣布聯(lián)合近 10 家芯片及基礎(chǔ)設(shè)施廠商,共同發(fā)起「模芯生態(tài)創(chuàng)新聯(lián)盟」,致力于打通芯片、模型和平臺(tái)全鏈路技術(shù)。
通過(guò)底層聯(lián)合創(chuàng)新提升大模型適配性和算力效率,該聯(lián)盟將為企業(yè)和開(kāi)發(fā)者提供高效易用的大模型解決方案,加速應(yīng)用落地。
首批成員包括華為昇騰、沐曦、壁仞科技、燧原科技、天數(shù)智芯、無(wú)問(wèn)芯穹、寒武紀(jì)、摩爾線程、硅基流動(dòng)等。
目前,華為昇騰芯片已首先實(shí)現(xiàn)Step 3的搭載和運(yùn)行。沐曦、天數(shù)智芯和燧原等也已初步實(shí)現(xiàn)運(yùn)行Step 3。其它聯(lián)盟廠商的適配工作正在開(kāi)展。
階躍的AGI之路并不單純追求炫技,而是在每一代模型的研發(fā)中都思考如何讓大模型真正用起來(lái),無(wú)論是尋求突破系統(tǒng)級(jí)創(chuàng)新,還是聯(lián)合全鏈條技術(shù)產(chǎn)業(yè)一起探索更底層的協(xié)同創(chuàng)新。
階躍星辰創(chuàng)始人、CEO 姜大昕說(shuō),「從Step 1到Step 2兩代基模的快速迭代,促使我們深入思考什么才是最適合應(yīng)用的模型。隨著大模型進(jìn)入到強(qiáng)化學(xué)習(xí)發(fā)展階段,新一代推理模型成為主流,模型性能的提升固然顯著,但這是否完全等同于模型價(jià)值?面對(duì)這一產(chǎn)業(yè)之問(wèn),我們必須回歸客戶需求,立足真實(shí)應(yīng)用場(chǎng)景,探索模型創(chuàng)新落地的可行路徑。這是我們研發(fā)新一代Step 3基礎(chǔ)模型的出發(fā)點(diǎn)」。
在通往AGI征程中,階躍星辰正以開(kāi)拓者之姿,引領(lǐng)中國(guó)AI駛向更廣闊的星辰大海。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.