網易首頁 > 網易號 > 正文申請入駐

實測爆火的階躍星辰Step 3，性能SOTA，開源多模態推理之王

2025-07-26 16:39:31　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

編輯：Panda

天氣很熱，WAIC 2025 也很熱，來自中國的開源模型軍團更是熱上加熱。

就在剛剛開始的 WAIC 2025（世界人工智能大會）前一天，被譽為「多模態卷王」的階躍星辰率先投下一枚重磅炸彈，正式推出其新一代基座模型：Step 3

這并非又一個普通的模型迭代。從各項數值上看，Step 3 無疑是開源 VLM 新晉之王，在 MMMU、MathVision 和 SimpleVQA 等基準上均超越了其它同類別開源模型。

即便與 OpenAI o3、Gemini 2.5 Pro、Claude Opus 4 等頂尖的閉源 VLM 相比，它的推理能力也有一戰之力。

Step 3 一發布就吸引了海內外廣泛關注，比如在我們的相關推文下方，就有多位網友表達贊譽。

機器之心也在階躍星辰發布會現場，親眼見證了這又一「國產之光」的誕生。

整場發布會下來，我們的感受是 Step 3 不僅是一個性能強大的模型，同時也是一個答案。它回答的是這樣一個橫亙在所有 AI 從業者面前的問題：什么樣的模型才是真正能服務于千行百業、最適合商業化應用的理想形態？

如今，AI 的行業敘事已經清晰地從訓練場轉向了真實世界的推理任務。當頂尖模型的智能上限被不斷拔高后，真正的瓶頸落在了應用側。推理成本居高不下特定場景適配難多模態能力調用不全堪稱阻礙 AI 技術走向大眾的「三座大山」。因此，一個真正適合應用的推理模型，必須在智能成本效率和通用性之間找到最佳的平衡點。

而 Step 3 回答的方式可以凝練成四個字：多開好省

，即多模態。Step 3 具備文本和視覺的多模態能力，實現了多模合一。
，即開源。階躍星辰表示 Step 3 將于7 月 31 日面向全球企業和開發者開源。
，即性能優異。Step 3 是最強大的開源多模態推理模型。
，即效率更高、成本更低。Step 3 的高效率和低使用成本使其非常適合商業部署和應用 —— 實現了行業最高的推理解碼效率，在國產芯片上的推理成本僅為當前業界領先開源模型的三分之一。

這一發布不僅是階躍星辰自身從技術深耕邁向商業化成熟的宣言，更可能為深陷成本與應用難題的 AI 行業提供一個極具吸引力的新范式。Step 3 究竟能否憑借其「四字真言」成為推理時代的一個最優解？一切答案，正從這里揭曉。

機器之心實測

VLM 開源第一王實至名歸

實踐可以檢驗真理。Step 3 究竟能否戴上「開源 VLM 之王」的桂冠，同樣需要實踐驗證。目前，Step 3 已經上線 stepfun.com 與階躍 AI APP，我們也在第一時間對其進行了多維度測試。

我們的第一個測試頗具趣味性，可以考驗其觀察與分析能力：派出我家肥貓，讓 Step 3 來對她進行「視覺稱重」。

Step 3 的表現相當出色：它不僅準確識別出貓的品種（三花貓）及其身下的人體工學坐墊，還對貓的體型（體型勻稱）進行了分析，最終給出了一個相當精準的體重估測。

Step 3 甚至還能幫你理解新鮮熱梗，就以昨天堪稱「最逆天的 NeurIPS 評審」的「Who's Adam?」為例，我們直接將推文截圖交給 Step 3，然后問它為什么這個帖子這么火。

而 Step 3 的表現可以說超出了預期，不僅清晰地解釋了「Who's Adam?」的內涵并解答了其火爆的原因，更是用一句「戳中了 AI 研究者們對審稿質量焦慮的痛點」做了恰到好處的犀利總結。

Step 3 也支持同時輸入多個視覺內容，比如這里我們讓 Step 3 根據四張歌詞的截圖編寫了一個感人的故事：

Step 3 證明了其強大的多模態信息整合與創意生成能力后，我們又測試一下 Step 3 的深度推理能力：根據一張貼有貼紙的主機的側面照片推測其上一共有多少貼紙。這個問題對當今的多模態模型來說還相對較難，而我們也將測試平臺換到了網頁端 stepfun.com。

可以看到，Step 3 首先準確地識別出了這些貼紙的角色，然后它又準確統計出了可見部分中貼紙的數量。之后 Step 3 進入了更深度的思考，考慮了提示詞中提到的「對稱」的各種可能性。最終，它正確地確定了最終答案，并相當準確地給出了可見部分貼紙中的內容。

我們還讓 Step 3 挑戰了一項終極任務：解讀其自身的技術報告中的一張圖，這將是對其專業視覺理解能力的極致考驗。

可以看到，Step 3 基本正確地解讀了 Step 3 技術報告中 AFD 架構的模塊分解示意圖。

經過一系列的實測，Step 3 的交互體驗讓我們印象深刻，甚至讓我們一度驚嘆：這么強的模型竟也開源？其響應流暢，視覺理解能力超強，在處理極其復雜的或有歧義的視覺問題時，其回答偶有偏差，這也在意料之中。但其強大的基礎視覺理解、推理能力以及流暢的交互體驗，已經足以證明它在當前的開源多模態模型中確實坐擁王者之位。Step 3 所展現的，是一個真正能「看懂」并「理解」物理世界的 AI 助手雛形。

順帶一提，在測試 Step 3 的過程中，我們還驚喜地發現了階躍 AI App 上一個被許多用戶忽視的功能：智能視頻通話。在該功能下，用戶只需在 App 內開啟攝像頭，手機便化身為一個強大的智能視覺助手。

我們實測發現，實時視覺理解能力非常驚艷！比如在下面這個案例中，階躍 AI 不僅迅速識別出了這款桌游名叫「Splendor（璀璨寶石）」，還準確地闡述了其背景信息。

當一只好奇的貓突然闖入鏡頭，占據游戲盒時，我們實時打斷了 Step 3 的介紹并發問。模型無縫切換了對話，并圍繞這位「不速之客」給出了一些頗為有趣且有用的建議，展現了其強大的實時多模態對話與打斷能力。

深度拆解

Step 3 是如何誕生的？

那么，如此「多開好省」的 Step 3 究竟是如何煉成的呢？翻開 Step 3 的系統和架構技術報告，我們可以看到答案并非單一技術的突破，而是源于一套完整且自洽的技術棧，涵蓋了從底層原創架構到高層系統協同的全鏈路創新。

技術報告：Step-3 is Large yet Affordable: Model-system Co-design for Cost-effective Decoding
報告地址：https://github.com/stepfun-ai/Step3/blob/main/Step3-Sys-Tech-Report.pdf

首先，底層架構上，Step 3 采用了階躍星辰原創的MFA 架構，即 Multi-matrix Factorization Attention（多矩陣分解注意力）。該架構在設計之時就兼顧了效率與性能，其中的創新之處包括增加注意力頭的數量和維度、采用激進的低秩分解策略以及采用單鍵值（QK）頭設計。這樣一來，MFA 架構既能最大限度地節省資源，又能盡可能接近理論性能上限。

MFA 和 MFA-KR 架構與 MQA/GQA 架構的比較

Step 3 使用的MFA 還專門針對國產芯片進行了優化。這是 MFA 架構最關鍵的亮點之一。針對國產芯片在制程和 HBM（高帶寬顯存）限制下，算力與顯存帶寬受限的普遍痛點，MFA 進行了專門優化。其計算密度（128 倍于 KV 訪存量）完美匹配國產芯片的特性，避免了主流架構 MLA（需要巨大算力）和 GQA（需要巨大訪存）在國產芯片上會遭遇的計算瓶頸或訪存瓶頸。

技術數據顯示，在同尺寸和同等激活參數量下，Step 3 的 MFA 架構所需絕對 KV 量僅為 Qwen GQA 的 1/3，絕對計算量僅為 DeepSeek MLA 的 1/4 。這使得 Step 3 在國產芯片上的運行成本甚至比 DeepSeek 和 Qwen 在高端芯片上更低！這能真正從底層技術上助力國產芯片與國際頂尖芯片同臺競技。

更高層級上，Step 3 采用了MoE（混合專家）架構，總參數量為321B（其中 LLM 的參數量 316B，視覺編碼器的參數量 5B），激活參數量則達到38B

Step 3 模型卡

這一規模可確保其算法效果與 DeepSeek（激活 37B）相當，并強于 Qwen（激活 22B）。

更重要的是，階躍星辰還進一步對 MoE 的部署進行了深度優化：

先進的分布式推理：階躍星辰實現了一套比 DeepSeek 的「大 EP」模式更先進的分布式推理方案Attention-FFN Disaggregation (AFD），針對 Attention 和 FFN 的計算特點，分別分配給內存帶寬大和算力強的 GPU 集群，實現資源精準匹配，從而進一步壓縮成本。該方案可配合分享通信庫的參考實現，無需依賴英偉達特有的 IBGDA 等功能，因此對各類國產芯片廠商更加友好。
網絡部署友好：AF 分離方案相比大 EP，可用相對較小的部署規模，較好地緩解了大規模部署時跨 ToR 的網絡抖動問題。

在 32k 上下文長度下，每個解碼 token 的計算和內存理論使用量

正是在原創 MFA 架構、高效 MoE 方案以及軟硬件協同創新的共同作用下，Step 3 最終得以「多開好省」的王者姿態呈現在世人面前。

模態方面，作為業內享有盛譽的「多模態卷王」，階躍星辰這一次又在這個賽道上卷到了新的高度。Step 3 是階躍星辰首個全尺寸的原生多模態推理模型，具備強大的視覺理解能力。Step 3 同時還有強大的推理能力，是開源模型中少有的即支持多模態又能深度推理的大模型。

源方面，繼 DeepSeek 系列模型、Qwen 系列模型以及 Kimi K2 之后，Step 3 作為又一強大的開源模型，在獨特的多模態賽道上為國產 AI 再次贏得了榮譽。

接下來的，自然是性能卓越，Step 3 用 SOTA 成績證明了自己。在 MMMU、MathVision 等多個權威多模態基準上，其成績超越了 ERINE 4.5、GLM-4.1V-thinking 等一眾開源模型。

最后，在至關重要的方面，通過 AFD 等一系列極致的優化，階躍星辰用 Step 3 交出了一份驚人的答卷！

根據原理分析，Step 3 在國產芯片上的推理效率最高可達 DeepSeek-R1 的 300%，且對所有芯片友好；
在基于 NVIDIA Hopper 架構的芯片進行分布式推理時，實測 Step 3 相較于 DeepSeek-R1 的吞吐量提升超 70%。

這一切并非通過補貼或犧牲性能實現的「價格戰」，而是通過提升解碼效率等核心技術創新帶來的、可持續的成本效益革命。

事實上，Step 3 的橫空出世并非一日之功，而是階躍星辰在技術路線上長期積累與迭代的必然結果。回顧其 Step 系列基座模型的發展歷程，我們可以清晰地看到一條從夯實基礎、探索深度智能到聚焦商業化效率的進化路徑。

這一切始于，這是階躍星辰自主研發的千億參數語言大模型，其性能全面超越 GPT-3.5，為公司奠定了堅實的技術基石。之后，采用 MoE 架構的Step-2將探索的重點轉向深度智能，成為國內首個由創業公司發布的萬億參數語言大模型，在多種任務的體感上全面逼近 GPT-4，并曾在「最難 LLM 評測榜單」LiveBench 上拿下中國第一、全球第五的佳績。

從 Step-1 對標 GPT-3.5 到 Step-2 對標 GPT-4，正是這些在模型架構、算法與系統上的持續創新與深厚積累，最終成為 Step-3 在推理時代實現極致的商業化效能的有效支撐。

Not Just One More Thing

階躍星辰可以更高調

在過去兩年多的時間里，由微軟前全球副總裁姜大昕博士創立的階躍星辰，雖憑借其強大的模型矩陣被業內冠以「多模態卷王」的美譽，但其行事風格整體不算高調。

但這一次，隨著開源 Step 3 的震撼發布，「階躍星辰StepFun」這個名字注定將成為 AI 社區的一個熱詞。更重要的是，在本次發布會上，我們看到的遠不止 Step 3 這一個模型。正如那句經典的「One More Thing」，階躍星辰展示了其在技術生態與商業化落地上同樣宏大的布局。

第一個 One More Thing 是階躍星辰攜手華為昇騰、沐曦、壁仞科技、燧原科技、天數智芯、無問芯穹、寒武紀、摩爾線程、硅基流動等 10 家芯片及基礎設施廠商，共同發起「模芯生態創新聯盟」。

這個堪稱「豪華朋友圈」的聯盟的意義遠超一次簡單的站臺。它代表了一種更深層的行業思考：要真正推動大模型的普及，僅靠模型廠商之間的 API「價格戰」遠遠不夠，根本路徑在于通過模型與芯片廠商的底層協同創新，真正可持續地降低成本。Step 3 模型對國產芯片的深度適配和極致的效率優化，可以說正是這一模式下誕生的首個碩果，它不僅讓自身更具應用性，也為整個國產算力生態的發展注入了強心劑。

第二個 One More Thing 是一份極其亮眼的「商業化半年報」。

主要得益于在智能終端 Agent 領域（手機和汽車）的率先布局和量產落地，階躍星辰的商業化應用在 2025 年增長迅猛。階躍星辰開放平臺數據顯示，2025 年上半年來自智能終端的多模態模型調用次數和調用量，較去年下半年環比增長均超過 800%。預計階躍星辰年內收入將接近 10 億元！

在手機領域，Top 10 國產手機廠商中過半已和階躍星辰達成合作。其多模態能力已落地多個智能手機品牌的量產旗艦機型，陪伴著上億人的日常生活。在汽車領域，其端到端語音大模型在吉利銀河 M9 上實現行業首發上車，并聯合發布了新一代智能座艙 Agent OS（預覽版）。在具身智能和 IoT 領域，階躍星辰也已經與一些頭部廠商建立了合作關系。

從深耕技術到廣積糧草，再到如今手握王牌模型、聯合生態伙伴并交出亮眼的商業答卷；這一次，一向「埋頭做事」的階躍星辰，完全有理由、也理應更高調。

從多模態卷王到推理時代的「最優解」

在過去一年多的時間里，階躍星辰憑借其驚人的迭代速度和全面的模型矩陣，被業界冠以「多模態卷王」的稱號。截至今天，其發布的 26 款模型中有多達 20 款是多模態模型，在整體基座模型中占比超過七成，且在多個權威榜單上名列前茅。

而 Step 3 的發布，清晰地標志著這位「卷王」已進入新的戰略層次。它不再僅僅是展示肌肉、追求單一維度的技術領先，而是將目光投向了整個行業最核心、最迫切的痛點：在 AI 全面進入應用的「推理時代」，如何提供一個真正好用、普惠且強大的商業化模型。

階躍星辰給出的答案就是 Step 3。它并非簡單的打榜模型，而是一個試圖將多模態能力（多）、開源生態（開）、頂尖性能（好）與極致效率（省）四個關鍵維度進行完美融合的「最優解」。通過填補「好用且開源的多模態推理模型」這一市場空白，它為萬千開發者和企業提供了一個無需在性能與成本、開放與能力之間艱難取舍的全新選擇。

更重要的是，階躍星辰選擇了一條更艱難但更具長期價值的路徑。相較于容易引發惡性競爭的 API 價格戰，其聯合芯片及基礎設施廠商成立「模芯生態創新聯盟」致力于通過「模型和系統聯合創新」的模式，從根本上推動技術普及和成本降低。這不僅展現了其作為技術公司的格局，也為行業探索出一條更可持續的良性增長之路。

從「卷王」到「解題者」，階躍星辰用 Step 3 證明了其對產業的深刻洞察。這不僅是一家 AI 公司技術實力的體現，更標志著其走向商業成熟的決心，也就是為市場打造一個真正有誠意、有價值、用得起的大模型

文中視頻鏈接：https://mp.weixin.qq.com/s/t9HAQG6WD3BPwg95d4Y8Fw

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.