網易首頁 > 網易號 > 正文申請入駐

年底基座大模型輪番炸場，誰是“多模態之王”？｜甲子光年

2025-01-21 21:59:57　來源: 甲子光年

北京舉報

分享至

多模態語音、視覺理解及生成火力全開。

作者｜趙健

上個月剛拿到B輪融資的階躍星辰，2025年開年就開足了馬力，帶著最新發布的大模型來炸場了！

雖然沒有開發布會，但階躍星辰或許是從OpenAI發布會那里學到的靈感，從上周四到今天接連幾天連續發布6款新模型，涵蓋語言、語音、推理、多模態理解、視頻生成等多個類別。

不同大模型公司往往有一個獨特的標簽，比如長文本、Agent、虛擬角色等，而階躍星辰最大的特色無疑是一直在領跑行業的“多模態”能力。

在這一系列轟炸式發布中，階躍星辰最值得關注的更新是其融合了語音、文本、視覺三種模態的Step-1o系列模型，剛升級就在LMSYS和OpenCompass最新榜單上拿下雙料國產大模型第一。該系列的上一個版本Step-1V，同樣曾霸榜LMSYS多模態榜單；全新發布的推理模型Step R-mini，并未止步于對文本推理的探索，已經融入多模態場景，在視覺推理上取得階段性成果。視頻生成模型也推出了Step-Video V2版本，在大幅物理運動合理性、空間感知、人物刻畫細膩度等方面效果亮眼。

自出道起，階躍的多模態模型就因為智能水平領跑行業、接入門檻低，俘獲了大量AI應用開發者。階躍很早就明確了多模態理解生成一體化的技術路線。過去一年，Step系列多模態模型多次在國內外權威評測上位列中國多模態第一，是名副其實的多模態之王。2025年，這個領先身位還在繼續。

1.誰還在堅持基座大模型？

2023年，基座大模型還是AI創業公司最頭部的明星，吸引了最多的人才、融資與聚光燈，并誕生了“大模型六小虎”；不到兩年的時間里，基座大模型公司像坐上了過山車，陷入了新的融資來源、技術與產品之間的取舍、商業模式驗證等諸多問題的焦慮中。

在社交平臺上，我們經常看到一些“對號入座”的帖子，直擊大模型公司的軟肋。

基座大模型（Foundation Model 或 Base Model）是指經過大規模數據預訓練得到的、具有通用語言理解和生成能力的大語言模型。基座大模型的預訓練需要在超級計算機（數據中心）中使用成千上萬塊GPU以及數月時間來處理海量數據。然而，由于預訓練成本高昂，這條路并不輕松。

有的小虎已經主動放棄繼續投入超大規模大模型，比如零一萬物，轉而與阿里云這樣的大廠展開合作。阿里云會繼續做超大模型，零一萬物將在此基礎上訓練更小規模的模型，服務于特定的行業，提供更差異化的服務。

站在創業生死存亡的角度，很難說這是一個錯誤的決定。李開復也公開表態說：“創業公司第一年的打法未必適用于第二年，此時如果盲目堅持一些負擔不起的東西，對初創公司來說并不是正確和健康的選擇。”

除了零一萬物之外，其他小虎都還沒有明確放棄基座大模型。但通過他們的模型布局可以看出，不同的小虎有不同的側重點。

通過梳理可以看到，大廠中阿里布局最全面，而階躍星辰、智譜是國內在基座模型領域布局最全面的兩家創業公司，也是融資表現最好的兩家。

階躍星辰是公開露面最晚的大模型公司，但在模型的布局上卻不落下風，是國內少數堅持自研基座模型的公司。階躍星辰在去年底拿到B輪融資后，今年在AGI的路上加速狂奔，開年一口氣接連上新、升級6款模型，覆蓋語言、語音、推理、多模態，可謂國內的基模制造工廠。

2.多模態開年炸場

階躍星辰的大模型家族為Step系列，Step代表階躍函數（step function），同時也代表了其追求AGI的態度——Step by Step，一步一個腳印。

階躍星辰此次一共發布了六款新模型，最值得關注的是step-1o多模態系列模型。這一系列模型都是原生端到端文本、視覺、語音三模態生成理解一體化模型。

其中第一款新模型是語音模型 Step-1o Audio，在情緒感知與理解、多語種和多方言和通話體驗上全面升級。這款模型在一個月前首次上線，是國內首個千億參數端到端語音大模型。

第二款新模型Step-1o Vision是最新多模態模型step-1o的視覺版本，相比于Step-1V系列模型，模型架構升級，擁有更強的視覺性能，在視覺感知和識別、指令跟隨、空間理解與推理等方面實現了顯著提升。Step-1o Vision能更準確地識別圖像內容，即使是復雜場景或相似圖片，也能輕松識別，甚至還能精確識別圖中的多種語言。

值得一提的是，這款模型剛上線就拿下了中國多模態理解大模型的雙料冠軍。1月20日，LMSYS Org發布了大模型競技場Chatbot Arena最新榜單，Step-1o Vison在其中位列視覺領域中國大模型第一，超過所有國內大模型公司。

在最新發布的國內權威的大型模型評估平臺“司南”（OpenCompass）多模態模型評測實時榜單中，Step-1o Vison也實現了霸榜。

多模態理解能力一直是階躍星辰的強項，很多AI應用開發者正在基于階躍星辰多模態大模型構建產品。去年，網紅AI應用「胃之書」基于階躍星辰多模態能力，幫助用戶以更快捷有趣的方式記錄飲食，開發者趙純想公開表示曾對國內大部分模型做過 AB 測試，最終發現階躍星辰付費率最高。

第三款新模型是升級版的視頻生成模型Step-Video V2，據悉階躍很快將對外發布，「甲子光年」提前拿到了內測名額，目前可以在躍問網頁版申請內測。

階躍星辰的視頻生成模型可以生成8秒的高清視頻。從測試結果來看，Step-Video V2在復雜運動、美感、人物、簡單文字生成、中英雙語輸入和鏡頭語言方面具備更強的生成能力。

比如，推拉搖移等更加豐富的鏡頭語言：

提示詞：視頻中，樂高哈利波特魔法城的全景特寫展示了一個由樂高積木構建的魔法世界。一個樂高小人在城堡前走來走去。畫面中，城堡的每一個細節都被清晰地呈現，從尖塔到窗戶，都展現了樂高積木的獨特魅力。城堡的周圍環繞著濃郁的魔法氛圍，讓人仿佛置身于哈利波特的故事中。整個畫面采用環繞拍攝，鏡頭穩定，給人一種安靜而專注的感覺。

更加逼真的人物形象：

提示詞：一位男性，身穿黑色西裝，搭配深色領帶和白色襯衫，臉部帶有傷痕，表情凝重。

多個主體運動，與精致的畫面美觀度：

提示詞：熱帶魚在海洋礁石中游動，超高清。

階躍星辰發布的第四款新模型是推理模型Step R-mini，這是Step系列模型家族的首個推理模型，補齊了基座大模型的最后一塊拼圖。

推理模型的工作原理在于引入了像人類一樣的慢思考能力，被稱為System 2，通過深思熟慮來解決更復雜的推理問題。Step R-mini能夠主動進行規劃、嘗試和反思，有慢思考和反復驗證的邏輯機制，擅長通過超長推理能力解決邏輯推理、代碼和數學等復雜問題，同時也能兼顧文學創作等通用領域。

階躍星辰仍然把Scaling Law作為推理模型范式的核心原則，在堅定Training-time Scaling的同時，也兼顧Test-time Scaling。Step R-mini以強化學習（Reinforcement Learning）作為模型訓練的核心階段，同時持續擴大數據的分布與規模。在測試階段階躍星辰發現，System 2的范式讓Step R-mini能在極復雜任務推理上達到50000 tokens（大約在5萬到7萬字左右）來進行深度思考。

除了語言推理模型，階躍星辰也在打造視覺推理模型，引入了慢感知和空間推理思想，把Test-time Scaling從文本空間轉移到視覺空間，實現在視覺空間下的Spatial-Slow-Thinking（空間性慢思考）。

階躍星辰還發布了兩款新的語言模型——Step-2 mini、Step文學大師版。

在語言模型中，階躍此前最能打的版本是國內少有的萬億參數語言大模型Step-2，這款模型最直觀地證明了Scaling Law的紅利，以巨大的參數量推高模型的知識廣度和創作能力。Step-2曾多次在LiveBench等國際權威榜單上位列國產大模型第一，本周又登上LMSYS Org最新發布的大模型競技場Chatbot Arena榜單，成為極少數進入前十的國產大模型，成績超越了o1-mini、Gemini 1.5 Pro-002 和 GPT-4o-2024-05-13等知名模型。

階躍這次新發布的Step-2 mini、Step文學大師版都脫胎于Step-2，繼承了 Step-2的性能，但在場景和應用便捷性、性價比上都往前走了一步，從中也看出階躍在研發基座模型的同時，也在加速模型的商業化探索。

具體而言，Step-2 mini是一款敏捷的輕量級模型。和萬億參數（MoE 架構）的 Step-2相比，Step-2 mini以 5%左右的參數量實現了80%以上的模型性能。在輸入4000 tokens的情況下，Step-2 mini的平均首字時延僅0.17秒，價格為輸入1元/百萬token，輸出2元/百萬token，商業化場景更加廣泛。

Step-2 mini更快的生成速度以及高性價比是如何做到的？階躍星辰近期首次公布了架構細節——采用自研的新型注意力機制MFA（Multi-matrix Factorization Attention，多矩陣分解注意力）及其變體MFA-Key-Reuse，相比于常用的 MHA（Multi-Head Attention，多頭注意力）架構，節省了近94%的KV緩存開銷，擁有更快的推理速度并大幅降低了推理成本。

Step-2文學大師版是一款專門為創作而生的語言模型。很多大模型由于過度對齊社會知識，導致創作的內容過于“AI味兒”，常常顯得“假大空”和“偉光正”。而Step-2文學大師版沿襲了Step-2廣袤的知識儲備、對文字強大的細節把控能力，可以充分理解用戶創作需求，更加貼近真實的“文學大師”風格。

用Step-2文學大師創作的懸疑小說：

3.大模型進入下半場

如果把AGI看作一場創業競賽，2025年基座大模型公司毫無疑問進入了下半場。

如今，海外的大模型創業公司僅剩OpenAI、Anthropic與xAI三足鼎立，再加上亞馬遜、谷歌與Meta幾家大廠，他們可以說壟斷了最頂尖的人才團隊與資金。在基座大模型的范圍內，其他公司很難再有機會。

盡管中美市場有所差異，但基本的市場規律不會有太大的差異。在國內，基座大模型的格局尚未完成洗牌，但已經暗流涌動。2023年年中，云啟資本合伙人陳昱就告訴「甲子光年」，其實國內真不需要這么多大模型，結局會和之前的百團大戰一樣，最后只剩下幾家。

基座大模型是通往AGI的必經之路，但要實現AGI，卻存在諸多的現實挑戰，既要有錢、有卡，還要找到合適的商業模式。

在眾多的現實挑戰下，是否人人都還篤定堅持AGI的夢想？

部分公司在技術和產品之間橫跳，或改變了發展路線。而階躍星辰一直堅持其成立之初規劃的AGI技術路線圖，持續迭代全類別基模，屬于行業內穩健篤定的技術理想主義派。

階躍星辰創始人、CEO姜大昕認為，大模型的演進將會經歷從早期語言、視頻、語音等各個模態獨立發展，然后逐步融合，到徹底融合的過程。Scaling Law、多模態理解與生成的統一，是實現 AGI 的核心認知。從公司成立的第一天起，這條技術路線圖就展示在階躍星辰的公司展板上。

2025年將是大模型的洗牌之年，這必將是屬于少數人的路。

（封面圖來自階躍星辰）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.