中國開源大模型,正在引領全球AI風潮。
作者|趙健
在DeepSeek效應下,今天的開源AI市場正在形成一股洪流。
過去短短一個月的時間里,海內外至少有三家業內領先的大模型公司宣布了開源計劃,按照時間順序為:
1月15日,MiniMax發布并首次開源了其最新一代基礎大模型MiniMax-01,并公開技術報告;
2月1日,OpenAI CEO Sam Altman在發布o3 mini推理模型的同時,公開承認OpenAI過去“站在了歷史的錯誤一邊,需要找出一個不同的開源策略”;
2月14日,百度宣布將在未來幾個月中陸續推出文心大模型4.5系列,并于6月30日起正式開源。
2月18日,又有一家國產大模型公司宣布戰略級開源計劃。
“大模型六小虎”之一的階躍星辰聯合吉利汽車集團開源了兩款多模態模型:截至目前全球范圍內參數量最大、性能最好的視頻生成開源模型Step-Video-T2V,以及行業內首款產品級開源語音交互大模型Step-Audio。目前,兩款開源模型均可以在「躍問App」上免費不限次體驗。
如果說DeepSeek為開源社區樹立了文本大模型的新標桿,那么階躍星辰正在開源社區樹立新的多模態大模型標桿,形成大模型開源世界的又一股中國力量。
1.最好的開源視頻生成模型
階躍星辰此前發布的模型都是閉源模型。雖然性能很強大,但模型具體是如何訓練的,外界無從得知。這一次,階躍星辰首次開源了兩款Step系列多模態模型Step-Video-T2V以及Step-Audio。
根據階躍星辰公布的技術報告,Step-Video-T2V具有300億參數,能夠生成長達204幀的視頻,支持中英文雙語提示。該模型采用了深度壓縮變分自編碼器(Video-VAE)、擴散Transformer(DiT)和視頻直接偏好優化(Video-DPO)等技術,以提高生成視頻的質量。
階躍星辰在技術報告中定義了構建視頻基礎模型的兩個層次。
Level-1為翻譯型視頻基礎模型,是一個跨模態翻譯系統,能夠從文本、視覺或多模態上下文中生成視頻。當前基于擴散模型的文本到視頻模型,比如Sora、Veo、Kling、Hailuo和階躍星辰的Step-Video,目前都屬于Level-1。
Level-2為預測型視頻基礎模型,能夠像大語言模型那樣根據根據文本、視覺或多模態上下文預測未來事件,并處理更高級的任務,例如多模態數據推理或模擬現實場景。
階躍星辰認為Step-Video-T2V是Level-1階段,截至目前全球范圍內參數量最大、性能最好的開源視頻生成模型,并將繼續探索Level-2。
在benchmark表現上,階躍星辰專門構建了一個用于評估文本到視頻模型質量的新基準測試。該基準包含128個來自真實用戶的中文提示,旨在評估生成視頻在11個類別中的質量,包括體育、美食、風景、動物、節日、組合概念、超現實、人物、3D動畫、電影攝影和風格;同時階躍星辰還提出了兩種人工評估指標。
基于該基準,Step-Video-T2V要整體優于騰訊的開源模型HunyuanVideo。
Step-Video-T2V是一個“真開源”模型,采用了最為開放寬松的MIT開源協議,用戶可任意編輯和商業應用,做到了毫不隱藏、完全開源,具有最大的誠意。
作為對比,Llama3.1 的開源協議雖允許商用,但要求顯著提示“Built with Llama”,并且對于月活用戶超過7億的情況,需要向Meta申請額外許可。Qwen2.5主要采用了Apache 2.0協議(3B與72B除外),會比MIT開源協議的限制更多一點。
階躍星辰開源的另一款模型Step-Audio,是業內首款「產品級」開源語音交互模型,全力降低產業接入門檻。不同于市面上的開源方案需要經過在部署和再開發等工作量,Step-Audio 是一整套實時對話方案,只要簡單部署上就能直接實時對話,可以端到端體驗。
目前,這兩款開源模型已經可以在「躍問App」體驗。其中,視頻生成免費,不限次數,可直接使用。以下是部分生成案例:
提示詞:鏡頭跟在一輛白色老式 SUV 后面,車頂架是黑色的,它在陡峭的山坡上加速行駛。
提示詞:一位身穿淺色紗質服飾的女子,頭戴精致的頭飾,面帶微笑。鏡頭以特寫展現她姣好的面容和溫婉的氣質。隨后,鏡頭切換到一位男子,他戴著透明面紗,眼神凝視著前方。平視鏡頭特寫展現了面紗的質感和男子若有所思的神情。場景再次切換,男子身穿黑色長袍,衣襟和袖口處有暗紋裝飾,神情嚴肅地站在一個類似庭院的環境中。中景鏡頭展現了人物的全身以及周圍環境,營造出一種神秘的氛圍。
提示詞:一個精靈,在森林中起舞,身旁是螢火蟲環繞,月光透過樹葉,慢速展現精靈的輕盈,畫面夢幻唯美。
2.開源會泄露核心技術嗎?
階躍星辰一口氣把自己最核心的多模態技術給開源了。
對于開源的態度,業內眾說紛紜。一個最直接、最常見的疑問就是,開源會泄露核心機密嗎?開源行為真的是為愛發電嗎?
首先,開源模型與閉源模型之間并非完全的對立關系。除了Meta、DeepSeek這些完全采用開源戰略的公司之外,大部分AI公司選擇了開源與閉源并行的戰略,比如谷歌。
“開源模型”本身的定義也有諸多爭議。在一些開源的原教旨主義者眼里,大模型的開源并非像開源軟件那樣直接把底層代碼開源,其實是一種“偽開源”。
實際上,開源模型開源的是“權重”,權重就是大模型經過復雜的訓練后得到的模型參數,開源模型允許用戶自由下載和使用這些權重,但是無法修改與復現。因此,開源實際上并沒有透露AI模型背后的核心競爭力。
開源的意義更多在于生態效應。現在所有的AI研究追根溯源都得益于開源社區,比如當前幾乎所有大模型的基本架構都來自于谷歌在2017年發布并開源Transformer論文。開源者站在開源社區的研究成果上繼續研究,并提出新的想法來回饋開源社區。
從技術角度來看,開源其實是一種秀肌肉的行為。只有開源模型性能真的有足夠的競爭力,才能吸引到用戶與開發者使用,這樣的開源才有意義,否則只會變成技術自嗨。
從商業角度來看,開源的主要目的是吸引用戶、開發者、潛在的合作伙伴以及吸引人才,DeepSeek就是一個活生生的案例。當一個開源模型積累足夠的用戶,就有可能圍繞開源社區進一步構建成為AI時代的操作系統。
基于這樣的背景,階躍星辰選擇在今天開源,正是一種技術自信的體現。
3.多模態卷王的技術實力
不同大模型公司往往有一個獨特的標簽,比如長文本、虛擬角色等,而階躍星辰最大的特色無疑是一直在領跑行業的“多模態”能力。
階躍星辰也是多模態領域布局最全的大模型公司之一,旗下模型涵蓋語音識別、語音復刻及生成模型、視頻理解模型、圖像生成模型、視頻生成模型、多模態理解等各種類別。而且階躍星辰保持了很快的研發節奏,自公司成立以來已經先后發布11款多模態大模型。
在模型性能上,Step系列多模態模型曾多次在國內外權威大模型評測榜單上位列「中國大模型第一」。
比如,1月20日,LMSYS Org發布了大模型競技場Chatbot Arena最新榜單,Step-1o Vison在其中位列視覺領域中國大模型第一,超過所有國內大模型公司;在最新發布的國內權威的大型模型評估平臺“司南”(OpenCompass)多模態模型評測實時榜單中,Step-1o Vison也實現了霸榜。
在AI自媒體賽博禪心發布的“大模型視力表”測評中,階躍星辰多模態理解能力明顯超越國際頂尖模型ChatGPT和Claude,在視覺識別能力和準確度上十分突出。
越來越多的企業與AI應用開發者正在基于階躍星辰多模態大模型構建產品。數據顯示,2024年下半年階躍星辰多模態API的調用量增長了超45倍。
頭部茶飲品牌茶百道與階躍星辰已達成深度合作,目前全國數千家茶百道門店已經接入階躍星辰Step-1V多模態理解大模型,平均每天上百萬杯茶飲在大模型智能巡檢的守護下送到消費者手中。
網紅AI應用「胃之書」基于階躍星辰多模態能力,幫助用戶以更快捷有趣的方式記錄飲食,開發者趙純想公開表示曾對國內大部分模型做過AB測試,最終發現階躍星辰付費率最高。
AI心理療愈應用「林間聊愈室」通過階躍星辰多模態能力讓用戶和聊愈產品實現多模態視覺互動,極大地豐富了交流體驗和深度。創始人李神龍稱,接入階躍星辰大模型后,產品整體付費率有所提升。
將這些業內頂級的多模態能力開源之后,階躍星辰有望構建一個更加開放的多模態生態。
4.與DeepSeek并肩成為兩大中國新銳開源力量
如果說DeepSeek為開源社區樹立了文本大模型的新標桿,那么階躍星辰正在開源社區樹立新的多模態大模型標桿,形成大模型開源世界的又一股中國力量。
兩款多模態大模型一開源迅速點燃了外網,Hugging Face工程師、前谷歌TensorFlow團隊成員TieZhen Wang發推文評價稱,“階躍星辰就是下一個Deepseek”。
國外網友也紛紛點贊中國大模型公司為開源社區做出的貢獻。
雖然核心大模型聚焦的領域有所差異,但兩家公司同為大模型創業公司,倒是有一些共性。
比如,兩家公司都非常年輕,且都有極致且鮮明的技術理想主義。DeepSeek雖然是從量化基金孵化,但要做的事情是探索通用人工智能,是一種好奇心驅動的研究。而階躍星辰成立至今,也一直以實現AGI為目標堅持自研基座大模型,已經覆蓋了從千億參數到萬億參數,從語言、多模態到推理,從理解到生成的全面能力,是國內基座模型覆蓋面最廣的大模型公司之一。
兩家公司在研究成果上也有不菲的成績,都多次在國內外權威榜單上霸榜不同領域的中國第一。
不久前,全球影響力最大的科技商業化智庫《麻省理工科技評論》(MIT Technology Review)刊發了一篇題為《關注DeepSeek之外的四家中國人工智能初創公司》的報道,在其中指出階躍星辰展現出不遜于DeepSeek的技術實力與全球競爭力。
在開源領域,過去海外公司有更加深遠的影響力。而如今,隨著DeepSeek、階躍星辰等中國大模型公司的先后開源,中國AI公司開始在全球AI開源舞臺發揮越來越重要的作用。
在接下來的AI時代,中國AI公司有望領跑全球科技,為開源社區貢獻中國力量。
*點擊文末原文鏈接查看Step-Video-T2V技術報告
(封面圖來自階躍星辰)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.