2025 年多模態技術快速發展,中國創業團隊在內容生成領域正在形成領先優勢。
整理|牛透社;編輯|燕子
與美國在大語言模型領域的領先不同,中國企業在視頻生成、3D 創作等多模態細分領域已躋身全球第一梯隊。
像Pixverse的視頻生成產品用戶規模超過許多美國知名產品,VAST在 3D 技術上實現核心突破,Feeling AI則探索出多模態融合的創新路徑。
這些成績背后,是中國創業團隊在場景理解、數據積累和工程落地方面的綜合優勢。
在近日舉辦的 2025 AI Cloud 100 China 榜單發布會上,晚點 LatePost 科技負責人、《晚點聊》主播程曼祺主持了一場圓桌對話,與Pixverse 愛詩科技聯合創始人 謝旭璋、Feeling AI 創始人 & 首席科學家 戴勃,以及 VAST創始人 & CEO 宋亞宸,深入探討了 “多模態內容生成,為什么是屬于中國公司的機會?”。
三位行業嘉賓深入分析了中國創業團隊的優勢所在。
謝旭璋提到,中國團隊在視頻技術領域有多年積累,抖音、快手等產品背后的視覺技術為視頻生成奠定了基礎,而組織架構的靈活性也助力了創新。
戴勃指出,多模態領域技術路徑尚未定型,中國豐富的應用場景和人才儲備為創新提供了沃土。
宋亞宸則表示,中國團隊通過差異化技術策略實現突破,在 3D 領域從核心技術攻堅轉向了產品化落地。
對話中,嘉賓們還圍繞大廠競爭、技術趨勢等話題展開討論。
面對阿里、騰訊等巨頭的入局,創業公司通過保持戰略定力、聚焦細分需求尋找突破口。
在技術層面,實時生成、多模態融合成為重點方向,比如 Pixverse 致力于實現視頻的實時生成,VAST 則探索 3D 創作的工作流優化。
對于未來,嘉賓們期待通過技術進步降低創作門檻,讓更多普通用戶參與到多模態內容創作中,推動新的內容生態形成。
閱讀目錄
1. 多模態生成,為何機會屬于中國團隊?
2. 大廠競爭是創業公司的 "成人禮"
3. 實時生成與多模態融合的下一站
4. 未來一年:目標與挑戰
以下是經牛透社編輯整理的對話內容:
多模態生成,為何機會屬于中國團隊?
程曼祺:相比大語言模型美國仍處于領先地位,在多模態生成領域,中國的團隊已經展現出引領的趨勢,至少與全球頂尖團隊旗鼓相當。
據你們的觀察,為什么中國團隊在多模態生成領域——尤其是視頻和3D生成方面——能夠具備獨特的優勢?
謝旭璋:我們的核心團隊很多來自字節,有一個重要認知,即過去 5年-10年 全球最具影響力的視頻產品和技術,很多是中國團隊打造的,比如抖音、快手背后的復雜視覺技術。在視頻技術領域,中國團隊在人才和經驗上都有顯著積累。
目前全球用戶量最大的幾個視頻生成產品,多數來自中國團隊,包括可靈和我們。我們的用戶規模已超過許多知名美國產品。
視頻生成的關鍵在于與場景的結合,這正是中國團隊的優勢所在。在視頻領域,中國團隊在技術和應用層面仍有巨大發展空間。
程曼祺:抖音、快手都是中國公司的產品,但外界注意到一個有趣現象:在視頻生成領域,快手旗下的可靈反而率先取得突破。為什么會出現這種情況?字節作為行業巨頭,為什么沒能搶占先機?
謝旭璋:這確實是個有意思的話題。記得可靈剛發布時,他們邀請全行業交流,最后只有我去參加了。
當時大家討論這個問題,得出一個看似玩笑但很有啟發的觀點:在字節,視頻生成業務 "有人管";而在快手,可靈 "沒人管",反而做成了。
這反映出,除了技術實力外,組織架構和團隊管理往往才是決定成敗的關鍵因素。
戴勃:從技術角度看,多模態內容生成是中國團隊的重要機遇。與相對成熟的語言模型不同,多模態領域的技術路徑尚未收斂,無論是模態組合還是架構設計,行業都處于百花齊放的狀態。
這種開放性非常適合中國團隊的創新特點:一方面,中國豐富的應用場景為技術迭代提供了充足的反饋空間;另一方面,華人工程師本就是全球多模態研發的主力軍,我們在人才基礎上具有天然優勢。
宋亞宸:海外 3D 創業公司確實起步較早,像 a16z 投資的 CSM、Kaedim 等團隊在產品化方面做得不錯。
但中國團隊能實現技術領先,關鍵在于差異化戰略,當海外對手專注產品打磨時,我們集中火力突破核心技術。
就像攝影領域,他們做出了功能豐富的 360P 相機,而我們專注打造畫質更優的 720P/1080P 方案。事實證明,創作者更青睞畫質而非功能。
現在行業正從分辨率競賽轉向產品化階段,技術差距縮小后,下一階段的競爭重點將是工程化和商業化能力。
這場馬拉松才剛剛開始,勝負尚未可知。
大廠競爭是創業公司的 "成人禮"
程曼祺:剛才我們談到了幾個關鍵優勢:一是人才儲備,像字節、快手這樣的公司培養了大量人才,計算機視覺領域的 "四小龍" 和商湯等也積累了雄厚的研究力量;二是場景豐富性,你們三家都是既做模型又做產品的代表。
但 2023 年創業時這個方向還不算熱門,現在情況已經大不相同,大廠紛紛入局,阿里開源了通義 2.0 視頻生成模型,騰訊也發布了混元 3D 系列的五款開源模型。
面對大廠的開源攻勢和資源投入,你們是否需要調整戰略?是否會考慮更多地聚焦在應用層?
宋亞宸:我們對這個問題的體會是,創業公司最大的護城河就在于保持戰略定力。
在 AI 3D 領域,我們選擇了一條差異化路徑,當大廠尚未關注時,我們就全力投入核心技術研發;當我們聚集了頂尖科學家、實現技術突破后,大廠才開始跟進;現在我們轉向產品化和商業化時,他們又在補課。
這種戰略節奏的領先讓我們始終快人一步。
說到這個,我想起剛才和群核科技交流時聽到的一個精妙比喻:大廠競爭是創業公司的 "成人禮"。
只有真正通過這場考驗,創業公司才算真正成熟。
程曼祺:能具體說說你們遇到的大廠競爭案例嗎?
宋亞宸:最近就有個典型案例。上個月 HR 很焦慮地找我,說現在招人比創業初期難多了,是不是公司出了問題。我解釋說這恰恰說明行業在變熱。
當初我們押注 AI 3D 時,這是個非共識方向,聚攏頂尖人才相對容易;現在隨著我們的成果被驗證,越來越多人相信這個方向,競爭自然加劇。
作為創業公司,我們吃的紅利就是先相信再看見。
大家不相信的時候我們下手做了這件事,在別人沒有重投入的時候,我們聚攏頂尖的科學家相對容易。
當大家看到我們做出來,也開始相信這件事的時候,自然這件事會變難。不管是在招人上,還是在一些算力本身的搶奪上,一定會面臨和大廠的競爭。
但是作為創業公司,我不能一直和它卷這個,我們的優勢就是做下一件事。
去年底開始做Tripo Studio工作臺,上個月正式上線,這個時候搶的是工程和產品人才,這些人才在 3D 很缺。
戴勃:我想補充一個觀點:創業公司面對大廠競爭時的機會,恰恰來自多模態領域尚未形成技術共識這一特點。這個領域仍充滿可能性,無論是 3D 生成還是其他模態融合,都存在大量未被定義的創新空間。
從技術實現來看,我認為細節決定成敗。單純討論 Transformer 等大框架很難體現技術差異,真正的競爭力體現在產品與技術的深度融合上。
我們堅持 ToC 產品的整體思維,技術要為產品體驗服務,能用產品方案解決的就不強求技術突破;但關鍵需求必須回歸技術本源,很多看似可用的方案在實際落地時往往差之毫厘謬以千里。
關于開源,我們持辯證態度。開源的積極面是避免了閉門造車,比如 DeepSeek 的開源確實拓展了行業想象空間;但它也存在局限性,直接使用往往難以滿足特定場景需求,需要在開源基礎上進行深度定制。
本質上,開源是創業公司可以借力的東風,但絕不能替代自主創新。
程曼祺:你們的自研模型肯定是閉源的。
戴勃:細節決定成敗,閉源肯定是要閉的,整個東西是一個很機密的工程,它需要你的技術模型和模型本身的數據,還有你的工程和產品整個合起來才能達到最終的效果,所以我們不會一整套拿出來交流,但一些模塊,比如說技術的思路這些東西,可以在某個恰當的場合進行交流。
謝旭璋:開源和閉源這個問題,我覺得要分幾個層面來看。
過去這一兩年,開源確實對整個視頻生成行業的發展起到了很大的推動作用,讓更多人可以接觸到這個技術。但說實話,現在真正跑在最前面、用戶體驗最好的,還是幾個閉源模型。
打個比方,這就好比我們研發出了一個 10 億像素的超高清攝像頭,但如果沒有好的設備來承載它,用戶其實也用不出它的價值。
所以我們一直在思考兩個問題:一是怎么把模型做得更好,二是怎么讓模型真正為用戶創造價值。
現在行業里最好的開源模型,生成一個高質量視頻可能要好幾分鐘,但我們的模型幾秒鐘就能搞定。這里面的差距,主要就是在工程化和產品化上的投入。
從開源代碼到真正能用的產品,中間還有很長的路要走。
實時生成與多模態融合的下一站
程曼祺:面對大公司競爭時,這個領域的機遇在于存在大量細分選擇和非共識性的技術路線。您認為多模態生成領域下一個技術突破點會是什么?剛才提到自回歸模型,OpenAI 今年也有所提及但表述模糊。您觀察到哪些重要趨勢?
戴勃:說到技術趨勢,雖然細節很復雜,但我可以分享幾個關鍵方向。目前最值得關注的是 "生成與理解的統一" 這個趨勢,GPT-4o 強調的原生多模態就是典型例子。
以前的做法是把圖像、文字等不同模態分開訓練,再想辦法拼接在一起。現在的新思路是讓它們在訓練時就共享同一個語義空間,實現真正的融合。這種做法的好處很明顯,可控性更強,能保持主體一致性,指令執行也更精準。
用現在流行的Agent概念來理解的話,可以把語言模態看作一個智能 Agent,其他模態就像是它使用的工具。
通過不斷迭代,這個 Agent 能越來越準確地理解圖像等內容,就像人使用工具越來越熟練一樣。這樣的融合效果自然會更好。
程曼祺:作為主要做生成的公司,多模態生成與理解的統一對你們來說是必須實現的嗎?
戴勃:是的,但關鍵在于統一的方式和維度。我們需要考慮模態間的技術統一,產品與用戶需求的對齊,以及技術能力與用戶預期的匹配。
這種多維度的統一就像是在走平衡木,任何一方的偏差都會影響最終體驗。比如用戶期待的和模型實際能做的如果有落差,體驗就會打折扣。
程曼祺:但大廠都在布局這個方向,對創業公司來說投入這么大資源值得嗎?
戴勃:這個問題很有意思。首先,競爭永遠存在,關鍵是要找準自己的賽道。我們不像大廠追求大而全,而是專注目標用戶的核心需求。只要定位精準,投入產出比反而更高。現在技術工具越來越成熟,實現這種精準統一并不需要想象中那么大的投入。
程曼祺:之前和 Pixverse 交流時,你們特別提到關注實時生成這個方向。現在生成視頻的時間已經可以比觀看時間更短,這會帶來哪些變化?
謝旭璋:目前我們的線上模型已經能做到接近實時的生成速度,大約 5 秒就能生成 5 秒的視頻內容,這應該是目前高質量視頻生成中最快的速度。
這個進步很關鍵,因為過去視頻生成最大的痛點就是等待時間太長,普通用戶要等 1分鐘~2分鐘 才能生成一個 5 秒的鏡頭,這種體驗是不可接受的。
所以我們一直在探索如何既保證模型質量,又能大幅提升生成速度。未來一年內,我們的目標是實現真正的實時生成。當技術達到這個水平時,一定會催生很多全新的應用場景。
程曼祺:是不是可以想象這樣的場景——我一邊玩游戲,游戲里的內容也能實時生成?
謝旭璋:沒錯。現在國內外不少團隊都在探索這個方向,但我們的做法是先做出實際可用的技術,再去談應用場景。
從本質上說,游戲本身就是一種視覺內容。當視頻能夠實時生成時,很可能會在短視頻和休閑游戲之間催生出一個全新的內容形態 ——可實時互動的視頻游戲。
這可能是最大的機會所在,所以我們當前的重心還是繼續突破核心技術。
程曼祺:從用戶反饋來看,你們接下來的技術迭代方向是什么?
宋亞宸:對我們來說,自回歸和速度都是關鍵方向。
我們原本走的是傳統 3D 生成路徑,做高精度的模型,就像用沙子慢慢風化成型那樣,通過不斷增噪和降噪來實現最終效果。現在我們轉向自回歸路線,這就像小朋友玩的磁力片 —— 不斷預測下一個三角形磁力片該放哪。
這樣生成的模型面數很低,在實時渲染時效率很高。而且它的拓撲結構和布線跟人工建模很像,方便后續二次編輯。
速度確實很重要,很多時候用戶等不了。雖然專業用戶能忍受 30 秒、1 分鐘的生成時間,但像我們和網易《燕云十六聲》合作的 "萬物太極" 功能,就需要極速生成:玩家說要一座橋過河,或者要個梯子拿寶箱,如果等 1 分鐘才出現,體驗就完全不對了。
所以我們專門做了極速版來滿足這種實時交互的需求。
程曼祺:在你們和網易的合作版本中,從玩家發出指令到生成橋或樹這樣的 3D 模型,實際需要多長時間?
宋亞宸:低于 5s 可以形成 3D 模型,生成的質量次一點,但還是比較快的。因為 UGC 對本身的質量要求沒有專業用戶這么高。
程曼祺:從產品迭代來看,你們都經歷了用戶定位的調整。Pixverse 最初只做專業用戶的網頁版,今年 5 月推出了面向大眾的 "拍我" App;VAST 早期定位游戲玩家,現在轉向專業用戶的 VAST Studio。
你們可以分享這個過程,為什么有用戶選擇的變化,背后的技術或對競爭和機會的思考是什么?
謝旭璋:回顧 2023 年初我們剛開始做視頻生成時,這個領域還不太熱鬧,大多數公司都沒入場。
這主要有兩個原因:一是技術限制,第一代視頻生成能做 ToC 的場景很少,更多是專業用戶在用;另一個是當時的生成效果有很多局限,比如動作幅度小、生成時間長等等。
但我們公司從創立起就有一個明確目標,要用 AI 技術讓普通人都能創作視頻。
現在視頻已經成為最重要的信息媒介,每天幾十億人在看長短視頻,但真正能創作優質視頻的人可能連 5% 都不到。抖音快手上能做出高質量內容并獲得推薦的創作者實在太少了。
去年我們發現圖生視頻技術終于達到了一個臨界點,普通人也能用了,于是我們在模型之外做了很多產品化的嘗試。用戶不需要寫文案,用超快的模型,點幾下就能生成高質量視頻,還能一鍵分享。
現在我們的用戶中大部分是普通用戶,專業用戶占 20%~30%,證明這個方向是對的。
程曼祺:所以現在是兩個獨立產品?
謝旭璋:對,我們采取雙軌策略,網頁版主要服務專業用戶,移動端 "拍我" App 則是面向大眾的短視頻創作工具。
程曼祺:我看移動端是用一張圖片就能生成 5秒~8秒 的視頻,不需要輸入復雜指令,直接選模板 "做同款" 就行。
說到這個,上周末我用剪映的 "剪同款" 功能做了個抖音視頻,這種模板化生成是你們首創的嗎?
謝旭璋:確實是我們最早做大規模模板化生成的,現在也是用戶量最大的。這個模式驗證了我們的判斷,降低技術門檻,讓普通人通過簡單操作就能獲得不錯的播放量,這才是 AI 視頻普及的關鍵。
程曼祺:你們擔心剪映的用戶會很快超過你們嗎?
謝旭璋:目前來看還沒有。其實這個市場足夠大,剪映做了這么多年,也才服務了抖音 5%~10% 的用戶。還有 90% 的用戶從來沒創作過視頻,這是個巨大的增量市場。
我們的重點不是互相競爭,而是共同服務好這些想要嘗試視頻創作的新用戶。
程曼祺:你們后來推出的專業版產品 Box,這個調整過程中有什么故事可以分享嗎?
宋亞宸:說實話,我們需要承認一個判斷失誤 —— 不只是我們,可能整個行業在過去兩年都走錯了方向。當然,現在說這是 "錯誤" 還為時過早。
程曼祺:你說的 "錯誤" 具體指什么?
宋亞宸:這個認知偏差要從行業共識說起。我們總把 AIGC 分為文字、圖片、視頻、3D 四個領域,3D 被視為最后一個 "C"。
這種分類讓我們在設計產品時,很自然地模仿其他模態的交互方式 —— 就像文字、圖片都采用對話框那樣,3D 領域最初也是簡單做個輸入框,用戶輸文字或圖片,系統返回 3D 模型。國內外同行都是這么做的,初期效果也不錯,我們很快積累了兩三百萬用戶。
但去年底的深度復盤讓我意識到問題所在:3D 與其他內容形式存在本質差異。
文字有輸入法,圖片視頻有拍攝工具,這些都是真正的大眾創作入口。而 3D 領域至今沒有類似的基礎工具 —— 3D 打印機是硬件設備,不能用來創作數字內容。
這就導致 3D 內容生態存在先天缺陷:只有 PGC(專業創作內容)和下載行為,真正的 UGC(用戶生成內容)幾乎不存在。
在我們入場前,這個市場根本沒有形成真正的用戶創作生態。
我們行業之前對 UGC 的定位存在根本性誤區。其他競爭對手都在做面向普通用戶的 3D 生成產品,這就像給普通人一個代碼生成器卻不教他們如何部署 —— 連基礎操作都不會,更別說 debug 了,這怎么可能形成真正的 UGC 生態?
經過深入思考,我們調整了策略:先服務好專業用戶和準專業用戶(PUGC),這個群體有 1千~2千萬 專業用戶,數千萬的 PUGC 創作者。然后,打造真正的創作工具,不是簡單的模型生成,而是完整的工作流,覆蓋模型生成、貼圖編輯、紋理處理、部件拆分與重組、骨骼綁定等。
這些專業功能看似復雜,但正是保留創作者創意的關鍵。就像專業視頻剪輯軟件雖然復雜,卻是內容產出的核心工具。
展望未來,3D 領域也需要自己的 "美圖秀秀",幫用戶簡化操作,提供模板,降低創作門檻。Pixverse 的內容模板模式就很有參考價值。不過目前這樣的產品還沒出現,可能明年會有突破。
程曼祺:戴勃,能透露下你們即將發布的產品形態和目標用戶嗎?
戴勃:我們主要面向海外 14-24 歲的年輕群體。產品結合了輕度游戲元素,用來消磨時間;具備內容創作功能,讓用戶獲得社交認可;還有虛擬陪伴體驗,解決內向用戶的社交需求。
我自己就是個典型用戶,作為重度游戲玩家,從紅白機到手游都玩,偏愛單機游戲。作為內容消費者,我一直在思考 AIGC 的本質價值。
程曼祺:能再具體些嗎?
戴勃:從用戶視角看,AIGC 正在模糊創作者和消費者的界限。隨著技術發展,生成速度越來越快,交互越來越實時,多模態逐漸融合。
這帶來一個有趣現象,用戶可能最初只是來消費內容,但如果對現有內容不滿意,可以立即自己動手修改或創作 —— 因為工具門檻已經足夠低。
這種 "邊消費邊創作" 的混合模式,正是我們產品的核心理念。
程曼祺:看來 VAST 現在推的產品方向,和 2024 年初聊的很相似。
宋亞宸:沒錯,就是做 "3D 版抖音" 那個構想。
程曼祺:記得當時還討論過模型融合的技術方案。
戴勃:AIGC 最顯著的優勢就是交互反饋越來越即時,而且能提供高度個性化的內容生成體驗,這個特性很有發展潛力。
程曼祺:你覺得 2025年-2026年,技術進步能讓更多普通的 ToC 用戶創作和消費 3D 內容嗎?
戴勃:我認為會,而且重點在于動態 3D 內容。我們內部研發已經看到這個趨勢,AI 確實加速了進程。
其實即便沒有 AI,整個行業也在往這個方向發展,只是 AI 讓這個未來來得更快了。
程曼祺:現在行業都在熱議 Agent,但你們的新產品 VAST Studio 并沒有跟風用這個命名。愛詩也沒做 Agent,你們怎么看這個概念?
宋亞宸:我們不用 "Agent" 這個詞很簡單 —— 我們的用戶聽不懂。產品命名必須讓目標用戶一目了然。我們的專業用戶對 "工作站" 這個概念很熟悉,但說到 "Agent" 就完全不知所云。
產品定義應該基于用戶的實際需求,而不是追逐行業熱詞。
程曼祺:Agent面向媒體、投資、創投圈嗎?
宋亞宸:我不知道。
謝旭璋:Agent 還是要考慮最終給用戶創造什么價值,移動端的 App 里加了 Agent 要等很久,要寫讓 Agent 干什么。
我們的產品和交互已經很簡單了,就是拍照、選模板、生成、一鍵分享。我們思考 Agent 幫到哪一個環節讓用戶有更好的體驗,好像在 ToC 上現在沒有想太明白。
但我們在專業的創作,比如視頻創作的工作坊里面 Agent 有價值。一個視頻或者說視聽作品有多模態的問題,從敘事到不同鏡頭的剪輯到配音和配樂和轉場,這里需要 Agent 解決問題。
我們有的同行做的 Agent 方向很好,我們也在思考怎樣才能真正地定義好視頻創作的 Agent 產品。
程曼祺:就是讓 AI 更多參與、自動化程度更高的視頻創作工具?
謝旭璋:對,現在 AI 做完整的視聽作品本身很難,有了很好的 Agent 可能只邁出一小步。好的視聽作品底層是好的故事,好的故事并不是什么 Agent 都可以做出來的,有很多需要解決的問題。
戴勃:我會想 Agent 的定義是什么,不同的人可能對這個東西的定義不一樣。
原生多模態可以認為是語言作為一個 Agent 和其它的模態進行交流,帶來的好處就是以前是大家合并起來訓練。
但有了 Agent 以后,可以把不同的模塊聯合起來,訓練的時候讓不同模塊協同工作,整體可以看成更強大的模型或者說一個技術的管線可以做的事情就會更多。
未來一年:目標與挑戰
程曼祺:看來你們都更關注技術實質。展望未來一年,你們希望達成什么目標?又將面臨哪些挑戰?
謝旭璋:技術目標:希望一年后可以有高質量的實時生成視頻模型;用戶目標:現在接近 1 億用戶,希望一年后可能有 3億~5億 用戶。
戴勃:希望明年可以進 AI Cloud 100 China 榜單。明年主要的任務就是希望產品可以被更多的人使用,希望大家在此過程中可以沉淀更好的優質內容。
宋亞宸:我們的信仰是 3D 一定會出現大眾級別的創作工具,降低用戶創作門檻和成本,每個人都會參與 3D 可交互的內容創作中,可以自己做游戲、動畫。
如果這件事誕生,未來有機會出現所謂 3D 的抖音,UGC 內容平臺可以分發這些內容。明年是有機會讓大部分人以低門檻、低成本,幾乎實時的方式創作屬于自己簡單的 3D 可交互內容。
這種內容形態我們認為是明年最大的挑戰,也是我們希望探索的東西,它會以什么樣的內容生態出現,哪一些好玩的內容范式,我們和創作者一起探索。
程曼祺:感謝今天三位分享,回顧各自公司發展過程,反思和挑戰,也展望接下來一年的時間里大家想達到最重要的目標。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.