今年AI行業最熱鬧的領域,便是視頻生成賽道。國內各家大廠激情開戰,產品迭代目不暇接。
從年初開始,快手可靈2.0、字節即夢3.0、阿里萬相2.1、騰訊HunyuanCustom、生數科技Vidu2.0、MiniMax旗下Hailuo 02等模型先后登場,紛紛將去年先聲奪人的Sora甩在身后。
激戰之下,AI視頻模型的語義響應、畫面質量、動態質量、真實度、美感都有了質的飛躍,商業化前景也肉眼可見。
5月27日,快手公布了2025年第一季度財報。其中,第一季度內收入超過1.5億元的可靈AI被單獨拎出,重點提及。5月28日,快手在港股市場高開6.46%,并在數日內接續上漲,截至7月15日,漲幅已超過30%。
在公開場合,字節跳動Seed圖像與視頻生成負責人黃偉林也將2025年“蓋章”為圖像生成商業化元年。據公開數據,愛詩科技旗下視頻生成平臺Pixverse的月訂閱收入,也已達到了千萬元水平。
不過,模型廠商競逐雖然熱鬧,但距離真正“解放”創作者生產力的距離還很遙遠。
多位視頻生產者對《財經天下》表示,AI視頻輸出的“一致性”“運動性”對各家都還是個難題,當下想用AI省錢不容易——而視頻模型廠商們,也明顯有點“卷不動”了。
01、視頻模型內卷升級
今年4月,快手旗下的可靈AI升級到了2.0版本。“五一”假期前,快手專設了可靈AI事業部,部?負責人直接向快手CEO程一笑匯報。
根據全球大模型整合應用平臺Poe發布的數據,今年1月~5月,快手可靈系列視頻生成大模型的合計使用份額已超過30%,超越了Runway(23.6%)和Veo-2(16.6%)。
這距離可靈AI上線僅僅過去了一年。去年春節期間,OpenAI旗下視頻應用Sora點燃了AI視頻生成賽道,引來國內眾多企業跟進。成立于2024年6月6日的可靈AI,與其他大廠相比入局并不算早。但其后來居上,創造了上線三個月便服務超260萬用戶的紀錄。
一年后,快手可靈已積攢了2200萬的全球用戶,并曾作為國產大模型代表,在官方場合與DeepSeek被并列提及。
從事AI視頻領域軟件研發的陳典對《財經天下》表示,可靈之所以能搶占先機,關鍵在于產品化的速度。
“可靈上線時缺少同類競品,快手率先實現了商業落地。這種先發優勢給可靈帶來了明顯的紅利,早期用戶習慣養成后,往往會產生較強的平臺黏性。”
作為第一個脫穎而出的視頻生成模型,可靈的技術水平曾獨領風騷。AI視頻廣告導演六六表示: “去年,可靈的視頻生成清晰度能達到1080P。國內其他廠商都沒達到,其視頻出品效果也更穩定。”
但隨著技術迭代,競爭者層出不窮,可靈的“霸主”地位正在被后來者們步步追趕。
可靈AI發布后,短時間內騰訊混元、阿里通義萬相便加入戰局,MiniMax旗下的海螺視頻App也在全球上線。同時,與基座大模型多被實力雄厚的大廠包攬不同,AI視頻生成領域中,不少創企們表現不俗。
2024年4月,生數科技發布了對標Sora的視頻大模型Vidu 1.0,并于今年1月更新至2.0版本。愛詩科技旗下的PixVerse則從2024年7月開始,以近2個月一次的速度進行迭代。
今年5月,一度在大模型混戰中“掉隊”的谷歌,憑借Veo 3視頻模型震驚四座。該模型首次讓視頻實現了音畫同步,一舉打破了AI視頻的“無聲尷尬”,劃定了行業新標準,也讓谷歌回歸能完成重大技術突破的頭號玩家。
當然,快手最重要的對手仍是字節。去年,可靈“斷崖式領先”曾讓字節頗為被動,今年其身位也被即夢AI悄悄追上。
2024年11月,字節將視頻生成模型Seaweed和PixelDance上線即夢平臺,又在今年4月將Seaweed上線到官網。即夢隨之更新了3.0、3.0 Pro新版本,并迅速在創作者群體中圈了一波好感。
今年5月中旬,字節對即夢App加大了投放力度,在蘋果應用商店排行榜上,即夢App一度躥升到了國內免費App下載頭名,超越了豆包和紅果短劇。
“現在各大平臺在視頻生成風格上都有自己的優勢,且不少都開始支持1080P。比如即夢最新版上線后,在聽從指令、運鏡方面取得了很大提升,甚至說某些方面已經超過了可靈。”六六說。
陳典認為,當前國內廠商在各自擅長的技術領域持續突破,各個模型的性能上限趨于相近,并沒有哪家真的強出很多。“雖然即夢起步稍晚,但某些能力已經可以對標可靈。本質上講,行業競爭格局并非源于技術落差,而是產品推出時機的差異所致。比如,即夢在畫面一致性這個關鍵指標上表現最為突出;海螺則重點提升了生成內容中人物的真實感。”
02、用AI省錢,還是個夢想
在商業模式層面,目前即夢和可靈大同小異,均提供免費版和會員版。即夢免費版生成視頻時長包括5秒和10秒兩種,生成1秒視頻需耗費2個積分。
用戶想要獲取積分,既可以用1元購買10積分,也可以開通會員。即夢連續包月69元,每月贈送1080積分,可靈連續包月66元,每月贈送660積分。
各家也將重點放在了爭奪創作者上。多位創作者向《財經天下》透露,即夢背后的支持和投入力度更大。
以前即夢生成一條AI視頻只需要花20多個積分,現在要消耗50多個積分。“但在即夢的超創欄目里發作品,普通作品一個會給888個積分,被選中為優質作品的話會給到3000個積分。不需要太高發布頻率,就能積累非常多的積分,根本用不完。”六六說。
相比之下,“可靈發作品去年松一點,日常發一個視頻作品給到680個積分。今年在積分激勵方面變得非常嚴格,經常不給通過”。
這種策略差異或與即夢與可靈的發展策略有關。QuestMobile數據顯示,截至2025年3月,即夢AI月活用戶數達到893萬,可靈AI則為180萬。相比而言,即夢更傾向于追求用戶規模,開拓普通用戶。可靈則更看重在專業用戶中的滲透,優先追求收入增長。
關注AI行業的投資人張漢對《財經天下》說,“AI視頻投資在早期孵化階段主要看團隊,現在是既要看技術,又要看商業化”。
為了提升商業化能力,今年不少視頻生成模型都在新一輪模型更新后,來了一輪漲價。目前,AI視頻生成下游的付費群體包含to B及to C兩端。從各大廠商的探索方向來看,核心的付費群體依然集中在影視、短劇、廣告、游戲等專業創作者們。
要想讓創作者持續付費,必然需要有相應的收益入賬。但對于創作者來說,想要用AI省錢并不容易。
雖然從成本來看,AI生成視頻遠低于傳統視頻的制作成本。據量子位智庫數據,頂級動畫電影(迪士尼、皮克斯等制作)每分鐘的制作成本約達200萬美元,而AI視頻生成的內容成本每分鐘約300美元,降本效果明顯。
但AI視頻生成實用性差、成本不可控的痛點還未解決。AI視頻按使用次數付費,但輸出效果不夠穩定,“并不是說你輸出幾次就能直接用,想要達到理想效果要不斷試,其實成本并不可控。”六六說。
在從事AI影視廣告制作的閃靈AI平臺創始人李明琪看來,AI視頻生成能降低制作成本毋庸置疑。“比如在三維動畫領域,制作都是按秒報價。傳統三維動畫制作一秒中等價位要5000元一秒。如果用AI的話,一分鐘的片子能報個10萬元就不錯了。”
但到底能降低多少成本,性價比與視頻類型有強關聯。“如果生成科幻大片,制作成本很高,AI視頻的性價比就很好。如果用AI來生成文藝片、紀錄片,性價比就會極低。”李明琪說。
陳典也有相似的困擾。“現在不管是‘AI小白’的甲方,還是稍微懂一點AI的甲方,都會有這樣的認知:覺得用AI生成視頻便宜,但不是這樣的。”
在他看來,AI視頻生成最大的問題是難以解決“一致性”。例如,給定相同的提示詞、參考圖片或視頻輸入,模型需要能輸出一致的場景和風格。但在實際使用中,AI的輸出效果很不穩定。
“比如在辦公室、會議室的場景中,AI多次生成應該保持相同的環境和人物特征,才能實現視頻片段的自然銜接。但現實中經常出現輸入條件完全相同,卻生成截然不同內容的情況。”
原因在于,相比靜態圖像生成,動態視頻生成復雜度提升了不止一個量級。靜態圖像只需要關注空間一致性,視頻生成除了空間維度,還要在時間維度上維持連貫性。
陳典遇到的第二個難點是如何生成電影級、具備強交互感的運動鏡頭。
陳典嘗試過將AI工具與傳統攝像機方式作對比,分別拍攝跟隨一個人的運動畫面。用傳統鏡頭拍攝,需要鏡頭從后面跟隨,一直向前走,鏡頭需要一會兒變成側跟隨,一會兒變成前跟隨的推進。
想要用AI生成類似的鏡頭效果,卻是難上加難。“大范圍的移動鏡頭,AI當下是做不到的。所以現在我們看到的所有市面的AI視頻,其實都是動態PPT,鏡頭固定在那兒不動,用AI去生成一些酷炫的效果。”陳典說。
即便在時下火熱的短劇行業,AI視頻生成也無法解決全部問題。AI短劇導演、杭州極光心智文化科技有限公司創始人郭璞對比傳統真人拍攝的方式,給《財經天下》算了一筆賬。他介紹,“以1集1分鐘的短劇為例,傳統拍攝成本包括演員片酬、場地租賃、服裝化妝等,算下來整體成本在1萬~2萬元左右。”
采用AI視頻生成技術,則需要考慮兩個主要成本維度:人力成本和算力成本。使用可靈或谷歌的Veo 3,生成5秒視頻約需4元,10秒視頻則需8元。
看似便宜,“但我們需要反復嘗試、碰運氣,才能生成理想結果。所需的試錯成本,1集1分鐘的短劇光是算力支出,就要數千元的賬號充值,還不包括人力、時間成本投入。”郭璞說。
在郭璞看來,AI短劇市場是否真正通過市場驗證,目前仍存在疑問。2023至2024年,雖然業內出現過一些嘗試性的作品,比如陳坤帶領團隊制作的《上海奇境》,以及博納影業推出的AI生成式連續性敘事科幻短劇《三星堆:未來啟示錄》,但這些項目更多是作為行業話題引發討論,在票房收益上表現平平。
因此,盡管AI視頻生成關注度很高,但郭璞接觸到的投資方普遍更傾向于在可控范圍內進行投資試探。“比如投個20萬元左右,小步試水即可,不會大規模投入。”
03、技術升級進入瓶頸期
在創作者看來,視頻模型的能力限制,關鍵還在于技術突破遇到了瓶頸。
“現在模型就是卷不動了”,某視頻生成領域算法從業人員王蒙對《財經天下》說。去年,各大廠商還在集中精力提升模型生成能力,現在提升遇到明顯的瓶頸,“很難說哪家有絕對領先優勢”。
視頻生成為什么這么難?總體來看,架構局限、算力限制、優質視頻數據的稀缺,這“三座大山”共同制約著視頻生成技術的發展。尤其是20~30秒視頻生成困難,背后是模型的底層架構限制。
視頻生成模型與文本生成模型的結構類似,都受到長度限制。視頻隨著生成的幀數增加,模型會逐漸“遺忘”前面生成的歷史幀信息,陷入記憶錯亂。
王蒙介紹道,“目前市面上的視頻生成模型最多只能生成5~10秒的片段。即使理論上能達到1分鐘的模型,實際上我也從未見過真能完整生成長達1分鐘的視頻。”
另一個關鍵限制因素是算力。保持視頻一致性需要追蹤海量信息,既要追蹤空間信息,也要記住視頻敘事,這需要鏡頭切換保持邏輯性、故事連貫性,也讓視頻模型成為各大廠商的“算力黑洞”。
王蒙介紹道,“以1920*1080的分辨率為例,每幀都包含數百萬個像素點,每個像素點都附帶復雜的物理屬性數據。隨著時長增加,這些數據會呈現指數級增長。就算把現有計算資源都堆疊起來,也不足以處理如此龐大的數據量”。
第三個制約因素是訓練數據不足。視頻質量對訓練效果影響很大——畫質越好的素材,訓練效果就越好。但在短視頻垃圾信息轟炸下,高質量長視頻的獲取難度要大得多。
這些都讓視頻生成模型逐步進入發展平臺期,各大廠商紛紛將重心轉向應用落地,競爭重點也從追求技術突破,逐漸轉變為更注重打磨用戶體驗,將資源更多地投入到多模態的產品易用性、工作流優化等環節。
以可靈和即夢最新發布的模型產品為例,可靈更新了最新的3.0版本后,開始全力拓展多模態支持能力,不再局限于基礎的視頻和圖片參考輸入,而是計劃引入更多形式的控制信號。
即夢也采取了類似路線,今年6月,即夢3.0圖像生成模型上線后,同樣將重點放在了提升AI多模態內容生成上。
目前來看,哪一家大廠將最終成為AI視頻“新王”,難以輕言定論。郭璞表示,目前他更看好可靈。但長遠來看,即夢倚靠著字節生態,擁有抖音和TikTok兩大流量平臺,旗下又有紅果短劇,內容分發能力強大。
在技術支撐方面,字節的火山引擎大模型也將為即夢提供全方位的能力支持。例如,通過大語言模型可以賦能劇本創作,聲音克隆技術將簡化配音流程,視頻渲染與分鏡渲染將進一步提升等,這種生態協同效應都將顯著提升內容創作者的效率。
快手則選擇重點在創作者生態方面發力。近期,可靈連續舉辦了多屆全國性創作大賽,通過獎金激勵和作品征集的方式發掘人才,從參賽選手中篩選出優質創作者重點扶持。
郭璞透露,“近期快手平臺投資的幾個短劇項目都是S級,比如已經上線的《末日進行時》,以及《黑神話:悟空》團隊最新推出的《太陽墜落之時》,就是快手通過‘賽事選拔+資源扶持+平臺投放’的模式,激發創作者活力”。
(文中六六、陳典、張漢、王蒙均為化名)
(作者 |豆蔻,編輯 |李不清,圖片來源 | 視覺中國,本內容來自財經天下WEEKLY)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.