可靈與谷歌貼身肉搏

2025-06-03 18:34:38　來源: 字母榜

北京舉報(bào)

分享至

AI視頻生成賽道已經(jīng)肉眼可見地“卷”出天際了。大廠背書的產(chǎn)品更新迭代的速度快到簡直讓人眼花繚亂。

作為“老鐵廠”快手的可靈AI最大的對手，谷歌的AI視頻生成產(chǎn)品Veo2本身就已經(jīng)非常能打了，又在前段時(shí)間的I/O大會(huì)上再次正式上線Veo3版本。這才沒過幾天，可靈2.1版本也緊跟著推出。要知道，在短短一個(gè)月之前，快手才剛剛推出它們上一個(gè)大版本。

這回更新后的可靈2.1提供了結(jié)構(gòu)化的產(chǎn)品選項(xiàng)。我們實(shí)測下來，標(biāo)準(zhǔn)版本以幾乎相同的成本完全替代了可靈1.6，而高品質(zhì)版本更是能與網(wǎng)友頻頻喊“效果炸裂”的可靈2.0大師版不相上下。

作為目前少數(shù)能正面硬剛谷歌的頂級玩家，可靈自誕生起就自帶光環(huán)。可以說，這回性價(jià)比提升后的可靈AI，正在展現(xiàn)給我們一場頂級玩家間的貼身肉搏。

“直面AI”在可靈上也特意充值了一大筆靈感值，用 9 個(gè)一手測試帶你看一看可靈2.1都在哪些方面有了提升，又有哪些不足。

可靈2.1價(jià)格更親民，性能全面超越舊版

在實(shí)際評測可靈2.1前，我們先看看在可靈的價(jià)格體系下，每一條視頻生成的價(jià)格有多高：可靈大師版的一條5秒視頻價(jià)格就是10元，10秒視頻一條就是20元。

對于用戶來講，每一條視頻的成本并不低，所以性價(jià)比的需求更為強(qiáng)烈。

我們整理了下可靈AI更新后各個(gè)版本的用戶價(jià)格，目前可靈2.1提供三種模式：

1. 標(biāo)準(zhǔn)模式

2. 高品質(zhì)模式

3. 大師模式

現(xiàn)在的可靈AI已經(jīng)有了結(jié)構(gòu)化的產(chǎn)品價(jià)格體系：

可靈2.1標(biāo)準(zhǔn)模式的5秒和10視頻生成所需的價(jià)格幾乎與可靈1.6的高品質(zhì)模式相當(dāng)。
在可靈2.1高品質(zhì)模式下生成的綜合視頻效果在一定程度上能夠與可靈2.0大師版相媲美。
可靈2.1大師版的定價(jià)與舊版本一致。

可以說，2.1版本下的結(jié)構(gòu)化產(chǎn)品價(jià)格已經(jīng)為用戶提供了豐富的選擇。如果從性價(jià)比的角度上來看，它已經(jīng)能夠完全取代舊版本了。

下面，我們通過一系列實(shí)測來看看可靈2.1的各模式與舊版本的表現(xiàn)對比。

（1）可靈2.1人物動(dòng)態(tài)效果極佳，一致性很強(qiáng)：

目前可靈2.1的標(biāo)準(zhǔn)模式和高品質(zhì)模式無法文生視頻，大師模式則沒有此限制。

我們先來看看2.1高品質(zhì)模式與前幾個(gè)“滿血版本”的對比。

在實(shí)際測試中，我們發(fā)現(xiàn)可靈2.1在人物動(dòng)態(tài)效果上的表現(xiàn)極佳，領(lǐng)先了舊版本一定的差距，整體畫面都保留了原圖的高一致性。

比如，我們先用一張背后頂著光輪的女子坐姿彈琴的AI圖片玩了下。這張附帶人物并具有大量光效的圖片很適合用來測試可靈AI各個(gè)版本的人物動(dòng)態(tài)效果：

提示詞：

光環(huán)旋轉(zhuǎn)，光屑散落，風(fēng)吹動(dòng)沙子、頭發(fā)和衣物，女子在彈動(dòng)樂器，鏡頭拉遠(yuǎn)。

可靈1.6高品質(zhì)：

可靈1.6高品質(zhì)模式下的整體效果其實(shí)已經(jīng)非常好了，畫面真實(shí)，光屑的粒子效果明顯。但是有個(gè)很突出的缺陷：可靈1.6的語義響應(yīng)能力是真的不高，女子身后的光環(huán)不僅沒有旋轉(zhuǎn)，沙子的舞動(dòng)效果也沒有。

可靈2.0大師版：

可靈2.0大師模式相比1.6有了很明顯的提升，比如光輪外環(huán)的旋轉(zhuǎn)和風(fēng)吹沙子的表現(xiàn)都更生動(dòng)自然。但是，細(xì)致入微的我發(fā)現(xiàn)：視頻里雖然風(fēng)在吹動(dòng)沙子，拂過衣物時(shí)，衣角卻沒有變化：

可靈2.1高品質(zhì)：

可靈2.1高品質(zhì)模式在人物效果上的表現(xiàn)，確實(shí)令我有些驚訝。光輪快速旋轉(zhuǎn)的同時(shí)，光屑的粒子效果一致性很高，女子左右角的衣服也跟著舞動(dòng)，畫面幾乎不存在像素扭曲、不自然邊緣等明顯的生成瑕疵：

可靈2.1在處理復(fù)雜光影和細(xì)微動(dòng)作時(shí)的穩(wěn)定性比較高，很少出現(xiàn)變形或失真的問題。

（2）多人物場景下，可靈2.1幾乎拉開了代差：

當(dāng)視頻生成畫面里涉及多個(gè)人物時(shí)，可靈2.1就與之前的版本拉開了十分明顯的差距。

比如，我給了它一段提示詞：

在一座云霧繚繞的高山之巔，兩名武俠高手展開激烈對決。一人身穿白色長袍，手持長劍，劍光如虹；另一人身著黑色斗篷，使用雙刀，招式迅猛。背景是連綿的青翠山脈，山巔的巨石被劍氣劈裂，碎石飛濺。鏡頭快速切換，展現(xiàn)近身格斗的細(xì)節(jié)，隨后拉遠(yuǎn)，俯瞰云海中的戰(zhàn)斗場景。畫面風(fēng)格：寫實(shí)、武俠電影風(fēng)、動(dòng)態(tài)運(yùn)鏡

可靈1.6高品質(zhì)：

很明顯，可靈1.6高品質(zhì)模式下，涉及多個(gè)人物和景色時(shí)，在人物細(xì)節(jié)、動(dòng)作協(xié)調(diào)、場景融合以及動(dòng)態(tài)運(yùn)鏡上的表現(xiàn)就顯得非常差了。畫面的AI感很重，兩位俠客的刀劍都出現(xiàn)了劇烈的形變。

可靈2.0大師：

相比于1.6高品質(zhì)模式，2.0大師的視覺效果好了一點(diǎn)，但好的不多。當(dāng)攝像機(jī)鏡頭拉開后，人物的形變還是非常明顯，看起來完全不像在真的打架。武打動(dòng)作雖然有一定連貫性，但招式之間的銜接不夠自然：

可靈2.1大師：

可靈2.1大師的進(jìn)步很明顯，人物形象鮮明，細(xì)節(jié)豐富，臉部表情真實(shí)生動(dòng)，武器未出現(xiàn)形變。但是，戰(zhàn)斗真實(shí)感仍然說不上太高，對決的動(dòng)態(tài)與節(jié)奏感還是有些不足：

（3）非人物場景下，各種模式間的差距并不明顯：

可靈2.1在多人物場景下的表現(xiàn)確實(shí)很好，尤其是在動(dòng)作協(xié)調(diào)、表情細(xì)節(jié)和群體交互的真實(shí)感上，相較2.0和1.6有很大的提升。但是，在非人物場景中，可靈2.1與前代模型的差異并不那么明顯，尤其是在光效處理、環(huán)境動(dòng)態(tài)和畫面穩(wěn)定性的表現(xiàn)上。

比如，下面這張?jiān)谀藓玳W爍的摩天大樓間的飛行器的場景：

提示詞：

從高空俯瞰這座城市，飛行器在霓虹閃爍的摩天大樓中快速穿梭，鏡頭跟隨

可靈1.6高品質(zhì)：

可靈1.6高品質(zhì)模式下，畫面的視覺效果和一致性都比較好，但是有一點(diǎn)：畫面里并沒有出現(xiàn)飛行器快速穿梭，鏡頭跟隨的場景：

可靈2.0大師版：

可靈2.0大師版翻車了，幾架飛行器在霓虹閃爍的摩天大樓中直接融合成了一塊：

可靈2.1標(biāo)準(zhǔn)：

可靈2.1標(biāo)準(zhǔn)模式下的表現(xiàn)比較好，與提示詞的一致性很高，畫面中完全出現(xiàn)了提示詞中的各種要素。但是，單從視覺色彩上來看，2.1標(biāo)準(zhǔn)模式并沒有與1.6高品質(zhì)有太大差距：

可靈2.1高品質(zhì)：

可靈2.1高品質(zhì)的視覺呈現(xiàn)感覺并沒有與標(biāo)準(zhǔn)模式以及1.6有太大區(qū)別，反而攝像機(jī)跟隨顯起來比較怪：

可靈 vs Veo2/3

谷歌的Veo2在AI視頻生成賽道里一直都是可靈AI系列的最大對手之一。自從Veo2推出以來，由于畫面細(xì)節(jié)、動(dòng)態(tài)流暢性和內(nèi)容創(chuàng)意方面表現(xiàn)非常突出，谷歌在這一領(lǐng)域成了頂級玩家。這回上線的Veo3的真實(shí)性又上了一個(gè)大臺階。

下面我們就用一系列實(shí)測案例，來看看可靈2.1的大師版與Veo2/3間的差距有沒有被彌補(bǔ)上，或者說彌補(bǔ)上多少了。

（1）動(dòng)漫少女滑冰

X平臺的一位博主 ShidarezakuraSa 實(shí)際測試了Veo2/3兩個(gè)版本下動(dòng)漫少女滑冰的視頻效果，我們也同樣用可靈2.1大師跑了下測試。

Veo2:

Veo2的視覺效果還是不錯(cuò)的，整體畫面一致性比較高，沒有出現(xiàn)崩壞的現(xiàn)象。但是，動(dòng)漫少女的身體并沒有呈現(xiàn)出任何物理效果的變化；鏡頭的移動(dòng)跟隨也非常一般：

Veo3:

Veo3相對于舊版本的升級非常大，動(dòng)作捕捉、物理模擬和動(dòng)態(tài)視角的變化都非常棒，真實(shí)度上升了不止一個(gè)Level：

可靈2.1大師：

可靈2.1大師呈現(xiàn)的效果相比于Veo3還是有一定差距的，畫面出現(xiàn)了很多形變。同時(shí)，我也注意到動(dòng)漫少女身上的物理模擬效果非常真實(shí)，可靈2.1在人物運(yùn)動(dòng)狀態(tài)方面的塑造上確實(shí)非常強(qiáng)：

（2）比格犬與人類下棋

另有一位博主drjmetz用一段提示詞測試了下Veo2/3的視覺效果：

一只比格犬幼犬在公園的游戲中與人類下棋

在這個(gè)場景下，可靈2.1的表現(xiàn)我覺得甚至要比Veo3還要強(qiáng)。

Veo2:

Veo2模型下，狗狗的皮毛紋理并不清晰，有非常重的AI感。畫面中的兩位角色在觸碰國際象棋棋子時(shí)的動(dòng)態(tài)模擬也比較差：

Veo3:

Veo3的表現(xiàn)就提升了非常多，人物臉部的真實(shí)感很強(qiáng)。同樣地，棋子在被接觸時(shí)仍然會(huì)發(fā)生形變，這就是目前AI視頻生成模型還無法解決的難題：

可靈2.1大師：

可靈2.1大師模式下的狗狗的皮毛真實(shí)感很高，在處理復(fù)雜紋理時(shí)表現(xiàn)優(yōu)異，在細(xì)節(jié)渲染和光影處理上更接近真實(shí)。但是，2.1并沒有展現(xiàn)下棋的過程，避開了復(fù)雜的物理模擬，這也體現(xiàn)了2.1在語義響應(yīng)上仍有上升空間：

（3）一只長頸鹿在紐約騎自行車

在動(dòng)態(tài)視覺效果方面，可靈2.1與Veo3的差距還是比較明顯的。比如下面這個(gè)「一只長頸鹿在紐約騎電動(dòng)自行車」的case。

X博主nmatares提供了Veo3模型的測試結(jié)果，我們也同樣用可靈2.1大師跑了一遍。

提示詞：

一只長頸鹿在紐約瘋狂騎電動(dòng)車，畫面充滿動(dòng)感，鏡頭快速切換，展現(xiàn)長頸鹿靈巧地避開行人和車輛

Veo3:

Veo3下，畫面主體的運(yùn)用效果一致性比較高，整體效果非常流暢，動(dòng)態(tài)效果上展現(xiàn)了極高的水準(zhǔn)。在畫面主體的運(yùn)動(dòng)表現(xiàn)上，Veo3對長頸鹿騎行姿態(tài)的刻畫很自然，動(dòng)感氛圍也比較匹配：

可靈2.1大師：

相比之下，同樣的提示詞在可靈2.1大師版下的表現(xiàn)則顯得差了一些。在動(dòng)態(tài)效果的處理上，可靈2.1的畫面流暢度明顯不足，長頸鹿的騎行動(dòng)作顯得有些怪異，街邊人物的形變很大：

帶大家欣賞可靈2.1高品質(zhì)模式下更多的Case

我們還用剩下的靈感值多跑了幾個(gè)能很直觀展現(xiàn)可靈2.1高品質(zhì)的視頻case，讓大家看個(gè)夠。

（1）童話風(fēng)格女孩

提示詞：

在一個(gè)童話風(fēng)格的小鎮(zhèn)，鵝卵石街道上掛滿彩燈，居民穿著中世紀(jì)風(fēng)格的華麗服裝，參加盛大的節(jié)日慶典。孩子們手持氣球，圍著噴泉嬉戲；樂隊(duì)演奏歡快的弦樂，煙花在夜空中綻放。鏡頭從小鎮(zhèn)廣場的熱鬧場景推進(jìn)，聚焦于一位小女孩點(diǎn)亮漂浮燈籠，燈籠緩緩升空，與星空融為一體。畫面風(fēng)格：溫馨、夢幻、色彩豐富，動(dòng)畫電影風(fēng)格。

（2）魔法師

提示詞：

在一片古老的魔法森林中，參天巨樹上纏繞著發(fā)光的藤蔓，地面覆蓋著熒光蘑菇。精靈祭司站在石制祭壇前，手持水晶法杖，召喚出漂浮的藍(lán)色魔法符文。周圍的空氣中閃爍著微光粒子，遠(yuǎn)處的獨(dú)角獸在溪流邊飲水。鏡頭環(huán)繞祭壇，展現(xiàn)儀式的高潮：一束光柱從天而降，點(diǎn)亮整個(gè)森林。畫面風(fēng)格：夢幻、溫暖色調(diào)、輕霧彌漫，電影感，流暢運(yùn)鏡。

（3）機(jī)械生物

提示詞：

在一片紅色沙漠的外星球上，巨大的機(jī)械生物在沙丘間緩慢移動(dòng)，它們的身體由金屬和有機(jī)物混合構(gòu)成，散發(fā)著幽幽藍(lán)光。天空布滿雙月，遠(yuǎn)處的火山噴發(fā)出紫色煙霧。一支探險(xiǎn)隊(duì)駕駛懸浮越野車靠近，揚(yáng)起漫天沙塵。鏡頭從地面視角逐漸拉高，展現(xiàn)機(jī)械生物的全貌和壯麗的異星地貌。畫面風(fēng)格：科幻、荒涼、超現(xiàn)實(shí)，史詩感。

本土誕生的卷王

綜合測試下來，我們發(fā)現(xiàn)可靈2.1在動(dòng)態(tài)人物的一致性方面的提升非常大，尤其是多人物場景下的真實(shí)細(xì)節(jié)還原。可以說，可靈2.1已經(jīng)能夠憑借性價(jià)比徹底替換掉前代版本。但是，在極復(fù)雜場景、動(dòng)態(tài)運(yùn)鏡、物理模擬等方面，可靈2.1距離谷歌的Veo3仍有一段追趕空間。

從“老鐵廠”快手如此密集的迭代節(jié)奏不難看出，AI視頻生成的進(jìn)化已進(jìn)入白熱化階段。同時(shí)，可靈的商業(yè)化之路，已經(jīng)被市場實(shí)實(shí)在在地驗(yàn)證了：從2024年6月發(fā)布以來，可靈AI已經(jīng)快速迭代了20多個(gè)版本，全球用戶規(guī)模超過2000萬。今年1季度，可靈AI實(shí)現(xiàn)營業(yè)收入超過1.5億元。

我們已經(jīng)看到了包括可靈2.0、2.1等各個(gè)版本的誕生，快手作為可靈的母公司，正全面擁抱AI技術(shù)，用AI當(dāng)作全新的商業(yè)引擎。

可靈這款產(chǎn)品從誕生之日起，到走通商業(yè)化只用了短短半年時(shí)間。現(xiàn)在，可靈產(chǎn)品迭代速度明顯加快，結(jié)構(gòu)化的產(chǎn)品選項(xiàng)不斷清晰。我們可以預(yù)見的是，“老鐵廠”和極大規(guī)模的用戶群體加持下的可靈AI，將會(huì)是谷歌Veo 3最強(qiáng)勁且最不能忽視的本土對手之一。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.