距離 Sora 給 demo 已經半年多了,炸場之后沒了動靜,但帶出了一眾“小弟”,不算華人在做的 Pika、Haiper,真正土生土長的“國產大模型”也都在上一周在全球市場卷起來了,前后腳陸續上線,包括 Kling、Pixverse V2、Vidu 等等。
不僅如此,這批視頻模型都自信了起來,全球上線成了基本操作,敢于接受海內外用戶的檢視。關于幾個模型的測評已經鋪天蓋地,但我們更好奇的是國內與海外的用戶們到底給予了怎樣的評價?
海外炸場,國產“ Sora ”們這一波反饋如何
注:Pixverse V1 在今年 1 月上線,有一定的流量基礎,M 為百萬
在了解用戶反饋之前,我們先介紹一下最近殺出來的幾個模型,包括快手的可靈、愛詩科技的 Pixverse V2 和生數科技 Vidu,基本的參數與功能如上所示。
除了基礎功能外,我們也根據收集到的海外用戶熱評總結出了幾個測試維度,包括主體一致性、空間關系理解、運鏡理解、以及場景還原度,用一個包含上述維度的 prompt 對 3 款模型進行測試,方便大家對各個模型生成視頻質量有一個直觀感受后,再去感受用戶評價。
Prompt
側面拍攝,鏡頭跟隨貍花貓,一只貍花貓從廣場的左邊跑向廣場的右邊,遇到一只哈士奇并跳起來跨越了哈士奇。
可靈
場景還原度較高,但在空間理解上差點意思。生成的貍花貓是從右往左過去的,跨越哈士奇的動作比較還原,但貍花貓還是出現了一定程度的變形,主體一致性一般,運鏡上不符合要求,是從側面拍攝、但鏡頭沒有跟隨。
Pixverse V2
空間關系理解差,并沒有體現貍花貓從廣場的左邊跑向右邊,跨越的動作也沒有出現,此外在運動過程中貓和哈士奇都出現了比較大的變形,主體一致性差,除此之外,運鏡同樣不符合要求,視頻清晰度也不夠,甚至可以說質量較差。為防止是運氣問題,我們又抽了一次卡,但仍然出現了處理提示詞理解不到位以及主體變形的問題。
Vidu
場景基本還原,空間理解上和可靈不相上下,貓的運動方向正確、但沒呈現跨越的動作。貓和狗的形態都比較自然,主體一致性不錯,運鏡也符合要求的,側面拍攝且鏡頭跟隨貓推進。
至此,我們根據測評結果對這幾個模型的表現進行一個小結:
我們測試后對 3 個視頻生成模型的評價(上),用戶對 3 個模型生成視頻的反饋總結(下),注:我們將用戶評價和測評結果不一致的地方標黃了 | 白鯨出海根據網絡評論整理
將我們自己的測試結果,與我們搜集到的網友評論進行對比后發現,可靈在用戶中的口碑更好一些,普遍認為它的效果獨一檔,不知道是否是 prompt 的問題,與我們的測試有一些出入。PixVerse V2 是一款老產品推出了新模型,但網友認為它的效果不太理想,算是落后了,這與我們的觀察一致。而 Vidu 則靠著在動畫風視頻中的出色發揮獲得了用戶的好評,且在一致性和運鏡理解上都有不錯的表現,總體評價中等。
感興趣的用戶,也可以詳細看下海外用戶都說了什么?(用戶評論收集方法:為了了解海內外用戶對這一波密集的大模型上線的反饋,通過關鍵詞搜索,我們在幾個主流的科技愛好者社區 X、Reddit、油管評論區集中瀏覽了平臺上對近期推出的國產視頻模型的評論,選取了一些高轉贊、高頻次的評價作為用戶反饋的代表。)
背靠快手的可靈,“真香”了
X 的網友在“求號”
可靈于 7 月 6 日網頁端上線,在海外收獲了不少好評,甚至出現了一號難求的局面,可靈 7 月在海外的訪問量也達到 228 萬,國內訪問量 140 萬,從數據上看,海外的聲量還更大點。
可靈基本參數
在性能上,廣大海外網友的反饋為“超預期”,提示詞理解、主體一致性和連貫性幾個點都獲得了高度贊揚,明顯優于其他模型。此外,還原吃喝動作,可靈“無敵”,讀者可以感受一下。
可靈與 Sora 在生成吃東西這個動作時的對比|圖片來源:X
海外網友對可靈的好評(上),對支付和去水印功能的吐槽(下)|圖片來源:X
除了質量好之外,UI 友好,工具齊全,性價比高也讓可靈收獲了很多好評。而海外網友的差評普遍在去水印和支付這兩個點上,有用戶反饋,雖然會員權益里有去水印,但實際用的時候卻找不到,而且支付方式的接入也不齊全,產品細節和本地化上可靈還有可優化的地方。
國內用戶對可靈的評論
而相比海外網友一片夸夸,國內網友就嚴格得多了。他們表示,付費后可靈的視頻生成質量還是無法達到預期,生成時間也長。
“老牌”產品Pixverse推出的 V2,可能有點落后了
PixVerse的基本參數
Pixverse 的母公司是愛詩科技,由前字節 AI 技術總監王長虎創立,于今年 1 月上線,而 7 月 24 日 PixVerse 推出的是新款模型 PixVerse V2。
7月 PixVerse 流量情況,紅色箭頭所示就是推出V2的時間點|圖片來源:similarweb
除了視頻質量和模型性能提升,PixVerseV2 推出了一項新功能,能一次性生成 1-5 段連續的視頻內容,且片段之間會自動保持主體形象、畫面風格和場景元素的一致,強化了可用性,而對應地,PixverseV2 也有其他 2 款視頻模型不具備的角色生成視頻功能,一致性,感覺是 PixVerseV2 在攻克的重點,但是不論是我們測評的結果、還是用戶的反饋,PixVerseV2 的一致性的表現都是最差的。不論怎么樣,根據 Similarweb 的數據,V2 發布當天 PixVerse 網站的流量還是迎來一個小高峰。
根據國外網友對 Luma、可靈、runway Gen3、Haiper、Pixverse V2 的評測來看,PixverseV2 在主體一致性、場景還原度等方面差點意思,弱于可靈、runway Gen3 和 Luma 等產品,讀者可以自行體會一下 Pixverse V2 的生視頻質量。
Prompt :吃意大利面的男人|圖片來源:X 上網友的測試
Prompt :張開的手,握緊拳頭|圖片來源:X 上網友的測試
雖然寫實場景表現一般,但 PixverseV2 在奇幻風格上表現還不錯,不僅畫面比較豐富,視頻崩掉的情況也少了。在 PixverseV2 的高瀏覽量油管測評視頻的評論區,也有用戶反饋這一點。
在圖生視頻層面,Pixverse 之前廣受好評的 Magic brush 功能暫時不支持新模型,用戶如果想使用 Magic brush 的話還得切換回 PixverseV1。
從清華走出的Vidu,是動畫特長生
Vidu 基本參數
Vidu 是生數科技和清華大學合作開發的,在 7 月 30 日正式上線。
Prompt :一個穿水手服的少女眼神哀愁地站在櫻花樹下遙望遠方,顏色清新淡雅
Vidu 雖然動畫風與寫實風都可以生成,但網友們都表示,相比寫實風,動畫風是 Vidu 的強項。筆者自己也試了一下,Vidu 做得相當好,氛圍感一整個拿捏。
Prompt :一個穿水手服的少女眼神哀愁地站在櫻花樹下遙望遠方,顏色清新淡雅
而同樣的提示詞在寫實風格中生成就稍微有點奇怪,而且氛圍感要弱一點。此外,大家普遍反映,因為 Vidu 生視頻的動作幅度會比較大,可能會導致視頻整個崩掉,抽卡成功率大大降低,這么一看,筆者的手氣還可以。
圖片來源:APPSO 公眾號
國內有媒體又用 Sora 的經典場景測試了 Vidu,但生成的視頻中就出現了人物走動過快而導致整個畫面模糊,女人和路人都變成鬼影的情況。總體來看,Vidu 在寫實風的表現一般。
Vidu 的網友評論|圖片來源:X
此外,對比其他 2 個模型,Vidu 的生成速度是最快的,能控制在在 1min 之內(可靈是 2-5min,Pixverse 是 3-7min),可能是由于動作幅度大,生成質量不穩定,要頻繁抽卡,Vidu 著重優化了這一點。但顯然,相比生成效果,用戶并不太在意生成速度。
經過我們的對用戶反饋的觀察和自己的測試,可以得出大致結論:雖然在我們自己測評時,可靈表現的沒網友口中那么好,但綜合實力確實還是第一的,但如果按“能用”為標準可能細節上還差不少。Vidu 處于中間位置,但由于偏重動畫風,算是一個特長生,能滿足一部分用戶的需求。PixverseV2 生成質量上確實有點落后了。
而相對 Luma、Pika 這些海外視頻模型,國產模型做出來的視頻雖然也不能直接用,但對比起來好像還不錯,而本周,阿里又推出視頻軌跡可控的 Tora、智譜連夜開源了 CogVideoX,面壁也推出了小鋼炮 2.6,大家一起卷,這種“繁華”背后是什么原因,從這次表現有點優異的快手身上,好像能找到點痕跡。
視頻生成沒有彎道超車,只有“大力出奇跡”,這次是快手
這一次國產大模型“集體自信”,其實也并非無跡可尋。視頻生成工具集中爆發的原因,其實我們在《這個AI賽道,一個月內融資4筆,一大半的創始人是華人》選題中曾經有過一次觀察。
從主觀意愿上來說,在當下的互聯網格局中,視頻模態是最貼近用戶,商業化天花板最高的模態,而且國內又是短視頻時代的先行者。有了這兩個前提,就有了如今“百模大戰”熱度減退,我們距離海外的 LLM 依然有不小距離的情況下,國內廠商在視頻大模型上依然在卷。
Sora 使用的是 DiT 架構,全名 Diffusion- Transformer,其中 Diffusion 的作用是細化和完善視頻畫面,而 Transformer 則用來處理和解析復雜的文本輸入,并控制視頻的邏輯連貫性,這個技術路徑結合了之前兩種主流技術路徑的優點。
而從客觀可行性上,Sora 雖然一直在跳票,但讓 AI 視頻生成的技術路徑清晰了起來。我們上文觀察到的可靈、Vidu、Pixverse V2,加上智譜 AI 推出的清影等,無一例外都走了與 Sora 類似的技術路徑,Pixverse 的王長虎就表示:“在 Sora 出來之前,業內其實并不相信視頻生成能在短時間內做出來,Sora 的出現讓我們堅定了前進的方向。”
意愿+可行性同時具備,各個國內廠商就開始了“拼速度“。而可靈這次算是令人比較驚艷的,這與快手短視頻大廠的身份不無相關。快手具備大視頻模型和視頻平臺的雙重身份,也更可能打通從生產到應用的鏈條,所以我們也重點回顧了下快手這次的突襲。
3 個月上線產品,快手已經為可靈準備很久了
可靈的前身是快手內部的一個圖片轉 GIF 的項目“噗嘰”,但這個項目在去年 10 月上馬后不久就擱淺了。而 2 月 Sora 的爆火讓快手視覺生成與互動中心負責人萬鵬飛看到了視頻生成的機會,所以 3 月就基于“噗嘰”的技術儲備立項了可靈。
但在立項的同時,市場上已經有 Haiper、Pixverse 等華人視頻創企推出了產品或完成了融資,“老對頭”字節,也推出了一款 AI 視頻模型,彼時的快手真的落后了不少。但僅用了 3 個月,可靈就開始了測試,而且趕在其他玩家之前在 7 月初上線。能夠如此快速上線,數據集和硬件儲備是兩大重點。
早在 2023 年,快手音視頻團隊就發布過關于自動視頻質量評估算法的論文,注:此論文主要針對個性化推薦領域,但確實可以用來進行數據集的處理|圖片來源:實時互動網
如上所述,其實在技術路徑相對明確之后,廠商更多的其實在拼訓練數據、對業務的理解、甚至算力儲備。
先說數據集,根據量子位的報道,作為短視頻平臺,個性化推薦是拉長用戶時長的重要手段,快手的 AI 團隊也在很早以前就建立了一套完備的標注體系,也包括自動視頻質量評估算法這類技術。基于這套體系,團隊會對快手平臺上的視頻,從基礎質量、美學、自然度等多個方面進行標注,而且還擴展出了大量的細化維度,形成立即可用的高質量訓練數據集。
這一點真是屬于先天優勢,在其他大模型還面臨扒 YouTube 視頻來訓練、版權爭議的時候,快手已經有清洗好的數據了。
英偉達與快手 2019 年合作的新聞(上),快手與英偉達今年的合作(下)
快手除了年初在囤卡之外,早在 2019 年,快手就與英偉達展開了合作,部署并優化過算力平臺。而在今年英偉達的 GTC 大會上,快手與英偉達還宣布合作突破了推薦系統的算力優化技術。在算力的調配與優化上,快手憑借著經驗和與英偉達的長期合作,也有可能是有過人之處的。硬件儲備和算力優化技術在算力密集型的視頻生成賽道,同等重要。
而這背后都是可靈獲得了全力支持,這與快手本身的商業化路徑密不可分。
3 個模型背后是完全不同的思路,快手真的可能會更快些
而實際上,除了可靈,這次視頻大模型這次集體“出海”,AI 視頻確實開始了比較有針對性的落地測試,如助力創作者、賦能電商、短劇制作、甚至一些自媒體 AIGC 視頻的生成。
自有生態的快手,是定位和路徑最清晰的那個。快手的收入主要來自 3 塊,營銷、直播、電商,而這三塊收入又都建立在用戶使用時長的基礎上,時長又和平臺上的可消費內容的量強相關。
從可靈初期的推廣動作來看,快手的視頻大模型,直指收入和可消費內容兩大核心問題。
根據媒體報道,第一批受邀去測試可靈的是各平臺的 AI 博主們,這些博主測評后發布的內容,在快手上的,就會獲得流量支持,在其他平臺發布的,快手也會選擇優秀者幫忙買量。
快手在 2024 全球人工智能大會上宣布舉辦視頻創作者大賽
除此之外,快手也舉辦了各種活動,激勵創作者把可靈用起來,比如基于可靈圖生視頻功能推出的“復活古畫”和“讓老照片動起來”的挑戰活動,再比如舉辦創作者大賽。
2024 年 3 月,某公司與快手合作在海外推出換臉短劇|圖片來源:雪球
根據計算,2023 年快手創作者占總用戶的比例可能只有 19%,相比 2021 年財報披露的 25% 下降了不少,絕對數量上,這幾年也穩定在 1.4 億這個數量級上。快手希望通過 AIGC,降低創作者的門檻,讓更多用戶加入創作者行列,增加平臺上的可消費內容。此外,在短劇等快速增長的內容版塊中,快手也在積極地探索 AI 的使用,來高效生產內容。
電商是另一個重要應用場景,在邀請創作者測試的同時,快手也將部分測試資格交給了電商合作伙伴。有快手內部技術人員告訴媒體:“讓 AI 生成一個跳舞的人很難,但基于一張圖生成杯子的視頻卻不難,AI 生視頻更可能被用在解決電商賣家缺素材的痛點上。”
基于商品圖讓 AI 生成視頻的難度肯定會比生成“跳躍的貓”要簡單些,但因為涉及到實體產品的銷售,對主體一致性和視頻細節的要求極高,否則退貨率肯定飆升。現在看來,可靈的質量可能還不能滿足電商場景的要求。但是讓用戶用起來,收集反饋,再優化質量,可能是快手在電商領域進行嘗試必須走的一步。
由于有助力本身業務的目的,據知情人士透露,可靈沒有商業化目標,投入也無明確上限,推出會員模式也是為了覆蓋掉一部分推理成本。而從幾款產品的定價來看,可靈雖然不是單條視頻價格最便宜的,但卻是免費額度最高的。
反觀 Vidu 和 PixVerse ,走得更像是服務藝術創作者,靠自身訂閱變現的邏輯。除了短視頻創作者和電商/企業用戶以外,視頻生成工具還有一類目標人群是電影、紀錄片等從業者,這類人群更注重運動控制、場景還原和運鏡等維度,對視頻的細節要求也更高。
而 Pixverse 和 Vidu 顯然還是面向這類用戶。Pixverse V2 的測試效果較差,但從功能來看,Magic Brush、以及連續生成多段主體一致性視頻的攻克方向,明顯面向這類人群。Vidu 的動漫強于寫實,而且著重優化了生成速度,猜測是服務于需要頻繁“抽卡”,追求最佳效果的創作者,而動漫的創作可能也是 AI 生成視頻更務實的落地場景。
廣電傳媒參股 Pixverse 的新聞(上),Pixverse 與電影創作者協會合作的新聞(下)
就 Pixverse 和 Vidu 面向專業創作者的思路來看,其生成效果距離實現目標,可能還很遠。而可靈,借助于快手的平臺,以及營銷、短劇、電商等幾條自有業務線,真的有可能在目前已經取得一些成績的基礎上,越走越快。
字節,其實早在今年 5 月上線了 AI 生成視頻網站即夢,但從聲量上是弱于可靈,不論 AI 生成視頻是否能發展成為一個獨立的營收業務線,但快手從自有業務和商業化出發,在時間點相對落的情況下迅速跟進,總算是“早了一回”。
參考文獻:
1、文生視頻大模型,短視頻的過彎點?
2、可靈讓快手支棱起來了?
3、快手版 Sora「可靈」開放測試:生成超 120s 視頻,更懂物理,復雜運動也能精準建模
4、快手可靈,能成為中國 Sora 嗎?
5、合作快手,絲滑換臉。短劇出海的鏟子股——超訊通信今天又有什么新技術?
6、揭秘快手可靈背后的「關鍵 7 人」
7、揭秘“中國版 Sora ”可靈:程一笑督戰,20人團隊三個月完成的快手版“大力出奇跡”
8、在海外,Sora 正在被可靈替代
9、「國產版 Sora」Vidu 全面開放,對比 Runway、可靈后我發現它是動畫特長生
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.