試了一下谷歌昨晚發(fā)布的視頻模型Veo3和AI視頻創(chuàng)作產(chǎn)品FLOW,實在是太強了,這個模型會跟4o的圖像模型一樣將視頻模型帶到下一個時代。
先簡單介紹一下 Veo3 和 FLOW 的特性:
Veo3 支持在生成視頻的時候同時生成對應(yīng)的環(huán)境音、語音,而且語音支持唇形同步,這個簡直對一些剪輯軟件、視頻 Agent 和數(shù)字人產(chǎn)品是降維打擊,視頻生成的可用性一下提升了一大截。
在FLOW這里可以生成圖片和視頻,支持視頻延長和剪短,最后可以將你挑選好的視頻直接剪輯為完整的視頻。
Veo 3 這個聲音真的神來一筆一下子讓視頻生成多了很多應(yīng)用場景,視頻模型時代變了。
這篇文章我會發(fā)布我所有的一手 Veo3 視頻模型測試結(jié)果和對應(yīng)的應(yīng)用場景,同時還會詳細介紹 FLOW 這個產(chǎn)品如何使用。
Veo 3 測試
FLOW 里面只支持英文提示詞,為了方便理解我會將提示詞翻譯為中文展示*
首先測試了一下他的語音生成和唇形同步能力,即使是小貓跟人不一樣唇形同步也是很準確的,而且所有的音效都非常精準。
一只可愛的擬人化小貓剛剛進入學校,它背著自己的行李,好奇地打量著一切,嘴里還不停地嘀咕著
Veo 3居然可以準確的生成游戲的畫面,里面的人物運動和游戲UI都是正確的,還能跟提示詞對上,確實沒少拿Youtube視頻訓練。
一位游戲直播者正在直播《堡壘之夜》,左上角是游戲畫面,右下角是攝像頭畫面。他剛剛殺死了一名敵人,并興奮地大叫著
這個場景主要考核復(fù)雜運動和聲音的準確性,可以看到籃球落地的聲音,運動的時候球鞋和地板摩擦的聲音,球和籃筐的聲音都非常準確。
室內(nèi)籃球場上,一名身穿紅色球衣的球員正在快速運球,不斷做出佯攻和變向動作,試圖突破對方藍衣球員的防守。他突然停下,雙腿高高躍起,身體在空中伸展,手腕一抖,將籃球投向遠處的籃圈。球在空中劃出一道高高的弧線,直奔籃網(wǎng)中央而去。場邊的觀眾都站了起來,仔細觀察著球的軌跡。
然后我突發(fā)奇想,這樣是不是就能讓古人給我們講課了,類似汗青早期的AI Talk,沒想到真的可以,現(xiàn)在可以讓牛頓給你講萬有引力定律,愛因斯坦給你講廣義相對論。
在一部科普影片中,牛頓在一棵蘋果樹下向觀眾解釋萬有引力定律,右側(cè)的便攜式黑板上顯示著公式,突然一個蘋果掉了下來,砸到了牛頓的頭上
上個例子我發(fā)現(xiàn),它可以根據(jù)我的提示詞在一段視頻里面生成不同的分鏡,于是我就想看看這個能力有多極限。
搞了一個5個分鏡的提示詞,而且這里面還得保證音頻的準確,8秒5個分鏡代表每個分鏡不到兩秒的時間。
結(jié)果Veo一次就搞定了,非常完美,而且保持了跨分鏡人物一致性。
一系列快速變換的動態(tài)鏡頭:運動員在烈日下奔跑,大汗淋漓,汗珠從額頭滴落;沖浪者乘風破浪;一群年輕人在戶外音樂節(jié)上興奮地跳躍。特寫鏡頭顯示冰鎮(zhèn)飲料被打開,氣泡升騰。最后,幾個人舉杯祝酒,臉上洋溢著滿足而充滿活力的笑容。畫面定格在產(chǎn)品徽標上。
之后我又想到測試一下環(huán)境音,比如一天安靜夜晚的各種聲音,生成出來一聽,這不就是ASMR視頻嗎?哈哈哈哈
沒想到現(xiàn)在做ASMR視頻的都要被AI卷到了。
同時在這個案例我還發(fā)現(xiàn),Veo3 居然可以延長視頻,而且延長出來的視頻可以保證一致性,下面這個視頻就延長到了16秒。
這下長視頻生成也解決了,我們完全可以直接用Veo3生成一個幾分鐘的完整ASMR視頻,這個太離譜了。
后面 FLOW 的部分會教大家如何延長視頻。
透過被雨水打濕的窗戶,可以看到夜色中的街道和不斷落下的雨滴。房間里,一個人坐在書桌前,手指飛快地敲擊著筆記本電腦的鍵盤。墻上掛著一個古董鐘,鐘擺有節(jié)奏地來回擺動。
最后試了一下視頻播客場景,讓他生成一個對談的播客視頻,對話內(nèi)容也是連貫的。
這里有個很牛的是它可以多人唇形同步,這個在現(xiàn)在的數(shù)字人領(lǐng)域很難做到,沒想到隨便一翻身數(shù)字人也要被干死了。
播客錄制現(xiàn)場,兩名女主持人正在討論有關(guān)法LLM訓練主題的內(nèi)容,其中一人提問,另一人回答
這里兩人爭吵的也可以看出來這個音頻生成的強大,夸張表情加嘴部都能跟情緒和語音保持一致。
房間里,兩名特工面對面站著,爭吵著,互相指責對方任務(wù)失敗的原因,他們的臉被強烈的憤怒漲得通紅。他們用手指著對方,身體前傾,瘋狂地揮舞著手臂。突然,其中一人猛地轉(zhuǎn)身,大步走到門前,一把拉開門,頭也不回地走了出去,“砰 ”地一聲關(guān)上了身后的門。
最后是一個環(huán)境音,水流和切蔬菜的動畫,對于物理表現(xiàn)和聲音都有要求。
燈光明亮的廚房里,一個人正用菜刀在木質(zhì)砧板上迅速而有節(jié)奏地切著五顏六色的蔬菜。旁邊的水龍頭開著,細細的水流不斷流入水槽。他/她低著頭,全神貫注,嘴唇偶爾微微蠕動。
FLOW 使用教程
谷歌一直沒有一個給AI圖像和視頻創(chuàng)作者使用的產(chǎn)品,這次終于來了。
FLOW 支持生成圖片和視頻,而且支持對生成的視頻進行編排和剪輯,最后導(dǎo)出完整的視頻。
試了一下這個產(chǎn)品里面的小巧思還是挺多的,同時還有一些Bug需要規(guī)避一下,所以寫一個使用教程吧。
你可以在這里使用FLOW:https://labs.google/fx/zh/tools/flow
目前只有美國IP用戶可以用FLOW,我是Google AI Ultra會員,可以試試非Ultra會員能不能用。
首先進來以后我們需要新建一個項目,這個很容易理解,一個片子的所有素材都會在這里。
進來以后的界面很簡單,一個輸入框輸入提示詞的,這里你如果想要用 Veo 3,需要先改一個設(shè)置,在輸入框設(shè)置里面選擇Highest Quality的質(zhì)量,這個才是Veo3。
如果你發(fā)現(xiàn)自己生成的視頻沒聲音,看看改沒改這里。
然后目前支持的視頻方式主要是三種:
- 首先是文生視頻,很好理解輸入提示詞就行,提示詞只支持英語
- 然后是圖生視頻,這里支持單獨的首幀、尾幀和首尾幀,另外目前不能上傳圖片,圖片只能用Imagen模型生成
- 最后是素材轉(zhuǎn)視頻,感覺類似多圖參考,可以上傳三張圖片提取內(nèi)容,一張圖片提取風格,搭配提示詞生成視頻,當然目前也不支持上傳外部圖片。
然后生成的結(jié)果會在上面展示,下載按鈕這里支持將生成的視頻超分到1080P。
另外注意:目前的下載按鈕下載的視頻會沒有聲音,你需要點擊全屏按鈕,之后在播放器右下角的三個點那里下載才會有聲音。
接下來你會在生成視頻的右上角看到一個添加到場景的按鈕,另外畫面右上角也有Scenebuilder的按鈕,從這兩個位置都能進到素材剪輯頁面。
進到剪輯頁面后注意,右邊的排列按鈕我們可以調(diào)整分鏡順序和刪除分鏡,中間的進度條拖動后的位置就是下一個視頻生成后放的位置,最左邊的播放就是預(yù)覽按鈕。
這里你可能會發(fā)現(xiàn)沒有導(dǎo)出按鈕,谷歌的交互真是一坨, 你需要放大預(yù)覽畫面,然后點三個點的下載這時候下載的就是編排好的完整視頻。
接下來教大家怎么在這里延長Veo3的視頻,點擊分鏡后的加號我們可以看到兩個按鈕,跳轉(zhuǎn)到和延長。
注意這里你如果點延長的話模型會自動切換會Veo2去生成。
所以我們的延長需要選跳轉(zhuǎn)到,然后注意這是這時候你的播放光標一定要在視頻最后一幀,因為這是通過首尾幀實現(xiàn)的,之后我們輸入提示詞就行。
最后注意的是,延長或者跳轉(zhuǎn)到的時候不要回到編輯之前的素材庫頁面,可能會停止生成。
好了這次的測評和教程就到這里了,希望能給到你一些啟發(fā)。
谷歌這次的視頻模型升級將音效生成、語音生成以及唇形同步邏輯跟4o的圖片生成一樣,是將多種模型整合到了一整個完整的視頻模型中,這樣才能有這么完美的效果。
每一次Agent的模型化即使每個部分的模型本身質(zhì)量沒有升級也會帶來非常多的應(yīng)用場景和新的產(chǎn)品機會,4o圖片發(fā)布之后的盛況大家也看到了。
期待大家能從我的內(nèi)容獲得啟發(fā),找到更多在你的行業(yè)上Veo3的應(yīng)用場景。
如果你覺的教程對你有幫助的話可以幫我點個贊或者喜歡,也可以推薦給你需要的朋友們!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.