,最近又迎來更新,能讓圖片開口說話了。
Google CEO Sundar Pichai 發(fā) X 說,自從五月 Google 開發(fā)者大會以來,用戶已經(jīng)使用 Veo 3 創(chuàng)建了超過 4000 萬的視頻。
而且,現(xiàn)在通過 Gemini 就能體驗到 Veo 3 強大的視頻生成能力。
Veo 3 最近的這次更新,讓非常多的創(chuàng)作者再次興奮地發(fā)起「整活」大賽。
最吸睛的變化是,你上傳一張圖片,它可以直接「開口說話」了!不僅是嘴動,配音也來了。
像是這個,家里小朋友隨手畫的一只小老鼠,可以從紙上動起來,還會有老虎的背景聲音。
https://x.com/joshwoodward/status/1943326836081193086
有了圖生帶聲音的視頻,還有人用 Veo 3 直接制作了一個由相同角色講述的連貫短片。
https://x.com/Diesol/status/1942452185259991246
我們帶你快速看看它這次更新都改了什么,又能怎么玩出新花樣。
更新亮點:
原來的首幀轉視頻或圖片轉視頻,不支持聲音的生成。這一次,只需要上傳一張靜態(tài)圖片,加上文字腳本,就能生成口型和語音同步、或者音效豐富的視頻。
此外,Veo 3 Fast 模型也支持首幀轉視頻,我們可以消耗更少的積分,快速生成一段 AI 視頻。
積分上,Pro 用戶(每月 1000 點數(shù))支持購買額外 AI 點數(shù),不用干等月初刷新,按需加點,靈活性提高。
雖然讓照片動起來不是 Veo 專有,我在抖音上也一些視頻。他們是拍一張自己的照片,然后就會生成一個帥哥/美女來親吻或者擁抱他,也是只需要上傳照片就可以。
但 Veo 3 和抖音上這個特效不同,它現(xiàn)在能做的不僅僅是針對某一種特定類型,所有的圖片都可以生成視頻,并且,是有聲音的視頻。
Veo 3 實測體驗:一句話讓圖片開口說話,效果靠譜嗎?
我們也用 Veo 3 在 Gemini 和 Flow 里面都生成了一些視頻。
圖片轉視頻能夠「說話」之后,生成的視頻確實會更驚艷。
像是我們也拍攝了一張愛范兒園區(qū)的照片,然后像 Google CEO 發(fā)布的那個視頻一樣,讓一只骨架恐龍在這里漫步。
音效、配合首幀畫面的一致性、骨架恐龍都非常出色。不過還是有缺點,后面生成的廣州塔頂部觀景平臺明顯不對。
可能是我給他的圖片場景太復雜,我隨手拍了一張工位上的杯子,然后告訴 Veo,讓這個杯子長出手腳,破壞我的筆記本。 這下它處理起來就明顯更容易了。
我覺得和現(xiàn)實生活中我們拍攝的照片聯(lián)動起來,想一個好玩的提示詞,這真的很有意思。
打開一本書,一個全新的世界躍然紙上,真的可以做到,只用拍張照片,一句提示詞。
Veo 不能生成長視頻,但有了圖片轉視頻還能生成聲音的功能,我們可以把原來 Veo 3 限制 8 秒的視頻無限擴展。只要你有想象力,Veo 甚至能生成一個微電影。
我們嘗試了讓它生成一座城市的千年進化史, 展現(xiàn)一座城市從無到有,再到未來幻想。
同時,還配上了專門的音效說明。像是從自然之聲開始,逐漸加入建設聲、馬車聲、工業(yè)轟鳴、現(xiàn)代都市的喧囂,再到未來科技感的聲音,最后回歸寧靜。
雖然這個過程比較麻煩,需要我們每生成一個 8 秒的視頻,都截取這個視頻的最后一幀作為下一個視頻生成的首幀。但通過這樣的方式,就能一直「延長」一個視頻。
我們是直接在 Gemini 里面生成的這個視頻。點擊「新增相片」,然后輸入提示詞,Gemini 會使用 Veo 3 Fast 快速生成(約 1-2 分鐘)一段 8 秒的視頻。
Gemini 的可選項不如 Flow 里面豐富,使用 Flow,不僅可以指定視頻的首幀,還能指定視頻的最后一幀。開頭的恐龍視頻,我們就是在 Flow 里面生成。下面還有幾個我們用 Flow 的幀轉視頻生成的內(nèi)容。
讓歷史人物也開口說話,我們找了一張魯迅的圖片,然后告訴 Veo 讓照片里的人開始說話。以后,再看到有人說「魯迅:這我沒說過」,用 Veo 3 丟個視頻給他,這話魯迅真說過。
不過尷尬的是,現(xiàn)在還只能說英文。
家里的寵物,小貓小狗也能動起來,開口向你吐槽了。
此外,我們還嘗試了指定首幀和最后一幀,以及運鏡的類型。在 Flow 里,它提供了推鏡、拉鏡、搖臂,平移、環(huán)繞、俯仰等 13 種運鏡類型。
我們選了一張幾天前的晚霞照片和開頭的愛范兒照片,告訴 Veo 一步步推進直到定位到最后一幀。不過,選擇特定推鏡方式的時候,Veo 2 還是不夠智能,它沒有辦法很好的生成這個轉變。所以下面是默認的鏡頭運動方式,Veo 生成的視頻。
還需要注意的是,現(xiàn)在指定兩張圖片,還不支持 Veo 3 模型,只能使用沒有聲音的 Veo 2 Fast。
不僅可以復活名畫,還能生成酷炫廣告
在網(wǎng)上也有非常多人分享自己使用 Veo 3 生成的有意思的視頻。不少人表示,圖片帶音頻的視頻生成,是 AI 視頻生成領域的一項大突破。
https://x.com/venturetwins/status/1942972223725437130
這段 39 秒的采訪視頻完全由 Veo 3 Fast 生成,作者就是可以通過將一個片段的最后一幀,作為下一個片段的起始幀來從實質上「延長」它。
還有人用 Veo 3 重現(xiàn)了古典藝術中描繪的莎士比亞悲劇。作者直接使用了著名的畫作奧菲莉亞和提示詞「她坐起來說,實際上,我想我已經(jīng)厭倦了哈姆雷特」。
https://x.com/emollick/status/1943061819331088434
除了讓這些藝術作品開口說話,還有用 Veo 制作了非常多長度在一分鐘左右的廣告視頻,有酷炫的汽車廣告,還有手機廣告,指定產(chǎn)品名字和 Logo 的廣告,都能生成。
最后,Google 在昨天自己也發(fā)了一個讓狗狗開口說話的視頻。
感興趣的朋友可以在 Gemini 和 Google 實驗室項目里面的 Flow 體驗!
如果沒有開通 Pro 會員的話,還可以試試透過 docs.google.com/videos/ 去看看是否有免費生成視頻的選項。
歡迎加入 APPSO AI 社群,一起暢聊 AI 產(chǎn)品,獲取,解鎖更多 AI 新知
我們正在招募伙伴
簡歷投遞郵箱hr@ifanr.com
?? 郵件標題「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關鏈接)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.