還記得 2023 年 AI 視頻最出圈的片段嗎?威爾·史密斯吃面,動作鬼畜,畫面寂靜——
當時的視頻大模型,只會動,不會說話。
Sora 的發(fā)布讓視頻質(zhì)量飛躍、物理規(guī)則建模進步巨大,也直接引爆了整條賽道。
Runway、Pika、Luma、Kling、Genmo、Higgsfield、Lightricks 等初創(chuàng)公司,以及 OpenAI、谷歌、阿里、字節(jié)等科技巨頭,紛紛入局。
但無論畫質(zhì)如何進步,視頻還是「啞巴」——
你可以讓人物奔跑、翻轉(zhuǎn),甚至做出慢動作,但如果想讓角色說話、聽到風聲、腳步聲,甚至感受到炒菜時鍋里的滋滋聲?
對不起,還得自己導音頻。
更麻煩的是,配完音還可能對不上節(jié)奏——口型和對白不同步,腳步踩不到點上,情緒氛圍總差一口氣。
直到今天,谷歌正式發(fā)布 Veo 3 AI 視頻,終于能「開口說話」了——
Veo 3 不僅能生成高質(zhì)量視頻,還能理解視頻中的原始像素,自動生成與畫面同步的對話、多種音效。
翻譯成中文——
只用一個提示詞,你就能得到畫面+對白+唇動對齊+擬音音效一氣呵成的視頻。
提示語:90 年代酒吧里的情景喜劇場景,背景墻上的霓虹燈寫著 「fofr」。一對夫婦說了些什么,觀眾大笑起來。
對白生成、唇動對齊和情緒音效(觀眾笑聲),一氣呵成
提示語:一位游戲主播(streamer)只用他的鎬子(pickaxe)贏得了「Victory Royale」。
生成出的內(nèi)容是完整直播風格視頻,還帶著夸張的歡呼與音效,畫面有聲有色
盡管凌晨才發(fā)布,Veo 3 已在社交網(wǎng)絡(luò)掀起熱潮,多個視頻動輒數(shù)十萬次播放,令人驚嘆不已。
雪地步伐清晰傳來咯吱聲,鴨子嘎嘎叫,烹飪滋滋作響,撒胡椒聲......
得益于模型對物理世界的深刻理解,所有聲音非后期拼接,而是與畫面實時同步生成。
Veo 3 還能精準捕捉畫面情緒,渲染氛圍音效。這個麥芬蛋糕在烤箱中尖叫,逼真到讓人有點毛骨悚然。
提示詞:a video with dialogue of two muffins while baking in an over, the first muffin says "I can't believe this Veo 3 thing can do dialogue now!", the second muffin says "AAAAH, a talking muffin!"
至于對口型,Veo 3 也表現(xiàn)突出:無論是脫口秀現(xiàn)場講笑話,還是說唱音樂視頻中的節(jié)奏口型,都能精準同步,真實感爆棚。
提示詞:a man doing stand up comedy in a small venue tells a joke (include the joke in the dialogue)
提示詞:a man in a music video raps to the camera about generating videos with Veo3
生成歌劇和音樂會視頻,成為檢驗 Veo 3 音畫同步水平的高頻場景。
這個視頻里,鼓手的每一次擊打動作都與鼓點節(jié)奏完美同步,與歌手表演同步,展現(xiàn)了模型在復雜多聲音動態(tài)場景下出色的音畫合成能力。支持多角色、多種風格的創(chuàng)作視頻,虛擬人物演技不比《演員請就位》強多了?
長提示詞理解與事件流生成方面,Veo 3 同樣出色。
以前視頻模型提示詞一長就容易崩。
但 Veo 3 能理解長句子,完成一個完整、時間有序、邏輯清晰的小片段。
來看這個視頻。
提示詞:黎明時分,一位男士在美麗的夏日公園里奔跑,他上氣不接下氣,然后放慢速度,看著鏡頭,氣喘吁吁地說:「用 API 運行 AI。使用 Replicate。」然后他繼續(xù)跑。最后,「Replicate」的字樣漸漸消失在視野中。
包含動作變化、對白插入、鏡頭切換、logo 漸隱……
多步驟連貫執(zhí)行,事件流準確,效果不錯:
音畫同步生成,直接把視頻模型拉到了新時代 。而其中關(guān)鍵能力,離不開 DeepMind 過去就悄悄鋪下的一項底層技術(shù):V2A( Video-to-Audio )。
2023 年 6 月,DeepMind 就首次披露:
他們正開發(fā)一套 AI 系統(tǒng),能從視頻像素 + 文本提示中,自動生成完整音軌。包括對白、動作音效、環(huán)境音、背景音樂……
它的原理是:將視頻視覺信息編碼為語義信號,與文本提示一同輸入擴散模型,生成匹配的音頻波形。
可以說,V2A 就是 Veo 3 的「耳朵」和「聲帶」。再配合谷歌的音視頻數(shù)據(jù)資源—— YouTube 很可能是訓練數(shù)據(jù)之一—— Veo 3 的音畫合成功能,已經(jīng)遙遙領(lǐng)先。
一個小遺憾:視頻仍只有 8 秒。
另外,目前 Veo 3 僅面向美國 Ultra 訂閱用戶開放,定價為 249.99 美元/月。這是谷歌專為專業(yè)創(chuàng)作者、開發(fā)者推出的高階會員服務(wù)。
雖然門檻不低、時長有限,但 Veo 3 的初次亮相,已足夠震撼。
過去生成式 AI 是「語言+圖像」的時代,現(xiàn)在,正在進入「視聽一體」的新階段。
生成視頻從會動 → 能說 → 有氛圍,一步步突破不同模態(tài)的邊界。
如果說 Sora 是讓 AI 看懂物理世界,那 Veo 3,就是讓 AI 能「聽懂」,「會說」。
看來,音畫一體,將是下一輪視頻模型競賽的標配。
文中視頻鏈接:https://mp.weixin.qq.com/s/rJFwZ1lLiWzFLE7jd4jGyA
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.