網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

真碾壓Sora了！谷歌Veo 3首次實現(xiàn)音畫同步，視頻模型開口說話

2025-05-21 16:48:19　來源: 機器之心Pro

北京舉報

分享至

還記得 2023 年 AI 視頻最出圈的片段嗎？威爾·史密斯吃面，動作鬼畜，畫面寂靜——

當時的視頻大模型，只會動，不會說話。
Sora 的發(fā)布讓視頻質(zhì)量飛躍、物理規(guī)則建模進步巨大，也直接引爆了整條賽道。

Runway、Pika、Luma、Kling、Genmo、Higgsfield、Lightricks 等初創(chuàng)公司，以及 OpenAI、谷歌、阿里、字節(jié)等科技巨頭，紛紛入局。

但無論畫質(zhì)如何進步，視頻還是「啞巴」——

你可以讓人物奔跑、翻轉(zhuǎn)，甚至做出慢動作，但如果想讓角色說話、聽到風聲、腳步聲，甚至感受到炒菜時鍋里的滋滋聲？

對不起，還得自己導音頻。

更麻煩的是，配完音還可能對不上節(jié)奏——口型和對白不同步，腳步踩不到點上，情緒氛圍總差一口氣。

直到今天，谷歌正式發(fā)布 Veo 3 AI 視頻，終于能「開口說話」了——

Veo 3 不僅能生成高質(zhì)量視頻，還能理解視頻中的原始像素，自動生成與畫面同步的對話、多種音效。
翻譯成中文——

只用一個提示詞，你就能得到畫面+對白+唇動對齊+擬音音效一氣呵成的視頻。

提示語：90 年代酒吧里的情景喜劇場景，背景墻上的霓虹燈寫著「fofr」。一對夫婦說了些什么，觀眾大笑起來。

對白生成、唇動對齊和情緒音效（觀眾笑聲），一氣呵成
提示語：一位游戲主播（streamer）只用他的鎬子（pickaxe）贏得了「Victory Royale」。

生成出的內(nèi)容是完整直播風格視頻，還帶著夸張的歡呼與音效，畫面有聲有色
盡管凌晨才發(fā)布，Veo 3 已在社交網(wǎng)絡(luò)掀起熱潮，多個視頻動輒數(shù)十萬次播放，令人驚嘆不已。

雪地步伐清晰傳來咯吱聲，鴨子嘎嘎叫，烹飪滋滋作響，撒胡椒聲......

得益于模型對物理世界的深刻理解，所有聲音非后期拼接，而是與畫面實時同步生成。

Veo 3 還能精準捕捉畫面情緒，渲染氛圍音效。這個麥芬蛋糕在烤箱中尖叫，逼真到讓人有點毛骨悚然。

提示詞：a video with dialogue of two muffins while baking in an over, the first muffin says "I can't believe this Veo 3 thing can do dialogue now!", the second muffin says "AAAAH, a talking muffin!"
至于對口型，Veo 3 也表現(xiàn)突出：無論是脫口秀現(xiàn)場講笑話，還是說唱音樂視頻中的節(jié)奏口型，都能精準同步，真實感爆棚。

提示詞：a man doing stand up comedy in a small venue tells a joke (include the joke in the dialogue）

提示詞：a man in a music video raps to the camera about generating videos with Veo3

生成歌劇和音樂會視頻，成為檢驗 Veo 3 音畫同步水平的高頻場景。
這個視頻里，鼓手的每一次擊打動作都與鼓點節(jié)奏完美同步，與歌手表演同步，展現(xiàn)了模型在復雜多聲音動態(tài)場景下出色的音畫合成能力。支持多角色、多種風格的創(chuàng)作視頻，虛擬人物演技不比《演員請就位》強多了？

長提示詞理解與事件流生成方面，Veo 3 同樣出色。
以前視頻模型提示詞一長就容易崩。
但 Veo 3 能理解長句子，完成一個完整、時間有序、邏輯清晰的小片段。
來看這個視頻。

提示詞：黎明時分，一位男士在美麗的夏日公園里奔跑，他上氣不接下氣，然后放慢速度，看著鏡頭，氣喘吁吁地說：「用 API 運行 AI。使用 Replicate。」然后他繼續(xù)跑。最后，「Replicate」的字樣漸漸消失在視野中。

包含動作變化、對白插入、鏡頭切換、logo 漸隱……
多步驟連貫執(zhí)行，事件流準確，效果不錯：

音畫同步生成，直接把視頻模型拉到了新時代。而其中關(guān)鍵能力，離不開 DeepMind 過去就悄悄鋪下的一項底層技術(shù)：V2A（ Video-to-Audio ）。
2023 年 6 月，DeepMind 就首次披露：

他們正開發(fā)一套 AI 系統(tǒng)，能從視頻像素 + 文本提示中，自動生成完整音軌。包括對白、動作音效、環(huán)境音、背景音樂……

它的原理是：將視頻視覺信息編碼為語義信號，與文本提示一同輸入擴散模型，生成匹配的音頻波形。
可以說，V2A 就是 Veo 3 的「耳朵」和「聲帶」。再配合谷歌的音視頻數(shù)據(jù)資源—— YouTube 很可能是訓練數(shù)據(jù)之一—— Veo 3 的音畫合成功能，已經(jīng)遙遙領(lǐng)先。
一個小遺憾：視頻仍只有 8 秒。

另外，目前 Veo 3 僅面向美國 Ultra 訂閱用戶開放，定價為 249.99 美元/月。這是谷歌專為專業(yè)創(chuàng)作者、開發(fā)者推出的高階會員服務(wù)。

雖然門檻不低、時長有限，但 Veo 3 的初次亮相，已足夠震撼。
過去生成式 AI 是「語言+圖像」的時代，現(xiàn)在，正在進入「視聽一體」的新階段。
生成視頻從會動 → 能說 → 有氛圍，一步步突破不同模態(tài)的邊界。
如果說 Sora 是讓 AI 看懂物理世界，那 Veo 3，就是讓 AI 能「聽懂」,「會說」。
看來，音畫一體，將是下一輪視頻模型競賽的標配。

文中視頻鏈接：https://mp.weixin.qq.com/s/rJFwZ1lLiWzFLE7jd4jGyA

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.