99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

真碾壓Sora了!谷歌Veo 3首次實現(xiàn)音畫同步,視頻模型開口說話

0
分享至



還記得 2023 年 AI 視頻最出圈的片段嗎?威爾·史密斯吃面,動作鬼畜,畫面寂靜——



當時的視頻大模型,只會動,不會說話。
Sora 的發(fā)布讓視頻質(zhì)量飛躍、物理規(guī)則建模進步巨大,也直接引爆了整條賽道。

Runway、Pika、Luma、Kling、Genmo、Higgsfield、Lightricks 等初創(chuàng)公司,以及 OpenAI、谷歌、阿里、字節(jié)等科技巨頭,紛紛入局。

但無論畫質(zhì)如何進步,視頻還是「啞巴」——

你可以讓人物奔跑、翻轉(zhuǎn),甚至做出慢動作,但如果想讓角色說話、聽到風聲、腳步聲,甚至感受到炒菜時鍋里的滋滋聲?

對不起,還得自己導音頻。

更麻煩的是,配完音還可能對不上節(jié)奏——口型和對白不同步,腳步踩不到點上,情緒氛圍總差一口氣。

直到今天,谷歌正式發(fā)布 Veo 3 AI 視頻,終于能「開口說話」了——



Veo 3 不僅能生成高質(zhì)量視頻,還能理解視頻中的原始像素,自動生成與畫面同步的對話、多種音效。
翻譯成中文——


只用一個提示詞,你就能得到畫面+對白+唇動對齊+擬音音效一氣呵成的視頻。



提示語:90 年代酒吧里的情景喜劇場景,背景墻上的霓虹燈寫著 「fofr」。一對夫婦說了些什么,觀眾大笑起來。



對白生成、唇動對齊和情緒音效(觀眾笑聲),一氣呵成
提示語:一位游戲主播(streamer)只用他的鎬子(pickaxe)贏得了「Victory Royale」。



生成出的內(nèi)容是完整直播風格視頻,還帶著夸張的歡呼與音效,畫面有聲有色
盡管凌晨才發(fā)布,Veo 3 已在社交網(wǎng)絡(luò)掀起熱潮,多個視頻動輒數(shù)十萬次播放,令人驚嘆不已。

雪地步伐清晰傳來咯吱聲,鴨子嘎嘎叫,烹飪滋滋作響,撒胡椒聲......

得益于模型對物理世界的深刻理解,所有聲音非后期拼接,而是與畫面實時同步生成。



Veo 3 還能精準捕捉畫面情緒,渲染氛圍音效。這個麥芬蛋糕在烤箱中尖叫,逼真到讓人有點毛骨悚然。



提示詞:a video with dialogue of two muffins while baking in an over, the first muffin says "I can't believe this Veo 3 thing can do dialogue now!", the second muffin says "AAAAH, a talking muffin!"
至于對口型,Veo 3 也表現(xiàn)突出:無論是脫口秀現(xiàn)場講笑話,還是說唱音樂視頻中的節(jié)奏口型,都能精準同步,真實感爆棚。



提示詞:a man doing stand up comedy in a small venue tells a joke (include the joke in the dialogue)



提示詞:a man in a music video raps to the camera about generating videos with Veo3

生成歌劇和音樂會視頻,成為檢驗 Veo 3 音畫同步水平的高頻場景。
這個視頻里,鼓手的每一次擊打動作都與鼓點節(jié)奏完美同步,與歌手表演同步,展現(xiàn)了模型在復雜多聲音動態(tài)場景下出色的音畫合成能力。支持多角色、多種風格的創(chuàng)作視頻,虛擬人物演技不比《演員請就位》強多了?





長提示詞理解與事件流生成方面,Veo 3 同樣出色。
以前視頻模型提示詞一長就容易崩。
但 Veo 3 能理解長句子,完成一個完整、時間有序、邏輯清晰的小片段。
來看這個視頻。

提示詞:黎明時分,一位男士在美麗的夏日公園里奔跑,他上氣不接下氣,然后放慢速度,看著鏡頭,氣喘吁吁地說:「用 API 運行 AI。使用 Replicate。」然后他繼續(xù)跑。最后,「Replicate」的字樣漸漸消失在視野中。

包含動作變化、對白插入、鏡頭切換、logo 漸隱……
多步驟連貫執(zhí)行,事件流準確,效果不錯:



音畫同步生成,直接把視頻模型拉到了新時代 。而其中關(guān)鍵能力,離不開 DeepMind 過去就悄悄鋪下的一項底層技術(shù):V2A( Video-to-Audio )
2023 年 6 月,DeepMind 就首次披露:

他們正開發(fā)一套 AI 系統(tǒng),能從視頻像素 + 文本提示中,自動生成完整音軌。包括對白、動作音效、環(huán)境音、背景音樂……

它的原理是:將視頻視覺信息編碼為語義信號,與文本提示一同輸入擴散模型,生成匹配的音頻波形。
可以說,V2A 就是 Veo 3 的「耳朵」和「聲帶」。再配合谷歌的音視頻數(shù)據(jù)資源—— YouTube 很可能是訓練數(shù)據(jù)之一—— Veo 3 的音畫合成功能,已經(jīng)遙遙領(lǐng)先。
一個小遺憾:視頻仍只有 8 秒。

另外,目前 Veo 3 僅面向美國 Ultra 訂閱用戶開放,定價為 249.99 美元/月。這是谷歌專為專業(yè)創(chuàng)作者、開發(fā)者推出的高階會員服務(wù)。



雖然門檻不低、時長有限,但 Veo 3 的初次亮相,已足夠震撼。
過去生成式 AI 是「語言+圖像」的時代,現(xiàn)在,正在進入「視聽一體」的新階段。
生成視頻從會動 → 能說 → 有氛圍,一步步突破不同模態(tài)的邊界。
如果說 Sora 是讓 AI 看懂物理世界,那 Veo 3,就是讓 AI 能「聽懂」,「會說」。
看來,音畫一體,將是下一輪視頻模型競賽的標配。

文中視頻鏈接:https://mp.weixin.qq.com/s/rJFwZ1lLiWzFLE7jd4jGyA

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
黃仁勛:他們希望我們永遠不要回中國

黃仁勛:他們希望我們永遠不要回中國

風華講史
2025-05-22 09:23:41
雷軍:YU7預計7月正式上市

雷軍:YU7預計7月正式上市

第一財經(jīng)資訊
2025-05-22 13:17:39
黃楊鈿甜的公關(guān),我知道你很急,但你先別急

黃楊鈿甜的公關(guān),我知道你很急,但你先別急

虬髯客好忙
2025-05-18 10:08:23
1931年特科科長奉命殺顧順章全家后,要求歸隊,周恩來說不動如山

1931年特科科長奉命殺顧順章全家后,要求歸隊,周恩來說不動如山

干史人
2024-04-28 08:00:10
女子帶婆婆抓丈夫出軌,看到床上的人,婆婆驚呼:怎么是你

女子帶婆婆抓丈夫出軌,看到床上的人,婆婆驚呼:怎么是你

五元講堂
2025-05-21 14:42:02
車子的A柱都能銹?這事其實真挺難的

車子的A柱都能銹?這事其實真挺難的

差評XPIN
2025-05-21 10:34:13
婚后第3天,汪小菲半夜發(fā)朋友圈,句句不提大S,卻句句不離大S

婚后第3天,汪小菲半夜發(fā)朋友圈,句句不提大S,卻句句不離大S

情感大頭說說
2025-05-22 07:30:10
1-0!熱刺奪冠多神奇?全場3射1正 破71年紀錄  孫興慜俱樂部首冠

1-0!熱刺奪冠多神奇?全場3射1正 破71年紀錄 孫興慜俱樂部首冠

狍子歪解體壇
2025-05-22 04:58:15
賴清德喊話,立即啟動統(tǒng)一談判,大陸斷然拒絕,福建啟動兩棲演習

賴清德喊話,立即啟動統(tǒng)一談判,大陸斷然拒絕,福建啟動兩棲演習

阿傖說事
2025-05-22 11:28:54
死亡15例!北京4月感染27376例!

死亡15例!北京4月感染27376例!

美麗大北京
2025-05-22 12:45:44
520民政局門口大排長隊?評論區(qū)笑死哈哈哈哈哈

520民政局門口大排長隊?評論區(qū)笑死哈哈哈哈哈

黃麗搞笑小能手
2025-05-20 14:57:19
辛柏青好愛女兒本本,考古到這條博文“等我們老了”,淚目了

辛柏青好愛女兒本本,考古到這條博文“等我們老了”,淚目了

八斗小先生
2025-05-22 11:13:28
收視破1,力壓《藏海傳》登頂收視榜首,辛柏青這部劇越看越上癮

收視破1,力壓《藏海傳》登頂收視榜首,辛柏青這部劇越看越上癮

易同學愛談娛樂
2025-05-22 08:38:17
重慶1家3口溺亡后續(xù),村民看到三口棺材痛心不已,母親已數(shù)次暈死

重慶1家3口溺亡后續(xù),村民看到三口棺材痛心不已,母親已數(shù)次暈死

博覽歷史
2025-05-21 16:10:21
不認識大牌子鬧出過啥笑話?網(wǎng)友:窮人眼里這都是智商稅

不認識大牌子鬧出過啥笑話?網(wǎng)友:窮人眼里這都是智商稅

娛樂圈人物大賞
2025-05-22 00:05:15
不提正義,何來和平?

不提正義,何來和平?

近距離
2025-05-21 16:57:52
載入史冊!熱刺后衛(wèi)凌空1腳解圍:踢飛曼聯(lián)冠軍夢,官方驚嘆

載入史冊!熱刺后衛(wèi)凌空1腳解圍:踢飛曼聯(lián)冠軍夢,官方驚嘆

葉青足球世界
2025-05-22 06:08:56
烏克蘭制造武器的速度比西方更快、更便宜,數(shù)量比2022年多 35 倍

烏克蘭制造武器的速度比西方更快、更便宜,數(shù)量比2022年多 35 倍

仗劍看世界
2025-05-19 20:59:50
分手已成定局,官宣微博已撤銷。

分手已成定局,官宣微博已撤銷。

喬話
2025-05-21 19:26:50
黑色比亞迪不顧堵截疑撞交警,駕駛?cè)松嫦犹着埔驯淮筮B警方控制

黑色比亞迪不顧堵截疑撞交警,駕駛?cè)松嫦犹着埔驯淮筮B警方控制

大風新聞
2025-05-22 10:47:23
2025-05-22 17:31:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
10512文章數(shù) 142318關(guān)注度
往期回顧 全部

科技要聞

中國科學界ChatGPT來了,70萬科研人涌入

頭條要聞

美商務(wù)部長首次承認:中國對美加征關(guān)稅 特朗普怕了

頭條要聞

美商務(wù)部長首次承認:中國對美加征關(guān)稅 特朗普怕了

體育要聞

威少被交易時,雷霆下一個MVP已在陣中

娛樂要聞

朱媛媛喪事一切從簡,親戚剛知她去世

財經(jīng)要聞

格力再度牽手孟羽童?董明珠急了

汽車要聞

配1.5T插混/2000km續(xù)航 一汽奔騰悅意07即將上市

態(tài)度原創(chuàng)

教育
房產(chǎn)
親子
手機
數(shù)碼

教育要聞

享實韻美味,赴美食之約——青島四方實驗小學參加2025年市北區(qū)未成年人“勞動美”社會實踐活動

房產(chǎn)要聞

海口住建官宣:限價商品房上市交易細則要來了!

親子要聞

按需哺乳,你做對了嗎?

手機要聞

realme 真我 Neo7 Turbo 手機“透明黑”配色亮相

數(shù)碼要聞

清華同方超銳 T40-Z70 信創(chuàng)筆記本發(fā)布,搭載兆芯 KX-7000 處理器

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 吉水县| 莒南县| 大冶市| 桦川县| 宣威市| 汉中市| 阿拉尔市| 辽中县| 咸丰县| 股票| 栾城县| 资兴市| 太康县| 安图县| 扶风县| 汶川县| 灵山县| 阜阳市| 海安县| 肃南| 昌都县| 钟山县| 绍兴县| 盱眙县| 贡山| 乌兰县| 德安县| 珲春市| 太原市| 沿河| 阆中市| 福清市| 吴桥县| 宜川县| 兰溪市| 建水县| 无为县| 军事| 古田县| 定州市| 乐业县|