機器之心報道
機器之心編輯部
最近,一個完全由 AI 制作的廣告在社交媒體上爆火,在 X 上有三十多萬人觀看。
這是一個叫 Too Short for Modeling 的團隊發布在 LinkedIn 上的作品,不過它并不是一個商業作品,而是該團隊為一直想合作的品牌制作的概念影片。
距離 Veo 3 發布已經過去一個半月了,雖然此前模型視頻生成已經能達到很逼真的狀態,但 Veo 3 的「音畫同步」功能,引領 AI 視頻創作進入了全新的聲畫一體化階段。同時它也讓 AI 視頻生成進入了更有實踐意義的階段,極大地降低了視頻創作的門檻。
我們先來看看這個廣告效果怎么樣。
,時長
01:01
來源:https://www.linkedin.com/posts/arielyoriginal_veo3-aicreative-fakeads-activity-7346271275020902400-P9fd
人物1:下午好,小伙子。 (Good afternoon, son.)
人物2:想猜猜我為什么讓你靠邊停車嗎? (Wanna take a guess why I pulled you over?)
人物1:哦,不是你想的那樣。 (Oh, it's not what you think.)
人物1:這是“液態死亡”。是蘇打山泉水。 (It's liquid death. They're sparkling mountain water.)
人物2:嗯。哇。你沒開玩笑。 (Mmm. Wow. You weren't kidding.)
人物2:確實很清爽。 (That is refreshing.)
人物2:但這不是我讓你靠邊停車的原因。 (But it's not why I pulled you over.)
人物1:哦,天哪。 (Oh boy.)
人物1:是因為破損的尾燈嗎? (Is it the busted taillight?)
人物2:不是。 (Uh-uh.)
人物1:是因為車牌嗎? (Is it because of the license plate?)
人物2:不是。 (Nope.)
人物1:該死,伙計。是那個死人,對吧? (Shit, man. It's the dead guy, right?)
人物2:不,先生。 (No, sir.)
人物1:也許是人口販賣? (Is it the human trafficking, perhaps?)
人物2:不是。 (Uh-uh.)
人物1:伙計,是卡車的事嗎? (Man, is it the truck thing?)
人物2:我不這么認為。 (I don't think so.)
人物1:好吧,那到底是什么? (Well, what is it then?)
人物1:搶劫案? (The robbery?)
人物2:不。 (No.)
人物1:是保險杠貼紙? (The bumper sticker?)
人物2:不。 (No.)
人物1:是被車撞死的動物,對不對? (It's the roadkill, isn't it?)
人物2:沒聽說過。 (Haven't heard of it.)
人物1:是化學廢料? (The chemical waste?)
人物2:不是。 (Uh-uh.)
人物1:是過山車座位嗎? (Is it the roller coaster seat?)
人物1:是邪教的事嗎? (Is it the cult thing?)
人物2:絕對不是。當然不。 (Absolutely not. Hell no.)
人物1:好吧,我放棄了。 (All right, I give up.)
人物1:到底是什么? (What is it?)
人物2:因為今天是你的生日。 (It's because it's your birthday.)
人物2:生日快樂,凱文。 (Happy birthday, Kevin.)
人物1:爸爸,你還記得。 (Dad, you remembered.)
人物2:祝你生日快樂,祝你生日快樂,祝你生日快樂。 (Happy birthday to you, Happy Birthday to you, Happy Birthday to you.)
視頻字幕,上下滑動查看。
這個廣告的笑點密集,令人捧腹。但其真正的亮點在于驚人的「角色一致性」。在一分鐘內,視頻流暢地切換了10個場景,每個畫面的風格都保持了高度統一,核心人物和道具也完美銜接。盡管在車窗、內飾等細節上能察覺到微小的跳躍,但這絲毫未影響其出色的整體連貫性。
要知道 AI 生成視頻中經常出現容貌突變、物體錯亂等問題。
主創團隊分享了他們保持一致性的秘訣——超精細提示 (Hyper-specific Prompting):為模型提供極其詳盡、具體且包含大量上下文細節的指令或問題。
這種提示的設計目的是為了最大限度地減少模型的自由發揮空間,引導它生成高度精確、符合特定格式和要求的輸出。
相關的提示詞優化方法,在我們之前的文章中也提到過,讀者可以參考:實測驚艷全球的 Veo3!音畫同步無敵,貴是有原因的
值得一提的是,創意、策略與審美依然由人類主導。從最初的靈感、腳本,到由剪輯師完成的最終效果呈現,人的價值貫穿始終。AI 是強大的「執行者」,但遵循的是概率而非遠見——至少在今天,這道邊界依然清晰。
AI為何總在細節上「翻車」?
關于「角色一致性」的問題,技術層面來講,并非模型「犯了糊涂」,而是主流視頻生成模型背后的核心技術——擴散模型本身的工作原理、訓練數據以及從圖像到視頻的技術跨越之中,主要是以下幾點原因:
- 模型沒有「理解」世界,只有「概率統計」:模型并非真正理解「人有五根手指」這類事實,而是通過學習海量數據,知道「五指的手」是最高概率的模式。當生成過程中出現隨機偏差時,由于缺乏常識性規則的約束,它可能會生成一個概率上雖低但仍有可能的「六指」結果。
- 局部生成與全局和諧的矛盾:模型更擅長生成逼真的局部細節(如皮膚紋理),但對整體結構(如完整的身體解剖)的把握較弱。它可能會因為專注于讓局部「看起來對」,而忽略了其在整體畫面中的邏輯是否合理,導致「只見樹木,不見森林」的結構性錯誤。
- 從圖像到視頻的挑戰:視頻的本質是連續的圖像序列,而模型在生成每一幀時都可能存在微小的隨機差異。這種幀與幀之間的「失憶」累積起來,就會導致角色外觀、服飾或背景等元素在時間線上發生不連貫的漂移和變化,破壞了時間一致性。
- 訓練數據的「不完美」:模型的知識完全來源于它所學習的訓練數據。網絡數據本身就包含大量錯誤、低質量和不合邏輯的內容。模型會將這些「壞數據」也一并學會,并在生成時復現出來,可謂「垃圾進,垃圾出」。
探索AI的創意玩法
當前,大量獵奇、同質化的 AI 視頻內容,正是 AI 技術被「降維使用」的體現。真正值得我們探索的,是 AI 作為「創意催化劑」的巨大潛力。
下面這些會不會是 AI 的正確打開方式?
- 為你喜歡的電影制作一個平行宇宙。
- 讓初音未來進入老頭環的世界,會不會是下一個爆款游戲的靈感?
- 為公司做一個網站。
- 或者做一個超炫酷的概念影片。
你覺得 AI 還能為我們的創意帶來什么驚喜?歡迎在評論區留下你的腦洞。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.