周末和一位在字節(jié)做視頻 Agent 的 PM 聊天,想到了一個好問題。
這兩天 Lovart、Medeo 等圖像、視頻 Agent 接連冒頭。
但,除了讓人人都能“一鍵做爆款”、“數(shù)字人生成”、“出大片”這些很有用,但離生活很遠(yuǎn)的生產(chǎn)力應(yīng)用以外,「視頻 Agent」還有什么現(xiàn)實意義?
對此,我有些個人想法,既有技術(shù)應(yīng)用,也有人文思考。想以一種更輕松、更直接的對話風(fēng)格,和你探討。
請先看一支印象非常深刻的視頻
這是一支在 B 站有 227 萬播放量的 Vlog,片名為《我用十年積蓄,拍了獨屬于我的 One Last Kiss》。
普普通通的素人 UP,用他自己普普通通的日常素材,做了一支并不普通的視頻,拿下了全站的「每周必看」。
它的彈幕區(qū)是這樣的,可以感受一下:
評論區(qū)是這樣的:
充滿了人與人之間的真情連接與感動。——「Peace & Love !」
我不確定你們看完后是否有所觸動?
會覺得這個視頻絕了嗎?(如果是 EVA 粉的話,可能震撼效果會翻倍吧
反正我每次回看這支視頻時,總會覺得內(nèi)心某處被狠狠擊中。
尤其是,片子中 03:33 開始的快速閃回的畫面,有種莫名的感動。(但請不要跳著看,效果會差)
甚至還想,要是能給自己做出這種視頻,那該多好?
強(qiáng)烈建議先前往 B 站,在原版視頻中,感受彈幕和評論區(qū)的真實氛圍,再繼續(xù)閱讀本文。
原視頻地址:https://www.bilibili.com/video/BV1pX4be5EJ3/
當(dāng)推薦算法與 AI,對“人”發(fā)起沖擊
相機(jī)的發(fā)明,旨在捕捉和保存現(xiàn)實世界的影像,使人們能記錄和回顧那些瞬間。
有誰還記得「抖音」、「視頻號」,這兩家的 slogan 是“記錄美好生活”和“記錄真實生活”?
經(jīng)過這兩年的市場和算法的調(diào)教,現(xiàn)在提到“做抖音”、“做視頻號”,我腦子里的刻板印象只剩“爆款對標(biāo)”、“立人設(shè)”、“擺拍”和“擦邊起號”。
再到在 AI 應(yīng)用領(lǐng)域,也能看到 Coze 里一溜的“爆款創(chuàng)作”,莫得半點真人感情。
coze 商店創(chuàng)作類的應(yīng)用排序
(也可能是我自己的推薦算法問題吧,保命+1
當(dāng) AI 能完整地生成一整支視頻時,我們只考慮用視頻 Agent ,無中生有地制造更多同質(zhì)的的“奶頭樂”嗎?
真人內(nèi)容社區(qū),會演變?yōu)椴恍枰叭恕钡?strong>內(nèi)容快消品批發(fā)市場么?
至少我個人不太希望這樣。
“刷”短視頻這個字眼,已經(jīng)充滿了暗喻。
在內(nèi)容平臺中,每個人制作的照片、視頻,不再是獨一無二的個人印記,而是可刷可不刷的“消遣物”。
我們更多的不再關(guān)注作品背后的“人”、也越來越難找到作品背后獨一無二的“故事”,遑論被其所連接、觸動。
放眼推薦流,更多是“搞笑段子”、“爆款爽劇”、“可愛貓狗”、“擦邊卡點”等類目的“內(nèi)容快消品”。
那,不如把「關(guān)注」功能刪了吧?只要推薦算法能把“我所上癮”的內(nèi)容品類精準(zhǔn)地推到我面前,又要關(guān)注功能有何用?
那,不如把「發(fā)布」功能刪了吧?你看反正也快到 AIGC 批量生成的“新時代”了?
當(dāng)然,以上論述是有失偏頗的、不全面的。
也有很多 UP 在真實記錄自己的見聞,他們也有很多的忠實關(guān)注者。
我最近就很喜歡 B 站的 @安然Nadia、@理論派甜點師小魚、@陳師傅路亞,都很有自己的特點。(狂推 @安然Nadia 的碎碎念 Vlog)
從技術(shù)面來看,視頻 Agent 應(yīng)該能做到什么?
要理解視頻 Agent 的能力邊界,要同時考慮到 LLM 多模態(tài)理解、推理、文本生成,以及文生圖、圖生視頻、Function Calling 的能力。
之前在 2050 大會,我分享了一張「AI 輔助視頻創(chuàng)作」的框架,來呈現(xiàn)我理解的視頻 Agent 應(yīng)用:
拋開“爆款”、“數(shù)據(jù)”部分不談,可以關(guān)注以下這幾個關(guān)鍵環(huán)節(jié):
- 批量理解素材:用戶打包導(dǎo)入要制作“故事”的圖片、視頻素材(比如某次旅游的素材、大學(xué)四年的照片回憶、孩子各年齡段的照片等),多模態(tài) LLM 通過音軌字幕 or 畫面圖像,理解每段素材的含義與質(zhì)量。
- 大綱分鏡設(shè)計:根據(jù)素材自動推薦,或根據(jù)用戶期望的故事,推理并生成作品的大致思路或分鏡腳本。可以是給用戶確認(rèn),也可以免打擾直接進(jìn)入下一步。
- 自動剪輯:正式操作用戶的素材,通過 FC 操作剪輯功能,排布素材順序,剪輯素材長度,自動套用轉(zhuǎn)場效果,逐步完成剪輯。
- AIGC 補(bǔ)全:在遇到素材不足(比如需要把圖片變成一段漸遠(yuǎn)、人物走動的視頻,或生成一段配套抽象的 CG 動畫),利用文生圖、圖生視頻的手段,進(jìn)行 AIGC 補(bǔ)全。
- 配樂、配音:可以是在一段完整的音樂給剪輯上素材,也可以是為邊剪邊配上不同的音樂、語音片段。
——至此,不難發(fā)現(xiàn),現(xiàn)有的 AI,在理論上已經(jīng)能“套殼”出相當(dāng)完整的視頻創(chuàng)作能力。
當(dāng)視頻 Agent 服務(wù)鋪開,我們都能擁有一支虛擬的視頻創(chuàng)意與剪輯團(tuán)隊。
甚至,視頻 agent 不僅提供視頻剪輯的服務(wù),還能提供拍前指導(dǎo)。
“拍同款”不再是套用視頻卡點模板,而是利用多模態(tài)推理,把某條心動視頻,分解出拍攝取景點位和拍攝手法,形成完整的旅拍指引。
正如《One Last Kiss》的官方 MV,歌手 @宇多田光 本人 6 歲的兒子,在 @庵野秀明 導(dǎo)演下,參與了 MV 的部分掌鏡拍攝,獲得日本境內(nèi)最大音樂慶典的“最佳概念視頻”。
憑借視頻 Agent 的幫助,我們也能超出自身攝影、審美的限制,更好地創(chuàng)作視頻、傳遞我們的感情與經(jīng)歷。
【官方MV】《One Last Kiss》:https://www.bilibili.com/video/BV1Sg411w7T9/
視頻 Agent 的大眾化意義
所以,視頻 Agent 的意義,絕不只在于追逐流量或商業(yè)交付,也不只是套用爆款套路或進(jìn)行影視設(shè)計。
而是有更多機(jī)會喚醒不同用戶手機(jī)、云盤里,成千上萬的零散照片和視頻片段。
以往,當(dāng)我們在 P 圖時,比如:
- 美食攝影:我們會把照片的飽和度打高,色調(diào)更暖更濃烈;
- 傷心時:我們會把照片的顏色調(diào)得更藍(lán)、更灰調(diào);
- 夏季日本旅行:我們會把影片色調(diào),調(diào)得對比更加明亮清新(過曝)的狀態(tài),以還原“日式風(fēng)格”。
這都是通過濾鏡手段,賦予照片更多特征點,把當(dāng)時的記憶感受更加完整地呈現(xiàn)出來。
那視頻 Agent 的意義就更豐富了。
每個人都能擺脫“剪輯的繁瑣、畫面導(dǎo)演的難度”,只需要用 AI 就能把自己記錄過的素材重組為更完整的回憶。
它會有恰到好處的音樂、更好的敘事邏輯與分鏡。
這些重組的“回憶錄”,會取代零散的、都不太會去翻看的數(shù)千張照片和視頻。或是美好豐富的旅行假期、或是一晃而逝的四年大學(xué)生活、或是淡淡酸澀味的半段戀情。
它們終將重新勾連,不僅是每個人獨特的完整回憶,也可能成為家庭內(nèi)、朋友之間傳遞情感和記憶的全新載體。
我們雖無“古代君王”之命,也不是擁有任何豐功偉績的、需要立傳的“重要人物”,但 AI 卻能幫助我們每個普通人,擁有了更好、更身臨其境的自我記錄方式與人生回憶。
——這甚至比 Apple Vision Pro 的 Live Photo、空間視頻會有更好的效果。
AI 視頻 Agent,恰恰提供了這個工具,讓我們能更好地“看見”自己的經(jīng)歷。
當(dāng)人們再想起某個經(jīng)歷的時候,自然而然會去看 AI 重組的那段“故事”,這是非常有價值的,能夠讓人更加身臨其境地回到原來的感動中。
而對于抖音、視頻號來說,它們終于能成為記錄“人”生活的社區(qū)。不再受剪輯技術(shù)、審美的限制,每個用戶都能全然地分享記憶,連接感情。
比如,同樣是《One Last Kiss》的風(fēng)格,B 站還有很多其他的優(yōu)秀 vlog 創(chuàng)作。
- 在東京,我拍出來了獨屬于我的《One Last Kiss》:https://www.bilibili.com/video/BV1AwYuegE5L/
- 含痞量極高 庵野秀明風(fēng)格拍攝剪輯 EVA主題曲 宇多田光 One last kiss:https://www.bilibili.com/video/BV18Z4y1C7Eu/
- 哪個女孩不想在日本拍 One Last Kiss 呢?:https://www.bilibili.com/video/BV1ZG41117qx/
在這些視頻中,不再是給一段 BGM 拼湊上一段段不明所以的過場動畫(短視頻的實質(zhì)是給快節(jié)奏 BGM 配畫面)。
而是曾經(jīng)經(jīng)歷的或美好、或酸澀、或苦痛的記憶瞬間,和一段與彼時 or 此刻心境契合的心情音樂交織在一起,讓照片、視頻不僅僅是回憶,更是一種可以被反復(fù)品味的情感體驗。
這是我在方向性上的判斷。
至于如何在技術(shù)上實現(xiàn)更加穩(wěn)定的效果、如何確保 AI 的審美能力?
你肯定聽過這類話:“上次去 xx 旅游,都半年了,還沒開始剪 Vlog,素材太多了”。
那實際上,對于大多數(shù)人來講(包括我們的父母、長輩),他們首先沒精力去操作剪輯工具,更沒能力去思考腳本。
即使是現(xiàn)階段的 AI 來做,出來的質(zhì)量也一定是比沒有 AI 更好的。
況且,AI 還能在制作過程中,補(bǔ)充一些缺失的內(nèi)容。它可以創(chuàng)作漫畫插圖,也可以直接用首尾幀的方式補(bǔ)全一段人物的動作過程。
這些都能比嵌套現(xiàn)有的簡單視頻過程有更好的效果,它會讓整個故事串聯(lián)得更加完整、沉浸。
我們應(yīng)該相信這個方向,因為這是我們都所需要的。
今年 AI Agent 與 AIGC 技術(shù),已經(jīng)給出了去年做不到的水平。同樣的,明年也會有今年做不到的新性能和審美水準(zhǔn)。
只要方向沒問題, AI 技術(shù)發(fā)展符合我們的人文需求,且技術(shù)理論可行性已經(jīng)被驗證,剩下只要等好事水到渠成就行。
小結(jié)
我們總會樂此不疲地“刷”他人展示的美好生活,也會在發(fā)布朋友圈時,學(xué)學(xué)調(diào)色指南,打磨自己的文案。
其實想要的是什么呢?
也還是希望自己也去享受這種美好生活,并像盡可能地記錄自己的精彩生活,向朋友還原當(dāng)時的體悟。
AI 視頻 Agent 可以在這個方向,給予大多數(shù)人極大的幫助。
人生本身就是由一個個自己的故事交織而成,而不只是一張張終將“蒙塵”照片、視頻片段。
利用 AI Agent 的創(chuàng)作與剪輯能力,把它們串聯(lián)起來,人的故事自然回顯。
我們終于開始記錄故事,而不再是截取某幅碎片畫面。
這篇文章沒有以往那么完整的推理論述,但更注入了我的日常思考與偏好。不知道你是否喜歡這個新風(fēng)格?
如果它對你有啟發(fā)或幫助,歡迎點贊、在看、轉(zhuǎn)發(fā)分享,讓我知道你們喜歡這篇文章。
也期待在評論區(qū)看到你的思考。
關(guān)注下方賬號
獲取更多精彩內(nèi)容分享
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.