最近,一類「穿越 vlog」爆火了。
有人讓 Veo 3 變成「時間機(jī)器」,將人們帶回歷史事件中進(jìn)行現(xiàn)場直播。
有戰(zhàn)地記者在赤壁之戰(zhàn)的大火中報道——
(@ YouTube 博主「nowsmon」)
也有人在戰(zhàn)爭空隙八卦曹操的私生活——
(@ X 博主「KellyV」)
還有人進(jìn)入王者榮耀對后羿貼臉開大——
(@ 視頻號博主「靈感不正經(jīng)」)
這些腦洞大開的視頻再次讓人們驚呼,Veo 3 還能這么玩!導(dǎo)致 GoogleDeepMind 的總訪問量從 4 月到 5 月 直接增長 162%。
前幾天,我們也看得手癢癢,就用 Veo 3 做了兩個穿越回「玄武門之變」現(xiàn)場的視頻,效果很不錯。
Prompt 如下:
「Scene 1: Under a sky heavy with storm clouds at dawn, dust swirls in front of the towering Xuanwu Gate. A young Asian woman in a battlefield reporter’s jacket stands on the right side of the frame, earpiece in place, her expression tense as chaos unfolds behind her. In the distance, Li Shimin’s forces charge through the gate—arrows fly and war drums thunder. She dodges debris and speaks into the camera in a low, urgent voice: This is Xuanwu Gate. Li Shimin’s troops have launched a sudden assault. The situation is extremely dangerous! Scene 2: After the bloody battle at Xuanwu Gate, early morning sunlight falls across bloodstained stone tiles. The same Asian woman stands in front of a collapsed palace gate. Behind her, soldiers raise banners that read Prince Qin Ascends. Her face is solemn as she speaks firmly into the camera: We are now at the heart of the conflict. Li Jiancheng and Li Yuanji have been slain. Li Shimin is taking control. The Tang Dynasty’s history is being rewritten.」
那么其他 AI 是否也能做出這種效果?
給可靈輸入同樣的中文版提示詞,看看可靈版的「玄武門之變」:
「畫面一(沖突初現(xiàn)):
烏云壓頂?shù)睦杳鳎溟T城墻前塵土飛揚(yáng),一位身穿戰(zhàn)地記者夾克的亞洲女性站在視角右前方,耳邊掛著通訊耳機(jī),表情凝重地注視著遠(yuǎn)處混亂的人馬沖突;背景中,李世民率軍破門而入,箭矢飛射、鼓聲如雷,她一邊躲避碎石,一邊面向鏡頭低聲播報:這里是玄武門,目前李世民軍隊已發(fā)起突襲,情況危急!
畫面二(權(quán)力更替):
玄武門血戰(zhàn)過后,清晨的陽光斜灑在血跡斑斑的石板上,一位亞洲女性站在倒塌的宮門前,身后士兵正高舉「秦王即位」旗幟;她神情肅穆、語氣堅定地對鏡頭說道:我們現(xiàn)在所在的是事變核心地,李建成與李元吉已被擊殺,李世民正在掌控全局,唐王朝的歷史正被改寫。」
(by Kling 2.1 大師版)
畫面質(zhì)感不錯,背景里的光影處理很細(xì)膩,塵土飛揚(yáng)以及地面上的血跡效果做的都挺逼真。
相較于 Veo 3 能直接讓人物說臺詞,可靈則需要額外選擇「對口型」特效再添加配音和環(huán)境音效,導(dǎo)致面部細(xì)節(jié)有些時候不夠自然。但整體來看還是很過關(guān)的。
不過,要想做出網(wǎng)絡(luò)爆火的那種手持自拍桿的第一人稱 vlog 效果,就需要琢磨一下新的 prompt 了。
我們分別用可靈、海螺、即夢、Vidu 和 Sora 做了一些好玩的視頻(也翻車了不少),終于總結(jié)出一些這類「穿越 vlog」的玩法以及好用的 prompt 分享。
自拍桿是翻車重災(zāi)區(qū)?
我們先讓 Sora 試了一下穿越到古代中國建造長城的大場面。
(by Sora)
效果有點翻車,主要問題出現(xiàn)在這個自拍桿上。
盡管提示詞中寫了「他手持自拍桿,直視鏡頭」, 但似乎 Sora 沒能理解自拍桿的作用,于是就出現(xiàn)了自拍桿脫手懸浮的詭異畫面。
Prompt: A modern male journalist is transported to the ancient construction site of the Great Wall of China. Holding a selfie stick, he looks directly into the camera and says, "I've arrived at the Great Wall construction site!" In the background, the Great Wall is being built, with workers and soldiers transporting stones. The sound of hammering and shouting fills the air. The distant mountains serve as the backdrop, showcasing the grand scale of the construction.
對其他 AI 來說,自拍桿同樣也是重災(zāi)區(qū):
可靈直接把自拍桿變成了指揮棒。
(by Kling 2.1 大師版)
Vidu 做的穿越回《紅樓夢》場景中,更是把自拍桿變成了一個類似 GoPro 的設(shè)備,顯然也沒能準(zhǔn)確理解指令。
而且,記者對著鏡頭說完一轉(zhuǎn)身,竟然憑空消失了,屬實是有點幽默了。
提示詞:
「一位現(xiàn)代女記者來到《紅樓夢》中的古典園林場景。女記者手持自拍桿,她直視鏡頭進(jìn)行直播。她穿著白T恤牛仔褲,先露出微笑的臉,對著鏡頭講話,然后展示身后場景。
場景:古典園林,有一座風(fēng)景如畫的拱橋和一條緩緩流淌的小溪。背景點綴著鮮艷的桃花,花瓣在春風(fēng)中飛舞,營造出寧靜而迷人的氛圍。一位年輕男子(賈寶玉),身穿紅色長袍,頭戴金冠,與身著淡粉色長袍、頭戴玉簪的女子(林黛玉)并肩而坐。兩人一起捧著一本書全神貫注地閱讀,神情專注而略帶羞澀。陽光穿過樹枝,將溫暖的光芒灑在書頁上,增強(qiáng)了唯美的氛圍。」
(by Vidu Q1)
將同樣的提示詞給海螺 AI,雖然場景、運鏡、人物表情都挺唯美自然,但自拍桿仍然是 bug。
(by Hailuo 02)
即夢做的「花果山尋找猴哥」,小女孩的真實度很讓人驚喜,可自拍桿呈現(xiàn)效果依然不盡如人意。
(by Seedance 1.0 mini)
而且等等……背景里這個真的是美猴王嗎?怎么看著那么像景區(qū)里「十元合影」的山寨版呢?這種「大家來找茬」時刻真的很容易讓人出戲。
「穿越咒語」要念對,我們總結(jié)了好用的 prompt
所以,為了避免出戲,我們試了很多次,終于總結(jié)出能較好地呈現(xiàn)出手持自拍桿直播效果的 prompt,發(fā)現(xiàn)「穿越成功」的關(guān)鍵在于加上這些詞語:
中文:「真實自拍鏡頭」「第一人稱視角」「自拍桿延伸到手中」
英文:「first-person perspective」「real footage selfie video」「handheld selfie with extended arm」
其他的場景就可以自由發(fā)揮想象力啦!
比如,可以穿越到秦始皇陵修建現(xiàn)場去直播:
Prompt:
「First-Person View: A Chinese girl wearing a white T-shirt, holding a selfie stick extended in her hand, stands in front of the construction site of the Terracotta Army near the Qin Shi Huang Mausoleum. The surroundings are filled with workers wearing traditional ancient Chinese clothing, such as tunics and straw hats. They are busy sculpting terracotta figures, shaping clay statues, and transporting construction materials. The air is thick with dust, and faint light from hanging oil lamps casts shadows on the walls, creating a mysterious atmosphere. The camera extends the selfie stick, showing the girl's excited face, and then rotates to capture a scene where workers are carefully placing the first few terracotta warriors into the ground, their faces focused and determined. The girl's voice breaks through the atmosphere, saying happily, "I can’t believe I’m here at the Qin Shi Huang Mausoleum construction site!"In the background, the sounds of hammering, workers shouting instructions, and the clattering of tools create a cinematic atmosphere.」
翻譯成中文提示詞:
「第一人稱視角:一位穿著白色T恤的中國女孩,手持自拍桿,桿子伸展到她的手中,站在秦始皇陵附近兵馬俑工地前。周圍是穿著傳統(tǒng)古代中國服飾的工人們,身著長袍,戴著草帽。他們忙著雕刻兵馬俑、塑形泥像和搬運建筑材料。空氣中彌漫著塵土,懸掛的油燈散發(fā)出微弱的光,投下陰影,營造出一種神秘的氛圍。相機(jī)伸展自拍桿,展示女孩興奮的臉龐,然后旋轉(zhuǎn)鏡頭,捕捉到工人們小心翼翼地將第一批兵馬俑放入地下的場景,他們的表情專注且堅定。女孩的聲音打破了這份氛圍,高興地說道:我真不敢相信我在秦始皇陵的工地上!背景中,錘擊聲、工人們的喊叫聲和工具的碰撞聲交織在一起,營造出一種電影般的氛圍。」
(by Sora)
也可以進(jìn)入《聊齋志異》中探險:
Prompt:
「The video is presented in the first-person selfie perspective, with a girl traveling back to the fantastical world of Liaozhai Zhiyi. She wears a simple long dress, holding a selfie stick extended in her hand, broadcasting live. The camera first focuses on her face as she nervously yet excitedly says, "I can’t believe I’ve traveled to the world of Liaozhai Zhiyi!" Then, she slowly turns, and the camera reveals the strange scene behind her.
Scene: Surrounded by an ancient mountain village shrouded in mist, a quiet river flows gently, with occasional eerie bird calls. In the distance, an old temple is faintly visible, its upturned eaves giving off a mysterious aura. Suddenly, a white fox quietly steps out from the trees, appearing in her camera frame.」
翻譯成中文提示詞:
「視頻以第一人稱自拍視角呈現(xiàn),女孩穿越回《聊齋志異》的奇幻世界。她身穿簡單的長裙,手握自拍桿,桿子伸展至她手中,正對著鏡頭進(jìn)行直播。鏡頭先聚焦在她的臉上,她有點害怕又興奮地對著鏡頭說道:我居然穿越到了《聊齋志異》的世界!然后,她緩緩轉(zhuǎn)身,鏡頭展示出身后的奇異景象。
場景:四周是迷霧籠罩的古老山村,幽靜的河流緩緩流淌,偶爾傳來幾聲怪異的鳥鳴。遠(yuǎn)處,一座古老的廟宇隱約可見,屋頂上飛檐翹角,散發(fā)出一股神秘的氣息。突然,一只白色狐貍悄悄地從樹叢中走出,出現(xiàn)在她鏡頭里。」
(by Sora)
總之,加上這些關(guān)鍵「咒語」之后,Sora 能夠較為理想地呈現(xiàn)出想要的視頻,而且第二段視頻中也做出了手持鏡頭的那種很晃的感覺,有幾分偽紀(jì)錄片的味。
接下來,用可靈跟著天津姐姐穿越到大宋汴京城,身臨《清明上河圖》中的景象:
提示詞:
「第一人稱 Vlog視頻:現(xiàn)代女記者穿越到宋代汴京城,出現(xiàn)在《清明上河圖》的街市中。她穿著T恤、牛仔褲和運動鞋,手里拿著自拍桿,直視著鏡頭說:“我現(xiàn)在在北宋汴京,站在傳說中的《清明上河圖》里,這邊有賣燒餅的,那邊還有變戲法的,真熱鬧!”背后是擁擠熱鬧的古代街景:拱橋上人來人往,有人挑擔(dān)子,有人在擺攤賣點心,有說書藝人和馬車經(jīng)過。畫面中現(xiàn)代記者與古代場景形成鮮明對比,畫面中有真實聲音:叫賣聲、人聲嘈雜。」
(by Kling 2.1 大師版)
雖然可靈的文生視頻是沒有聲音的,但可以通過「對口型」+「文本朗讀」+「背景音效」來進(jìn)一步優(yōu)化,讓視頻更加生動有沉浸感。
而且對口型的過程中似乎還會根據(jù)文本內(nèi)容進(jìn)行調(diào)試,肢體動作和文本內(nèi)容是的對應(yīng)效果自然流暢。
從這些 AI 視頻的新玩法,我們看到一個有趣的現(xiàn)象:AI 強(qiáng)大到足以構(gòu)建宏大逼真的歷史場景,但在理解人類習(xí)以為常的簡單物件和行為時,顯得有些呆萌。
但有時候利用這種「缺陷」反而會創(chuàng)造出意想不到的效果,比如最近爆火的「AI 切玻璃水果ASMR」,成了社交媒體一個新的流行賽道。
當(dāng)我們嘗試如何用更精準(zhǔn)的語言去「教會」AI 理解我們的意圖,如何巧妙地規(guī)避它的認(rèn)知盲區(qū),這可能才是過程中最有意思的事情。
就像 AI 大神 Andrej Karpathy 說的,現(xiàn)在最火的編程語言是英語。我們用自然語言輸出的 prompt ,也正在成為現(xiàn)在最受歡迎的視頻創(chuàng)作能力。
所以,別被那些「翻車集錦」勸退,也別因為 prompt 復(fù)雜而卻步。 這些 AI 視頻工具的真正價值,并不僅僅在于生成一個完美的大片,更在于它給了所有人前所未有的創(chuàng)作自由和敘事可能。
我們正在招募伙伴
簡歷投遞郵箱
hr@ifanr.com
?? 郵件標(biāo)題
「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關(guān)鏈接)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.