先給大家看一條片子,
視頻很短,我一眼真的很難看出AI,很有戲。
而且,這是僅用了六張圖和 Vidu Q1 的多圖參考功能完成的。我也玩了兩個有意思的世紀同框:
誰能想到有一天,他們幾個能湊一塊呢???
當初,Vidu第一個推出多圖參考功能的時候,我就整了個馬x克甄嬛傳,直接玩瘋了。
這把更新,我大測特測之后的感受是:
更清晰,更一致,更穩定。
一次性能傳7張圖,每一張圖都可以代表場景中一個固定的元素,直接復用到生成的視頻中,
有一種,我不再只能通過文字來表達想要的畫面,而是可以像拼拼圖一樣把我想要的視頻合理的拼完整。一個人相當于一個劇組!
所以,馬上、立刻、趕緊寫個100鏡,最后還有7張圖出現在同一視頻里的超超超壓力測試!Here we go!
ps. 文章內能放的視頻有限,提示語和高清視頻都打包好了,后臺回復“多圖參考”就可以哦
01|更清晰
之前 Vidu 2.0 的多圖參考生視頻清晰度最高是720p,用了一段時間后覺得是真不夠用,尤其動作幅度一大起來就容易糊掉,人臉上也像蒙了一層霧一樣,雖然動態效果很好,但有點好玩不實用的感覺。
但升級后的 Vidu Q1 多圖參考現在清晰度提升到了1080p!實用率提升一大截。我光這樣說,大家感受不到清晰度的差異,直接放幾組對比來看。
在全景鏡頭下可以看到,Vidu 2.0 的背景細節是有些模糊的狀態,人物運動起來會看不見臉部,身體也會隨著運動有些像素融合,但是看到 Vidu Q1 的時候就有一種突然不近視了的即視感,不管是背景還是人物的臉部和動作都很清楚,質感有明顯提升。
再看個中景和面部特寫鏡頭,最明顯的差距就是對于面部細節的展現,五官更清晰,皮膚紋理和發絲都更精細,整個畫面的通透度一下子就上來了。
實際上,清晰度對于一個視頻能否投入實際生產還是非常重要的,因為有些細節在生成中很模糊,后期即使再進行高清和超分也很難補救,Vidu Q1 不僅保持了高清晰度還能夠通過多參穩定一致性,真的是及時雨,不然平時一個超分就占我幾個小時。。。
02|更一致
測試了幾百條案例,我的另一個非常明顯的感受就是,Vidu Q1 的一致性更強了。這個強不僅體現在人臉一致性上,還有風格一致性。
先看看人臉的對比,照例還是放 Vidu 2.0 和 Vidu Q1 的對比,這次我們還是用大家比較熟悉的角色,感受更加明顯。
這倆角色我都不用多說,大家都知道是誰了吧。嬛嬛的面部服飾發飾都更清晰,臉部幾乎和劇中人物沒啥差別。大如就不用說了,不僅把背面的發飾補全了,甚至轉過身來的眨眼的神態都和劇中角色非常相似。
果然要臉一致角色才對味兒啊!甚至我還能讓他們四個同框。。。這四個人的神態簡直太絕了,有種把他們臨時從兩個劇組拉過來被迫營業之感。。。。
再來看看風格一致性上的對比,先放一個我覺得很驚艷的案例。
其實這個版本,Vidu 2.0在風格一致性上做的也很好,保留了梵高繪畫原本的筆觸,但是仔細看還是會覺得人物和背景融合的不是很好,手部觸碰向日葵時會發生一點扭曲。但是Vidu Q1 不僅背景保持著原畫的質感,人物和背景向日葵的交互也很自然。
甚至我還做了一個梵高來到星空中的畫面,人物對于環境的震驚表情真的很生動了。
我還嘗試了幾組將不同風格的兩張圖片放進一個視頻畫面中,并給出了讓他們各自保留原有風格的要求。
可以看到下面四個畫面,不管是雕像和蒙娜麗莎,小新和現實女孩,孫悟空和水墨詩人還是3D動畫小人走進pixel像素游戲中攻打怪獸,每個畫面中的主體都可以說是完美保持了各自的風格,還能做出相應的大動作。
最后放一個我的非常喜歡的吉卜力動畫的例子,完美復刻了我給出的圖片風格:
而且整個畫面的動態非常符合2D動畫,不會運動過大感覺幀數太多,人物的表情、畫面的運動都很有告白的氛圍感,我看一眼就心動了。。。
03|更穩定
其實從上面兩趴的效果中已經能夠感受到 Vidu Q1 對比 2.0 的畫面效果提升了非常多。
但這里,我還有一點的感受是很明顯的,即使整體的畫面穩定性很高,不管是人物的動作還是表情表演,生成出來的效果都更合理也更可控。
先看動作方面:
這兩組畫面上,不管是動作還是重組畫面的合理性上,Vidu Q1 的提升都很明顯,大動作的連貫性,人物各種角度的補足等等上,生成都更穩定。
而且我還可以通過上傳一張人物面部圖片和一張動作圖片來完成人物動作的遷移。
提示語非常簡單(但要注意遷移時最好只框住動作部分,不然容易把臉也遷移過去):
一起看看Vidu Q1對于這四個動作的遷移效果:
動作遷移后的視頻:
這個功能的好用之處就是我可以在我通過文字描述不出的動作可以直接用圖片來完成遷移,省時又省力。
然后就是表情更加穩定自然,可以看下面關于喜怒哀驚四種情緒的表現,Vidu Q1 現在給我的感覺就是更接近演員的表演。
然后,和上面講述的動作遷移一樣的方法,我們同樣可以完成表情遷移:
遷移后的表情展現:
超級有意思,這些表情僅僅通過文字真的很難描述清楚,一旦可以通過多圖參考來完成固定和遷移,就好像我在劇組現場直接表演給演員看,然后讓演員照著我的演就行了。
04|壓力測試
但還有一個很牛的點是,目前 Vidu Q1 是可以上傳7張圖片進行參考的。
7張圖啊,這么多的元素,真的能夠在一個畫面中全部合理的呈現出來嗎?所以,7張圖的極限我們也來看看效果。
我上傳了7張圖片,按照下圖的結構寫出了提示語:
tips:提示語中對于上傳圖片中元素的引用一定要 @ 該圖片 ,出現下圖中灰色框內框住圖1的文字時才是成功引用參考哈
然后我們來看看生成效果吧:
大家仔細看看,是不是全都展示出來了?
主人公的臉、帽子、衣服、斑點狗、花束、女人和場景,都成功復現出來,而且根據畫面的構圖和拍攝視角,狗狗沒有說完整的展現整個身體,而是部分入畫,這就很合理了。
再看下面這兩個case,也是成功復現了7個元素,效果還是非常穩定的。
看到這,可能有人會覺得,這功能看著這么牛,不會很貴吧。
我只能說,性價比真的蠻高的,一條5s的視頻是20積分,按基礎套餐算的話,不到9毛錢。而且旗艦版,能享受非高峰時段的免費視頻生成,很適合有大數量視頻生成需求的用戶。
在線蹲Vidu做個音效啊,Veo3貴到我人都麻了。
如果讓我總結一下 Vidu Q1 多參視頻功能帶來的體驗,
那就是一種“第一次掌控自己的劇組”的快感。
我不再只能寫文字的提示語,而是可以用圖片來搭 劇組、調攝影、把控表演。
對我來說,這種創作范式的升級,不是“更方便的工具”,
而是一次身份的轉變,
我更像一個真正的導演。
因為它不僅降低了視頻創作的門檻,更是在不斷豐富一個更龐大的可能性,
一個來自AI影像創作能夠達到的更大可能性。
以后哪天你刷到某條腦洞視頻、某個梗片、某種短劇,看起來像是劇組拍的,
結果其實只是一個人、幾張圖、加一點想象力和一臺電腦做出來的,
你別驚訝,
這個時代已經到了你想做、AI就能拍的地步了。
而Vidu Q1為了到達這一步,
鋪了一條結結實實的路。
@ 作者 / 阿湯 & 卡爾@ 動手學AI知識庫 / learnprompt.pro
最后,感謝你看到這里如果喜歡這篇文章,不妨順手給我們點贊|在看|轉發|評論更多的內容正在不斷填坑中……
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.