大數(shù)據(jù)文摘受權轉載自數(shù)字生命卡茲克
作者:卡茲克
我不知道該如何組織言語,來跟大家描述可靈2.0帶給我的震撼。
可靈2.0,今天正式上線了。
在發(fā)布會的4天前,我就提前拿到了可靈2.0的權限,整整花掉了4萬的積分。
我想說,當年給Sora的那句評語,此刻,應該真正的用在可靈2.0的身上。
現(xiàn)實,這次真的不存在了。
多說無益,我直接放幾個我跑的case。
以上,全部是我用可靈,實打實用AI生成出來的,而且根本沒怎么roll,每個視頻最多roll2次。
當AI能做到這個級別的視頻效果的時候。
現(xiàn)實,真的還需要存在嗎?
登錄可靈官網: https://app.klingai.com/cn/
你就能在視頻生成的tab里,看到可靈2.0大師版了。
在運鏡幅度、物理規(guī)律、人物表演、動作穩(wěn)定性、語義理解等等上,都有巨幅且水桶的提升。
可靈1.6之前就是能實際使用的AI視頻中的No.1,而這次,可靈2.0,又把AI視頻帶上了一個新的高度。
給大家看一個非常直觀的對比。
這是一只霸王龍。
我們看到這張圖的時候,已經就能非常直觀的感受到動勢,霸王龍正臉怒吼,鏡頭近到幾乎要被吞掉,我想到最直觀的prompt,就是“第一人稱逃跑視角”,你坐在一輛越野車上,看著霸王龍一點一點沖過來,隨時要你的命,這個感覺是很刺激的。
我的Prompt是:霸王龍怒吼后猛然沖向鏡頭,張口撲咬,巨大的身體掀翻樹木,鏡頭劇烈晃動,模擬第一人稱逃跑視角,穿越叢林,狂奔躲避追擊,樹枝劃過鏡頭,恐懼與速度并存。
先來看可靈1.6的(不要瞧不起1.6,在2.0出來之前已經是王中王了,可以看我之 前 評測RunwayGen4的時候,跟可靈1.6的對比的文章 - )
能看到,問題還是有很多,霸王龍的動勢是到位了,但是霸王龍跟樹的交互也非常的奇怪。樹跟橡膠一樣,一股子路飛既視感。
再看可靈2.0。
直接撞斷樹,一腳踩塌樹,運動感爆炸,霸王龍和周圍環(huán)境的交互爆炸。還有周圍被揚起的灰塵,以及差點被咬到的后怕,可靈2.0都表現(xiàn)的淋漓盡致。
這是運鏡、動作、交互等所有方面,水桶式提升的一個綜合案例。
給你帶來了無與倫比的AI視頻“觀影”體驗。
在人與物交互方面,還有一個過去很難做的一個案例,叫“摘眼鏡”。
對,就是帶著眼鏡的人,摘眼鏡。
正好可圖2.0這次是一起發(fā)布的,在電影質感上也不錯,我再做一個聯(lián)動的case,給大家看一下效果。
我先用可圖2.0,生成了一個戴著金絲邊眼鏡的小丑妝女孩。
生圖的Prompt是這樣的:
電影質感,特寫鏡頭,一位年輕女小丑的臉部,帶有紅色大鼻子、紅色腮紅妝容,眉毛濃密,戴著圓形金絲眼鏡,頭發(fā)是紅藍相間的蓬松卷發(fā)假發(fā),表情嚴肅、帶有內斂的悲傷感,皮膚細膩,細節(jié)寫實,光影濃郁,整體氛圍昏暗、具有電影感和戲劇張力,背景虛化,焦點集中在眼神和面部表情上。
我生視頻的prompt是這樣的: 小丑妝女孩定格凝視鏡頭,眼神冷靜中透出疲憊,鏡頭緩慢后拉,微微抖動聚焦眼神,他輕輕摘下眼鏡,嘴角抽動仿佛想笑,最終眼神低垂不語,氣氛壓抑克制,鏡頭暗轉隱入陰影。
我們來看看,可靈1.6在摘眼鏡上的效果。
人物表情倒是比較精致,包括眼皮、嘴角的抽動都實現(xiàn)了,但是鏡頭沒理解,而且這個眼鏡,雖然摘了,但是眼鏡腿瘋狂抖動,還把鼻子給帶下來了。。。
我們再來看看可靈2.0。
鏡頭逐漸后拉,畫面外的手,伸到眼鏡腿上,按照真實物理反饋將眼鏡抬起,眼鏡本體同時不變形,再摘下來的時候,鏡片上的光影還會給你近乎顯示的展現(xiàn)。
最后的遁入暗影,也是銜接的非常完美。
這就是真實感,無與倫比的真實感,能以假亂真的真實感。媲美電影級審美的真實感。
還有這個,可圖2.0生成的很漂亮的亞洲女孩。
我想讓她摘下眼鏡,然后走起來。
看看可靈1.6。
抬了一個假動作。
我們再看看2.0。
不僅把眼鏡摘下來了,而且眼鏡里的反光,都模擬了出來。
AI視頻模型有一個最基本的測試原則就是,畫面面積占比越大,成功率越大,面積占比越小,成功率越小。
可靈1.6在這個面積上失敗了,但是可靈2.0成功了。這個點,就能看出來,可靈2.0的強大了。
還有多人的不同動作和交互,這在過往,真實感也會因為多主體的復雜,而被大幅的削弱。
比如這張圖上的四個人,我們想做復雜的動作,還希望畫面外的人,來跟畫面內的人產生一些交互。
Prompt是這樣的: 五人圍坐篝火旁,女子抬頭微笑看向鏡頭,身旁男子彈吉他,畫面外的人遞茶給她,她接過來吹了吹,大家交談輕笑,火光映出臉龐,鏡頭不動。
可靈1.6是這樣的。
說實話,動作啥的已經很好了,但是從我們人類的直覺看過去,可能細看之下,還是會有點假。如果你感受不到假的話,那對比2.0生成的內容看看。
右下角燃燒的火光映射在眾人的臉上,大家臉上的光影隨著火的跳躍而閃動,火上冒出的寥寥炊煙,還有畫面外的第5個人,以及人與人之間,那自然和諧不造作的表情。
這一切的一切,都在提醒你,這是真實的。
還有兩人的愛情,除了手部的交叉運動的時候會有bug,其他幾乎都很真實了。
還有派大星吹笛子,語義理解能力強到爆炸。
Prompt: 派大星在夜市集市上吹長笛,表情認真,動作滑稽,圍觀人群跟著節(jié)奏晃動,他吹奏過程中頻頻停頓觀察周圍物體,然后繼續(xù)演奏,最終表演結束鼓起腮幫子比贊,鏡頭輕快滑動,全程歡樂。
一個吟游貓詩人,在酒館中,唱著屬于自己的故事,而且,彈吉他的手,還會按和弦。
輕聲哭泣的外星人。
老人們敬禮后,相視一笑,一生的記憶,都在這一刻了。
一個看著專業(yè)但是卻是菜雞的跳水。
監(jiān)控風,怪獸的第一次現(xiàn)身。
她性感地吞下“快樂”,這是一個時代,用消費麻醉靈魂。
女孩剛剛淋了一場暴雨,在失戀的氛圍中,黯然神傷。
第一視角,在開車,是真實的開車。
女孩剛進行完一場演出,向大家,誠懇的鞠了一躬。
我還有太多太多想給你看的案例,但是受限于篇幅,我就只能放這么多了。
我覺得,真實感不是技術的結果,是審美的躍遷。
它是一種“你沒法說它哪里對了,但你知道它真的對了”的東西。
像是你深夜看了一段視頻,主角一個眼神掃過來,你突然有點發(fā)怔,心跳慢了半拍,甚至懷疑了一下:這真的是AI生成的嗎?
真實感,是一種,從AI制造出來的幻象中,被打動的恥辱感。
是一種,你明明知道它是假的,但你仍然會被它輕輕拽進那個世界里的羞恥感。
我們總說“沉浸感”,說電影讓人沉浸、游戲讓人沉浸,但沉浸之前要發(fā)生的第一件事是什么?
是你信了。
你信了那是雨,你信了那是憤怒,你信了他要哭了、要笑了、要崩潰了。
而這個“信”,是過去所有AI視頻都始終做不到的部分。
我只在Veo2的demo里,看到類似的感覺。
但現(xiàn)在,可靈2.0做到了。
它不是“像”,它是“信”。
信了,這個視頻里的一切。
這就是可靈2.0,這就是把真實感拉滿的王。
但是,接下來的,我還是要非常坦誠的,說一說可靈2.0,目前我測試下來,做不到的地方。
這不是挑刺,而是對于一個目前世界No.1的模型,最基本的尊重,這也是,他未來可以繼續(xù)坐在鐵王座上的理由。
比如目前在高速且群像的運動下,部分人物的穩(wěn)定性還有進步空間。
比如這個戰(zhàn)爭視頻,你能在開頭上,看到明顯的一個人分裂成了兩個人,就像濃霧一樣交織。
比如一群人的怪物獵人,小芝麻粒點大的人會有點亂。但是坦率的講,這個要是都穩(wěn)定了,那特效行業(yè),就可以不需要存在了。
還有一些極度強調真實物理的跟現(xiàn)實一致的交互,還會有一些進步的空間。
比如投籃,對于AI視頻來說幾乎是噩夢,可以很明顯的看到人物的效果都是很棒的,最后球的物理路線,會有點讓牛頓的棺材板壓不住。
可靈2.0在AI視頻業(yè)內,已經是No.1了,接下來的目標,我覺得已經不是別的AI視頻模型了,而是,劍指好萊塢。
最后,我想說。
我們這些看著可靈,從1.0走到2.0的玩家,注定會是最早一批,見證新紀元崛起的人。
去年6月,可靈1.0第一次上線的時候。
這也是我們第一次,可以走到AI身邊,跟他說一句:
“我想拍個夢。”
所以,別猶豫了。
去登錄可靈,打開視頻生成那一頁,傳上你的第一張圖,寫下你的第一個prompt。
然后,你就會明白。
什么叫,現(xiàn)實不再需要存在了。
讓我們,開始拍夢吧。
GPU算力按需租用
A100/H100 GPU算力按需租用,
秒級計費,平均節(jié)省開支30%以上!
掃碼了解詳情?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.