最近還納悶呢,之前那么卷的可靈最近模型上沒啥動靜,我猜是不是憋大招呢。
果不其然從圖片到視頻全線模型都獲得了大版本更新,我也提前測試了一下,2.0 太猛了,直接把視頻模型的競爭拉到了下個階段!
老規(guī)矩先看視頻,我為這次可靈 2.0 做的視頻帶劇情的,名字是《Dual Horizon》,強烈推薦先看看效果。
從圖片到視頻到音效全是在可靈平臺生成。
介紹一下更新內容:
- 可圖更新 2.0 圖片生成模型
- 圖片質量大幅提升,尤其是敘事感和電影感大幅增強
- 增加風格轉換功能,只需要簡單提示就能將圖片轉換為任意風格
- 可靈更新 2.0 大師視頻模型
- 文生視頻和圖生視頻復雜動態(tài)、提示詞理解能力大幅提升
- 1.6 模型增加視頻編輯能力,可以修改任意視頻內容
可圖 2.0
圖像模型現(xiàn)在已經進到了下個競爭階段,各家都不在追求大而全的全面領先,而是開始追求跟自己的生態(tài)相結合,可圖 2.0 的升級也是一樣,這次可圖 2.0 的電影感非常強。
在光線、色彩調校、構圖、景深控制、氛圍營造還有質感上的表現(xiàn)都非常強。
比如這張圖片中對于百葉窗光線和威士忌酒杯光線的表現(xiàn),以及對于低飽和度色彩的理解都非常到位。
在一個僅被百葉窗縫隙透入的微弱光線照亮的昏暗房間里,一個身著風衣、頭戴禮帽的男人側身站在窗邊,面部大部分隱于陰影之中,只有下顎線條和繚繞的煙霧被銳利的光線勾勒出來;房間深處散落著文件,桌上的威士忌酒杯反射著唯一的光源,整個畫面采用高對比度的黑白或極低飽和度色彩處理,營造出濃厚的懸疑和宿命感。
下面這個更是離譜,他理解了什么是荷蘭角構圖,同時在動感模糊上處理的非常自然,還確保了主體是清晰的,整張圖片的色彩也非常高級。
采用略微傾斜的荷蘭角構圖,鏡頭緊跟在一個奔跑穿過擁擠市集的人物身后,周圍環(huán)境(人群、攤位、彩色布料)因快速移動而產生動感模糊;光線復雜,明暗交錯,人物急促的呼吸和緊張的眼神(如果可見)暗示著追逐或逃亡的情節(jié),畫面充滿了動感、混亂和緊迫的氛圍。
這個更是離譜,看到的一個你已經可以腦補出一個故事來了,這還只是一個靜態(tài)的圖像,光線和投影以及構圖一下子就把孤獨感立住了。
在一條雨后濕漉的深夜城市街道上,一個孤獨的身影背對著鏡頭站在刺眼的路燈光束下,強烈的頂光勾勒出人物輪廓并投下長長的、變形的陰影,周圍環(huán)境隱沒在黑暗中,只有遠處商店模糊的霓虹燈在淺景深效果下化作一片片柔和的彩色光斑,突顯出人物在都市環(huán)境中的孤立與神秘感。
另外可圖現(xiàn)在也支持了風格轉換,但是不需要你找圖片了,只需要上傳想要轉換的圖片,然后在提示詞的部分輸入想要轉換的風格就行。比如下面這個圖片的吉卜力風格。
而且還上線了局部重繪這個非常重要的功能,擴圖功能也做了全新升級,更加強大了,可以試試。
可靈 2.0
可靈 2.0 的如果只是描述的話就兩個運動幅度大幅提升、提示詞遵循大幅提升。
但是當你看到他的提升相較于 1.6 有多大時你就會理解這玩意現(xiàn)在強到什么地步了,這次真是毫無爭議的第一了,大幅領先后面所有人。
如果你還沒看過開頭我的測試視頻的話建議你翻上去看一眼,我們先來看一下運動幅度的對比。
在 1.6 的時候這兩個人根本就不打,再看一下 2.0,持械格斗是視頻模型里面非常困難的一步,2.0 比之前強太多了,而且不只是動作,運鏡速度都變快了,這么快速的環(huán)繞鏡頭,整個一致性也沒啥問題。
提示詞:低角度,快速搖攝。 古羅馬競技場風格的場景,兩個角斗士手持武器戰(zhàn)斗,周圍是模糊的觀眾輪廓。
另外就是提示詞理解,原來 1.6 也可以生成十秒的視頻,但是大家用的不多,主要是因為上個階段的視頻模型無論哪個都有運動幅度小提示詞理解不行的問題,所以即使跑了 10 秒的視頻后半部分要不就得加速用要不就是崩了不能用。
這次 2.0 更新以后大家應該都會經常生成 10 秒了,可靈 2.0 現(xiàn)在可以理解一個場景中非常復雜的提示詞,不管是在內容上的還是時間順序上的,比如我視頻里這個 10 秒的換彈鏡頭,在其他模型根本不太可能搞出來。
我們看一下提示詞中的關鍵點:晃動鏡頭、子彈打在掩體上、眼神掃視、拔出彈夾、換上彈夾、拉栓、反擊,順序基本都是對的而且都做了。
雖然你要一幀一幀看可能有些問題,但是這種級別的效果是以前根本不敢想能在視頻模型上做出來的,太強了。
提示詞:中景,固定或輕微晃動鏡頭。 鏡頭聚焦于掩體后的槍手。子彈猛烈地擊打在TA身前的混凝土掩體上,碎屑飛濺 (0-2s)。槍手緊貼掩體,快速呼氣,眼神警惕地掃視前方,判斷火力間隙 (2-4s)。TA迅速從腰間拔出一個新彈匣,同時熟練地按下卡榫,空彈匣掉落在地發(fā)出輕微聲響 (4-6s)。在插入新彈匣的瞬間,一發(fā)流彈幾乎擦著TA的頭飛過,迫使TA猛地一縮頭 (6-7s)。TA迅速將新彈匣“咔噠”一聲穩(wěn)穩(wěn)裝上,拉動槍栓上膛,動作果斷而急促 (7-9s)。最后,TA深吸一口氣,眼神變得銳利,準備探身反擊 (9-10s)
可靈 1.6 多模態(tài)編輯
之后是原來 1.6 模型的新能力多模態(tài)編輯能力,支持替換、增加、刪除視頻中的任何物品或者背景。
具體的用法是切換到「多模態(tài)編輯」Tab,然后先選擇你是替換、刪除還是增加,之后選擇一下替換或者刪除的畫面主體,最后提示詞的寫法需要注意在指定圖片的時候不能用第一張或者第二張這種詞,而是需要用 @ 符號 指定對應的圖片或者視頻。
這個能力感覺會比 2.0 要更受普通用戶歡迎,視頻編輯加上實際拍攝的視頻玩法太多了,比如換裝、搞抽象等都非常好傳播。
具體可以看下面這個演示,我分別將原來的士兵替換為了高科技機器人,然后是將畫面增加了機器人而且讓他做出攻擊動作,最后是從畫面中刪掉了原來的士兵。
可以看到可靈提取了圖片主體的關鍵特征另外主體的光線顏色都根據(jù)視頻有對應的變化,不是單純的生硬嵌入,融合度非常好。
好了這次的測試基本就到這里了。
AI 模型進步和競爭非常激烈,這一年我們看了非常多的起起落落,所以可靈能在如此長時間內持續(xù)領先真的很厲害。
回望過去一年多的技術發(fā)展,一個不爭的事實愈發(fā)明顯:
優(yōu)秀的模型能力依然是AI時代贏得市場、贏得用戶的最可靠路徑。
然而,持續(xù)的模型領先是極其困難的。
在AI領域,技術迭代速度遠超傳統(tǒng)軟件,領先優(yōu)勢常常在幾個月內就被抹平。
能夠像可靈這樣在短短10個月內不斷迭代、持續(xù)保持競爭力是非常罕見的。
他們做到這一點,不僅需要強大的技術實力,更需要對產品方向的準確判斷和執(zhí)行力的極致體現(xiàn)。
恭喜可靈團隊,現(xiàn)在他們已經在視頻生成領域站在了與OpenAI和Claude同等的位置,過去這么長時間只有 Open AI Claude 做到了在一個模型領域如此長時間的領先。
今天又是 AI 領域一個值得紀念的日子,因為我們又一次看到了那些執(zhí)著于追求極致的人們所創(chuàng)造的未來。
感謝各位如果覺得寫的不錯的話可以給個贊或者喜歡,也可以轉發(fā)給你的朋友。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.