作者 | summer
郵箱 | huangxiaoyi@pingwest.com
4月15日,可靈AI一口氣完成了全系模型的更新,可靈2.0視頻生成模型及可圖2.0圖像生成模型正式面向全球發布,還同步推出了視頻多模態編輯、圖像局部重繪以及圖像風格轉繪三項新功能。
這也把網友們炸開了鍋。
和可靈的一貫作風一樣,此次模型發布即可使用。在X上,已經有大量網友開始展示使用效果了。
有人驚嘆于多種風格視頻的自然生成,也有人通過多模態編輯為視頻更換了主角,憑借自然的效果引起了廣泛的討論。
“it's over,Kling AI 現在可以從任何電影場景中換掉演員。快速射擊,復雜的動作,都不在話下了。”有網友說道。
就連馬斯克本人也在X上關注了可靈AI官方賬號。此前,馬斯克曾評論了一則由可靈AI制作的內容,稱“AI娛樂產業正飛速發展”。
不止來自用戶和社交平臺的反饋,數據層面上,在團隊內部的多項勝負率評測中,模型也表現出了超高的領先優勢。
可靈2.0視頻模型,對比谷歌Veo2的勝負比高達205%,而與OpenAI備受矚目的Sora相比,更是達到驚人的367%的勝負比;在圖像生成領域,可圖2.0與Midjourney V7等業界公認的領先模型相比,勝負比最高超過300%。
那么,此次代際更新體現在哪里,效果到底如何?我們直接上圖看看具體效果。
1
一連串大招,可靈全系模型邁進2.0時代
我們先看看此次更新的2個模型、3項功能分別如何。
首先是可靈2.0模型(大師版),文生視頻和圖生視頻模型,支持首尾幀和新功能多模態編輯。單次可生成時長為5秒或10秒的視頻。
以下面這則生成視頻為例,一匹在草原狂奔的駿馬,疾風吹過鬃毛,四腿的運動線條流暢,實感很強,即使是大幅度運動,畫面也絲毫沒混亂。
幾乎做到了媲美真實場景的程度。相比于之前版本,可靈 2.0 的視頻模型展示出了更強的語義響應、更優的動態質量和更好的畫面美學。
其次,可圖2.0模型在圖像生成領域也有了質的飛躍,不僅提升了語義遵循能力,畫面更具電影質感,還能響應近百種風格。據可靈AI披露,85%的用戶都是采用的圖生視頻功能,圖片生成的重要性不言而喻。
prompt : 電影靜幀,鏡頭正面跟隨一位身穿紅色連衣裙的女子在雨中奔跑,她的頭發被風吹亂,臉上混合著雨水和淚水,背景是模糊的霓虹燈光,街道濕滑反光
多種風格響應:紙雕; 羊毛氈
基礎模型決定了生成效果的技術上限,可靈AI還同步推出了三項創新功能,從產品層面讓視頻生成更好用了。
其中,「多模態編輯」功能,允許用戶通過輸入圖片或文字,對一段5秒的視頻進行靈活的修改和再創作,可以針對用戶上傳的視頻,替換、添加、刪除元素,由此提高視頻創作的可控性和迭代效率。
而可圖2.0的「圖片編輯」功能,則是支持對任意圖片進行指定區域的局部重繪以及更自由的多尺寸擴圖,效果自然,與原圖高度融合。
「風格轉繪」功能則讓用戶只需上傳圖片并輸入風格描述,即可一鍵轉變圖像風格,輕松獲得爆款效果。
prompt:變吉卜力風;變手辦風
從模型基礎能力到功能應用層面全面突破,這意味著用戶在創作全流程中的體驗和最終效果都得到了提升。對創作者們而言,這是一套更加完整、強大且易用的創作工具,正在使AI創作變得更加自然、高效且富有表現力。
1
更穩、更美、更可控,用戶能用一句話當導演?
作為全球首個用戶可用的DiT視頻生成模型,可靈2.0的更新受到廣泛關注。
當前,視頻生成模型們普遍面臨著“動作幅度”與“穩定性和連貫性”難以兼顧的問題,且控制不足、創作依賴“盲盒抽卡”,畫面美感難達專業水準。這些行業痛點,在可靈2.0中都得到了一定程度的優化。
首先,在基座模型能力上,可靈2.0在語義響應、動態質量和畫面質感三大核心維度發生了突破。
AI創作的第一步就是理解用戶創作意圖,在語義響應能力方面,新版本展現出了更強的理解精度和執行力。
對比1.6與2.0版本在相同復雜提示詞下的生成結果,2.0版本在動作響應上能夠精準捕捉復雜肢體動作和面部微表情,每個細節都得到完美呈現,無論是捏拳的微小變化還是眼神的細微轉變都能準確表達;
可靈2.0VS可靈1.6(Prompt: 男人先是開心地笑著,突然變得憤怒,手錘桌子起身。)
在運鏡響應上,2.0版本成功實現了環繞運鏡、跟隨運鏡等專業電影效果,大幅提升了視覺表現力,實現了專業級攝影效果。
在時序響應上,新模型保持了鏡頭內人物動作、表情和背景環境的高度連貫性和邏輯性,解決了之前版本中常見的時空跳躍問題。
動態質量方面,可靈2.0同樣展現出顯著優勢。對比兩個版本的生成結果,2.0版本在復雜動作完成度上有了質的突破,如跑酷等高難度動作展現出流暢自然的效果,物理合理性大幅提升;
運動幅度的優化讓恐龍追逐等高動態場景展現出更合理且具張力的運動范圍,大大增強了畫面的沉浸感;
運動速度的調整則有效解決了慢動作問題,視頻展現出更符合物理規律的真實速度感,讓動態表現更加自然。
在畫面美學層面,可靈2.0全方位提升了視覺表現力。對比此前的模型,新版本的視覺表現更具專業質感,呈現出電影級的畫面品質,色彩和光影效果更為高級,整體美感顯著提升;
細節刻畫更加豐富,場景和人物細節更加精致,視覺信息更加豐富;
風格保持能力也大幅增強,從原始圖像到生成視頻,風格一致性更高,讓創作者能夠更精準地控制視覺風格。
在這些基礎模型效果的突破上,可靈也搭配了功能層面的「多模態編輯」功能,重新定義了人與AI交互的方式。
正如快手高級副總裁蓋坤所指出的:“文字作為表達媒介存在局限,無法完美描述人腦中的復雜影像。即使最精確的文字描述也難以完美傳達腦海中的視覺想象。”
為解決這一問題,此次可靈2.0提出了名為Multi-modal Visual Language(MVL)的多模態視覺語言,核心理念是通過多模態信息的組合,來精準表達人腦中的想象,打破純文本表達的局限。
在MVL體系中,存在兩類關鍵元素:一是TXT(Pure Text,語義骨架);二是MMW(Multi-modal-document as a Word,多模態描述子),將多模態信息如圖像、視頻片段等作為“單詞”嵌入到語義骨架中,共同構建完整的創作指令。
例如,用戶可以指定一個人物圖像作為主角外貌參考,另一張圖像作為服裝參考,第三張圖像作為場景參考,再通過文本描述動作和情緒,最終生成一段完全符合預期的視頻。
這種結合了自然語言描述與多模態參考的表達方式,大幅提升了創作指令的精準度,讓AI更能理解創作者心中真正的想象。
多模態編輯功能可以說是此前多圖參考的迭代,進一步對齊了文本語言、圖片語言和視頻語言,讓不同類型的創作素材能夠和諧共存于同一創作指令中。據快手透露,未來MVL還將擴展至聲音、動作描述文件等更多模態。
更強的基礎模型能力+更靈活可控的產品功能,對創作者們而言,可靈2.0讓視頻生成變得更加真實可用了。
1
剛剛拿下“全球第一”的可靈,如何保持領先?
去年可靈AI1.0發布上線,吹響了整個視頻生成賽道的起跑哨,此后始終保持著綜合效果的領先狀態。
從客觀數據來看,3月27日,全球知名AI基準測試機構Artificial Analysis發布的最新全球視頻生成大模型榜單中,快手可靈1.6pro(高品質模式)以1000分的Arena ELO基準測試評分登頂圖生視頻(Image to Video)賽道榜首,將Google Veo 2、Pika Art等知名產品分別擠至第二、三名的位置。
除了專業榜單的認可,可靈在用戶規模上同樣表現亮眼。自去年6月正式發布以來,可靈AI已累計完成超過20次迭代,目前全球用戶規模已突破2200萬,增速迅猛。
這些成績的背后,是可靈團隊對產品持續迭代更新的堅持,不到一年時間經歷了20多次迭代,以及對用戶真實需求的深入洞察。
這種需求的洞察,首先體現在視頻生成不是技術自嗨,而是圍繞著用戶的創作需求,能夠盡可能地被用起來,因此,可靈從1.0開始就保持著模型發布,用戶即可用。
無論是,可靈1.0上線后迅速掀起了一陣老照片修復潮,“老照片動起來”的創意作品風靡各大社交平臺,還是此次2.0通過更強大的生成能力和更實用的交互方式,進一步降低了創作門檻,發布即可用,也意味著從生成技術到生成產品,可靈的每一步進化都能夠建立在用戶實際反饋的基礎上。
此外,為了讓可靈AI能夠被更廣泛的創作者應用,快手還構建了完整的生態支撐體系。
一方面,可靈AI面向開發者和企業提供API接入等服務,目前,已與包括小米、亞馬遜云科技、阿里云、Freepik、藍色光標等在內的數千家國內外企業展開合作關系。數據顯示,來自世界各地的超過1.5萬開發者已將可靈的API應用于不同的行業場景中,累計生成的圖像數量約1200萬個,生成的視頻素材超過4000萬個。
另一方面,在廣大C端用戶層面,可靈AI也構建起了AIGC創作-消費生態。從《山海奇鏡之劈波斬浪》到《新世界加載中》等備受關注的AI劇作,都展示了AI在內容創作領域的無限可能。
可靈AI超級創作者、《新世界加載中》總導演、異類Outliers創始人陳翔宇提到,“我們實踐之后發現,可靈AI是一個能夠穩定、大規模嵌入劇集創作流程的生成式協作大模型。”陳翔宇認為,在AI的輔助下,導演及編劇團隊的大量內容創意也實現了更富有想象力的表達,AIGC相較于實拍和動畫,不僅是效率的提升,更是試錯空間的革命性釋放。
在此次產品更新的同時,快手也推出了“可靈AI NextGen 新影像創投計劃”,進一步加大對AIGC創作者的扶持力度,通過千萬資金投入、全球宣發、IP打造和保障,以全資出品、聯合出品和技術支持等靈活多樣的合作方式,讓AI好故事走向世界。
持續的技術創新、實用的產品迭代和豐富的生態建設,對視頻生成發展而言,缺一不可,這也是快手保持優勢的原因所在。
正如快手高級副總裁、社區科學線負責人蓋坤所言:“我們的初心,是讓每個人都能用AI講出好的故事。”借助AI的力量,讓更多人能夠輕松表達自己的創意,講述屬于自己的故事的那一天,也許并不遙遠。
點個 “愛心”,再走吧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.