可靈 AI 創作者作品
整理 | 褚杏娟、華衛
剛剛,可靈 AI 面向全球正式發布可靈 2.0 視頻生成模型及可圖 2.0 圖像生成模型。即日起,可靈 2.0 和可圖 2.0 在全球范圍上線。
“這是你能用到的,世界上最強大的視覺生成模型。”快手高級副總裁、社區科學線負責人蓋坤說道。
根據對比測試,可靈 2.0 文生視頻大模型與 Veo2 的勝負比為 205%,與 Sora 的勝負比為 367%(如果兩模型勝負比為 100%,說明兩者水平相當)。可靈 2.0 圖生視頻大模型與 Veo2 的勝負比為 182%,與 Gen-4 的勝負比為 178%。
另外,可圖 2.0 文生圖大模型,與 Midjourney v7 的勝負比為 301%,與 Reve 的勝負比為 193%,與 Flux 1.1 Pro 版本的勝負比為 152%。
可靈 2.0 生成效果如何?
快手副總裁、可靈 AI 負責人張迪介紹,現在的視頻 AI 生成技術還遠遠不夠,目前創作者們會遇到兩類問題:一類是語義遵循能力在部分情況下能力不夠,妨礙了創作者們用文字精準表達、控制生成結果;二是動態質量問題,包括大家所常說的運動崩壞或者不符合物理規律。
為此,可靈 2.0 視頻生成模型在語義響應、畫面質量、動態質量、真實度和美感上都有大幅提升。
語義響應
“一個視頻生成模型的語義響應,已經不能用簡單的文本響應來看了,我們希望它有更強的動作響應能力,有更強的運鏡響應能力,有更強的時序響應能力。”張迪說道。
可靈 2.0 完善了 1.6 版本中的表情的動作描述和肢體的動作描述的細節錯誤:
時序響應指的是在同一個 prompt 里面,按照時間順序進行分段描述,模型需要按照嚴格的時間順序進行展示。可靈 2.0 在背景延時攝影的完成度都很高:
除了基礎運鏡,可靈 2.0 可以直接用提示詞激活環繞運鏡、跟隨運鏡、鏡頭組合運鏡等方式:
動態質量
可靈 2.0 重點優化了歷史版本中可能出現慢動作的問題,對于運動速度的把握更加精準:
更合理的運動幅度使得整個畫面的表現張力更好、更有沖擊力:
美學優化
在美學優化方面,可靈 2.0 可以生成更具電影大片質感的鏡頭,同時讓每一個鏡頭的細節表達更加豐富:
可靈 2.0 在一些細節上的優化:
對于可靈 2.0 的生成效果,網友們也給出了很高評價。
”AI 視頻的質量一夜之間提升了 10 倍,我已經無話可說了。Kling 2.0 剛剛發布,我已經花掉了 1250 美元的額度來測試它的極限。我從沒見過這么流暢的動態效果,也從沒見過對提示詞的理解這么準確的模型。”PJ Ace 說道。
“相信我,這次模型升級絕對驚艷!現在你可以生成的動態動作數量達到了新的高度。如果您想讓動作更快速,新模型在這方面完全勝任,動作看起來非常自然流暢。”網友 Travis Davids 說道。
一系列技術創新細節披露
“所有的這些能力提升,都離不開整個團隊背后的大量的技術創新。”張迪介紹,可靈 2.0 在基礎模型架構和訓練和推理策略上進行了全新的升級,這些工作使其打開了建模和仿真的能力空間。
可靈整體框架采用了類 Sora 的 DiT 結構,用 Transformer 代替了傳統擴散模型中基于卷積網絡的 U-Net。具體來說,可靈 2.0 在基礎模型上的架構升級包括:
全新設計的 DiT 架構,提升視覺 / 文本模態信息融合能力。
全新設計的 VAE,使復雜動態場景下過渡更順暢、質感更自然。
首次系統性研究了視頻生成 DIT 架構的 Scaling Law 特性。
為解鎖更強的指令響應和運動表現,可靈 2.0 采用了以下訓練和推理策略:
強化對于復雜運動、主體交互的生成能力提升視頻表現張力。
強化對運鏡語言、構圖術語等專業表達的理解和響應能力。
人類偏好對齊技術,讓模型更懂”常識”和“審美”。
據張迪透露,在可靈 AI 平臺上,85% 的視頻創作是通過圖生視頻完成的,這一方面說明了圖生視頻可以更好地表達用戶的創作意圖,另一方面也彰顯了圖片賦予整個視覺創作流的重要性。
此次升級的可圖 2.0 模型,在指令遵循、電影質感及藝術風格表現等方面作了顯著提升。 在風格化響應上,可圖 2.0 支持 60 多種風格化的效果轉繪,包括受大家喜愛的 GPT 風格、二次元風格、插畫風格、數字世界、3D 等,模型出圖創意和想象力實現因此大幅躍升。
而在可圖 2.0 背后,同樣暗含許多技術創新。張迪介紹稱,快手團隊在預訓練階段,通過精準建模預訓練文本到視覺表征的映射,使得文本和圖像的對齊做得更好;在后訓練階段,該模型更多地使用了強化學習技術來提升美感、對齊人類審美,并大量探索了后訓練階段的 Scaling Law;在推理階段,大量使用了全新的提示詞工程和推理策略,提升了出圖的穩定性和創造性。
視頻和圖像都能放進 prompt 了
“文字作為人去描述自己想象中的世界的媒介是不完備的,需要定義一個人和 AI 交互的新的語言,讓人的想象能夠被 AI 完全感知到。”蓋坤說道。
在一些場景里,文字很難準確描述出視頻內容,比如復雜的武打畫面,即使用很大篇幅的文字也難以準確描述。
為此,快手還在可靈 2.0 大師版上線了全新的多模態編輯功能,能靈活理解用戶意圖,支持對視頻和圖像內容實現增、刪、改元素。
具體可以看到,多模態編輯器中,可以將多模態的表達放進提示詞中,以實現更準備的修改。
此外,圖像多模態編輯具有風格重繪的能力,能夠對圖片可進行不同風格的重繪,且保持原圖片的語義。
在本次 2.0 模型迭代中,可靈 AI 正式提出了 AI 視頻生成的全新交互理念 Multi-modal Visual Language(MVL),即將語義骨架(TXT)和多模態描述子(MMW)結合,讓用戶能夠結合圖像參考、視頻片段等多模態信息,將腦海中的多維度復雜創意,直接高效地傳達給 AI。此次發布的多模態視頻編輯功能,正是基于 MVL 的思想所研發。
張迪介紹稱,多模態編輯功能背后是一整套多模態控制技術,快手目前在這方面迎來了很大的突破,包括以下三個方面:
把文本模態、圖像模態和視覺模態進行了統一表征,并使用超長的上下文進行訓練;
通過高效的 Token 壓縮與緩存算法,可以支持長序列的訓練和推理;
在推理環節,使用了帶有 CoT 的多模態推理能力技術來理解用戶輸入的多模態信息。
結 語
截至目前,可靈 AI 全球用戶規模突破 2200 萬,過去的 10 個月里,其月活用戶量增長 25 倍,累計生成超過 1.68 億個視頻及 3.44 億張圖片。
張迪表示,在發布之初,快手便深知視頻生成技術賽道是一個長跑,為此可靈 AI 自發布后就進入了奪命狂奔模式,過去 10 個月時間里已經歷了 20 多次的產品迭代,發布了 9 個有里程碑意義的產品。可靈 1.0 于去年 6 月發布,是全球首個用戶真實可用的 DIT 架構的視頻政策大模型。
對于這一次的更新,可靈 AI 團隊給出了這樣的評價:“我們可以當之無愧的說,可靈 2.0 文生視頻模型是一個全球大幅領先的視頻模型。”
聲明:本文為 AI 前線整理,不代表平臺觀點,未經許可禁止轉載。
AICon 2025 強勢來襲,5 月上海站、6 月北京站,雙城聯動,全覽 AI 技術前沿和行業落地。大會聚焦技術與應用深度融合,匯聚 AI Agent、多模態、場景應用、大模型架構創新、智能數據基建、AI 產品設計和出海策略等話題。即刻掃碼購票,一同探索 AI 應用邊界!
今日薦文
你也「在看」嗎?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.