網易首頁 > 網易號 > 正文申請入駐

可靈2.0成“最強視覺生成模型”？自稱遙遙領先OpenAI、谷歌，技術創新細節大揭秘！

2025-04-15 20:27:13　來源: AI前線

北京舉報

分享至

可靈 AI 創作者作品

整理 | 褚杏娟、華衛

剛剛，可靈 AI 面向全球正式發布可靈 2.0 視頻生成模型及可圖 2.0 圖像生成模型。即日起，可靈 2.0 和可圖 2.0 在全球范圍上線。

“這是你能用到的，世界上最強大的視覺生成模型。”快手高級副總裁、社區科學線負責人蓋坤說道。

根據對比測試，可靈 2.0 文生視頻大模型與 Veo2 的勝負比為 205%，與 Sora 的勝負比為 367%（如果兩模型勝負比為 100%，說明兩者水平相當）。可靈 2.0 圖生視頻大模型與 Veo2 的勝負比為 182%，與 Gen-4 的勝負比為 178%。

另外，可圖 2.0 文生圖大模型，與 Midjourney v7 的勝負比為 301%，與 Reve 的勝負比為 193%，與 Flux 1.1 Pro 版本的勝負比為 152%。

可靈 2.0 生成效果如何？

快手副總裁、可靈 AI 負責人張迪介紹，現在的視頻 AI 生成技術還遠遠不夠，目前創作者們會遇到兩類問題：一類是語義遵循能力在部分情況下能力不夠，妨礙了創作者們用文字精準表達、控制生成結果；二是動態質量問題，包括大家所常說的運動崩壞或者不符合物理規律。

為此，可靈 2.0 視頻生成模型在語義響應、畫面質量、動態質量、真實度和美感上都有大幅提升。

語義響應

“一個視頻生成模型的語義響應，已經不能用簡單的文本響應來看了，我們希望它有更強的動作響應能力，有更強的運鏡響應能力，有更強的時序響應能力。”張迪說道。

可靈 2.0 完善了 1.6 版本中的表情的動作描述和肢體的動作描述的細節錯誤：

時序響應指的是在同一個 prompt 里面，按照時間順序進行分段描述，模型需要按照嚴格的時間順序進行展示。可靈 2.0 在背景延時攝影的完成度都很高：

除了基礎運鏡，可靈 2.0 可以直接用提示詞激活環繞運鏡、跟隨運鏡、鏡頭組合運鏡等方式：

動態質量

可靈 2.0 重點優化了歷史版本中可能出現慢動作的問題，對于運動速度的把握更加精準：

更合理的運動幅度使得整個畫面的表現張力更好、更有沖擊力：

美學優化

在美學優化方面，可靈 2.0 可以生成更具電影大片質感的鏡頭，同時讓每一個鏡頭的細節表達更加豐富：

可靈 2.0 在一些細節上的優化：

對于可靈 2.0 的生成效果，網友們也給出了很高評價。

”AI 視頻的質量一夜之間提升了 10 倍，我已經無話可說了。Kling 2.0 剛剛發布，我已經花掉了 1250 美元的額度來測試它的極限。我從沒見過這么流暢的動態效果，也從沒見過對提示詞的理解這么準確的模型。”PJ Ace 說道。

“相信我，這次模型升級絕對驚艷！現在你可以生成的動態動作數量達到了新的高度。如果您想讓動作更快速，新模型在這方面完全勝任，動作看起來非常自然流暢。”網友 Travis Davids 說道。

一系列技術創新細節披露

“所有的這些能力提升，都離不開整個團隊背后的大量的技術創新。”張迪介紹，可靈 2.0 在基礎模型架構和訓練和推理策略上進行了全新的升級，這些工作使其打開了建模和仿真的能力空間。

可靈整體框架采用了類 Sora 的 DiT 結構，用 Transformer 代替了傳統擴散模型中基于卷積網絡的 U-Net。具體來說，可靈 2.0 在基礎模型上的架構升級包括：

全新設計的 DiT 架構，提升視覺 / 文本模態信息融合能力。
全新設計的 VAE，使復雜動態場景下過渡更順暢、質感更自然。
首次系統性研究了視頻生成 DIT 架構的 Scaling Law 特性。

為解鎖更強的指令響應和運動表現，可靈 2.0 采用了以下訓練和推理策略：

強化對于復雜運動、主體交互的生成能力提升視頻表現張力。
強化對運鏡語言、構圖術語等專業表達的理解和響應能力。
人類偏好對齊技術，讓模型更懂”常識”和“審美”。

據張迪透露，在可靈 AI 平臺上，85% 的視頻創作是通過圖生視頻完成的，這一方面說明了圖生視頻可以更好地表達用戶的創作意圖，另一方面也彰顯了圖片賦予整個視覺創作流的重要性。

此次升級的可圖 2.0 模型，在指令遵循、電影質感及藝術風格表現等方面作了顯著提升。在風格化響應上，可圖 2.0 支持 60 多種風格化的效果轉繪，包括受大家喜愛的 GPT 風格、二次元風格、插畫風格、數字世界、3D 等，模型出圖創意和想象力實現因此大幅躍升。

而在可圖 2.0 背后，同樣暗含許多技術創新。張迪介紹稱，快手團隊在預訓練階段，通過精準建模預訓練文本到視覺表征的映射，使得文本和圖像的對齊做得更好；在后訓練階段，該模型更多地使用了強化學習技術來提升美感、對齊人類審美，并大量探索了后訓練階段的 Scaling Law；在推理階段，大量使用了全新的提示詞工程和推理策略，提升了出圖的穩定性和創造性。

視頻和圖像都能放進 prompt 了

“文字作為人去描述自己想象中的世界的媒介是不完備的，需要定義一個人和 AI 交互的新的語言，讓人的想象能夠被 AI 完全感知到。”蓋坤說道。

在一些場景里，文字很難準確描述出視頻內容，比如復雜的武打畫面，即使用很大篇幅的文字也難以準確描述。

為此，快手還在可靈 2.0 大師版上線了全新的多模態編輯功能，能靈活理解用戶意圖，支持對視頻和圖像內容實現增、刪、改元素。

具體可以看到，多模態編輯器中，可以將多模態的表達放進提示詞中，以實現更準備的修改。

此外，圖像多模態編輯具有風格重繪的能力，能夠對圖片可進行不同風格的重繪，且保持原圖片的語義。

在本次 2.0 模型迭代中，可靈 AI 正式提出了 AI 視頻生成的全新交互理念 Multi-modal Visual Language（MVL），即將語義骨架（TXT）和多模態描述子（MMW）結合，讓用戶能夠結合圖像參考、視頻片段等多模態信息，將腦海中的多維度復雜創意，直接高效地傳達給 AI。此次發布的多模態視頻編輯功能，正是基于 MVL 的思想所研發。

張迪介紹稱，多模態編輯功能背后是一整套多模態控制技術，快手目前在這方面迎來了很大的突破，包括以下三個方面：

把文本模態、圖像模態和視覺模態進行了統一表征，并使用超長的上下文進行訓練；
通過高效的 Token 壓縮與緩存算法，可以支持長序列的訓練和推理；
在推理環節，使用了帶有 CoT 的多模態推理能力技術來理解用戶輸入的多模態信息。

結語

截至目前，可靈 AI 全球用戶規模突破 2200 萬，過去的 10 個月里，其月活用戶量增長 25 倍，累計生成超過 1.68 億個視頻及 3.44 億張圖片。

張迪表示，在發布之初，快手便深知視頻生成技術賽道是一個長跑，為此可靈 AI 自發布后就進入了奪命狂奔模式，過去 10 個月時間里已經歷了 20 多次的產品迭代，發布了 9 個有里程碑意義的產品。可靈 1.0 于去年 6 月發布，是全球首個用戶真實可用的 DIT 架構的視頻政策大模型。

對于這一次的更新，可靈 AI 團隊給出了這樣的評價：“我們可以當之無愧的說，可靈 2.0 文生視頻模型是一個全球大幅領先的視頻模型。”

聲明：本文為 AI 前線整理，不代表平臺觀點，未經許可禁止轉載。

AICon 2025 強勢來襲，5 月上海站、6 月北京站，雙城聯動，全覽 AI 技術前沿和行業落地。大會聚焦技術與應用深度融合，匯聚 AI Agent、多模態、場景應用、大模型架構創新、智能數據基建、AI 產品設計和出海策略等話題。即刻掃碼購票，一同探索 AI 應用邊界！

今日薦文

你也「在看」嗎？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.