99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

可靈2.0成“最強視覺生成模型”?自稱遙遙領先OpenAI、谷歌,技術創新細節大揭秘!

0
分享至

可靈 AI 創作者作品

整理 | 褚杏娟、華衛

剛剛,可靈 AI 面向全球正式發布可靈 2.0 視頻生成模型及可圖 2.0 圖像生成模型。即日起,可靈 2.0 和可圖 2.0 在全球范圍上線。

“這是你能用到的,世界上最強大的視覺生成模型。”快手高級副總裁、社區科學線負責人蓋坤說道。

根據對比測試,可靈 2.0 文生視頻大模型與 Veo2 的勝負比為 205%,與 Sora 的勝負比為 367%(如果兩模型勝負比為 100%,說明兩者水平相當)。可靈 2.0 圖生視頻大模型與 Veo2 的勝負比為 182%,與 Gen-4 的勝負比為 178%。

另外,可圖 2.0 文生圖大模型,與 Midjourney v7 的勝負比為 301%,與 Reve 的勝負比為 193%,與 Flux 1.1 Pro 版本的勝負比為 152%。


可靈 2.0 生成效果如何?

快手副總裁、可靈 AI 負責人張迪介紹,現在的視頻 AI 生成技術還遠遠不夠,目前創作者們會遇到兩類問題:一類是語義遵循能力在部分情況下能力不夠,妨礙了創作者們用文字精準表達、控制生成結果;二是動態質量問題,包括大家所常說的運動崩壞或者不符合物理規律。

為此,可靈 2.0 視頻生成模型在語義響應、畫面質量、動態質量、真實度和美感上都有大幅提升。

語義響應

“一個視頻生成模型的語義響應,已經不能用簡單的文本響應來看了,我們希望它有更強的動作響應能力,有更強的運鏡響應能力,有更強的時序響應能力。”張迪說道。

可靈 2.0 完善了 1.6 版本中的表情的動作描述和肢體的動作描述的細節錯誤:

時序響應指的是在同一個 prompt 里面,按照時間順序進行分段描述,模型需要按照嚴格的時間順序進行展示。可靈 2.0 在背景延時攝影的完成度都很高:

除了基礎運鏡,可靈 2.0 可以直接用提示詞激活環繞運鏡、跟隨運鏡、鏡頭組合運鏡等方式:

動態質量

可靈 2.0 重點優化了歷史版本中可能出現慢動作的問題,對于運動速度的把握更加精準:

更合理的運動幅度使得整個畫面的表現張力更好、更有沖擊力:

美學優化

在美學優化方面,可靈 2.0 可以生成更具電影大片質感的鏡頭,同時讓每一個鏡頭的細節表達更加豐富:

可靈 2.0 在一些細節上的優化:

對于可靈 2.0 的生成效果,網友們也給出了很高評價。

”AI 視頻的質量一夜之間提升了 10 倍,我已經無話可說了。Kling 2.0 剛剛發布,我已經花掉了 1250 美元的額度來測試它的極限。我從沒見過這么流暢的動態效果,也從沒見過對提示詞的理解這么準確的模型。”PJ Ace 說道。


“相信我,這次模型升級絕對驚艷!現在你可以生成的動態動作數量達到了新的高度。如果您想讓動作更快速,新模型在這方面完全勝任,動作看起來非常自然流暢。”網友 Travis Davids 說道。


一系列技術創新細節披露

“所有的這些能力提升,都離不開整個團隊背后的大量的技術創新。”張迪介紹,可靈 2.0 在基礎模型架構和訓練和推理策略上進行了全新的升級,這些工作使其打開了建模和仿真的能力空間。

可靈整體框架采用了類 Sora 的 DiT 結構,用 Transformer 代替了傳統擴散模型中基于卷積網絡的 U-Net。具體來說,可靈 2.0 在基礎模型上的架構升級包括:

  • 全新設計的 DiT 架構,提升視覺 / 文本模態信息融合能力。

  • 全新設計的 VAE,使復雜動態場景下過渡更順暢、質感更自然。

  • 首次系統性研究了視頻生成 DIT 架構的 Scaling Law 特性。

為解鎖更強的指令響應和運動表現,可靈 2.0 采用了以下訓練和推理策略:

  • 強化對于復雜運動、主體交互的生成能力提升視頻表現張力。

  • 強化對運鏡語言、構圖術語等專業表達的理解和響應能力。

  • 人類偏好對齊技術,讓模型更懂”常識”和“審美”。

據張迪透露,在可靈 AI 平臺上,85% 的視頻創作是通過圖生視頻完成的,這一方面說明了圖生視頻可以更好地表達用戶的創作意圖,另一方面也彰顯了圖片賦予整個視覺創作流的重要性。

此次升級的可圖 2.0 模型,在指令遵循、電影質感及藝術風格表現等方面作了顯著提升。 在風格化響應上,可圖 2.0 支持 60 多種風格化的效果轉繪,包括受大家喜愛的 GPT 風格、二次元風格、插畫風格、數字世界、3D 等,模型出圖創意和想象力實現因此大幅躍升。

而在可圖 2.0 背后,同樣暗含許多技術創新。張迪介紹稱,快手團隊在預訓練階段,通過精準建模預訓練文本到視覺表征的映射,使得文本和圖像的對齊做得更好;在后訓練階段,該模型更多地使用了強化學習技術來提升美感、對齊人類審美,并大量探索了后訓練階段的 Scaling Law;在推理階段,大量使用了全新的提示詞工程和推理策略,提升了出圖的穩定性和創造性。

視頻和圖像都能放進 prompt 了

“文字作為人去描述自己想象中的世界的媒介是不完備的,需要定義一個人和 AI 交互的新的語言,讓人的想象能夠被 AI 完全感知到。”蓋坤說道。

在一些場景里,文字很難準確描述出視頻內容,比如復雜的武打畫面,即使用很大篇幅的文字也難以準確描述。

為此,快手還在可靈 2.0 大師版上線了全新的多模態編輯功能,能靈活理解用戶意圖,支持對視頻和圖像內容實現增、刪、改元素。

具體可以看到,多模態編輯器中,可以將多模態的表達放進提示詞中,以實現更準備的修改。


此外,圖像多模態編輯具有風格重繪的能力,能夠對圖片可進行不同風格的重繪,且保持原圖片的語義。

在本次 2.0 模型迭代中,可靈 AI 正式提出了 AI 視頻生成的全新交互理念 Multi-modal Visual Language(MVL),即將語義骨架(TXT)和多模態描述子(MMW)結合,讓用戶能夠結合圖像參考、視頻片段等多模態信息,將腦海中的多維度復雜創意,直接高效地傳達給 AI。此次發布的多模態視頻編輯功能,正是基于 MVL 的思想所研發。

張迪介紹稱,多模態編輯功能背后是一整套多模態控制技術,快手目前在這方面迎來了很大的突破,包括以下三個方面:

  • 把文本模態、圖像模態和視覺模態進行了統一表征,并使用超長的上下文進行訓練;

  • 通過高效的 Token 壓縮與緩存算法,可以支持長序列的訓練和推理;

  • 在推理環節,使用了帶有 CoT 的多模態推理能力技術來理解用戶輸入的多模態信息。

結 語

截至目前,可靈 AI 全球用戶規模突破 2200 萬,過去的 10 個月里,其月活用戶量增長 25 倍,累計生成超過 1.68 億個視頻及 3.44 億張圖片。

張迪表示,在發布之初,快手便深知視頻生成技術賽道是一個長跑,為此可靈 AI 自發布后就進入了奪命狂奔模式,過去 10 個月時間里已經歷了 20 多次的產品迭代,發布了 9 個有里程碑意義的產品。可靈 1.0 于去年 6 月發布,是全球首個用戶真實可用的 DIT 架構的視頻政策大模型。

對于這一次的更新,可靈 AI 團隊給出了這樣的評價:“我們可以當之無愧的說,可靈 2.0 文生視頻模型是一個全球大幅領先的視頻模型。”

聲明:本文為 AI 前線整理,不代表平臺觀點,未經許可禁止轉載。

AICon 2025 強勢來襲,5 月上海站、6 月北京站,雙城聯動,全覽 AI 技術前沿和行業落地。大會聚焦技術與應用深度融合,匯聚 AI Agent、多模態、場景應用、大模型架構創新、智能數據基建、AI 產品設計和出海策略等話題。即刻掃碼購票,一同探索 AI 應用邊界!

今日薦文

你也「在看」嗎?

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中方給特朗普定了性,不會給他邀請函,并用半個月讓美國“出局”

中方給特朗普定了性,不會給他邀請函,并用半個月讓美國“出局”

說天說地說實事
2025-05-22 02:55:54
朱媛媛生病最后畫面曝光:坐病床上雙手合十,臉上長滿斑笑容憔悴

朱媛媛生病最后畫面曝光:坐病床上雙手合十,臉上長滿斑笑容憔悴

古希臘掌管月桂的神
2025-05-21 20:16:41
特朗普與南非總統,在白宮激烈爭執

特朗普與南非總統,在白宮激烈爭執

新京報政事兒
2025-05-22 07:38:15
日本再次獻祭?日債崩潰,美債最終由日本買單?廣場協議2.0來了

日本再次獻祭?日債崩潰,美債最終由日本買單?廣場協議2.0來了

掌青說歷史
2025-05-21 16:23:03
辛柏青同意曬朱媛媛生病照,公布妻子臨終狀態,實在太用心良苦!

辛柏青同意曬朱媛媛生病照,公布妻子臨終狀態,實在太用心良苦!

古希臘掌管月桂的神
2025-05-21 23:12:50
南京大學校慶日“校貓”被鋼珠打碎頭骨?學校保衛處:看了一夜監控,暫未鎖定嫌疑人

南京大學校慶日“校貓”被鋼珠打碎頭骨?學校保衛處:看了一夜監控,暫未鎖定嫌疑人

上游新聞
2025-05-21 17:55:22
NBA官宣:亞歷山大首次獲常規賽MVP 比肩杜蘭特威少隊史第3人

NBA官宣:亞歷山大首次獲常規賽MVP 比肩杜蘭特威少隊史第3人

醉臥浮生
2025-05-22 07:00:29
男子面試了一家公司,看到工位天塌了!網友: 牛馬槽子具象化了

男子面試了一家公司,看到工位天塌了!網友: 牛馬槽子具象化了

有趣的火烈鳥
2025-05-21 14:35:18
國際刑事法院尷尬了:中方帶領60國成立新組織,一國迅速宣布退群

國際刑事法院尷尬了:中方帶領60國成立新組織,一國迅速宣布退群

說天說地說實事
2025-05-21 21:05:58
特斯拉車主紛紛安裝DIY拉繩 避免事故時被全電動門圍困

特斯拉車主紛紛安裝DIY拉繩 避免事故時被全電動門圍困

cnBeta.COM
2025-05-21 19:29:16
福特之后,通用汽車也將停止從美國向中國出口汽車

福特之后,通用汽車也將停止從美國向中國出口汽車

環球網資訊
2025-05-21 11:56:03
突發!陳奕迅ins賬號刪掉有關其復活的帖子,引發網友熱議和不安

突發!陳奕迅ins賬號刪掉有關其復活的帖子,引發網友熱議和不安

火山詩話
2025-05-22 06:13:56
中方另起爐灶,拉60國成立國際組織,不到24小時,匈牙利宣布退群

中方另起爐灶,拉60國成立國際組織,不到24小時,匈牙利宣布退群

武事匯
2025-05-21 17:32:12
廣西被查貪官家中發現很多金磚?官方辟謠

廣西被查貪官家中發現很多金磚?官方辟謠

上觀新聞
2025-05-22 07:00:04
曼聯至暗時刻!英超第16+賽季恥辱四大皆空,近10年首次無緣歐戰

曼聯至暗時刻!英超第16+賽季恥辱四大皆空,近10年首次無緣歐戰

我愛英超
2025-05-22 05:33:44
世乒賽驚現冷門:世界冠軍遭逆轉,林詩棟逆襲雨果!

世乒賽驚現冷門:世界冠軍遭逆轉,林詩棟逆襲雨果!

世間一分鐘
2025-05-21 23:03:17
新華社消息|中方敦促美國停止將溯源問題政治化

新華社消息|中方敦促美國停止將溯源問題政治化

新華社
2025-05-21 10:05:21
美債雷聲滾滾,道指跌近2%!小鵬汽車大漲13%,文遠知行漲超20%!美元跳水,黃金漲超1%

美債雷聲滾滾,道指跌近2%!小鵬汽車大漲13%,文遠知行漲超20%!美元跳水,黃金漲超1%

每日經濟新聞
2025-05-22 07:07:05
四川一地發布艾滋病篩查通知!當地網友直言后怕,發展到哪一步了

四川一地發布艾滋病篩查通知!當地網友直言后怕,發展到哪一步了

火山詩話
2025-05-21 08:31:20
黃楊鈿甜的耳環值多少錢已經不重要了,她弟弟的事情才更嚴重

黃楊鈿甜的耳環值多少錢已經不重要了,她弟弟的事情才更嚴重

山客雜談
2025-05-20 21:30:30
2025-05-22 08:59:00
AI前線 incentive-icons
AI前線
面向AI愛好者、開發者和科學家,提供AI領域技術資訊。
856文章數 80關注度
往期回顧 全部

科技要聞

蘋果設計靈魂投奔OpenAI 十年淘汰iPhone?

頭條要聞

牛彈琴:特朗普在白宮當眾羞辱南非總統 馬斯克也在場

頭條要聞

牛彈琴:特朗普在白宮當眾羞辱南非總統 馬斯克也在場

體育要聞

32歲孫興慜哭成淚人:熱刺10年首冠 亞洲第5人

娛樂要聞

中國國家話劇院發訃告:沉痛悼念朱媛媛

財經要聞

中國,拋售美債!

汽車要聞

價格下調 2025聰明款ID.4 X限時13.99萬起

態度原創

教育
時尚
本地
家居
軍事航空

教育要聞

找雙坐標循環規律,求點的坐標!

今夏超流行這6種顏色,每一種都是顯白高手

本地新聞

云游中國 |重慶人手一只熊貓?四世同堂等你打卡

家居要聞

黑白簡約 見證平凡的蛻變

軍事要聞

巴基斯坦與印度互相驅逐對方一名外交官

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 衡阳市| 永新县| 丘北县| 屏东县| 南乐县| 托克托县| 陈巴尔虎旗| 揭西县| 商丘市| 南木林县| 昌都县| 涞水县| 平远县| 临夏市| 济南市| 土默特右旗| 佛学| 内黄县| 论坛| 林西县| 平阳县| 玉屏| 大荔县| 上林县| 兴仁县| 老河口市| 宁化县| 黎川县| 长子县| 康乐县| 康定县| 金寨县| 介休市| 东明县| 阿城市| 泉州市| 延庆县| 大化| 平和县| 上高县| 六枝特区|