快手最新發布的國產視頻生成大模型“可靈”,采用了類似Sora的技術路線,并結合多項自研技術創新,能夠生成時長超過120秒、分辨率高達1080p的視頻,且能夠精準建模復雜運動和物理特性。
主要功能特點
1. 高質量視頻生成
時長和幀率:可靈支持生成長達2分鐘的30fps超長視頻。
分辨率:生成視頻的分辨率高達1080p,畫質清晰細膩。
寬高比:支持多種寬高比的視頻生成,包括豎版視頻,適配不同的使用場景和平臺。
2. 物理世界模擬
真實物理特性:可靈大模型能夠模擬真實世界的物理特性,例如重力、光影反射、液體流動等。
細節刻畫:對于物體的運動、表面反射、影子變化等細節刻畫非常到位,提供真實的視覺體驗。
3. 復雜運動刻畫
精準運動建模:能夠準確建模復雜且大幅度的運動場景,例如高速奔跑的動物、在月球上行走的宇航員等。
4. 多種控制信息輸入
控制信息輸入:支持用戶輸入相機運鏡、幀率、邊緣/關鍵點/深度等控制信息,提供豐富的內容控制能力。
文本提示詞優化:設計了專用的語言模型,可以對用戶輸入的提示詞進行高質量擴充及優化,提升生成效果。
技術實現
1. 模型設計
類Sora架構:采用了類Sora的DiT結構,用Transformer代替傳統擴散模型中的卷積網絡,提升生成能力和擴展性。
3D VAE網絡:自研3D VAE網絡,實現時空同步壓縮,提升視頻重建質量。
全注意力機制:設計了3D Attention機制進行時空建模,能夠準確建模復雜時空運動,同時兼顧計算效率。
2. 數據保障
標簽體系:構建了完備的標簽體系,對訓練數據進行精細化篩選和調整,確保視頻數據的高質量。
視頻描述模型:研發了視頻描述模型,生成精確、詳盡、結構化的視頻描述,提高文本指令響應能力。
3. 計算效率
分布式訓練集群:使用分布式訓練集群,通過算子優化、重算策略優化等手段,大幅提升硬件利用率。
分階段訓練策略:采取分階段訓練策略,先在低分辨率階段通過大量數據增強模型能力,再在高分辨率階段提升細節表現。
Kling vs Sora
1. 螞蟻在螞蟻巢內部導航的 POV 鏡頭
2. 吃漢堡比賽
3. 一只白色和橙色的虎斑胡同貓在大雨中飛奔穿過后街小巷,尋找庇護所
4. 逼真的特寫視頻,兩艘海盜船在一杯咖啡中航行時相互搏斗
5. 動畫場景的特寫鏡頭是一個矮小的毛茸茸的怪物跪在融化的紅蠟燭旁邊
6.電影預告片,講述了30歲太空人戴著紅色羊毛針織摩托車頭盔的冒險經歷,藍天,鹽沙漠,電影風格,用35mm膠片拍攝,色彩鮮艷
7.一個20多歲的年輕人坐在天空中的一片云朵上,看書
8. 淘金熱期間加利福尼亞的歷史鏡頭
這效果怎么樣,和sora比較起來你們覺得的如何?留言探討!
▲ 滑動查看往期內容?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.