4月15日,快手旗下的可靈AI宣布基座模型再次升級,正式發布可靈2.0視頻生成模型及可圖2.0圖像生成模型。
快手高級副總裁、社區科學線負責人蓋坤在可靈2.0模型發布會上介紹,可靈2.0大師版在語義響應、動態質量、畫面美學等方面顯著提升生成效果。可靈2.0大師版全面升級視頻及圖像創作可控生成與編輯能力,上線全新的多模態視頻編輯功能,能靈活理解用戶意圖,支持對視頻內容實現增、刪、改。
可靈AI2.0到底有多“靈”?我們一起來一探究竟!
語義響應能力顯著提升
可靈2.0在語義響應方面取得了顯著進步。其能夠更精準地理解用戶輸入的文本指令,并生成與之高度匹配的視頻或圖像內容。這意味著,用戶可以通過更自然、更復雜的語言描述來指導AI創作,從而獲得更符合預期的作品。
例如,用戶可以詳細描述一個場景的氛圍、角色的動作和情感,可靈2.0能夠準確地將這些元素融入生成的內容中。
“男人先是開心地笑著,突然變得憤怒,手錘桌子起身。”動態質量優化
在動態質量方面,可靈2.0實現了質的飛躍。其生成的視頻在運動流暢性、時序連貫性和運鏡效果上都有了顯著提升。無論是復雜的動作場景還是細膩的情感表達,可靈2.0都能以更自然、更逼真的方式呈現。
“恐龍朝著鏡頭沖過來,運動模糊,鏡頭抖動。”畫面質感升級
可靈2.0在畫面質感上也進行了全面優化。其生成的圖像和視頻在色彩、光影效果和細節表現上更加出色。可圖2.0圖像生成模型在指令遵循、電影質感及藝術風格表現等方面也顯著提升,能夠生成具有電影級質感的圖像。
“女孩從靜坐在公園長椅上,到慢慢走出畫面,晨光逐漸轉為正午烈日再過渡至暮色,天空色彩從粉橙漸變為湛藍再轉為紫紅,來往行人形成流動的虛影軌跡固定鏡頭,突出光影在長椅木紋上的緩慢爬行,飄落的樹葉在長椅下堆積又隨風卷起。”
據了解,當前視頻生成主要分文生視頻和圖生視頻兩種,快手副總裁、可靈AI負責人張迪就披露,85%的視頻創作通過圖生視頻完成。
而在蓋坤的演示中,通過MVL方式,用戶能夠結合圖像參考、視頻片段等多模態信息,將腦海中的多維度復雜創意傳達給AI,而不僅僅是文字的提示語句。
“一個吟游貓詩人,在酒館中,唱著屬于自己的故事,而且,彈吉他的手,還會按和弦。”
“一個看著專業但是卻是菜雞的跳水。”
“女孩剛進行完一場演出,向大家,誠懇的鞠了一躬。”
“第一視角,在開車,是真實的開車。”
“輕聲哭泣的外星人。”
有網友評論稱:
“看完可靈2.0發布會,我身邊形成了激進派和保守派,激進派覺得可靈2.0已經是世界領先了,保守派覺得激進派太保守了……”
“可靈的使用感至少是top3。”
“這甚至比導演拍得還好。”
“可靈生成視頻的功能可靈了”
“AI進步太快了。”
還有X上的網友稱,“可以拿來做短劇了。”
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.