作者|沐風
來源|AI先鋒官
2月25日晚間,阿里旗下的通義萬相2.1視頻生成模型基于Apache2.0協議,全面開源14B和1.3B兩個參數規格的推理代碼和權重,同時支持文生視頻和圖生視頻任務。
資料顯示,阿里云從2023年開始就堅定大模型開源路線,其千問(Qwen)衍生模型數量已超過10萬個。
隨著萬相的開源,阿里云實現了全模態、全尺寸大模型的開源。
值得一提的是,在今年1月份阿里云才剛剛宣布推出萬相2.1版本模型。
在視頻生成方面,萬相2.1通過自研的高效VAE和DiT架構增強了時空上下文建模能力,支持無限長1080P視頻的高效編解碼,首次實現了中文文字視頻生成功能。
在DiT的設計中,全新通義萬相使用時空全注意機制,讓模型能夠更準確地模擬現實世界的復雜動態;團隊還引入了參數共享機制,不僅提升了模型的性能,還有效降低了訓練成本。
此外,針對文本的嵌入進行優化,實現更優的文本可控性的同時也減少了計算需求。
在VAE方面,通義萬相設計了一種創新的視頻編解碼方案,通過將視頻拆分成若干塊(Chunk)并緩存中間特征的方式,代替直接對長視頻的E2E編解碼過程,實現顯存的使用與原始視頻長度無關,從而能夠支持無限長1080P視頻的高效編解碼,這一關鍵技術為任意時長視頻的訓練提供了新的路徑。
同時,萬相2.1還登上了VBench榜單第一名。
VBench是視頻生成領域的權威評測集,它一共有16個評分維度,從整體一致性、動作流暢度、畫面穩定性等方面對模型進行全方位評估。
根據VBench評測榜單顯示,萬相2.1在運動幅度、多對象生成、空間關系等關鍵能力上拿下最高分,總分84.7%。
排名超越混元、海螺AI、Gen3、Pika等國內外視頻生成模型。
既然如此,不如就讓萬相2.1與我們的老朋友“可靈”PK一下。
萬相2.1分為兩個版本,分別為“極速版”和“專業版”,極速版生成視頻速度更快,而專業版生成的視頻品質更高,只不過速度是相當的慢,一個視頻大概要3個小時組左右才能生成。
小編選擇的是萬相2.1極速版。
提示詞: 固定鏡頭,卡皮巴拉用刀切魚,第一刀切下去,魚頭魚身被一刀兩段,接著第二刀把魚身切成塊,動作絲滑連貫不卡頓,不變形,不繃潰。
萬相2.1
可靈AI
很明顯它倆都不知道“卡皮巴拉”到底是什么,但相比較,可靈AI比萬相2.1對提示詞的理解也只是稍微好了一點點,雖然萬相2.1并沒有切對地方,但是最起碼切下來了,反觀可靈AI,它卻切了個寂寞。
不過別著急,我們再來一個。
提示詞:一只橙色小貓,穿著它的小黃雨衣和靴子,正像普通顧客一樣坐在一家舒適的咖啡館里的小椅子上,它面前的一小杯熱牛奶冒著熱氣,它的小傘斜靠在桌子上。透過咖啡館的窗戶,雨滴在玻璃上劃出一道道痕跡,外面的城市燈火通明。這只貓漫不經心地瞥了一眼攤在桌上的報紙,假裝在讀,而其他顧客則偷偷地饒有興趣地打量著這只異常的小貓。
萬相2.1
可靈AI
在萬相2.1生成的視頻中除了未生成雨傘和其他顧客外基本符合提示詞,只不過畫面略微顯得有些僵硬。
可靈AI則未生成牛奶、雨傘,有一個小細節,視頻中的玻璃上還倒映出了小貓的影子,只不過倒影中小貓生成的似乎并不正確。
提示詞: 高質量的視頻作品,汽車在沙漠中疾馳,鏡頭由遠到近
萬相2.1
可靈AI
可以看出來,萬相2.1確實是按照提示詞生成的,但他并沒有像可靈AI一樣考慮到在物理效果,而可靈AI又并沒有做到提示詞中的運鏡效果。
可以說,它倆真是半斤對八兩,不分上下。
提示詞: 逆光拍攝冰瀑透出朝陽金芒,特寫鏡頭記錄冰棱尖端融水滴落的慢動作,Phantom TMX 7510 8K超高速攝影。
萬相2.1
可靈AI
萬相2.1和可靈AI的視頻簡直截然相反,萬相2.1視頻中的水滴像是靜止了一樣,而可靈AI視頻中又像水龍頭一樣流個不停。
與之相比,小編還是更喜歡萬相2.1生成的視頻。
-5-
提示詞:平拍一位女性花樣滑冰運動員在冰場上進行表演的全景。她穿著紫色的滑冰服,腳踩白色的滑冰鞋,正在進行一個旋轉動作。她的手臂張開,身體向后傾斜。
萬相2.1
可靈AI
可以看到,萬相2.1視頻中的運動員出現了崩壞的現象,可靈AI的運動員雖然動作并未按照提示詞進行,但整體畫面來看還是不錯的。
小編又用萬相2.1專業版生成了一版。
漫長的3小時過后......
相比極速版,專業版更能精準理解語義,同時也能保持肢體協調并符合正常運動軌跡,但仔細看還有會有些許瑕疵。
總體下來,萬相2.1極速版的生成速度要比可靈AI更快,更加遵循提示詞,但在物理規律上稍遜可靈AI。
目前萬相2.1已全面開放,用戶可在通義萬相官網直接免費使用,全球開發者也可在Github、HuggingFace和魔搭社區下載其開源模型體驗。
掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。
往期文章回顧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.