AI好好用報(bào)道
編輯:楊文
人人免費(fèi)可用。
大洋彼岸,兩大巨頭 OpenAI 和谷歌輪番炸場。
一個(gè)發(fā)布了那個(gè)傳說中的 Sora,一個(gè)推出了最強(qiáng)視頻生成模型 Veo2。
不過,每月 200 美金的 Sora 上線即翻車,而好評(píng)不斷的 Veo 2 則尚未對公眾開放。
與他們相比,國內(nèi)這家視頻大模型公司顯得尤為豪橫,直接大手一揮,將自家模型開源了。
12 月 17 日,圖森未來發(fā)布了一款圖生視頻的開源大模型,名字很中國風(fēng),叫 Ruyi(如意)。
同時(shí),他們還將 Ruyi-Mini-7B 版本正式開源,網(wǎng)友們現(xiàn)在就可以去 Hugging Face 上下載使用。
Hugging Face 模型鏈接:
https://huggingface.co/IamCreateAI/Ruyi-Mini-7B
GitHub 代碼鏈接:
https://github.com/IamCreateAI/Ruyi-Models
為了讓網(wǎng)友們能夠快速上手,他們還提供了部署說明和 ComfyUI 工作流,網(wǎng)友只需在消費(fèi)級(jí)顯卡(例如 RTX 4090)上運(yùn)行即可。
不要錢就能上手玩,Ruyi 效果究竟如何?我們先放幾個(gè)官方 demo。
頭戴耳機(jī)的女孩眼神自然流轉(zhuǎn):
宇航員漫步在荒涼的月球:
還有忽閃著大眼睛的動(dòng)漫角色:
以及海浪拍打著礁石:
看著效果還挺 OK,接下來我們親自上手評(píng)測一番。
一張圖片直出 5 秒視頻
Ruyi 是圖森未來正式發(fā)布的第一款「圖生視頻」模型。
無需輸入提示詞,只要上傳一張圖片,Ruyi 就能生成一段最高分辨率 720P、時(shí)長 5 秒的視頻。
它支持任意長寬比,會(huì)根據(jù)「喂」給它的圖片生成相應(yīng)尺寸的視頻。
(動(dòng)圖:16:9 尺寸)
(動(dòng)圖:9:16 尺寸)
Ruyi 還支持最多 5 個(gè)起始幀、最多 5 個(gè)結(jié)束幀基礎(chǔ)上的視頻生成,通過循環(huán)疊加可以生成任意長度的視頻。
此外,Ruyi 提供了 4 檔運(yùn)動(dòng)幅度控制,方便創(chuàng)作者對整體畫面的變化程度進(jìn)行控制。
以及上、下、左、右、靜止 5 種鏡頭控制。
接下來,我們將從寫實(shí)風(fēng)格、影視劇照、動(dòng)畫風(fēng)格、動(dòng)物、風(fēng)景等 5 個(gè)維度進(jìn)行測評(píng)。
寫實(shí)風(fēng)格
寫實(shí)風(fēng)格是評(píng)價(jià)視頻生成模型性能的關(guān)鍵指標(biāo)之一。
這是因?yàn)樗竽P湍軌蚓珳?zhǔn)捕捉并再現(xiàn)現(xiàn)實(shí)世界中的細(xì)節(jié),包括人物面部表情、光影效果、物體材質(zhì)等。
我們先上傳了一張 AI 生成的寫實(shí)人物圖片,再讓 Ruyi 將其轉(zhuǎn)為視頻。
視頻中,金發(fā)女郎微微抬頭并輕晃身體,形象保持了一致性,面部表情也沒崩。
我們又丟給它一張韓國影星金敏喜的真人照片,在生成的 3 秒視頻中,Ruyi 對于人物面部識(shí)別和細(xì)節(jié)拿捏得還挺到位。
影視劇照
我們再來看看 Ruyi「拍」電影鏡頭的水平。
在 Ruyi 一頓操作下,《老友記》中身著紅衣的莫妮卡似乎在和某人進(jìn)行對話。
畫面色彩豐富,很有美感,動(dòng)作幅度也較大。
還有《公主日記》中的安妮?海瑟薇,如果不加以說明,Ruyi 生成的視頻甚至能「以假亂真」。
動(dòng)畫風(fēng)格
與其他模型類似,Ruyi 還很擅長生成動(dòng)畫卡通風(fēng)格的視頻。
比如這只皮克斯風(fēng)格的臘腸犬,眼神凌厲,搖頭晃腦:
還有卡通風(fēng)格的擬人小兔,邁著八字步緩緩走來,雖然運(yùn)動(dòng)幅度較大,但畫面很穩(wěn)定,動(dòng)作流暢絲滑。
動(dòng)物
僅需一張小狗的圖片,連提示詞都省了,Ruyi 就能讓靜態(tài)的小狗變得活靈活現(xiàn)。
在下面這則小貓的生成視頻中,扭頭動(dòng)作倒也連貫逼真。
風(fēng)景
水流的動(dòng)態(tài)涉及到流體動(dòng)力學(xué)的原理,AI 模型需要能夠理解和模擬水流的運(yùn)動(dòng),包括水流的速度、方向等。
Ruyi 呈現(xiàn)了一個(gè)微風(fēng)吹過,湖面泛起陣陣漣漪的畫面。其細(xì)節(jié)之處在于水波的紋理、陽光照在水面的光影以及水流與巖石碰撞時(shí)產(chǎn)生的回流。
下面這則視頻是 Ruyi 模擬攝像機(jī)緩慢推進(jìn)鏡頭的場景。
畫面沿著馬路向前延伸,遠(yuǎn)處的行道樹逐漸逼近,很有紀(jì)錄片的感覺。
總體來看,Ruyi 的圖生視頻在畫面一致性、動(dòng)作流暢性以及真實(shí)性上表現(xiàn)還不錯(cuò),不過仍存在手部畸形、多人時(shí)面部細(xì)節(jié)崩壞、不可控轉(zhuǎn)場等問題。
智駕公司「半路出家」搞生成式 AI
實(shí)際上,圖森未來曾是一家正兒八經(jīng)的智能駕駛公司。
不過今年 8 月 15 日,這家公司突然宣布進(jìn)軍動(dòng)畫與視頻游戲市場,并成立「生成式 AI」新業(yè)務(wù)部門。
據(jù)官方稱,此舉是為了充分利用圖森在自動(dòng)駕駛領(lǐng)域的技術(shù)積累,探索下一個(gè)商業(yè)化機(jī)會(huì)。
該公司認(rèn)為,他們在自動(dòng)駕駛領(lǐng)域的技術(shù)優(yōu)勢可以轉(zhuǎn)化為 AI 生成領(lǐng)域的競爭力,做自動(dòng)駕駛時(shí)所積累的 AI 基礎(chǔ)設(shè)施和工具、大規(guī)模數(shù)據(jù)處理能力以及模型訓(xùn)練優(yōu)化經(jīng)驗(yàn)等可以直接轉(zhuǎn)換到大模型訓(xùn)練上。
而最佳應(yīng)用場景又是孵化生成式 AI 工具的原動(dòng)力,于是他們盯上了動(dòng)漫和游戲產(chǎn)業(yè),試圖利用大模型降低動(dòng)漫和游戲內(nèi)容的開發(fā)周期和開發(fā)成本。
短短 4 個(gè)月時(shí)間,圖森就搞出了圖生視頻模型 Ruyi。
除了模型開源外,圖生未來研發(fā)團(tuán)隊(duì)還揭秘了背后的模型架構(gòu)和訓(xùn)練方式。
作為 Sora 的「幕后功臣」,DiT 架構(gòu)在近幾年逐漸流行起來。
Ruyi 也是一個(gè)基于 DiT 架構(gòu)的圖生視頻模型。它由兩部分構(gòu)成:一個(gè) Casual VAE 模塊負(fù)責(zé)視頻數(shù)據(jù)的壓縮和解壓,一個(gè) Diffusion Transformer 負(fù)責(zé)壓縮后的視頻生成。
其中 Casual VAE 模塊會(huì)將空間分辨率壓縮至 1/8,時(shí)間分辨率壓縮至 1/4,壓縮后每個(gè)像素由 16 位的 BF16 進(jìn)行表示。
DiT 部分使用 3D full attention,在空間上使用 2D RoPE 進(jìn)行位置編碼,時(shí)間上使用 sin_cos 進(jìn)行位置編碼,最終的 loss 選用了 DDPM 進(jìn)行訓(xùn)練。
模型的總參數(shù)量約為 7.1B,使用了約 200M 個(gè)視頻片段進(jìn)行訓(xùn)練。
雖然與其他視頻生成模型相比,Ruyi 發(fā)布似乎慢了一拍,功能也相對單一,但畢竟目前開源免費(fèi)。
對于后續(xù)的技術(shù)路線和功能升級(jí),圖森未來也有規(guī)劃。
他們將在 2025 年推出 Ruyi Standard 閉源模型和一系列 ACG-GEN 工具,滿足專業(yè)內(nèi)容制作團(tuán)隊(duì)的需求。
(ACG 是英文「Anime,Comics and Games」詞組的縮寫,意為動(dòng)畫、漫畫和游戲)
到 2026 年則發(fā)布最強(qiáng)性能版本,支持強(qiáng)大語義理解能力和多條件可控生成。
對此,你有什么看法?來評(píng)論區(qū)聊聊吧。
? THE END
轉(zhuǎn)載請聯(lián)系本公眾號(hào)獲得授權(quán)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.