網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請入駐

智駕公司下場搞AI視頻生成，模型上線即開源

2024-12-18 12:26:25　來源: AI好好用

北京舉報(bào)

分享至

AI好好用報(bào)道

編輯：楊文

人人免費(fèi)可用。

大洋彼岸，兩大巨頭 OpenAI 和谷歌輪番炸場。

一個(gè)發(fā)布了那個(gè)傳說中的 Sora，一個(gè)推出了最強(qiáng)視頻生成模型 Veo2。

不過，每月 200 美金的 Sora 上線即翻車，而好評(píng)不斷的 Veo 2 則尚未對公眾開放。

與他們相比，國內(nèi)這家視頻大模型公司顯得尤為豪橫，直接大手一揮，將自家模型開源了。

12 月 17 日，圖森未來發(fā)布了一款圖生視頻的開源大模型，名字很中國風(fēng)，叫 Ruyi（如意）。

同時(shí)，他們還將 Ruyi-Mini-7B 版本正式開源，網(wǎng)友們現(xiàn)在就可以去 Hugging Face 上下載使用。

Hugging Face 模型鏈接：

https://huggingface.co/IamCreateAI/Ruyi-Mini-7B

GitHub 代碼鏈接：

https://github.com/IamCreateAI/Ruyi-Models

為了讓網(wǎng)友們能夠快速上手，他們還提供了部署說明和 ComfyUI 工作流，網(wǎng)友只需在消費(fèi)級(jí)顯卡（例如 RTX 4090）上運(yùn)行即可。

不要錢就能上手玩，Ruyi 效果究竟如何？我們先放幾個(gè)官方 demo。

頭戴耳機(jī)的女孩眼神自然流轉(zhuǎn)：

宇航員漫步在荒涼的月球：

還有忽閃著大眼睛的動(dòng)漫角色：

以及海浪拍打著礁石：

看著效果還挺 OK，接下來我們親自上手評(píng)測一番。

一張圖片直出 5 秒視頻

Ruyi 是圖森未來正式發(fā)布的第一款「圖生視頻」模型。

無需輸入提示詞，只要上傳一張圖片，Ruyi 就能生成一段最高分辨率 720P、時(shí)長 5 秒的視頻。

它支持任意長寬比，會(huì)根據(jù)「喂」給它的圖片生成相應(yīng)尺寸的視頻。

（動(dòng)圖：16:9 尺寸）

（動(dòng)圖：9:16 尺寸）

Ruyi 還支持最多 5 個(gè)起始幀、最多 5 個(gè)結(jié)束幀基礎(chǔ)上的視頻生成，通過循環(huán)疊加可以生成任意長度的視頻。

此外，Ruyi 提供了 4 檔運(yùn)動(dòng)幅度控制，方便創(chuàng)作者對整體畫面的變化程度進(jìn)行控制。

以及上、下、左、右、靜止 5 種鏡頭控制。

接下來，我們將從寫實(shí)風(fēng)格、影視劇照、動(dòng)畫風(fēng)格、動(dòng)物、風(fēng)景等 5 個(gè)維度進(jìn)行測評(píng)。

寫實(shí)風(fēng)格

寫實(shí)風(fēng)格是評(píng)價(jià)視頻生成模型性能的關(guān)鍵指標(biāo)之一。

這是因?yàn)樗竽Ｐ湍軌蚓珳?zhǔn)捕捉并再現(xiàn)現(xiàn)實(shí)世界中的細(xì)節(jié)，包括人物面部表情、光影效果、物體材質(zhì)等。

我們先上傳了一張 AI 生成的寫實(shí)人物圖片，再讓 Ruyi 將其轉(zhuǎn)為視頻。

視頻中，金發(fā)女郎微微抬頭并輕晃身體，形象保持了一致性，面部表情也沒崩。

我們又丟給它一張韓國影星金敏喜的真人照片，在生成的 3 秒視頻中，Ruyi 對于人物面部識(shí)別和細(xì)節(jié)拿捏得還挺到位。

影視劇照

我們再來看看 Ruyi「拍」電影鏡頭的水平。

在 Ruyi 一頓操作下，《老友記》中身著紅衣的莫妮卡似乎在和某人進(jìn)行對話。

畫面色彩豐富，很有美感，動(dòng)作幅度也較大。

還有《公主日記》中的安妮?海瑟薇，如果不加以說明，Ruyi 生成的視頻甚至能「以假亂真」。

動(dòng)畫風(fēng)格

與其他模型類似，Ruyi 還很擅長生成動(dòng)畫卡通風(fēng)格的視頻。

比如這只皮克斯風(fēng)格的臘腸犬，眼神凌厲，搖頭晃腦：

還有卡通風(fēng)格的擬人小兔，邁著八字步緩緩走來，雖然運(yùn)動(dòng)幅度較大，但畫面很穩(wěn)定，動(dòng)作流暢絲滑。

動(dòng)物

僅需一張小狗的圖片，連提示詞都省了，Ruyi 就能讓靜態(tài)的小狗變得活靈活現(xiàn)。

在下面這則小貓的生成視頻中，扭頭動(dòng)作倒也連貫逼真。

風(fēng)景

水流的動(dòng)態(tài)涉及到流體動(dòng)力學(xué)的原理，AI 模型需要能夠理解和模擬水流的運(yùn)動(dòng)，包括水流的速度、方向等。

Ruyi 呈現(xiàn)了一個(gè)微風(fēng)吹過，湖面泛起陣陣漣漪的畫面。其細(xì)節(jié)之處在于水波的紋理、陽光照在水面的光影以及水流與巖石碰撞時(shí)產(chǎn)生的回流。

下面這則視頻是 Ruyi 模擬攝像機(jī)緩慢推進(jìn)鏡頭的場景。

畫面沿著馬路向前延伸，遠(yuǎn)處的行道樹逐漸逼近，很有紀(jì)錄片的感覺。

總體來看，Ruyi 的圖生視頻在畫面一致性、動(dòng)作流暢性以及真實(shí)性上表現(xiàn)還不錯(cuò)，不過仍存在手部畸形、多人時(shí)面部細(xì)節(jié)崩壞、不可控轉(zhuǎn)場等問題。

智駕公司「半路出家」搞生成式 AI

實(shí)際上，圖森未來曾是一家正兒八經(jīng)的智能駕駛公司。

不過今年 8 月 15 日，這家公司突然宣布進(jìn)軍動(dòng)畫與視頻游戲市場，并成立「生成式 AI」新業(yè)務(wù)部門。

據(jù)官方稱，此舉是為了充分利用圖森在自動(dòng)駕駛領(lǐng)域的技術(shù)積累，探索下一個(gè)商業(yè)化機(jī)會(huì)。

該公司認(rèn)為，他們在自動(dòng)駕駛領(lǐng)域的技術(shù)優(yōu)勢可以轉(zhuǎn)化為 AI 生成領(lǐng)域的競爭力，做自動(dòng)駕駛時(shí)所積累的 AI 基礎(chǔ)設(shè)施和工具、大規(guī)模數(shù)據(jù)處理能力以及模型訓(xùn)練優(yōu)化經(jīng)驗(yàn)等可以直接轉(zhuǎn)換到大模型訓(xùn)練上。

而最佳應(yīng)用場景又是孵化生成式 AI 工具的原動(dòng)力，于是他們盯上了動(dòng)漫和游戲產(chǎn)業(yè)，試圖利用大模型降低動(dòng)漫和游戲內(nèi)容的開發(fā)周期和開發(fā)成本。

短短 4 個(gè)月時(shí)間，圖森就搞出了圖生視頻模型 Ruyi。

除了模型開源外，圖生未來研發(fā)團(tuán)隊(duì)還揭秘了背后的模型架構(gòu)和訓(xùn)練方式。

作為 Sora 的「幕后功臣」，DiT 架構(gòu)在近幾年逐漸流行起來。

Ruyi 也是一個(gè)基于 DiT 架構(gòu)的圖生視頻模型。它由兩部分構(gòu)成：一個(gè) Casual VAE 模塊負(fù)責(zé)視頻數(shù)據(jù)的壓縮和解壓，一個(gè) Diffusion Transformer 負(fù)責(zé)壓縮后的視頻生成。

其中 Casual VAE 模塊會(huì)將空間分辨率壓縮至 1/8，時(shí)間分辨率壓縮至 1/4，壓縮后每個(gè)像素由 16 位的 BF16 進(jìn)行表示。

DiT 部分使用 3D full attention，在空間上使用 2D RoPE 進(jìn)行位置編碼，時(shí)間上使用 sin_cos 進(jìn)行位置編碼，最終的 loss 選用了 DDPM 進(jìn)行訓(xùn)練。

模型的總參數(shù)量約為 7.1B，使用了約 200M 個(gè)視頻片段進(jìn)行訓(xùn)練。

雖然與其他視頻生成模型相比，Ruyi 發(fā)布似乎慢了一拍，功能也相對單一，但畢竟目前開源免費(fèi)。

對于后續(xù)的技術(shù)路線和功能升級(jí)，圖森未來也有規(guī)劃。

他們將在 2025 年推出 Ruyi Standard 閉源模型和一系列 ACG-GEN 工具，滿足專業(yè)內(nèi)容制作團(tuán)隊(duì)的需求。

（ACG 是英文「Anime,Comics and Games」詞組的縮寫，意為動(dòng)畫、漫畫和游戲）

到 2026 年則發(fā)布最強(qiáng)性能版本，支持強(qiáng)大語義理解能力和多條件可控生成。

對此，你有什么看法？來評(píng)論區(qū)聊聊吧。

? THE END

轉(zhuǎn)載請聯(lián)系本公眾號(hào)獲得授權(quán)

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.