網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

多模態(tài)干翻天了

2025-05-02 10:33:59　來源: 機(jī)器學(xué)習(xí)與Python社區(qū)

北京舉報

分享至

大家好，我是 i 學(xué)習(xí)的老章

最近 Qwen3 發(fā)布、DeepSeek-R2 也傳言即將發(fā)布，十分熱鬧。其實(shí)多模態(tài)方面，最近也非常熱鬧，只是熱度很一般。

本文，老章會近期發(fā)布的幾個多模態(tài)大模型做個梳理

感興趣的部分，大家可以深入看看

1、Magi-1 視頻生成大模型，推理成本低到后腳跟

Magi-1，首個實(shí)現(xiàn)頂級畫質(zhì)輸出的自回歸視頻生成模型，模型權(quán)重、代碼 100% 開源。此次開源了從 24B 到 4.5B 參數(shù)的一系列模型，最低配置一塊 4090 就能跑。

在線試玩：https://sand.ai/

項(xiàng)目地址：https://github.com/SandAI-org/MAGI-1

論文地址：https://static.magi.world/static/files/MAGI_1.pdf

模型文件：https://huggingface.co/sand-ai/MAGI-1/tree/main/ckpt/magi/

詳細(xì)介紹：

2、基于 Qwen2.5 架構(gòu)直出語音編碼

基于 Qwen2.5 架構(gòu)直出語音編碼，零樣本復(fù)刻任意人聲，中英文混合生成絲滑無界。無需專業(yè)設(shè)備/海量數(shù)據(jù)，即刻生成媲美真人的多語言語音。

項(xiàng)目：https://github.com/SparkAudio/Spark-TTS

論文：https://www.arxiv.org/abs/2503.01710

Demo：https://sparkaudio.github.io/spark-tts/

3、阿里視頻生成大模型 Wan2.1

Wan-AI 發(fā)布的 140 億參數(shù)的大型模型，用于 First-Last-Frame 到視頻生成。該模型能夠生成 5 秒鐘 720p 高清視頻，并因其創(chuàng)新方法而備受關(guān)注。它于 2025 年 4 月發(fā)布，并附帶推理代碼和權(quán)重。

項(xiàng)目：https://github.com/Wan-Video/Wan2.1

模型文件：https://modelscope.cn/organization/Wan-AI

技術(shù)文件：https://arxiv.org/abs/2503.20314

4、騰訊混元視頻生成

不算新模型了，看到一個最近的項(xiàng)目是基于騰訊混元，才發(fā)現(xiàn)騰訊在這方面也有干貨

FramePack 是一種漸進(jìn)式生成視頻的下一幀預(yù)測神經(jīng)網(wǎng)絡(luò)架構(gòu)，通過將輸入上下文壓縮至恒定長度，使生成工作量與視頻時長無關(guān)。該架構(gòu)即便在筆記本電腦 GPU 上，也能用 130 億參數(shù)模型處理超長幀序列。

Project Page：https://lllyasviel.github.io/frame_pack_gitpage/

Paper：https://lllyasviel.github.io/frame_pack_gitpage/pack.pdf

Code：https://github.com/lllyasviel/FramePack?tab=readme-ov-file

混元圖像轉(zhuǎn)視頻模型（基于混元視頻的可定制圖像轉(zhuǎn)視頻模型）：https://github.com/Tencent/HunyuanVideo-I2V

混元大型視頻生成模型的系統(tǒng)框架：https://github.com/Tencent/HunyuanVideo

模型文件：https://huggingface.co/tencent/HunyuanVideo

官方介紹+Demo：https://aivideo.hunyuan.tencent.com/

然后還發(fā)現(xiàn)騰訊還有 3D 視頻大模型

官網(wǎng)：https://3d.hunyuan.tencent.com/

3D 模型文件：https://huggingface.co/tencent/Hunyuan3D-2

在線試玩：https://huggingface.co/spaces/tencent/Hunyuan3D-2

5、文本到圖像模型

HiDream-I1是一款全新的開源圖像生成基礎(chǔ)模型，擁有 170 億參數(shù)，能在數(shù)秒內(nèi)實(shí)現(xiàn)頂尖的圖像生成質(zhì)量。HiDream-ai/HiDream-I1-Full: 文本到圖像模型，HiDream 的新模型，生成質(zhì)量非常好

試玩：https://vivago.ai/home

GitHub：https://github.com/HiDream-ai/HiDream-I1

模型文件：https://huggingface.co/spaces/HiDream-ai/HiDream-E1-Full

6、阿里 Qwen2.5-VL

也不算新，最近有模型更新

阿里開源的旗艦視覺語言模型，在視覺理解方面表現(xiàn)出色，能夠識別常見物體，分析圖像中的文本、圖表等元素。在視頻處理上，Qwen2.5-VL 能夠理解超過 1 小時的長視頻，精準(zhǔn)定位相關(guān)片段捕捉事件。模型還支持發(fā)票、表單等數(shù)據(jù)的結(jié)構(gòu)化輸出。

部署教程：

模型文件：https://modelscope.cn/models/Qwen/Qwen2.5-VL-7B-Instruct/files

技術(shù)文件：https://qwenlm.github.io/blog/qwen2.5-vl/

項(xiàng)目地址：https://github.com/QwenLM/Qwen2.5-VL

最后再推薦一個我正在學(xué)習(xí)的課程：

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.