大家好,我是 i 學習的老章
最近 Qwen3 發(fā)布、DeepSeek-R2 也傳言即將發(fā)布,十分熱鬧。其實多模態(tài)方面,最近也非常熱鬧,只是熱度很一般。
本文,老章會近期發(fā)布的幾個多模態(tài)大模型做個梳理
感興趣的部分,大家可以深入看看
1、Magi-1 視頻生成大模型,推理成本低到后腳跟
Magi-1,首個實現(xiàn)頂級畫質(zhì)輸出的自回歸視頻生成模型,模型權(quán)重、代碼 100% 開源。此次開源了從 24B 到 4.5B 參數(shù)的一系列模型,最低配置一塊 4090 就能跑。
在線試玩:https://sand.ai/
項目地址:https://github.com/SandAI-org/MAGI-1
論文地址:https://static.magi.world/static/files/MAGI_1.pdf
模型文件:https://huggingface.co/sand-ai/MAGI-1/tree/main/ckpt/magi/
詳細介紹:
2、基于 Qwen2.5 架構(gòu)直出語音編碼
基于 Qwen2.5 架構(gòu)直出語音編碼,零樣本復刻任意人聲,中英文混合生成絲滑無界。無需專業(yè)設(shè)備/海量數(shù)據(jù),即刻生成媲美真人的多語言語音。
項目:https://github.com/SparkAudio/Spark-TTS
論文:https://www.arxiv.org/abs/2503.01710
Demo:https://sparkaudio.github.io/spark-tts/
3、阿里視頻生成大模型 Wan2.1
Wan-AI 發(fā)布的 140 億參數(shù)的大型模型,用于 First-Last-Frame 到視頻生成。該模型能夠生成 5 秒鐘 720p 高清視頻,并因其創(chuàng)新方法而備受關(guān)注。它于 2025 年 4 月發(fā)布,并附帶推理代碼和權(quán)重。
項目:https://github.com/Wan-Video/Wan2.1
模型文件:https://modelscope.cn/organization/Wan-AI
技術(shù)文件:https://arxiv.org/abs/2503.20314
4、騰訊混元視頻生成
不算新模型了,看到一個最近的項目是基于騰訊混元,才發(fā)現(xiàn)騰訊在這方面也有干貨
FramePack 是一種漸進式生成視頻的下一幀預測神經(jīng)網(wǎng)絡(luò)架構(gòu),通過將輸入上下文壓縮至恒定長度,使生成工作量與視頻時長無關(guān)。該架構(gòu)即便在筆記本電腦 GPU 上,也能用 130 億參數(shù)模型處理超長幀序列。
Project Page:https://lllyasviel.github.io/frame_pack_gitpage/
Paper:https://lllyasviel.github.io/frame_pack_gitpage/pack.pdf
Code:https://github.com/lllyasviel/FramePack?tab=readme-ov-file
混元圖像轉(zhuǎn)視頻模型(基于混元視頻的可定制圖像轉(zhuǎn)視頻模型):https://github.com/Tencent/HunyuanVideo-I2V
混元大型視頻生成模型的系統(tǒng)框架:https://github.com/Tencent/HunyuanVideo
模型文件:https://huggingface.co/tencent/HunyuanVideo
官方介紹+Demo:https://aivideo.hunyuan.tencent.com/
然后還發(fā)現(xiàn)騰訊還有 3D 視頻大模型
官網(wǎng):https://3d.hunyuan.tencent.com/
3D 模型文件:https://huggingface.co/tencent/Hunyuan3D-2
在線試玩:https://huggingface.co/spaces/tencent/Hunyuan3D-2
5、文本到圖像模型
HiDream-I1
是一款全新的開源圖像生成基礎(chǔ)模型,擁有 170 億參數(shù),能在數(shù)秒內(nèi)實現(xiàn)頂尖的圖像生成質(zhì)量。HiDream-ai/HiDream-I1-Full: 文本到圖像模型,HiDream 的新模型,生成質(zhì)量非常好
試玩:https://vivago.ai/home
GitHub:https://github.com/HiDream-ai/HiDream-I1
模型文件:https://huggingface.co/spaces/HiDream-ai/HiDream-E1-Full
6、阿里 Qwen2.5-VL
也不算新,最近有模型更新
阿里開源的旗艦視覺語言模型,在視覺理解方面表現(xiàn)出色,能夠識別常見物體,分析圖像中的文本、圖表等元素。在視頻處理上,Qwen2.5-VL 能夠理解超過 1 小時的長視頻,精準定位相關(guān)片段捕捉事件。模型還支持發(fā)票、表單等數(shù)據(jù)的結(jié)構(gòu)化輸出。
部署教程:
模型文件:https://modelscope.cn/models/Qwen/Qwen2.5-VL-7B-Instruct/files
技術(shù)文件:https://qwenlm.github.io/blog/qwen2.5-vl/
項目地址:https://github.com/QwenLM/Qwen2.5-VL
最后再推薦一個我正在學習的課程:
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.