大家好,我是 Ai 學習的老章
看個新模型,多模態不夠用,這是全模態。
模型簡介
Qwen2.5-Omni 是一個端到端的多模態模型,旨在感知多種模態,包括文本、圖像、音頻和視頻,同時以流式方式生成文本和自然語音響應。
Qwen2.5-Omni 在所有模態上的表現都優于同樣大小的單模態模型和閉源模型,在單模態任務中,它在語音識別、翻譯、音頻理解、圖像推理、視頻理解和語音生成等方面表現出色。
更多詳情大家直接看官方博客吧:https://qwenlm.github.io/zh/blog/qwen2.5-omni/
??部署與使用 升級 transformers、安裝依賴
pip uninstall transformers pip install git+https://github.com/huggingface/transformers@3a1ead0aabed473eafe527915eea8c197d424356 pip install accelerate pip install qwen-omni-utils[decord] pip install -U flash-attn --no-build-isolation
?下載模型文件模型地址:https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B
下載完整模型庫:sudo modelscope download --model Qwen/Qwen2.5-Omni-7B /home/data-local/Qwen2.5-Omni-7B
,將模型下載到指定的本地目錄"/home/data-local/Qwen2.5-Omni-7B"
中。
模型文件差不多 22GB
重裝 vLLM
這條路我沒有調試通,vLLM 本身不支持Qwen2.5-Omni-7B
建議卸載原 vLLM 后安裝qwen2_omni_public_v1
分支的 vllm,但是我在安裝中報 GCC 錯誤,升級太太太麻煩,我就沒有再折騰
https://github.com/fyabc/vllm/tree/qwen2_omni_public_v1
pip uninstall vllm pip install git+https://github.com/fyabc/vllm@qwen2_omni_public_v1 # 或著 git clone https://github.com/fyabc/vllm cd vllm pip install -e .
如果沒有報錯,那么正常這樣啟動就行了
CUDA_VISIBLE_DEVICES=4,5 vllm serve "/home/data-local/Qwen2.5-Omni-7B" --host 0.0.0.0 --port 8000 --gpu-memory-utilization 0.9 --max-model-len 16384 --tensor-parallel-size 2 --served-model-name "Qwen2.5-Omni-7B"
即便如此,vLLM 的支持依然也只有thinker
部分,所以輸出只能是文本
啟動模型
cd vllm # Audio + image + video python examples/offline_inference/qwen2_5_omni/only_thinker.py -q mixed_modalities # Audio + image + video VLLM_USE_V1=0 python examples/offline_inference/qwen2_5_omni/only_thinker.py -q use_audio_in_video
Docker為了簡化部署過程,官方提供了預構建環境:qwenllm/qwen-omni[1],只需要安裝驅動并下載模型文件即可啟動演示。
docker run --gpus all --ipc=host --network=host --rm --name qwen2.5-omni -it qwenllm/qwen-omni:2.5-cu121 bash
也可以直接通過如下命令啟動網頁演示:
bash docker/docker_web_demo.sh --checkpoint /path/to/Qwen2.5-Omni-7B
如需啟用 FlashAttention-2,請使用如下命令:
bash docker/docker_web_demo.sh --checkpoint /path/to/Qwen2.5-Omni-7B --flash-attn2
制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!
Reference
qwenllm/qwen-omni: https://hub.docker.com/r/qwenllm/qwen-omni
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.