大家好,我是 Ai 學(xué)習(xí)的老章
前幾天寫(xiě)了一篇文章介紹 QwQ-32B
最近準(zhǔn)備把 ollama 切成 vllm,就拿 QwQ 練練手
時(shí)間緊張,簡(jiǎn)短點(diǎn)寫(xiě),只說(shuō)重點(diǎn)
先來(lái)再看一下 QwQ 的優(yōu)勢(shì):
基于 Qwen2.5-32B 模型訓(xùn)練的 QwQ 推理模型,通過(guò)強(qiáng)化學(xué)習(xí)大幅度提升了模型推理能力。模型數(shù)學(xué)代碼等核心指標(biāo)以及部分通用指標(biāo)達(dá)到 DeepSeek-R1 滿血版水平,各指標(biāo)均顯著超過(guò)同樣基于 Qwen2.5-32B 的 DeepSeek-R1-Distill-Qwen-32B。
模型名稱上下文長(zhǎng)度
(Token 數(shù))
最大輸入最大思維鏈長(zhǎng)度最大回復(fù)長(zhǎng)度
qwq-32b
131,072
98,304
32,768
8,192
1、下載模型
建議走 modelscope 吧,畢竟 huggingface 網(wǎng)不通。
安裝 modelscope:pip install modelscope
下載完整模型庫(kù):sudo modelscope download --model Qwen/QwQ-32B --local_dir /home/data-local/qwq-32b
,將模型下載到指定的本地目錄 "/home/data-local/qwq-32b" 中。
比較耗時(shí),模型文件 40 多 GB 多樣子
安裝 vllm
? vLLM 是專注于高性能 LLM 推理的工具,能夠有效利用多核 CPU 和 GPU 資源,大幅提升 LLM 的推理速度,使其成為大規(guī)模 AI 應(yīng)用的理想選擇。Ollama 是一款輕量級(jí)且用戶友好的框架,它簡(jiǎn)化了在本地機(jī)器上運(yùn)行開(kāi)源 LLM 的過(guò)程。
簡(jiǎn)單說(shuō) vLLM 是高效多 GPU 推理的企業(yè)級(jí)方案,Ollama 更適合個(gè)人用戶。
安裝 vllm:pip install vllm
運(yùn)行大模型:
vllm serve /ModelPath/QwQ-32B --port 8000 --tensor-parallel-size 8 \--reasoning-parser deepseek_r1 --max_model_len 4096 --enable-auto-tool-choice --tool-call-parser hermes
注意事項(xiàng): tensor-parallel-size 只能設(shè)置為被 40 整除,比如設(shè)置 3、5、6、7 肯定不行
使用
直接上 openweb-ui
安裝:pip install open-webui
運(yùn)行:open-webui serve
瀏覽器打開(kāi) http://locahost:8080
如果是服務(wù)器部署,把 localhost 改為服務(wù)器 ip
正常注冊(cè)登陸
右上角點(diǎn)擊頭像,點(diǎn)擊管理員面板
點(diǎn)擊設(shè)置 - 外部鏈接,照著抄一下,api key 隨便填寫(xiě)
然后回到前端,左上角添加模型那里就可以找到 QwQ:32B 了
teminal 頁(yè)面會(huì)實(shí)時(shí)輸出模型推理時(shí)的性能
avg generation throughput
(平均生成吞吐量)
含義
avg generation throughput
表示在模型根據(jù)提示生成輸出文本的階段,系統(tǒng)平均每秒能夠生成的詞元(token)數(shù)量。詞元是自然語(yǔ)言處理中對(duì)文本進(jìn)行分詞后的基本單位,不同的分詞方式會(huì)得到不同的詞元?jiǎng)澐纸Y(jié)果。
計(jì)算公式
一般通過(guò)生成的詞元總數(shù)除以生成這些詞元所花費(fèi)的總時(shí)間來(lái)計(jì)算。即:
平 均 生 成 吞 吐 量 生 成 的 詞 元 總 數(shù) 生 成 詞 元 的 總 時(shí) 間 ( 秒 )
實(shí)際意義
這個(gè)指標(biāo)體現(xiàn)了模型生成文本的速度。較高的平均生成吞吐量意味著模型能夠更快地生成輸出內(nèi)容,減少用戶等待結(jié)果的時(shí)間,提升用戶體驗(yàn)。尤其是在需要生成較長(zhǎng)文本的場(chǎng)景下,如文章寫(xiě)作、故事生成等,該指標(biāo)的重要性更加突出。
另外,使用 nvidia-smi 命令可以查看 GPU 占用情況
差不多 86 個(gè) GB 的顯存
并發(fā)測(cè)試,有空再發(fā)!
制作不易,如果這篇文章覺(jué)得對(duì)你有用,可否點(diǎn)個(gè)關(guān)注。給我個(gè)三連擊:點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個(gè),謝謝你看我的文章,我們下篇再見(jiàn)!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.