99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

極簡教程,大模型量化實踐,1張4090跑QwQ?

0
分享至


大家好,我是 Ai 學習的老章

前文:

有朋友好奇為啥 4 張 4090 才跑起來

今天咱們了解一下大模型量化

看能不能 1 張 4090 跑起來?


還以 QwQ-32B 為例(這個模型確實很強,我很喜歡)

https://modelscope.cn/models/unsloth/QwQ-32B-GGUF/files

這里的模型有一個量化類型,Q、K、L、M看起來一臉懵

再順便說一句,大家喜歡用 ollama 起模型,如果自己看模型說明,它默認都是量化模型


DeepSeek-R1 爆火的時候,unsloth 就發布過最小 1.58 位量化版本的 R1,把 DeepSeek-R1 這個非常大的模型(它有 6710 億個參數,也就是 671B)通過“量化”把原本 720GB 的模型壓縮到只有 131GB 的大小。

簡單來說

量化是一種將模型的浮點權重(通常是 32 位或 16 位)轉換為低位整數(如 2 位、4 位、8 位等)的技術,目的是減少模型的存儲空間和計算資源需求,同時盡可能保持模型的性能。

最主流的有以下量化的方法

方法類型

代表技術

核心特征

適用場景

訓練后量化

GPTQ

4bit 權重量化,動態反量化推理

GPU 加速推理

感知量化

AWQ

激活值引導的智能量化

精度敏感型任務

混合推理

GGUF/GGML

CPU-GPU 異構計算框架

邊緣設備部署

然后這里還設計不同的量化位寬,其實常見也就K-Quants 增強系列

量化類型

位寬策略

存儲效率

技術特點

Q2_K

2.56bit/權重

超高壓縮率

16 塊超塊結構

Q3_K

3.44bit/權重(type-0)

性能優先

平衡壓縮與精度

Q4_K

4.5bit/權重(type-1)

通用型

主流部署方案

Q5_K

5.5bit/權重

精度增強

關鍵層保護

Q6_K

6.56bit/權重

準無損壓縮

復雜任務保留

Q8_K

8bit 中間結果量化

資源充足場景

梯度計算優化

還有常見到的 IQ 系列量化方法

  • IQ4_NL:4 位量化,超塊包含 256 個權重,權重 w 通過 super_block_scale 和 importance matrix 計算得到

  • IQ4_XS:4 位量化,超塊包含 256 個權重,每個權重占用 4.25 位,通過 super_block_scale 和 importance matrix 計算得到

目前最流行的是混合量化策略,主打一個動態精度分配

  • K_M 混合策略:對 attention.wv 等關鍵張量采用 Q6_K,其余使用 Q4_K

  • K_S 均質策略:全模型統一量化配置,所有張量均使用 Q4_K

其中

  • K:表示 k-quants 量化方法

  • S (Small):簡單量化,所有張量均使用相同位數量化

  • M (Mixed):混合量化,對關鍵張量使用更高精度的量化,其余使用標準精度

在相同位數下,K_M 系列模型(比如今天我們要演示的 QwQ-32B-Q4_K_M)通常在模型大小和性能之間取得最佳平衡,是推薦的選擇。

關于量化,還有大量知識點,大量細節,這里沒法展開。


實踐

下載量化模型

我們用 modelscope 命令下載,安裝方法 pip install modelscope

modelscope download unsloth/QwQ-32B-GGUF --include "QwQ-32B-Q4_K_M.gguf" --local-dir ./

QwQ 模型原版是 bf16 精度,模型文件 40 多 GB,運行起來打滿了 4 張 4090。

Q4_K_M 量化版,模型文件 19.85GB,我們嘗試用 2 張 4090 跑起來


為什么不用 1 張呢?我試了,報錯顯存不足了

官方建議用 ollama 或 llama.cpp,感興趣自己看吧,我就不演示了:https://modelscope.cn/models/unsloth/QwQ-32B-GGUF/summary

我決定用 vLLM 試試

啟動命令(建議照抄,試錯無數次換來的):

CUDA_VISIBLE_DEVICES=4,5 vllm serve ./QwQ-32B-Q4_K_M.gguf --served-model-name QwQ:32B-4 --port 3001 --max_model_len 84720 --tensor-parallel-size 2 --enable-reasoning --resoning-parser deepseek_r1

啟動需要時間,ok 之后把它配置到 open-webui(不再重復,請看前文)

隨便問 2 個問題


看后臺日志,生成速度還是不錯的


比 4 張 4090 跑起來的滿參數 QwQ 還快呢


顯存利用情況——4 和 5 滿載


然后用 4 張卡把 QwQ:32B 完整拉起來 顯卡全部工作起來了


說實話,智商差的不多,大家能猜到左右兩邊哪一個是量化版嗎?


最后提一句,直接用 Ollama 手工創建可啟動的量化模型文件,方法如下,我遭遇的問題是運行后模型陷入無限思考,但是直接 ollama 從官網拉取,就沒有問題。可能是配置文件不齊全,沒再深究,感興趣可以看看,有了 vLLM 我要完全拋棄 ollama 了。

先創建一個 Modelfile 格式的文件——vim Modelfile

FROM ./QwQ-32B-Q4_K_M.gguf 

Modelfile 除了上面的 FROM 參數,還有很多可以配置的東西。參考:https://github.com/ollama/ollama/blob/main/docs/modelfile.md

第二步,創建 ollama 的本地模型,下面的命令中 you-model-name 是自己起的名字,隨便寫。-f 指定剛才創建的 Modelfile 的路徑

ollama create QwQ:32B -f Modelfile

執行過程耗時較長,創建完成后,我們就可以運行剛才創建的模型:

OLLAMA_GPUS="4" ollama run QwQ:32B

我測試單張 4090 可以跑,問題就是無限思考,沒細究,已棄療。

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
最大輸家已經出現,歐盟違約也不給C919適航證,該到中國反制了

最大輸家已經出現,歐盟違約也不給C919適航證,該到中國反制了

阿紿聊社會
2025-05-07 14:48:59
75歲王薇薇亮相Met Gala,深V開到肚臍,不老神話崩塌,全網:不敢認!

75歲王薇薇亮相Met Gala,深V開到肚臍,不老神話崩塌,全網:不敢認!

新歐洲
2025-05-07 20:31:01
31歲吉娜參加美國活動,打扮辣眼睛,看起來好油膩,瘦到臉部脫相

31歲吉娜參加美國活動,打扮辣眼睛,看起來好油膩,瘦到臉部脫相

西瓜愛娛娛
2025-05-07 09:48:09
為什么現在胰腺癌越來越多?醫生提醒:吃飯少做4件事,勸你改正

為什么現在胰腺癌越來越多?醫生提醒:吃飯少做4件事,勸你改正

小宇宙雙色球
2025-05-08 15:34:19
司法部副部長王振江:司法部將督促各地區各部門加大對行政執法違法行為的查處力度

司法部副部長王振江:司法部將督促各地區各部門加大對行政執法違法行為的查處力度

澎湃新聞
2025-05-08 11:33:08
青島市紀委監委通報:滕寶弟,主動投案

青島市紀委監委通報:滕寶弟,主動投案

魯中晨報
2025-05-08 18:32:09
隨著巴黎+國米晉級歐冠決賽,金球獎頭號熱門出爐!46場獨造44球

隨著巴黎+國米晉級歐冠決賽,金球獎頭號熱門出爐!46場獨造44球

球場沒跑道
2025-05-08 05:55:15
“臺獨”分子都開始挺大陸了,賴清德干得太差,“厭綠”島內蔓延

“臺獨”分子都開始挺大陸了,賴清德干得太差,“厭綠”島內蔓延

袁周院長
2025-05-08 10:38:21
遼寧男女一夜情,“男子尺寸過大導致女子死亡”事件,真相曝光~

遼寧男女一夜情,“男子尺寸過大導致女子死亡”事件,真相曝光~

書畫藝術收藏
2025-03-15 19:15:05
巴黎隊史第四次打進歐戰決賽,此前曾有一次奪冠

巴黎隊史第四次打進歐戰決賽,此前曾有一次奪冠

懂球帝
2025-05-08 06:33:09
中國面子也不給!印度襲擊中國承建最大海外水電站,要水淹巴鐵

中國面子也不給!印度襲擊中國承建最大海外水電站,要水淹巴鐵

小宇宙雙色球
2025-05-08 15:20:26
聯盟官宣重大誤判!哈利伯頓1+3絕殺違例在先,東部第一被坑慘

聯盟官宣重大誤判!哈利伯頓1+3絕殺違例在先,東部第一被坑慘

體壇小李
2025-05-08 09:05:56
CBA快訊,郭艾倫拒絕離隊,廣州男籃欲簽陳國豪,米歇爾留隊執教

CBA快訊,郭艾倫拒絕離隊,廣州男籃欲簽陳國豪,米歇爾留隊執教

體壇小快靈
2025-05-08 15:43:26
里瓦爾多:很開心我的兒子在中國踢球,中超和中甲的差距不會太大

里瓦爾多:很開心我的兒子在中國踢球,中超和中甲的差距不會太大

直播吧
2025-05-09 00:08:14
老夫妻徒步雪嶺遇難后續:妻子遺體已找到,知情人爆料,網友質疑

老夫妻徒步雪嶺遇難后續:妻子遺體已找到,知情人爆料,網友質疑

娛樂看阿敞
2025-05-08 14:18:59
巴斯托尼:我在汽車餐廳得知加盟國米的消息,我曾向孔蒂請求外租50次

巴斯托尼:我在汽車餐廳得知加盟國米的消息,我曾向孔蒂請求外租50次

雷速體育
2025-05-08 19:33:42
“母乳交易”亂象:成人1500元竟能躺在懷里喝,暗訪畫面不堪入目

“母乳交易”亂象:成人1500元竟能躺在懷里喝,暗訪畫面不堪入目

游古史
2025-01-03 13:43:05
行動代號為啥叫“辛多爾”?巴外長:殲-10擊落5架印度戰斗機

行動代號為啥叫“辛多爾”?巴外長:殲-10擊落5架印度戰斗機

鷹眼Defence
2025-05-08 18:57:30
海外博主實測:Powerwall 3可為家庭持續穩定供電超18小時

海外博主實測:Powerwall 3可為家庭持續穩定供電超18小時

特空間
2025-05-07 12:09:31
國泰航空乘務員誤將白葡萄酒倒給3歲兒童,航司稱已提補償方案,在內部調查

國泰航空乘務員誤將白葡萄酒倒給3歲兒童,航司稱已提補償方案,在內部調查

界面新聞
2025-05-08 13:31:07
2025-05-09 00:52:49
機器學習與Python社區 incentive-icons
機器學習與Python社區
機器學習算法與Python
2949文章數 11008關注度
往期回顧 全部

科技要聞

理想L煥新版來了,輔助駕駛芯片全系升級

頭條要聞

美財長:特朗普考慮豁免部分商品最高145%關稅

頭條要聞

美財長:特朗普考慮豁免部分商品最高145%關稅

體育要聞

面對一群天賦怪,阿森納只能接受失敗

娛樂要聞

劉畊宏老婆補刀 清場風波口碑翻車!

財經要聞

57政策解讀:力度空前的系統性穩增長舉措

汽車要聞

昨天李想點評了AI 今天我讓AI點評了理想

態度原創

教育
親子
時尚
家居
房產

教育要聞

都不想出去玩了,躲在被窩里面做題目,卻感覺越來越難

親子要聞

孩子舌苔厚口臭家長別著急,中醫教您一個穴位推拿方法

學會這5個萬能公式,好看一整個夏天

家居要聞

侘寂美學 樸素而有生機

房產要聞

廣州樓市全線飄紅!二手增長20%,一手暴漲244.7%!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 奉贤区| 湟中县| 原平市| 桐庐县| 高阳县| 城固县| 涟源市| 竹溪县| 灵台县| 邳州市| 突泉县| 蒙自县| 禄丰县| 离岛区| 唐海县| 个旧市| 台山市| 白朗县| 兰州市| 平乡县| 托克托县| 平湖市| 铜陵市| 德安县| 新河县| 潼关县| 保山市| 八宿县| 罗定市| 平潭县| 开封市| 临泉县| 慈溪市| 探索| 甘谷县| 会泽县| 高雄县| 蓬溪县| 潜山县| 湄潭县| 龙海市|