99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

【教程】大模型量化界翹楚:unsloth

0
分享至


大家好,我是 Ai 學習的老章

Unsloth Github 項目:https://github.com/unslothai/unsloth

Unsloth

Unsloth 出圈是 DeepSeek-R1 爆火的時候,它發布了最小 1.58 位量化版本的 R1,把 DeepSeek-R1 這個非常大的模型(它有 6710 億個參數,也就是 671B)通過“量化”把原本 720GB 的模型壓縮到只有 131GB 的大小。

Unsloth 秘密武器是動態量化,核心思路是:對模型的少數關鍵層進行高質量的 4-6bit 量化,而對大部分相對沒那么關鍵的混合專家層(MoE)進行大刀闊斧的 1-2bit 量化。

另外

Unsloth 無縫兼容 HuggingFace Transformers、vLLM 和 LoRA 等生態工具。例如,直接調用FastLanguageModel接口即可加載 4 位量化模型,并通過SFTTrainer快速配置微調參數

GGUF

Unsloth 深度集成GGUF(GPT-Generated Unified Format),這一由 Llama.cpp 推出的高效量化格式專為邊緣計算與本地部署設計。其核心優勢包括:

  • 動態量化策略:支持 Q2_K、Q4_K_M、Q5_K_S 等多級量化方案,例如對注意力層采用 Q4_K_M(4 位混合精度),而對關鍵輸出層保留 Q5_K_S(5 位稀疏量化),在精度與壓縮率間實現最優平衡。

  • 硬件適配性:GGUF 通過預計算張量維度與內存對齊策略,顯著提升 CPU/GPU 推理速度。實測顯示,Unsloth 導出的 GGUF 模型在 Llama.cpp 上推理速度比原始 PyTorch 模型快 2.3 倍。

  • 跨平臺兼容:支持 Windows/Linux/macOS 原生運行,甚至可在樹莓派 5 等嵌入式設備部署。例如,Q4 量化后的 Llama-3-8B 模型僅需 8GB 內存即可流暢推理。


Use it

Huggingface 和 modelscope 上都可以找到 unsloth 開放的量化模型

比如

https://huggingface.co/unsloth/gemma-3-27b-it-GGUF/blob/main/gemma-3-27b-it-Q4_K_M.gguf


HF Hub 提供了一個查看 GGUF 文件的工具,可以檢查元數據及張量信息(名稱、形狀、精度)。該工具可在模型頁面(示例)和文件頁面(示例)上使用。


linux 安裝依賴、下載模型、運行

apt-get update apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y git clone https://github.com/ggerganov/llama.cpp cmake llama.cpp -B llama.cpp/build \     -DBUILD_SHARED_LIBS=ON -DGGML_CUDA=ON -DLLAMA_CURL=ON cmake --build llama.cpp/build --config Release -j --clean-first --target llama-quantize llama-cli llama-gguf-split cp llama.cpp/build/bin/llama-* llama.cpp ## 下載模型 # pip install huggingface_hub hf_transfer # import os # Optional for faster downloading # os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1" from huggingface_hub import snapshot_download snapshot_download(   repo_id = "unsloth/gemma-3-4b-it-GGUF",   local_dir = "gemma-3-4b-it-GGUF",   allow_patterns = ["*Q4_K_M*"],  ) ## 啟動模型 ./llama.cpp/llama-cli \     --model /unsloth/gemma-3-4b-it-GGUF/blob/main/gemma-3-4b-it-Q4_K_M.gguf \     --cache-type-k q4_0 \     --threads 12 -no-cnv --prio 2 \     --temp 0.6 \     --ctx-size 8192 \     --seed 3407 \     --prompt "<|User|>What is 1+1?<|Assistant|>"
Mac

我用丐版 mac mini 跑起

# 安裝 brew install llama.cpp # 下載運行模型、注意格式!! llama-cli -hf unsloth/gemma-3-4b-it-GGUF:Q4_K_M

模型大小 2.5GB,運行起來僅使用了 Swap 內存


輸出性能

llama_perf_sampler_print:    sampling time =       7.01 ms /    30 runs   (    0.23 ms per token,  4280.21 tokens per second) llama_perf_context_print:        load time =   20638.18 ms llama_perf_context_print: prompt eval time =     320.99 ms /    13 tokens (   24.69 ms per token,    40.50 tokens per second) llama_perf_context_print:        eval time =   50693.96 ms /  1044 runs   (   48.56 ms per token,    20.59 tokens per second) llama_perf_context_print:       total time =  347782.12 ms /  1057 tokens

采樣階段吞吐量 4280t/s,提示詞處理 40.5t/s,生成階段 20.59t/s

unsloth 量化模型也支持 ollama,不再細說

也支持 vLLM,我之前詳細介紹演示過:

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
西斯廷教堂大門關上了 選舉第267位天主教皇

西斯廷教堂大門關上了 選舉第267位天主教皇

藍色海邊
2025-05-08 13:48:03
西安碑林博物館票價將調至85元,工作人員:10元屬于改擴建期間惠民票

西安碑林博物館票價將調至85元,工作人員:10元屬于改擴建期間惠民票

澎湃新聞
2025-05-08 10:08:11
俄羅斯連發兩枚導彈!臺海出現“第三方”攪局者,中國火速增兵

俄羅斯連發兩枚導彈!臺海出現“第三方”攪局者,中國火速增兵

小笛科技
2025-05-05 12:16:46
厲害了!6天新公司拿下水庫經營權,1500萬認繳資本撬動2.6億項目

厲害了!6天新公司拿下水庫經營權,1500萬認繳資本撬動2.6億項目

火山詩話
2025-05-07 13:41:25
再也不慣著了!廣廈“影帝”假摔終于有人吹了,球迷:給洋哨點贊

再也不慣著了!廣廈“影帝”假摔終于有人吹了,球迷:給洋哨點贊

南海浪花
2025-05-08 06:45:11
重大突破!剛剛上海地鐵最新通知,大批人身價要漲

重大突破!剛剛上海地鐵最新通知,大批人身價要漲

科學發掘
2025-05-06 05:19:30
關曉彤罕見正裝體制內開會!哇塞,連氣質都變了,越簡越美

關曉彤罕見正裝體制內開會!哇塞,連氣質都變了,越簡越美

舊時光老師
2025-05-06 19:30:47
北京樓市起飛上天了,北京海淀區房價有望從8.2萬突破到10.1萬

北京樓市起飛上天了,北京海淀區房價有望從8.2萬突破到10.1萬

有事問彭叔
2025-05-06 16:23:37
央視《刑警的日子》被觀眾要求下架,理由出奇一致:毀了警察形象

央視《刑警的日子》被觀眾要求下架,理由出奇一致:毀了警察形象

她時尚丫
2025-05-07 18:13:16
蔣介石有多風流?貼身秘書晚年說出真相:白天干革命,晚上逛窯子

蔣介石有多風流?貼身秘書晚年說出真相:白天干革命,晚上逛窯子

尚曦讀史
2025-05-07 21:10:02
烏克蘭無人機持續24小時猛攻!俄防空系統告急,全國多地陷入混亂

烏克蘭無人機持續24小時猛攻!俄防空系統告急,全國多地陷入混亂

國際情爆猿
2025-05-07 19:52:29
女游客海底87米最后錄像曝光!GoPro奪命三秒,害死多少中國人?

女游客海底87米最后錄像曝光!GoPro奪命三秒,害死多少中國人?

明月聊史
2025-05-07 08:21:11
一年狂賺300億!賺中國錢還毒害中國人 ,泰國榴蓮全含一級致癌物

一年狂賺300億!賺中國錢還毒害中國人 ,泰國榴蓮全含一級致癌物

素衣讀史
2025-01-22 17:11:58
安理會上,中美爆發激烈爭吵,耿爽怒懟美代表:發言前搞清楚事實

安理會上,中美爆發激烈爭吵,耿爽怒懟美代表:發言前搞清楚事實

阿天愛旅行
2025-05-08 15:42:32
英媒承認:西方不具備中國式“戰略定力”

英媒承認:西方不具備中國式“戰略定力”

參考消息
2025-05-08 15:15:45
阿維塔做夢也想不到,王牌賣點成了尖刀,刺向自己

阿維塔做夢也想不到,王牌賣點成了尖刀,刺向自己

藍字計劃
2025-05-07 17:11:54
35歲光棍迎娶20歲非洲黑人,結果入洞房那晚床上被子隆起一個大包

35歲光棍迎娶20歲非洲黑人,結果入洞房那晚床上被子隆起一個大包

濤哥講堂
2025-03-25 10:24:33
央媒整齊發聲!整治各類醫學論文混亂刻不容緩,男女不分已破底線

央媒整齊發聲!整治各類醫學論文混亂刻不容緩,男女不分已破底線

逍遙史記
2025-05-07 10:23:53
越南推動十年內實現全民免費醫療

越南推動十年內實現全民免費醫療

李東海評論
2025-05-07 15:47:33
五一假期!新能源車的問題全暴露出來了,網友:這是電車的春運

五一假期!新能源車的問題全暴露出來了,網友:這是電車的春運

凡知
2025-05-05 16:53:05
2025-05-08 17:00:49
機器學習與Python社區 incentive-icons
機器學習與Python社區
機器學習算法與Python
2949文章數 11008關注度
往期回顧 全部

科技要聞

OpenAI任命"應用CEO" 奧特曼聚焦研究/安全

頭條要聞

國防部:做美國的朋友可能是致命的

頭條要聞

國防部:做美國的朋友可能是致命的

體育要聞

面對一群天賦怪,阿森納只能接受失敗

娛樂要聞

災難性公關 毀掉曾黎二十年人緣積累

財經要聞

57政策解讀:力度空前的系統性穩增長舉措

汽車要聞

23.68萬元起 新款途觀L Pro限時優惠5.8萬

態度原創

時尚
教育
房產
游戲
健康

主播塌房,他的人生如何被封殺?

教育要聞

教育部大量撤銷的10個專業,今年高考千萬別亂報!

房產要聞

廣州樓市全線飄紅!二手增長20%,一手暴漲244.7%!

游民采訪《死亡擱淺2》主創:小島的創作風格令人興奮

唇皰疹和口腔潰瘍是"同伙"嗎?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 兴安县| 奉新县| 兖州市| 日喀则市| 卢氏县| 军事| 霍州市| 南漳县| 哈密市| 安义县| 桓台县| 孝昌县| 金乡县| 苏尼特左旗| 崇左市| 津市市| 泰和县| 柘城县| 南安市| 杭锦旗| 乳源| 萨迦县| 鹤山市| 荣成市| 抚远县| 北京市| 峨眉山市| 红桥区| 商河县| 涿鹿县| 宾川县| 民权县| 白沙| 永安市| 建水县| 长乐市| 藁城市| 南丰县| 彝良县| 孙吴县| 兴业县|