99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

阿里 Qwen3 令人失望?

0
分享至



大家好,我是 Ai 學習的老章

極簡結論:Qwen3 是可以本地部署的最強開源寫代碼大模型

我只有 4 張 4090 顯卡,本文嘗試本地部署 Qwen3:32B,搭配 OpenwebUI 聊天 Bot,簡單看看其推理速度

  • 本地部署

  • Mac 部署

  • 下載模型

  • 模型部署

  • openwebui 聊天助手

  • 測試

本地部署可選方案 ollama

模型頁:https://ollama.com/library/qwen3

運行:ollama run qwen3

其他尺寸,在后面加參數即可,比如:ollama run qwen3:32b

可以在提示詞后輸入 /no_think 來切換 Ollama 中的無思考模式。

備注??:ollama 運行的是量化版,效果有折扣

vLLM

需要升級到 v0.8.4 以上,最好 v0.8.5

地址:https://github.com/vllm-project/vllm/issues/17327

vllm serve Qwen/Qwen3-235B-A22B-FP8 --enable-reasoning --reasoning-parser deepseek_r1 --tensor-parallel-size 4
SGLang

需要升級到SGLang 0.4.6.post1

地址:https://github.com/sgl-project/sglang

pip3 install "sglang[all]>=0.4.6.post1" python3 -m sglang.launch_server --model Qwen/Qwen3-235B-A22B --tp 8 --reasoning-parser qwen3 python3 -m sglang.launch_server --model Qwen/Qwen3-235B-A22B-FP8 --tp 4 --reasoning-parser qwen3
CPU 部署 llama.cpp

可以用 llama.cpp 運行起 Qwen3 量化版本、動態量化版本!

地址:https://huggingface.co/collections/unsloth/qwen3-680edabfb790c8c34a242f95


KTransformer

Xeon 鉑金 4 代 + 4090 運行 Qwen3-235B-A22B 單個請求可以達到 13.8 token/s, 4 個請求并行可以達到總計 24.4 token/s

地址:http://github.com/kvcache-ai/ktransformers/blob/main/doc/en/AMX.md

Mac 部署

Mac 上也可以跑 Qwen3 了

地址:https://github.com/ml-explore/mlx-lm/commit/5c2c18d6a3ea5f62c5b6ae7dda5cd9db9e8dab16

pip install -U mlx-lm # or conda install -c conda-forge mlx-lm

支持設備

  • iPhone: 0.6B, 4B

  • Macbook: 8B, 30B, 3B/30B MoE

  • M2, M3 Ultra: 22B/235B MoE

有網友測試Qwen3-235B-A22B-4bit量化版本在 Apple Mac Studio M2 Ultra 能跑到 28 toks/sec,大概占用 132GB 內存

下載模型

模型文件:https://modelscope.cn/models/Qwen/Qwen3-32B/files


在下載前,先通過如下命令安裝 ModelScope

pip install modelscope

命令行下載完整模型庫

modelscope download --model Qwen/Qwen3-32B

下載單個文件到指定本地文件夾(以下載 README.md 到當前路徑下“dir”目錄為例)

modelscope download --model Qwen/Qwen3-32B README.md --local_dir ./dir

模型大小約 64GB


模型部署

用 vllm 拉起大模型,我有 4 張 4090 顯卡,tensor-parallel-size 設置為 4

pip install --upgrade vllm vllm serve . --served-model-name Qwen3:32B --port 3001 --enble-reasoning --reasoning-parse deepseek_r1 --tensor-parallel-size 4

卡沒被占滿,還有空余拉起 reranker 模型


openwebui 聊天助手

OpenWebUI 旨在為 AI 和 LLMs 構建最佳用戶界面,為那些互聯網訪問受限的人提供利用 AI 技術的機會。OpenWebUI 通過 Web 界面本地運行 LLMs,使 AI 和 LLMs 更安全、更私密。

安裝 openwebui 是我見過所有 chatbot 中最簡單的了

# 安裝 pip install open-webui # 啟動 open-webui serve

瀏覽器打開 http://locahost:8080

如果是服務器部署,把 localhost 改為服務器 ip

正常注冊登陸


右上角點擊頭像,點擊管理員面板

點擊設置 - 外部鏈接,照著抄一下,api key 隨便填寫

然后回到前端,左上角添加模型那里就可以找到 Qwen3:32B 了

teminal 頁面會實時輸出模型推理時的性能


速度還蠻快的,如果開啟 reasoning 會慢很多,關閉的話,vllm 那里改成下面即可

vllm serve . --served-model-name Qwen3:32B --port 3001 --tensor-parallel-size 4

測試

我看了xhs上一些網友評價,很多說效果遠遠不如官方公布的結果,還有說幻覺嚴重


有些是直接用 ollama 運行的量化版,效果不好很正常

有些是在官方網站上測試的,這個就見仁見智了,我還是覺得個例的參考價值不大

用腦經急轉彎和弱智吧的問題去測試大模型,屬實腦經不轉彎。

看兩個獨立測評

evalscope 做了測試,結果 - Qwen3-32B 模型在思考模式下,其準確率與 QwQ-32B 相當(在 Accuracy 折線上兩者重合),都達到了最好的水平。隨著問題難度的增加,模型的輸出長度都隨問題難度增加而增加,這表明模型在解答更復雜問題時需要更長的"思考時間",與 Inference-Time Scaling 現象相符。


推上 karminski3 測試了其寫代碼能力

極簡結論:Qwen3 是可以本地部署的最強開源寫代碼大模型


制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
你上下行速度多少!工信部:1000Mbps及以上接入速率的固網寬帶接入達2.23億戶

你上下行速度多少!工信部:1000Mbps及以上接入速率的固網寬帶接入達2.23億戶

快科技
2025-06-25 16:18:11
63歲吳鎮宇新造型太棒了,沒有老人味還越來越年輕,至少年輕20歲

63歲吳鎮宇新造型太棒了,沒有老人味還越來越年輕,至少年輕20歲

TVB的四小花
2025-06-16 02:57:47
杜蘭特攜手威少加盟火箭,掘金甩約基奇,火箭重組沖冠局

杜蘭特攜手威少加盟火箭,掘金甩約基奇,火箭重組沖冠局

秘密清風
2025-06-27 14:01:20
李湘和16歲女兒回國,直奔商場買鞋買衣服,王詩齡不化妝很清純

李湘和16歲女兒回國,直奔商場買鞋買衣服,王詩齡不化妝很清純

檸檬有娛樂
2025-06-27 10:13:46
追求標準答案危害無窮

追求標準答案危害無窮

水寒說語文
2025-06-26 17:30:16
黃一鳴自曝:王思聰每次約她,車費都給10萬,來給5萬,回再給5萬

黃一鳴自曝:王思聰每次約她,車費都給10萬,來給5萬,回再給5萬

漢史趣聞
2025-06-24 10:07:59
楊瀚森自評現役模板:同為16順位申京 吃煎餅調侃和周琦夢幻聯動

楊瀚森自評現役模板:同為16順位申京 吃煎餅調侃和周琦夢幻聯動

醉臥浮生
2025-06-27 15:48:22
財政部:截至5月末全國地方政府債務余額512475億元

財政部:截至5月末全國地方政府債務余額512475億元

澎湃新聞
2025-06-27 10:36:06
艱難抉擇!湖北一高二考生被屏蔽,走還是不走?家長和學校犯難了

艱難抉擇!湖北一高二考生被屏蔽,走還是不走?家長和學校犯難了

火山詩話
2025-06-26 06:42:34
當年為什么查辦褚時健?

顧史
2025-06-09 20:26:22

又一個經濟奇跡——孟加拉國

又一個經濟奇跡——孟加拉國

古老板的老巢
2025-06-24 23:41:45
博伊爾斯女友社媒曬照慶祝男友被猛龍選中:哦嘿呀

博伊爾斯女友社媒曬照慶祝男友被猛龍選中:哦嘿呀

懂球帝
2025-06-27 08:40:19
洪森惱羞成怒,竟曝光英拉秘事,佩通坦絕地反擊,泰專機直飛中國

洪森惱羞成怒,竟曝光英拉秘事,佩通坦絕地反擊,泰專機直飛中國

嘆知
2025-06-23 10:34:33
中國游戲超越日本!來自日本玩家の認可!IGN日本高度評價《歸唐》!甘肅文旅廳宣布支持開發組古跡掃描

中國游戲超越日本!來自日本玩家の認可!IGN日本高度評價《歸唐》!甘肅文旅廳宣布支持開發組古跡掃描

Steam社區
2025-06-26 11:57:21
絕了!碘伏才是隱藏的省錢刺客!我居然白白燒了五年冤枉錢!

絕了!碘伏才是隱藏的省錢刺客!我居然白白燒了五年冤枉錢!

墻頭草
2025-04-01 12:00:11
昔日女神成方圓老了!兩段婚姻失敗無子女,對愛失望選擇單身

昔日女神成方圓老了!兩段婚姻失敗無子女,對愛失望選擇單身

一盅情懷
2025-06-27 15:54:59
1小時賣了578億!小米YU7大定28.9萬輛遠超SU7,小米ADR暴漲12%,雷軍連喊三個“安全”

1小時賣了578億!小米YU7大定28.9萬輛遠超SU7,小米ADR暴漲12%,雷軍連喊三個“安全”

金融界
2025-06-26 23:50:34
塵埃落定,重返巴薩?內馬爾官宣,1年合同,年薪1500萬

塵埃落定,重返巴薩?內馬爾官宣,1年合同,年薪1500萬

東球弟
2025-06-27 12:34:08
笑暈!江蘇衛視又逮著常州一個勁嚯嚯!這回“遭殃”的你卻想不到

笑暈!江蘇衛視又逮著常州一個勁嚯嚯!這回“遭殃”的你卻想不到

深析古今
2025-06-27 17:14:39
萬萬沒想到!拒給馬筱梅做婚紗,緬懷大S的蘭玉,竟是他的前女友

萬萬沒想到!拒給馬筱梅做婚紗,緬懷大S的蘭玉,竟是他的前女友

史行途
2025-06-27 15:07:11
2025-06-27 21:44:49
機器學習與Python社區 incentive-icons
機器學習與Python社區
機器學習算法與Python
3014文章數 11024關注度
往期回顧 全部

科技要聞

雷軍:小米汽車成功沒靠營銷,靠的是能力

頭條要聞

美國打擊伊朗核設施后 美軍一將領進入特朗普核心圈

頭條要聞

美國打擊伊朗核設施后 美軍一將領進入特朗普核心圈

體育要聞

曼城“庫里”連線,送尤文晚安好夢

娛樂要聞

炸裂!榜一大姐深夜怒錘頂流

財經要聞

合新鐵路建設材料以次充好 多家單位被罰

汽車要聞

配置升級/貴賓座椅 全新GL8陸上公務艙售22.99萬

態度原創

旅游
藝術
游戲
數碼
房產

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

英雄聯盟新英雄蕓阿娜模型圖 溫泉皮有“玉足”

數碼要聞

極摩客 EVO-X2 AI 桌面主機圖賞:輕巧緊湊,銳龍AI Max+ 395加持

房產要聞

最強黑馬殺出!海南這些區域,教育正悄悄崛起!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 马山县| 沁水县| 炎陵县| 龙井市| 佛教| 黔南| 拉萨市| 乌兰察布市| 昭平县| 泰来县| 宁蒗| 诸暨市| 华坪县| 抚顺县| 齐河县| 德令哈市| 图们市| 泰安市| 涞源县| 古蔺县| 介休市| 东丽区| 龙岩市| 长丰县| 南充市| 克什克腾旗| 四会市| 清新县| 诸城市| 济阳县| 班戈县| 肃宁县| 维西| 突泉县| 南汇区| 蒙山县| 卢龙县| 庆云县| 易门县| 南陵县| 山阳县|