99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

剛剛,阿里發布Qwen3 技術報告,還有官方量化模型文件

0
分享至


大家好,我是 Ai 學習的老章

Qwen3 我寫過 3 篇文章

昨天阿里發布了Qwen3的技術報告


來源:https://github.com/QwenLM/Qwen3/blob/main/Qwen3_Technical_Report.pdf

最近 Qwen3 還發布了 Qwen3 的量化版本(GGUF、AWQ、GPTQ),可以通過 Ollama、LM Studio、SGLang 和 vLLM 高效本地部署。

量化技術降低了模型大小和計算需求,使高級 AI 在消費級硬件上也能運行
關于量化,請移步:

有網友測試ollama直接啟動官方量化版本Qwen3-32B,模型文件只有 19GB

之前我測試過,至少需要 4 張 24GB 的 4090 才能跑起來

量化版,目測只需要 1 張卡就行了?

ollama run: http://hf.co/Qwen/Qwen3-32B-GGUF:Q4_K_M


下面實測看看

1 卡跑 Qwen/Qwen3-32B-AWQ

模型文件:https://modelscope.cn/models/Qwen/Qwen3-32B-AWQ/files


有很多量化版本,這里我選擇 AWQ,這是一種感知量化技術,核心特征是激活值引導的智能量化,使用精度敏感型任務

下載

mkdir qwen3-32-awq cd qwen3-32-awq modelscope download --model Qwen/Qwen3-32B-AWQ --local_dir .

這個版本可以使用 SGLang 啟動

SGLANG_USE_MODELSCOPE=true python -m sglang.launch_server --model-path Qwen/Qwen3-32B-AWQ --reasoning-parser qwen3

我更喜歡 vLLM

但是我用單卡 4090 完全無法啟動,遭遇 OOM,顯存不夠用

按官方建議修改max-model-lengpu-memory-utilization都不行。

官方建議:

  • 第一個是--max-model-len。默認max_position_embedding40960,因此 serving 的最大長度也是這個值,導致對內存的要求更高。將其減少到適合自己的長度通常有助于解決 OOM 問題。

  • 另一個參數是--gpu-memory-utilization。vLLM 將預先分配此數量的 GPU 內存。默認情況下,它是0.9。這也是 vLLM 服務總是占用大量內存的原因。如果處于 Eager 模式(默認情況下不是),則可以將其升級以解決 OOM 問題。否則,將使用 CUDA 圖形,這將使用不受 vLLM 控制的 GPU 內存,應該嘗試降低它。如果它不起作用,嘗試--enforce-eager,這可能會減慢推理速度,或減少--max-model-len

然后用兩張 4090 也需要修改max-model-len和啟動enforce-eager才能正常啟動

CUDA_VISIBLE_DEVICES=4,5 vllm serve . --serverd-model Qwen3-32B-AWQ --enable-reasoning --reasoning-parser deepseek_r1 --tensor-parallel-size 2 --max-model-len 16384 --enforce-eager

推理速度很慢,18t/s 的樣子

不過能把 4 張卡壓縮到 2 張卡,已經很量化了

啟動之后阿里有推理的建議配置,僅供參考:

  1. 采樣參數

  • 對于思考模式(enable_thinking=True),使用Temperature=0.6,TopP=0.95,TopK=20, 和MinP=0不要使用貪心解碼,因為它可能導致性能下降和無盡的重復。

  • 對于非思考模式(enable_thinking=False),我們建議使用Temperature=0.7,TopP=0.8,TopK=20, 和MinP=0

  • 對于支持的框架,可以在 0 到 2 之間調整presence_penalty參數以減少無盡的重復。對于量化模型,強烈建議將此值設為 1.5。然而,使用更高的值可能會偶爾導致語言混雜并輕微降低模型性能。

足夠的輸出長度:對于大多數查詢,推薦使用 32,768 個令牌的輸出長度。對于高度復雜問題的基準測試,例如數學和編程競賽中的問題,建議將最大輸出長度設為 38,912 個令牌。這為模型提供了足夠的空間來生成詳細且全面的回答,從而提高其整體性能。

標準化輸出格式:在進行基準測試時,建議使用提示來標準化模型輸出。

  • 數學問題:在提示中包含“請逐步推理,并將最終答案放在\boxed{}內。”

  • 選擇題:向提示中添加以下 JSON 結構以標準化回答:“請僅用選項字母在answer字段中顯示您的選擇,例如,"answer": "C"。”

歷史記錄中不包含思考內容:在多輪對話中,歷史模型輸出應僅包括最終輸出部分,不需要包含思考內容。這已在提供的 Jinja2 聊天模板中實現。然而,對于不直接使用 Jinja2 聊天模板的框架,開發者需要確保遵循這一最佳實踐。

最后推薦一個最近我在學習的課程


制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
600415,“大牛股”盤中跌停!發生了什么

600415,“大牛股”盤中跌停!發生了什么

新浪財經
2025-06-27 16:49:07
里夫斯拒四年8920萬續約:明夏可追五年2.46億 湖媒直言該交易他

里夫斯拒四年8920萬續約:明夏可追五年2.46億 湖媒直言該交易他

顏小白的籃球夢
2025-06-27 00:54:08
2025溫網女單簽表公布!鄭欽文首輪遇苦主,王欣瑜首輪穆霍娃

2025溫網女單簽表公布!鄭欽文首輪遇苦主,王欣瑜首輪穆霍娃

女網連連看
2025-06-27 20:30:13
“假球”都解釋不了,中國三人男籃闖進世界杯8強,劇情太狗血

“假球”都解釋不了,中國三人男籃闖進世界杯8強,劇情太狗血

真理是我親戚
2025-06-27 15:27:29
二道販子太可惡!小米yu7閑魚訂單鋪天蓋地,雷總管管吧

二道販子太可惡!小米yu7閑魚訂單鋪天蓋地,雷總管管吧

牛斯克
2025-06-27 09:31:18
張學良兒子張閭琳辭世:9歲赴美,娶陳濟棠侄女,所生兩子皆成才

張學良兒子張閭琳辭世:9歲赴美,娶陳濟棠侄女,所生兩子皆成才

柳絮憶史
2025-06-17 08:35:03
追求標準答案危害無窮

追求標準答案危害無窮

水寒說語文
2025-06-26 17:30:16
緊急避雷!“毒兒童牙膏”相繼曝光,絕非危言聳聽,家長速自查!

緊急避雷!“毒兒童牙膏”相繼曝光,絕非危言聳聽,家長速自查!

阿傖說事
2025-06-26 08:02:00
你上下行速度多少!工信部:1000Mbps及以上接入速率的固網寬帶接入達2.23億戶

你上下行速度多少!工信部:1000Mbps及以上接入速率的固網寬帶接入達2.23億戶

快科技
2025-06-25 16:18:11
這是阿嬌你敢相信嗎?看著也不胖啊!而且非常平板該有的都沒看到

這是阿嬌你敢相信嗎?看著也不胖啊!而且非常平板該有的都沒看到

素衣讀史
2025-06-21 14:13:38
硅谷殺妻案背后:于軒一從沒有被愛過,對方一直與前女友藕斷絲連

硅谷殺妻案背后:于軒一從沒有被愛過,對方一直與前女友藕斷絲連

史行途
2025-06-27 18:32:58
貝佐斯夫婦威尼斯婚禮歡迎晚宴賓客們, 小李子,卡戴珊家族等人

貝佐斯夫婦威尼斯婚禮歡迎晚宴賓客們, 小李子,卡戴珊家族等人

老吳教育課堂
2025-06-27 15:55:43
中國游戲超越日本!來自日本玩家の認可!IGN日本高度評價《歸唐》!甘肅文旅廳宣布支持開發組古跡掃描

中國游戲超越日本!來自日本玩家の認可!IGN日本高度評價《歸唐》!甘肅文旅廳宣布支持開發組古跡掃描

Steam社區
2025-06-26 11:57:21
月薪3萬offer,進去半年就廢了?高薪陷阱,正在毀掉一批年輕人…

月薪3萬offer,進去半年就廢了?高薪陷阱,正在毀掉一批年輕人…

火山詩話
2025-06-26 16:49:29
黃一鳴自曝:王思聰每次約她,車費都給10萬,來給5萬,回再給5萬

黃一鳴自曝:王思聰每次約她,車費都給10萬,來給5萬,回再給5萬

漢史趣聞
2025-06-24 10:07:59
今年養老金調整有點“小意外”,通知要7月公布嗎?誰能漲的多?

今年養老金調整有點“小意外”,通知要7月公布嗎?誰能漲的多?

小舟談歷史
2025-06-26 08:44:01
李湘和16歲女兒回國,直奔商場買鞋買衣服,王詩齡不化妝很清純

李湘和16歲女兒回國,直奔商場買鞋買衣服,王詩齡不化妝很清純

檸檬有娛樂
2025-06-27 10:13:46
補助標準99元/人,今年全國老年人免費健康體檢項目再擴容

補助標準99元/人,今年全國老年人免費健康體檢項目再擴容

每日經濟新聞
2025-06-26 21:32:42
我媽和二嬸不對付,鄰居蓋房占地二嬸吵不贏,我媽擼起袖子沖上去

我媽和二嬸不對付,鄰居蓋房占地二嬸吵不贏,我媽擼起袖子沖上去

多多故事薈
2025-06-10 09:10:03
李月汝首發狂砍15+10,主帥稱贊表現出色

李月汝首發狂砍15+10,主帥稱贊表現出色

發財西瓜
2025-06-27 12:25:38
2025-06-27 21:40:49
機器學習與Python社區 incentive-icons
機器學習與Python社區
機器學習算法與Python
3014文章數 11024關注度
往期回顧 全部

科技要聞

雷軍:小米汽車成功沒靠營銷,靠的是能力

頭條要聞

美國打擊伊朗核設施后 美軍一將領進入特朗普核心圈

頭條要聞

美國打擊伊朗核設施后 美軍一將領進入特朗普核心圈

體育要聞

曼城“庫里”連線,送尤文晚安好夢

娛樂要聞

炸裂!榜一大姐深夜怒錘頂流

財經要聞

合新鐵路建設材料以次充好 多家單位被罰

汽車要聞

配置升級/貴賓座椅 全新GL8陸上公務艙售22.99萬

態度原創

本地
親子
手機
數碼
公開課

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

親子要聞

無奇不有,龍鳳胎同時出生竟一母雙父,醫生坦言不奇怪,女方全責

手機要聞

小米MIX Flip2線下上手:體驗后,說說真實感受

數碼要聞

極摩客 EVO-X2 AI 桌面主機圖賞:輕巧緊湊,銳龍AI Max+ 395加持

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 饶平县| 兴化市| 景德镇市| 萨迦县| 双鸭山市| 锡林浩特市| 虎林市| 吴川市| 大姚县| 茌平县| 自治县| 当涂县| 子长县| 余姚市| 滨州市| 安阳县| 武功县| 离岛区| 长泰县| 福安市| 兴城市| 临城县| 南皮县| 屏东市| 汽车| 新宾| 秀山| 观塘区| 城口县| 晴隆县| 韶关市| 闽清县| 永吉县| 时尚| 广南县| 兴宁市| 渑池县| 鹤岗市| 澄城县| 漳州市| 萨迦县|