網易首頁 > 網易號 > 正文申請入駐

阿里開源推理模型QwQ-32B，實測PK比他大20倍的DeepSeek-R1

2025-03-07 08:10:42　來源: AI先鋒官

北京舉報

分享至

作者｜沐風

來源｜AI先鋒官

3月6日凌晨，阿里巴巴發布并開源了全新的推理模型通義千問QwQ-32B。

千問QwQ-32B是阿里探索推理模型的最新成果。

在冷啟動基礎上，阿里通義團隊針對數學和編程任務、通用能力分別進行了兩輪大規模強化學習，在32B的模型尺寸上獲得了驚人的推理能力提升。

根據官方發布的基準測試結果，這款320億參數的模型通過強化學習技術，其性能在多項基準測試中與擁有6710億參數（其中370億被激活）的 DeepSeek-R1 相媲美。

在數學推理基準AIME24上，QwQ-32B達到了79.5分，幾乎與DeepSeek-R1-617B的79.8分持平，遠超OpenAI o1-mini的63.6分，及相同尺寸的R1蒸餾模型。

在編程能力方面，QwQ-32B 在LiveCodeBench上獲得了63.4分，接近DeepSeek-R1-617B的 65.9分，也同樣優于o1-mini的53.8分和蒸餾模型。

在由Meta首席科學家楊立昆領銜的“最難LLMs評測榜”LiveBench、谷歌等提出的指令遵循能力IFEval評測集、由加州大學伯克利分校等提出的評估準確調用函數或工具方面的BFCL測試中，通義千問QwQ-32B的得分均略微超過了DeepSeek-R1-617B。

除了在性能上的提升，QwQ-32B的另一個亮點就是大幅降低了部署使用成本，671B，在FP16精度下需要1400G的顯存，而現在，32B的QwQ，4張4090就能跑，這是將近15倍的差距，并且智能水平還差不多。

這也意味著開發者和企業在消費級硬件上就可以直接拿到一個足以對標DeepSeek R1的邏輯推理、數學推理、代碼思考能力的大模型，將其部署到本地設備中。

目前，千問QwQ-32B已在魔搭社區、HuggingFace及GitHub等平臺基于寬松的Apache2.0協議開源，所有人都可免費下載模型進行本地部署，或者通過阿里云百煉平臺直接調用模型API服務。

個人用戶也可通過Qwen Chat或通義APP直接體驗該模型。

既然如此，小編也找來了一些題目，不如就讓QwQ-32B與DeepSeek R1來較量一下，看看誰的推理能力更強。

題目一：找規律 24，14，26，33，46，（）

QwQ-32B

DeepSeek R1

兩者用時幾乎相似，但它倆都沒算對，答案是62.5。

所以小編又向它倆提示到“給你一點點提示，24除以2加上14等于26，14除以2加上26等于33”。

這次它們雖然將答案算了出來，但QwQ-32B一直糾結于結果必須是整數，導致經過大量計算后還給出了62這個錯誤答案，而DeepSeek R1則是直接四舍五入給出了63這個答案，可是題目中并沒有要求必須是整數。

題目二：數Strawberry中有幾個r。

QwQ-32B

DeepSeek R1

雖然DeepSeek R1和QwQ-32B都回答正確，但是，可以看出它們均會出現過度思考的問題，例如這道很簡單的問題它倆也會生成大量的思維鏈，導致其輸出結果的速度較慢。

題目三：用一根繩子吊住一根胡蘿卜，達到平衡，胡蘿卜頭尾在同一水平。這時候沿著繩子切開胡蘿卜為兩份，哪邊更重?

QwQ-32B

DeepSeek R1

沒想到QwQ-32B會栽在這道題上，盡管QwQ-32B進行了約小萬字的推理但還是錯了。

這道題的正確答案是“因尾部較細力臂更長所以凈重量要比頭部更小，最終頭部一側的凈重量更大。”恭喜DeepSeek R1回答正確。

題目四：房子里有五個人，A、B、C、D和E，A正在和B看電視，D在睡覺，E在打乒乓球，請問C在做什么？

QwQ-32B

DeepSeek R1

QwQ-32B、DeepSeek R1回答完全正確，看來現在這類題完全難不到它們了，那就再來個經典的。

題目五：比較9.11和9.8這兩個數的大小。

QwQ-32B

DeepSeek R1

這道經典必考題QwQ-32B和DeepSeek R1均回答正確，值得注意的地方是，它倆的推理過程極其相似。

題目六：用5L容量和3L容量的瓶子怎么裝出4L的水?

QwQ-32B

DeepSeek R1

在這道題中，QwQ-32B將可實現的兩種答案全部生成了出來，而DeepSeek R1雖然回答的也正確，但只給出了1種方法。

從這六個題目中可以看出來，QwQ-32B在邏輯推理、數學分析和知識儲備方面展現出了與DeepSeek R1相媲美的實力。

但也暴露出QwQ-32B存在的一些短板，例如過度思考、處理復雜問題、運用物理知識和理解某些特定領域概念時，仍有提升空間，但其潛力是不容忽視的。

值得一提的是，有資料顯示，從2023年至今，阿里通義團隊已開源200多款模型，包含大語言模型千問Qwen及視覺生成模型萬相Wan等兩大基模系列，實現了全模態、全尺寸大模型的開源。

開源社區Hugging Face此前的榜單顯示，開源僅6天的阿里萬相大模型已反超DeepSeek-R1，登頂模型熱榜、模型空間榜兩大榜單，成為近期全球開源社區最受歡迎的大模型。

根據最新數據，萬相2.1（Wan2.1）在Hugging Face及魔搭社區的總下載量已超百萬，在Github的Star數超6k。

掃碼邀請進群，我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型，順便學一些AI搞錢技能。

往期文章回顧

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

1200行代碼逆襲！DeepSeek工程師開源輕量級vLLM，吞吐量逼近原版

機器之心Pro 2025-06-13 14:17:09
21 跟貼 21
DeepSeek研究員1200行代碼復刻vLLM，H800硬件實測性能反超原版

量子位 2025-06-13 15:22:08
20 跟貼 20

每一幕皆可控！字節發布多主體視頻生成神器，人人皆主角

量子位 2025-06-13 17:12:08
2 跟貼 2

采樣越多越聰明？隱式擴展顛覆認知，采樣搜索如何挑出完美解

新智元 2025-04-21 12:45:35
0 跟貼 0
一搜秒回、多模態輸出，百度AI搜索全面上線百度智能云千帆平臺

量子位 2025-06-13 18:34:21
0 跟貼 0

生活也用不上，為什么要學數學？

樸素知道 2025-06-10 10:14:04
10 跟貼 10

員工“萬字離職帖”再起漣漪馬云近兩年內網3次發聲：阿里焦慮仍在？

每日經濟新聞 2025-06-12 20:32:09
4 跟貼 4
阿里離職員工發萬字長文，馬云回應

時代周報 2025-06-12 19:15:37
0 跟貼 0

寶馬與阿里巴巴達成AI領域戰略合作

每日經濟新聞 2025-03-26 11:59:03
2 跟貼 2
阿里巴巴蔡崇信自曝：被DeepSeek逼急，工程師春節睡辦公室搞研發

中國財富網 2025-06-14 02:30:25
0 跟貼 0
河南安陽林州一中數學題求三者平方之和！

三樂大掌柜 2025-06-11 22:19:39
1 跟貼 1
離職員工發萬字長文談阿里：戰略不清、既要又要

每日經濟新聞 2025-06-12 12:34:36
0 跟貼 0
中國電商App霸榜前三，阿里國際站席卷海外百國榜單

每日經濟新聞 2025-04-20 22:08:02
0 跟貼 0
云南麗江高中數學模擬考試題，求三角函數的值

三樂大掌柜 2025-06-12 16:29:46
1 跟貼 1
北大韋神的課堂，那個8為啥躺著，讓我照著抄不一定能抄對

搞笑的哥哥笑 2025-06-13 12:39:49
4 跟貼 4
韋東奕的數學課，四塊黑板才能寫下一道題，記憶力超好！

柒柒零街拍 2025-06-12 09:28:39
0 跟貼 0
小學數學，簡便計算！

秒懂奧數李菁老師 2025-06-11 15:54:49
5 跟貼 5
男生走出考場哭的泣不成聲，告訴媽媽，數學選擇題答題卡忘了填了

柚子Video 2025-06-11 00:26:32
1 跟貼 1
小升初數學考試題，可以用金字塔模型，也可以用沙漏模型

公考客棧店小二 2025-06-14 12:31:21
0 跟貼 0
小學數學中考題，添加符號，使結果等于99

公考客棧店小二 2025-06-14 14:00:00
0 跟貼 0
說數學靠天賦的都錯了！數學不好，是沒有掌握數學思維的本質

智庫林 2025-06-10 19:05:41
0 跟貼 0
程序員從此不再寫代碼！紅杉專訪Codex團隊，o3白菜價真相曝光

新智元 2025-06-13 09:09:50
38 跟貼 38
學好數學，避免被套路

老奇科普 2025-06-13 18:27:35
0 跟貼 0
2025高考數學1卷第16題，數列導數基礎題

天天數理學習分享 2025-06-10 19:28:42
5 跟貼 5
1392清華大學附中自主招生數學題，因式分解，高手的做法很巧

我服子佩 2025-06-12 19:55:58
3 跟貼 3
小學數學思維訓練，五年級可做

公考客棧店小二 2025-06-13 23:18:45
4 跟貼 4
牛！安徽兩名學生，擬保送北大

AHTV第一時間 2025-06-14 16:06:38
0 跟貼 0
一道五年級的數學題，四年級的弟弟會做，大學生的表哥不會做

公考客棧店小二 2025-06-14 16:00:00
0 跟貼 0
數學是如何開竅的？刷一千道題，不如提升數學思維能力

智庫林 2025-06-10 11:57:45
0 跟貼 0
小學數學競賽題，班級上一半以上的同學不會做

公考客棧店小二 2025-06-14 14:00:00
0 跟貼 0
多個AI測試語文高考作文穩拿高分，卻敗在了數學壓軸題上

量子位 2025-06-10 20:24:14
0 跟貼 0
從數學老師的140分看今年高考數學的難度與考生壓力

夏雨荷 2025-06-13 01:39:31
0 跟貼 0
河南一高校硬核編程臺階走紅，網友：上個樓梯會“舉步艱難”

觀威海 2025-06-13 19:46:01
18 跟貼 18
挪一筆使18-1=3，來個數學老師輕松答對，真牛

宵語劇場 2025-06-13 18:16:47
3 跟貼 3
很多家長總以為學計算機就是在學編程

玉辭心 2025-06-14 06:04:28
5 跟貼 5
2025年高考語文作文試題的邏輯分析（3）北京卷作文材料（2）

老頭和你隨便聊聊 2025-06-13 08:15:51
8 跟貼 8
2025年數學新高考一卷第19題3問最樸素的方法最簡單的思路

數學高分老曹 2025-06-14 16:25:07
1 跟貼 1
韋東奕一代數學天才，百年難得一遇的數學天才

小賣鋪零食 2025-06-14 13:04:09
0 跟貼 0
一代數學天才韋東奕，竟然也偏科

鄧圓圓 2025-06-13 22:28:00
0 跟貼 0
學校舉行運動會，結果誰先做出數學題誰就先跑

音樂愛輕松 2025-06-13 16:13:00
0 跟貼 0

手機 / 數碼

房產 / 家居

阿里開源推理模型QwQ-32B，實測PK比他大20倍的DeepSeek-R1

一輛新車比特斯拉FSD都便宜，全行業陪葬？

失獨母親60歲冒死生的雙胞胎中考了 母親稱不會去陪考

失獨母親60歲冒死生的雙胞胎中考了 母親稱不會去陪考

32隊爭10億獎金，全新世俱杯來了！

曾毅塌房了？戴性暗示手表 腳踹女員工

樓市權威發聲

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

五年級的期末考試題，看著很簡單，但是很容易踩坑

時髦又清涼5組造型，夏天通勤穿剛好

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

又一城購房補貼！買房就發錢，正在海南樓市瘋狂擴散！

伊媒：以色列國防部大樓被伊朗導彈擊中

失獨母親60歲冒死生的雙胞胎中考了母親稱不會去陪考

失獨母親60歲冒死生的雙胞胎中考了母親稱不會去陪考

曾毅塌房了？戴性暗示手表腳踹女員工