作者|沐風
來源|AI先鋒官
3月6日凌晨,阿里巴巴發布并開源了全新的推理模型通義千問QwQ-32B。
千問QwQ-32B是阿里探索推理模型的最新成果。
在冷啟動基礎上,阿里通義團隊針對數學和編程任務、通用能力分別進行了兩輪大規模強化學習,在32B的模型尺寸上獲得了驚人的推理能力提升。
根據官方發布的基準測試結果,這款320億參數的模型通過強化學習技術,其性能在多項基準測試中與擁有6710億參數(其中370億被激活)的 DeepSeek-R1 相媲美。
在數學推理基準AIME24上,QwQ-32B達到了79.5分,幾乎與DeepSeek-R1-617B的79.8分持平,遠超OpenAI o1-mini的63.6分,及相同尺寸的R1蒸餾模型。
在編程能力方面,QwQ-32B 在LiveCodeBench上獲得了63.4分,接近DeepSeek-R1-617B的 65.9分,也同樣優于o1-mini的53.8分和蒸餾模型。
在由Meta首席科學家楊立昆領銜的“最難LLMs評測榜”LiveBench、谷歌等提出的指令遵循能力IFEval評測集、由加州大學伯克利分校等提出的評估準確調用函數或工具方面的BFCL測試中,通義千問QwQ-32B的得分均略微超過了DeepSeek-R1-617B。
除了在性能上的提升,QwQ-32B的另一個亮點就是大幅降低了部署使用成本,671B,在FP16精度下需要1400G的顯存,而現在,32B的QwQ,4張4090就能跑,這是將近15倍的差距,并且智能水平還差不多。
這也意味著開發者和企業在消費級硬件上就可以直接拿到一個足以對標DeepSeek R1的邏輯推理、數學推理、代碼思考能力的大模型,將其部署到本地設備中。
目前,千問QwQ-32B已在魔搭社區、HuggingFace及GitHub等平臺基于寬松的Apache2.0協議開源,所有人都可免費下載模型進行本地部署,或者通過阿里云百煉平臺直接調用模型API服務。
個人用戶也可通過Qwen Chat或通義APP直接體驗該模型。
既然如此,小編也找來了一些題目,不如就讓QwQ-32B與DeepSeek R1來較量一下,看看誰的推理能力更強。
題目一:找規律 24,14,26,33,46,()
QwQ-32B
DeepSeek R1
兩者用時幾乎相似,但它倆都沒算對,答案是62.5。
所以小編又向它倆提示到“給 你一點點提示,24除以2加上14等于26,14除以2加上26等于33”。
這次它們雖然將答案算了出來,但QwQ-32B一直糾結于結果必須是整數,導致經過大量計算后還給出了62這個錯誤答案,而DeepSeek R1則是直接四舍五入給出了63這個答案,可是題目中并沒有要求必須是整數。
題目二:數Strawberry中有幾個r。
QwQ-32B
DeepSeek R1
雖然DeepSeek R1和QwQ-32B都回答正確,但是,可以看出它們均會出現過度思考的問題,例如這道很簡單的問題它倆也會生成大量的思維鏈,導致其輸出結果的速度較慢。
題目三:用一根繩子吊住一根胡蘿卜,達到平衡,胡蘿卜頭尾在同一水平。這時候沿著繩子切開胡蘿卜為兩份,哪邊更重?
QwQ-32B
DeepSeek R1
沒想到QwQ-32B會栽在這道題上,盡管QwQ-32B進行了約小萬字的推理但還是錯了。
這道題的正確答案是“因尾部較細力臂更長所以凈重量要比頭部更小,最終頭部一側的凈重量更大。”恭喜DeepSeek R1回答正確。
題目四:房子里有五個人,A、B、C、D和E,A正在和B看電視,D在睡覺,E在打乒乓球,請問C在做什么?
QwQ-32B
DeepSeek R1
QwQ-32B、DeepSeek R1回答完全正確,看來現在這類題完全難不到它們了,那就再來個經典的。
題目五:比較9.11和9.8這兩個數的大小。
QwQ-32B
DeepSeek R1
這道經典必考題QwQ-32B和DeepSeek R1均回答正確,值得注意的地方是,它倆的推理過程極其相似。
題目六:用5L容量和3L容量的瓶子怎么裝出4L的水?
QwQ-32B
DeepSeek R1
在這道題中,QwQ-32B將可實現的兩種答案全部生成了出來,而DeepSeek R1雖然回答的也正確,但只給出了1種方法。
從這六個題目中可以看出來,QwQ-32B在邏輯推理、數學分析和知識儲備方面展現出了與DeepSeek R1相媲美的實力。
但也暴露出QwQ-32B存在的一些短板,例如過度思考、處理復雜問題、運用物理知識和理解某些特定領域概念時,仍有提升空間,但其潛力是不容忽視的。
值得一提的是,有資料顯示,從2023年至今,阿里通義團隊已開源200多款模型,包含大語言模型千問Qwen及視覺生成模型萬相Wan等兩大基模系列,實現了全模態、全尺寸大模型的開源。
開源社區Hugging Face此前的榜單顯示,開源僅6天的阿里萬相大模型已反超DeepSeek-R1,登頂模型熱榜、模型空間榜兩大榜單,成為近期全球開源社區最受歡迎的大模型。
根據最新數據,萬相2.1(Wan2.1)在Hugging Face及魔搭社區的總下載量已超百萬,在Github的Star數超6k。
掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。
往期文章回顧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.