99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

阿里開源推理模型QwQ-32B,實測PK比他大20倍的DeepSeek-R1

0
分享至

作者|沐風

來源|AI先鋒官

3月6日凌晨,阿里巴巴發布并開源了全新的推理模型通義千問QwQ-32B。

千問QwQ-32B是阿里探索推理模型的最新成果。

在冷啟動基礎上,阿里通義團隊針對數學和編程任務、通用能力分別進行了兩輪大規模強化學習,在32B的模型尺寸上獲得了驚人的推理能力提升。

根據官方發布的基準測試結果,這款320億參數的模型通過強化學習技術,其性能在多項基準測試中與擁有6710億參數(其中370億被激活)的 DeepSeek-R1 相媲美。


在數學推理基準AIME24上,QwQ-32B達到了79.5分,幾乎與DeepSeek-R1-617B的79.8分持平,遠超OpenAI o1-mini的63.6分,及相同尺寸的R1蒸餾模型。

在編程能力方面,QwQ-32B 在LiveCodeBench上獲得了63.4分,接近DeepSeek-R1-617B的 65.9分,也同樣優于o1-mini的53.8分和蒸餾模型。

在由Meta首席科學家楊立昆領銜的“最難LLMs評測榜”LiveBench、谷歌等提出的指令遵循能力IFEval評測集、由加州大學伯克利分校等提出的評估準確調用函數或工具方面的BFCL測試中,通義千問QwQ-32B的得分均略微超過了DeepSeek-R1-617B。

除了在性能上的提升,QwQ-32B的另一個亮點就是大幅降低了部署使用成本,671B,在FP16精度下需要1400G的顯存,而現在,32B的QwQ,4張4090就能跑,這是將近15倍的差距,并且智能水平還差不多。

這也意味著開發者和企業在消費級硬件上就可以直接拿到一個足以對標DeepSeek R1的邏輯推理、數學推理、代碼思考能力的大模型,將其部署到本地設備中。

目前,千問QwQ-32B已在魔搭社區、HuggingFace及GitHub等平臺基于寬松的Apache2.0協議開源,所有人都可免費下載模型進行本地部署,或者通過阿里云百煉平臺直接調用模型API服務。

個人用戶也可通過Qwen Chat或通義APP直接體驗該模型。

既然如此,小編也找來了一些題目,不如就讓QwQ-32B與DeepSeek R1來較量一下,看看誰的推理能力更強。

題目一:找規律 24,14,26,33,46,()

QwQ-32B


DeepSeek R1


兩者用時幾乎相似,但它倆都沒算對,答案是62.5。

所以小編又向它倆提示到“給 你一點點提示,24除以2加上14等于26,14除以2加上26等于33”。

這次它們雖然將答案算了出來,但QwQ-32B一直糾結于結果必須是整數,導致經過大量計算后還給出了62這個錯誤答案,而DeepSeek R1則是直接四舍五入給出了63這個答案,可是題目中并沒有要求必須是整數。

題目二:數Strawberry中有幾個r

QwQ-32B


DeepSeek R1


雖然DeepSeek R1和QwQ-32B都回答正確,但是,可以看出它們均會出現過度思考的問題,例如這道很簡單的問題它倆也會生成大量的思維鏈,導致其輸出結果的速度較慢。

題目三:用一根繩子吊住一根胡蘿卜,達到平衡,胡蘿卜頭尾在同一水平。這時候沿著繩子切開胡蘿卜為兩份,哪邊更重?

QwQ-32B


DeepSeek R1


沒想到QwQ-32B會栽在這道題上,盡管QwQ-32B進行了約小萬字的推理但還是錯了。

這道題的正確答案是“因尾部較細力臂更長所以凈重量要比頭部更小,最終頭部一側的凈重量更大。”恭喜DeepSeek R1回答正確。

題目四:房子里有五個人,A、B、C、D和E,A正在和B看電視,D在睡覺,E在打乒乓球,請問C在做什么?

QwQ-32B


DeepSeek R1


QwQ-32B、DeepSeek R1回答完全正確,看來現在這類題完全難不到它們了,那就再來個經典的。

題目五:比較9.11和9.8這兩個數的大小。

QwQ-32B


DeepSeek R1


這道經典必考題QwQ-32B和DeepSeek R1均回答正確,值得注意的地方是,它倆的推理過程極其相似。

題目六:用5L容量和3L容量的瓶子怎么裝出4L的水?

QwQ-32B


DeepSeek R1


在這道題中,QwQ-32B將可實現的兩種答案全部生成了出來,而DeepSeek R1雖然回答的也正確,但只給出了1種方法。

從這六個題目中可以看出來,QwQ-32B在邏輯推理、數學分析和知識儲備方面展現出了與DeepSeek R1相媲美的實力。

但也暴露出QwQ-32B存在的一些短板,例如過度思考、處理復雜問題、運用物理知識和理解某些特定領域概念時,仍有提升空間,但其潛力是不容忽視的。

值得一提的是,有資料顯示,從2023年至今,阿里通義團隊已開源200多款模型,包含大語言模型千問Qwen及視覺生成模型萬相Wan等兩大基模系列,現了全模態、全尺寸大模型的開源。

開源社區Hugging Face此前的榜單顯示,開源僅6天的阿里萬相大模型已反超DeepSeek-R1,登頂模型熱榜、模型空間榜兩大榜單,成為近期全球開源社區最受歡迎的大模型。

根據最新數據,萬相2.1(Wan2.1)在Hugging Face及魔搭社區的總下載量已超百萬,在Github的Star數超6k。

掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。

往期文章回顧

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
71歲伊萬與足協解約!本周末離開中國 不愁沒工作:已接到5國邀請

71歲伊萬與足協解約!本周末離開中國 不愁沒工作:已接到5國邀請

風過鄉
2025-06-13 20:13:53
一旦活到了70歲,大部分就出現了如下癥狀,看看你占了幾個?

一旦活到了70歲,大部分就出現了如下癥狀,看看你占了幾個?

嘆為觀止易
2025-06-14 10:15:07
N+3!網傳TPlink上海張江wifi部門大裁員:上午通知下午簽晚上走

N+3!網傳TPlink上海張江wifi部門大裁員:上午通知下午簽晚上走

特特農村生活
2025-06-14 09:51:25
北京5名學霸高考估分700分實際350分,家長聯合舉報,結果如何

北京5名學霸高考估分700分實際350分,家長聯合舉報,結果如何

黃家湖的憂傷
2025-06-03 17:20:41
如果孫中山臨終前,把國民黨交給毛澤東來領導,會出現什么局面?

如果孫中山臨終前,把國民黨交給毛澤東來領導,會出現什么局面?

何氽簡史
2025-06-14 00:41:44
“想裝還舍不得花錢”10歲女孩生日大排宴宴,被網友扒出團購訂單

“想裝還舍不得花錢”10歲女孩生日大排宴宴,被網友扒出團購訂單

知曉科普
2025-06-13 11:48:53
賴清德攔不住,一周之內,臺島三路人馬抵達大陸,侯友宜原形畢露

賴清德攔不住,一周之內,臺島三路人馬抵達大陸,侯友宜原形畢露

泠泠說史
2025-06-14 17:02:10
8000萬歐!葡體正式標價52場54球鋒霸:已通知英超2強 經紀人怒斥

8000萬歐!葡體正式標價52場54球鋒霸:已通知英超2強 經紀人怒斥

風過鄉
2025-06-14 09:18:53
趙本山兒子完美詮釋土和豪

趙本山兒子完美詮釋土和豪

情感大頭說說
2025-06-02 20:22:02
少婦天花板!

少婦天花板!

貴圈真亂
2025-06-10 12:03:31
臺風“蝴蝶”在廣東雷州二次登陸:全省累計轉移超9萬人,湛江五條高速封閉,多座跨海大橋管控

臺風“蝴蝶”在廣東雷州二次登陸:全省累計轉移超9萬人,湛江五條高速封閉,多座跨海大橋管控

極目新聞
2025-06-14 14:45:26
東部戰區:若武統臺灣,不會斬首賴清德,只因一個極其重要的原因

東部戰區:若武統臺灣,不會斬首賴清德,只因一個極其重要的原因

混沌錄
2025-06-13 21:04:24
溫網冠軍鄭欽文獎金2921萬,奪冠前景受質疑

溫網冠軍鄭欽文獎金2921萬,奪冠前景受質疑

徐徐解說
2025-06-13 17:15:37
亞足聯欲邀兩隊晉級世界杯遭西亞3國足協反對,國足意外受益

亞足聯欲邀兩隊晉級世界杯遭西亞3國足協反對,國足意外受益

呂彍極限手工
2025-06-14 13:31:53
WTA倫敦站:鄭欽文2-0橫掃前美網冠軍拉杜卡努 首進草地賽四強

WTA倫敦站:鄭欽文2-0橫掃前美網冠軍拉杜卡努 首進草地賽四強

醉臥浮生
2025-06-14 01:30:05
國足揪出30年來,最大罪人,讓中國國足丟盡顏面

國足揪出30年來,最大罪人,讓中國國足丟盡顏面

體壇狗哥
2025-06-14 10:46:13
其中一員!小奧尼爾:96屆選秀是歷史最佳 那一屆太有深度了

其中一員!小奧尼爾:96屆選秀是歷史最佳 那一屆太有深度了

直播吧
2025-06-14 19:19:59
周總理臨終3條遺囑,毛主席只答應一條,華國鋒:當時沒人敢做主

周總理臨終3條遺囑,毛主席只答應一條,華國鋒:當時沒人敢做主

老閆侃史
2025-06-14 19:00:03
自己宣!決定了!李月汝!

自己宣!決定了!李月汝!

左右為籃
2025-06-14 11:57:44
湖人迎好消息!詹姆斯或2年頂薪續約,父子三人同臺的壯舉有戲了

湖人迎好消息!詹姆斯或2年頂薪續約,父子三人同臺的壯舉有戲了

小路看球
2025-06-14 18:23:16
2025-06-14 19:40:49
AI先鋒官 incentive-icons
AI先鋒官
AIGC大模型及應用精選與評測
295文章數 18關注度
往期回顧 全部

科技要聞

一輛新車比特斯拉FSD都便宜,全行業陪葬?

頭條要聞

失獨母親60歲冒死生的雙胞胎中考了 母親稱不會去陪考

頭條要聞

失獨母親60歲冒死生的雙胞胎中考了 母親稱不會去陪考

體育要聞

32隊爭10億獎金,全新世俱杯來了!

娛樂要聞

曾毅塌房了?戴性暗示手表 腳踹女員工

財經要聞

樓市權威發聲

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

教育
時尚
藝術
房產
軍事航空

教育要聞

五年級的期末考試題,看著很簡單,但是很容易踩坑

時髦又清涼5組造型,夏天通勤穿剛好

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

房產要聞

又一城購房補貼!買房就發錢,正在海南樓市瘋狂擴散!

軍事要聞

伊媒:以色列國防部大樓被伊朗導彈擊中

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 华池县| 涿州市| 天等县| 和田县| 汉中市| 文登市| 阿坝县| 孟津县| 武夷山市| 卢湾区| 玛沁县| 普安县| 姜堰市| 汪清县| 康保县| 汉阴县| 开封市| 深圳市| 南宫市| 宜宾市| 芮城县| 乐至县| 大宁县| 石城县| 延川县| 肇源县| 富宁县| 曲阜市| 宽城| 清苑县| 体育| 潜山县| 乐山市| 南木林县| 郎溪县| 北流市| 托克逊县| 昌平区| 阿拉尔市| 普洱| 天柱县|