作者|子川
來源|AI先鋒官
原來AI圈也有自己的汪峰!
昨天DeepSeek前腳剛發布新版本DeepSeek-V3-0324,后腳阿里云通義千問開源了視覺理解模型Qwen2.5-VL-32B-Instruc。
結果也如大家看到的那樣,熱度全跑到DeepSeek那里去了。
在此之前,開源家族視覺語言模型Qwen2.5-VL系列已經有3B、7B和72B三種尺寸。
而此次發布Qwen2.5-VL-32B正好解決了一個痛點:7B太小,72B又太大,用來部署本地正正好。
雖然32B比72B尺寸小上不少,但能力卻絲毫不差。
在公布的測試成績中,Qwen2.5-VL-32B-Instruct 明顯要優于同規模的 Mistral-Small-3.1-24B、Gemma-3-27B-IT 模型,甚至在某些方面超越了更大規模的 72B 模型。
據了解,相較于此前的 Qwen2.5-VL 系列模型,32B 模型有三點顯著的改進:
回復更符合人類主觀偏好:調整了輸出風格,使回答更加詳細、格式更規范,并更符合人類偏好。
數學推理能力:復雜數學問題求解的準確性顯著提升。
圖像細粒度理解與推理:在圖像解析、內容識別以及視覺邏輯推導等任務中表現出更強的準確性和細粒度分析能力。
那它的實際效果到底如何呢,我們來實際測試一波。
扔給它一張高速限速圖,并問Qwen2.5-VL-32B:我開著一輛卡車在這條路上行駛,現在是 12 點,我能在 13 點之前到達 110 公里外的地方嗎?
它的回答是這樣的——
Qwen2.5-VL-32B結合圖片上的限速規則,并通過計算,給出了“不能”的答案。
面對較難的看圖猜成語問題,Qwen2.5-VL-32B也能輕松拿捏。
不過面對一些較難猜的成語,也有翻車的時候。
Qwen2.5-VL-32B把“兩面三刀”猜成了“面面俱到”。
那Qwen2.5-VL-32B的實力到底如何呢?在同尺寸模型中是否具有領先的優勢呢?下面我們來對比一下。
此次用于測試的就是前段日子Google發布的Gemma 3 27B,畢竟尺寸差不多,而且都是主打的在本地部署這條賽道。
測試題一:一根8米長的竹竿是否能通過一個4米高、2米寬的門?
Qwen2.5-VL-32B:
Gemma 3 27B:
不愧是現在模型測試專用題,都沒有回答出來,這道題確實有點難,此前DeepSeek R1、o1等模型都在這道題栽跟頭了。
那就來一道中等的計算題來難為一下它們。
測試題二:你和朋友輪流從一堆金幣中取1、3或6枚。獲勝者是最后取走金幣的人。對于N<1000,第一位玩家有多少種贏得游戲的策略?
先公布正確答案:666
Qwen2.5-VL-32B:
Gemma 3 27B:
Qwen2.5-VL-32B回答正確,給出的答案是666,但Gemma 3回答錯誤了,給出的答案是667,居然多算出一種。
測試題三:如果昨天是明天的話就好了,那么今天就是周五了。請問:實際上,句中的今天可能是周幾?
Qwen2.5-VL-32B:
Gemma 3 27B:
呃呃呃.....,兩個都回答錯誤,標準答案是:周日和周三,Qwen2.5-VL-32B只推斷出周日,而Gemma 3則是一個沒對一個,給出的答案是周六。
測試題四:猜猜老師的生日
題目:老師告訴學生自己的生日是以下日期之一:3月4日、3月5日、3月8日、6月4日、6月7日、9月1日、9月5日、12月1日、12月2日、12月8日。老師只告訴了A月份,告訴了B日期。A說:“我不知道老師的生日,但B肯定也不知道。” B說:“我本來也不知道,但現在我知道了。” A說:“那我也知道了。” 請問老師的生日是哪一天?
Qwen2.5-VL-32B:
Gemma 3 27B:
結果如大家所看到的那樣,Gemma 3 27B又雙叒叕回答錯誤了,而Qwen2.5-VL-32B則是回答正確。
四道測試題, Qwen2.5-VL-32B答對兩道,而 Gemma 3 27B則是全軍覆沒。
雖然此次測試沒有基準測試那么全面,但可以看出 Gemma 3 27B在復雜任務的處理上是不如 Qwen2.5-VL-32B的。
目前, Qwen2.5-VL-32B已全面開源,并放在了 Hugging Face 上,該模型使用Apache 2.0協議開源。
同時在Qwen Chat上就能直接體驗Qwen2.5-VL-32B,感興趣的童鞋可以去試試。
附上體驗鏈接:https://chat.qwen.ai/
掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。
往期文章回顧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.