作者|子川
來源|AI先鋒官
來了來了,終于等到了基于Qwen2.5-Max的推理模型!
就在今天,通義千問團隊發布了最新的深度推理模型QwQ-Max-Preview預覽版,這是繼QwQ-32B-Preview之后,千問團隊再次推出推理模型。
據介紹,QwQ-Max-Preview的基礎模型是Qwen2.5-Max,它將更加擅長數學、編程、與Agent相關的任務。
雖然QwQ-Max-Preview目前是一個預覽版,但實力非??勾?。
在LiveCodeBench編程測試上,QwQ-Max-Preview 表現比肩 o1-medium ,超越了DeepSeek R1等頂尖模型。
并且通義千問團隊還表示后續將推出 QwQ-Max 和 Qwen2.5-Max 的官方 Apache 2.0 許可開源版本。
除此之外,公告還透露將發布Qwen Chat APP和開源更小的推理模型,如qwq-32b, 可直接在本地設備部署。
寫到這里,腦海中突然只剩下四個字:源神啟動!
在博客中,通義千問團隊放出了多個實測案例,分別展示QwQ-Max-Preview在代碼、數學、搜索、Agent、創意寫作等方面的能力。
比如QwQ-Max-Preview輕松搞定模擬海量小球運動的代碼。
還能開發游戲,把《俄羅斯方塊》和《2048》兩款游戲整合在一起。
甚至能給淘寶服裝店生成一張海報和二維碼,二維碼實測也可以跳轉至淘寶官網。
這樣看起來,QwQ-Max-Preview的表現確實牛。
畢竟是官方放出的案例,實際到底如何還得自己把控。
老規矩,接下來,實測一下,看一下QwQ-Max-Preview的推理能力到底有多強。
下面就用QwQ-Max-Preview和o3-mini、混元T1打個PK。
案例一:今天星期幾?
某地有兩個奇怪的村莊,張莊的人在星期一、三、五說謊,李村的人在星期二、四、六說謊。在其他日子他們說實話。一天,外地的王從明來到這里,見到兩個人,分別向他們提出關于日期的題。兩個人都說:“前天是我說謊的日子?!比绻粏柕膬蓚€人分別來自張莊和李村,那么這一天是星期幾?
QwQ-Max-Preview
o3-mini
混元T1
好家伙,只有o3-mini回答錯誤,QwQ-Max-Preview和混元T1都回答正確,逆推一下發現o3-mini明顯回答錯誤了。
案例二:四個人如何過橋
在一個夜晚,同時有4人需要過一橋,一次最多只能通過兩個人,且只有一只手電筒,而且每人的速度不同。A、B、C、D需要時間分別為:1,2,5,10分鐘。問:在17分鐘內這四個人怎么過橋?
QwQ-Max-Preview
o3-mini
混元T1
全部回答正確,是時候上上難度,來一個挖坑推理題,能不能難住它們。
案例三:竹竿過門
一根8米長的竹竿是否能通過一個4米高、2米寬的門?
QwQ-Max-Preview
o3-mini
混元T1
這道挖坑題把混元T1難住了,回答錯誤,混元T1按照慣性思維計算斜對角的長度,它不理解竹杠是可以穿過去的。
相反,QwQ-Max-Preview和o3-mini沒有被坑到,回答正確,目前只剩下QwQ-Max-Preview還保持全對,上上難度。
案例四:江西省南昌市2025屆高三模擬真題
專門挑了選擇題的最后一題,在過去,最后一道題往往只有數學老師和數學大神能做出來,看看它們三是否能做出來。
先公布正確答案:B、C、D
QwQ-Max-Preview
o3-mini
混元T1
又是只有o3-mini一個人回答錯誤的名場面出現了.....
整體測試下來,唯一保持全勝記錄的只有QwQ-Max-Preview,會發現其推理能力要比o3-mini強得多。
目前QwQ-Max-Preview模型已經上線,大家感興趣的話,可以試玩一下
鏈接:https://chat.qwen.ai
寫到最后,不禁被通義團隊的開源精神所折服。
此前DeepSeek蒸餾出的6個開源模型中,有4個就是基于Qwen-32B來蒸餾。
還有李飛飛團隊用不到50美元的費用,以Qwen2.5-32B-Instruct開源模型為底座,在16塊H100 GPU上監督微調26分鐘,訓練出新模型s1-32B。
據不完全統計,Qwen系列衍生模型總數超過5萬個,已經成為僅次于Llama的世界級模型群。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.