編輯 | 楊文
今早一睜眼,朋友圈就被 Qwen3 刷屏了。
,其中兩款 MoE 模型以及六款密集模型,而且每一款又包含更多細分版本,甚至 Hugging Face 已經(jīng)上線了 22 個不同的 Qwen3 系列模型。
至于它們的表現(xiàn),官方也給出了跑分結(jié)果。
在代碼、數(shù)學、通用能力等基準測試中,旗艦?zāi)P?Qwen3-235B-A22B 與 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等頂級模型表現(xiàn)不相上下。
小型 MoE 模型 Qwen3-30B-A3B 的激活參數(shù)數(shù)量是 QwQ-32B 的 10%,表現(xiàn)卻更勝一籌。甚至像 Qwen3-4B 這樣的小模型也能匹敵 Qwen2.5-72B-Instruct 的性能。
目前,較大的三款模型也已經(jīng)上線了 Qwen Chat 網(wǎng)頁版和手機 App。
體驗鏈接:http://chat.qwenlm.ai
老規(guī)矩,模型好不好還得親自去試試。接下來,我們就圍繞邏輯推理能力、創(chuàng)意寫作和編碼能力對最強大的 Qwen3-235B-A22B 進行一番實測。
1. 一根 20 米長的木棍能通過高 5 米、寬 6 米的城門嗎?
這道木棍過城門的經(jīng)典題目曾難倒了一眾大模型。
Qwen3 拿到任務(wù)立馬響應(yīng),它的思考過程非常復(fù)雜,滑不完,根本滑不完。
不過,Qwen3 考慮了一圈,靜態(tài)放置、傾斜通過和三維空間對角線這幾種情況都分析了,就是沒想到讓棍子和地面平行從城門里穿過去,最終還是給出了「無法通過」的錯誤答案。
2. 1 元錢一瓶汽水,喝完后兩個空瓶換一瓶汽水,問:你有 20 元錢,最多可以喝到幾瓶汽水?
這道益智數(shù)學題用到了「借瓶法」。當喝到第 39 瓶時,手頭就會有一個空瓶子,我們可以先向店主借一個空瓶,換來一瓶汽水喝完后,再把空瓶還給店主,所以正確答案是 40 瓶。
Qwen3 又經(jīng)過一頓繁瑣的思考,前面的解題過程分毫不差,而且它也想到了借瓶,只是到了最后,Qwen3 認為借瓶是非常規(guī)假設(shè)。
3. 一架飛機從北京起飛,先向北飛了 1000 公里,再向西飛了 1000 公里,再向南飛了 1000 公里,再向東飛了 1000 公里,這架飛機可以飛回北京嗎?
由于地球是個球體,緯線長度隨緯度升高而變短,因此按照題目規(guī)定的路徑,飛機是無法飛回原地的。
Qwen3 調(diào)用數(shù)學和地理知識,不僅回答正確,還給出了擴展思考。
4. 買一臺三千塊左右的電腦大概需要多少錢?
再來一道弱智吧的題目。
Qwen3 注意到了題目中存在的矛盾 —— 提到了「三千塊左右 」的預(yù)算,但又問「大概需要多少錢 」,由此猜測是用戶想了解電腦價格或配置。
于是,Qwen3 列出了 3000 元能買到筆記本、臺式機和組裝臺式機,分別介紹了它們的機型、配置和缺點,并以表格的形式給出了總結(jié)建議。
測完了數(shù)理邏輯推理,我們再來試試它的寫作能力。
我們讓它講三個能讓人笑抽風的笑話。
看來 Qwen3 沒什么幽默細胞,講的笑話一個比一個冷,活了這么多年還第一次聽說「蟹(諧)路狂奔」這樣小眾的表達,「鴨子從不賒賬,除非交鴨(押)金」,這諧音梗未免也太抽象了,有種前言不搭后語的感覺。
我們又讓它模仿黑旋風李逵的 style,寫一篇吐槽工作的段子。
Qwen3 很懂李逵「直爽、粗獷、說話不拐彎抹角」的江湖風格,把現(xiàn)代職場中的加班、甩鍋、形式主義這些點用夸張的方式表達出來,其中還摻雜著大量的俚語,整體風格也很統(tǒng)一,沒有偏離李逵的性格特點。
我們還測試了它的編程能力。
提示詞:創(chuàng)建一個 HTML 文件,包含 CSS 和 JavaScript,用來生成動畫天氣卡片,卡片用不同的動畫形式直觀地表示以下天氣狀況:風 (例如移動的云、搖曳的樹木)、雨 (例如落下的雨滴)、太陽 (例如閃耀的光線)、雪 (例如飄落的雪花、積雪),并排顯示所有卡片,底部有一個漂亮的按鈕可以切換動畫速度。
Qwen3 啪一下就給出了代碼,任務(wù)是完成了,但美觀性不足,而且底部的「加速動畫」按鈕像個擺設(shè),無法切換速度。
提示詞:編寫一個 Python 程序,展示一個球在旋轉(zhuǎn)的六邊形內(nèi)彈跳。球應(yīng)受到重力的影響,并且必須真實地反彈到旋轉(zhuǎn)的墻壁上。
有一說一,這個小球在旋轉(zhuǎn)六邊形里彈跳的程序,Qwen3 編得真不錯,既沒有出現(xiàn)小球掉出來的情況,也沒有彈跳角度不合理或者程序卡死的情況。
經(jīng)典的貪吃蛇小游戲也完成得很順利,就是游戲界面稍顯簡陋。
總之,Qwen3 系列尤其是旗艦?zāi)P?Qwen3-235B-A22B,還是拿出了自己的實力。
盡管在一些邏輯推理題中,Qwen3 的表現(xiàn)略顯繁復(fù),甚至會在關(guān)鍵點上出錯,但也展現(xiàn)出深入分析問題的能力。在創(chuàng)意寫作方面,Qwen3 能準確抓住人物語氣與性格特征,只是在幽默感的拿捏上「AI 味」?jié)庵亍V劣诰幊棠芰Γ芡瓿啥喾N任務(wù),但在界面美學與交互細節(jié)上還有進步空間。
你覺得 Qwen3 是個啥水平?評論區(qū)聊聊吧。
以后我們會帶來更多好玩有用的 AI 評測,也歡迎大家進群交流。
? THE END
轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.