網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

我用Qwen3實測了9道經(jīng)典難題，再聰明的AI也有犯傻的時候

2025-04-29 19:27:03　來源: AI好好用

北京舉報

分享至

編輯 | 楊文

今早一睜眼，朋友圈就被 Qwen3 刷屏了。

，其中兩款 MoE 模型以及六款密集模型，而且每一款又包含更多細分版本，甚至 Hugging Face 已經(jīng)上線了 22 個不同的 Qwen3 系列模型。

至于它們的表現(xiàn)，官方也給出了跑分結(jié)果。

在代碼、數(shù)學、通用能力等基準測試中，旗艦?zāi)Ｐ?Qwen3-235B-A22B 與 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等頂級模型表現(xiàn)不相上下。

小型 MoE 模型 Qwen3-30B-A3B 的激活參數(shù)數(shù)量是 QwQ-32B 的 10%，表現(xiàn)卻更勝一籌。甚至像 Qwen3-4B 這樣的小模型也能匹敵 Qwen2.5-72B-Instruct 的性能。

目前，較大的三款模型也已經(jīng)上線了 Qwen Chat 網(wǎng)頁版和手機 App。

體驗鏈接：http://chat.qwenlm.ai

老規(guī)矩，模型好不好還得親自去試試。接下來，我們就圍繞邏輯推理能力、創(chuàng)意寫作和編碼能力對最強大的 Qwen3-235B-A22B 進行一番實測。

1. 一根 20 米長的木棍能通過高 5 米、寬 6 米的城門嗎？

這道木棍過城門的經(jīng)典題目曾難倒了一眾大模型。

Qwen3 拿到任務(wù)立馬響應(yīng)，它的思考過程非常復(fù)雜，滑不完，根本滑不完。

不過，Qwen3 考慮了一圈，靜態(tài)放置、傾斜通過和三維空間對角線這幾種情況都分析了，就是沒想到讓棍子和地面平行從城門里穿過去，最終還是給出了「無法通過」的錯誤答案。

2. 1 元錢一瓶汽水，喝完后兩個空瓶換一瓶汽水，問：你有 20 元錢，最多可以喝到幾瓶汽水？

這道益智數(shù)學題用到了「借瓶法」。當喝到第 39 瓶時，手頭就會有一個空瓶子，我們可以先向店主借一個空瓶，換來一瓶汽水喝完后，再把空瓶還給店主，所以正確答案是 40 瓶。

Qwen3 又經(jīng)過一頓繁瑣的思考，前面的解題過程分毫不差，而且它也想到了借瓶，只是到了最后，Qwen3 認為借瓶是非常規(guī)假設(shè)。

3. 一架飛機從北京起飛，先向北飛了 1000 公里，再向西飛了 1000 公里，再向南飛了 1000 公里，再向東飛了 1000 公里，這架飛機可以飛回北京嗎？

由于地球是個球體，緯線長度隨緯度升高而變短，因此按照題目規(guī)定的路徑，飛機是無法飛回原地的。

Qwen3 調(diào)用數(shù)學和地理知識，不僅回答正確，還給出了擴展思考。

4. 買一臺三千塊左右的電腦大概需要多少錢？

再來一道弱智吧的題目。

Qwen3 注意到了題目中存在的矛盾 —— 提到了「三千塊左右」的預(yù)算，但又問「大概需要多少錢」，由此猜測是用戶想了解電腦價格或配置。

于是，Qwen3 列出了 3000 元能買到筆記本、臺式機和組裝臺式機，分別介紹了它們的機型、配置和缺點，并以表格的形式給出了總結(jié)建議。

測完了數(shù)理邏輯推理，我們再來試試它的寫作能力。

我們讓它講三個能讓人笑抽風的笑話。

看來 Qwen3 沒什么幽默細胞，講的笑話一個比一個冷，活了這么多年還第一次聽說「蟹（諧）路狂奔」這樣小眾的表達，「鴨子從不賒賬，除非交鴨（押）金」，這諧音梗未免也太抽象了，有種前言不搭后語的感覺。

我們又讓它模仿黑旋風李逵的 style，寫一篇吐槽工作的段子。

Qwen3 很懂李逵「直爽、粗獷、說話不拐彎抹角」的江湖風格，把現(xiàn)代職場中的加班、甩鍋、形式主義這些點用夸張的方式表達出來，其中還摻雜著大量的俚語，整體風格也很統(tǒng)一，沒有偏離李逵的性格特點。

我們還測試了它的編程能力。

提示詞：創(chuàng)建一個 HTML 文件，包含 CSS 和 JavaScript，用來生成動畫天氣卡片，卡片用不同的動畫形式直觀地表示以下天氣狀況：風 (例如移動的云、搖曳的樹木)、雨 (例如落下的雨滴)、太陽 (例如閃耀的光線)、雪 (例如飄落的雪花、積雪)，并排顯示所有卡片，底部有一個漂亮的按鈕可以切換動畫速度。

Qwen3 啪一下就給出了代碼，任務(wù)是完成了，但美觀性不足，而且底部的「加速動畫」按鈕像個擺設(shè)，無法切換速度。

提示詞：編寫一個 Python 程序，展示一個球在旋轉(zhuǎn)的六邊形內(nèi)彈跳。球應(yīng)受到重力的影響，并且必須真實地反彈到旋轉(zhuǎn)的墻壁上。

有一說一，這個小球在旋轉(zhuǎn)六邊形里彈跳的程序，Qwen3 編得真不錯，既沒有出現(xiàn)小球掉出來的情況，也沒有彈跳角度不合理或者程序卡死的情況。

經(jīng)典的貪吃蛇小游戲也完成得很順利，就是游戲界面稍顯簡陋。

總之，Qwen3 系列尤其是旗艦?zāi)Ｐ?Qwen3-235B-A22B，還是拿出了自己的實力。

盡管在一些邏輯推理題中，Qwen3 的表現(xiàn)略顯繁復(fù)，甚至會在關(guān)鍵點上出錯，但也展現(xiàn)出深入分析問題的能力。在創(chuàng)意寫作方面，Qwen3 能準確抓住人物語氣與性格特征，只是在幽默感的拿捏上「AI 味」?jié)庵亍Ｖ劣诰幊棠芰Γ芡瓿啥喾N任務(wù)，但在界面美學與交互細節(jié)上還有進步空間。

你覺得 Qwen3 是個啥水平？評論區(qū)聊聊吧。

以后我們會帶來更多好玩有用的 AI 評測，也歡迎大家進群交流。

? THE END

轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.