網易首頁 > 網易號 > 正文申請入駐

阿里最新開源模型Qwen3到底能不能打？不妨上「通義App」親自試試

2025-04-30 13:36:44　來源: AI前線

北京舉報

分享至

作者 | 付秋偉

4 月 29 日凌晨，阿里正式發布并開源了最新的通義千問 Qwen3 模型（以下簡稱 Qwen3），并迅速登頂多項大模型測評榜單，引發了全行業的關注。

據介紹，Qwen3 在推理、指令遵循、工具調用、多語言能力等方面均大幅增強，尤其是旗艦模型 Qwen3-235B-A22B，在多個國際權威基準測試中刷新了開源模型紀錄。

Qwen3 的實際表現到底如何？是否真如榜單這般？「AI 前線」在第一時間對 Qwen3 展開了多角度的實測體驗，看看 Qwen3 到底“能不能打”。感興趣的小伙伴也可以通過「通義 App」或者網頁版 tongyi.com 自行體驗 Qwen3-235B-A22B。

本次測評通過官方推薦的「通義 App」和網頁版進行，測試結果均為首次向模型提問而獲得的答案。測試內容主要包含兩大核心場景，一是代碼、數學、邏輯推理等專業場景，二是文本創作和旅行規劃等大眾場景，希望從這兩個維度幫助大家快速理解 Qwen3 的優勢以及能力邊界。

Part 1：代碼、數學與

邏輯推理能力優異，推理速度驚人

首先我們來測試一下 Qwen3 的推理能力，包含代碼生成時的復雜邏輯陷阱、數學推理與嘗試邏輯、多角度論證能力三項測試，這三項測試對模型的動態自洽性驗證與隱藏規則挖掘能力、符號邏輯與現實語義的映射關系處理、角色立場/學科領域/倫理框架間的動態切換等方面提出了較高要求。

01_ 代碼生成時的復雜邏輯陷阱

指令：請用 Python 編寫一個函數，輸入是一個整數列表，返回列表中所有偶數的平方和。注意：如果列表為空或沒有偶數，函數應返回 None。需要處理列表中的負數、零和極大值（例如 10^18），并確保時間復雜度最優。

測評點：測試模型能否正確處理空列表、負數平方的正值轉換、超大數值計算的溢出問題，以及循環終止條件的邏輯嚴密性。

推理過程：

推理用時：44s

最終結果：

首先作為 UI 控，通義返回的代碼支持深 / 淺色版本這一點，必須給好評！并且在實時推理過程中的一些邏輯序列會用各種有趣的 Emoji 圖標呈現，相比于純文本式的顯式推理表達，在等待過程中確實更加賞心悅目，也更愿意等待它的結果。

對于代碼結果的準確性，如果看不懂或者懶得驗證，不妨用 DeepSeek R1 來校驗一下。

我們將同樣的問題發送給 DeepSeek，同樣打開深度思考（R1）模式和聯網搜索，最終 DeepSeek 耗時 80s 給出了相近的結果。為方便展示，我們截取了問題和答案的頁面，如下：

有趣的是，當我詢問 DeepSeek 它的答案跟 Qwen3 有何區別時，它給出了讓我意想不到的回復。

DeepSeek 認為 Qwen3 的代碼結果細節上更優；而從推理耗時來看，Qwen3（44s）也比 DeepSeek R1（80s）用時也更少。

02_ 數學推理與常識邏輯

指令：某電商平臺滿 200 減 50，會員可以在滿減基礎上額外享 9 折。用戶 A 購物車有 3 件商品，價格分別為：120 元（非會員價；會員價為 115 元）、150 元（會員價；非會員價格為 160 元）、80 元（通用價）。若用戶 A 是非會員，如何組合購買最省錢？若是會員呢？請分步驟解釋。

測評點：測試模型能否識別會員價商品的購買條件限制、計算最優組合時的邏輯完備性等。

推理過程：

推理用時：36s

最終結果：

當然，電商優惠算賬類題目對于大多數人而言并不難，并且上述題目也屬于非常簡單的算術級別，不用 AI 也能很快獲得相同的結果。但是對于大模型而言，多條件約束類問題其實是有一定的挑戰的，至少當我們向 DeepSeek R1 提出同樣的問題后，盡管獲得了正確答案，但是推理耗時 4min 左右，中間有段時間甚至陷入反復推理自證的環節。

03_ 多角度論證能力

指令：人工智能是否會導致大規模失業？請從經濟學、倫理學、技術發展史三個角度展開分析，每部分至少提出兩個論據，最后給出綜合結論。

測評點：論證結構的層次性、論據的多樣性（如自動化替代 vs 新職業創造）、結論的邏輯推導是否嚴謹。

推理過程：

推理用時：18s

最終結果：

從結果來看，無論是推理的邏輯性、表達的結構性，以及對經典理論、案例、數據的引用都無可挑剔。綜合結論采用“總分總”的方式進行簡短總結，清晰易懂，對于很多特定場景幾乎可以拿來即用，但前提是數據無誤。

同樣我們也問了 DeepSeek R1 同樣的問題。

最終，DeepSeek R1 以更快的速度（14s）給出了答案。從答案的詳細程度和綜合結論的條理性來看，Qwen3 似乎更勝一籌。

但是對于論證推理以及一些對數據要求極為嚴謹的場景而言，除了邏輯、結構外，數據準確性更重要。我們查看了 Qwen3 和 DeepSeek R1 的參考資料，發現包含部分非權威信息渠道，用戶需要花費較多的時間去溯源、勘誤，最終反而會使效率下降。而這也是當下國內大模型使用過程中最大的痛點之一，構建權威、有效、互通的中文數據生態仍是全行業需要努力的方向。

Part 2：創意寫作效果驚艷，

旅行規劃有想象空間

除了代碼、數學、邏輯推理能力外，對于文字工作者而言，大模型的“創意賦能”尤為重要；另外對于普通人而言，大家更關注大模型對日常生活的幫助。所以接下來，我們將圍繞大模型的創意寫作能力和旅行規劃能力，對 Qwen3 展開測評。

01_ 創意寫作能力測試

指令：為一個科幻主題的咖啡品牌設計廣告文案，關鍵詞：太空探索感、靈感大爆炸，風格上高級但克制，咖啡的目標用戶為寫字樓白領。要求：1）給出品牌名稱及 Slogan；2）用比喻手法描述產品口感以引發用戶共鳴；3）寫一段 500 字的品牌故事

測評點：創意新穎度、需求理解度、文字風格調性把握等。

推理用時：15s

最終結果：

說實話，對于這個結果，作為曾經的廣告人，是有點驚訝的。Qwen3 對于我想要的調性拿捏非常到位，而且它有 Get 到我需要它將咖啡品牌與打工人的特質相關聯，至少這是一版可以給我帶來很多靈感的初稿。

同樣的問題，我丟給了 DeepSeek R1。

DeepSeek R1 推理用時 23s，也算快，但是內容上給我的第一印象是：品牌名稱不夠好聽，文案的堆砌感比較重，至少沒能 get 到我說的“高級但克制”，以及感受不到咖啡品牌對目標群體“打工人”的同理心。

總體而言，個人感覺 Qwen3 在品牌創意文案方面更勝一籌，無論是需求理解、用詞細膩度、對調性的把控等等。當然這類測評結果的主觀性較大，僅供參考。

02_ 旅行規劃能力測試

指令：馬上就是五一了，請幫我規劃一個單人、從北京出發到深圳的三日自由行攻略，需包含：①交通方式選擇（高鐵 / 飛機對比）②酒店預訂（靠近景區且評分 4.5+）③景點路線（按時間順序排列）④預算分配（總費用不超過 5000 元）。請分步驟說明并給出每個環節的推薦理由。

評測點：任務拆解顆粒度、步驟間邏輯連貫性、參數匹配能力（如預算限制）

推理用時：20s

最終結果：

對于 Qwen3 的回答，先說結論，如果只是單純作為行程參考基本 OK。各個景點的推薦、路線、門票以及交通費用預估等，都沒什么問題。但是對于實際的旅行而言，還需要更多的閉環，比如直接幫我規劃一個具體的、精確到小時的行程，并附上機酒和市內交通建議等。

不過值得一提的是，在回答我既有問題的基礎上，Qwen 還給了我 3 條注意事項，包含避堵建議、天氣與穿衣 / 行李建議，以及出行安全提示等，這一點確實貼心。

同樣，我們向 DeepSeek 提出了同樣的問題，但是熟悉的“服務器繁忙”出現了，按照測試規則（僅展現首次提問的結果），我們不再做二次提問。

正好飛豬 AI 旅行助手最近很火，于是我們讓它回答了同樣的問題。從結果來看，它給的作業是稍微驗證后可以直接抄的，并且還增加了漫畫行程圖和直接預定機酒的按鈕，簡直是懶人之光、P 人福音。同為阿里系的產品，后面有沒有可能直接通過「通義 App」一站式實現旅行閉環？值得期待。

Part3 總結與展望

經過對 Qwen3 在代碼生成、數學與邏輯推理，以及創意寫作與生活助手兩大類核心場景的初步測評（受限于測試周期、樣本多樣性和提示工程精度），其表現雖存在進一步優化空間，但在與 DeepSeek R1 的橫向對比中仍展現出顯著優勢——特別是在復雜任務處理效率方面，推理耗時大幅縮短，符合官網宣傳時提到的“思深，行速”。

除了 Qwen 大模型的開源進度喜人外，另一個值得外界關注的便是阿里在今年 3 月推出的「通義 App」，一經推出便接入最強 Qwen 模型，并持續迭代。「通義 App」以超級智能體作為交互中樞，在主對話頁面實現能問、能聊、理解圖片、生成圖片、翻譯、寫作等智能體驗。

通義產品團隊在早前的采訪中提到：“我們不僅要通過強大的 AI 技術能力幫助用戶解決實際問題，還要讓用戶在使用中感到更方便、更懂我。AI 應用的未來不僅僅是簡單的提效工具，更是一個能夠理解、陪伴并提升用戶生活質量的貼心 AI 助手。”

當大模型的底層能力足夠優異時，上層應用的體驗則是后半場 AI 競賽的關鍵。很顯然，阿里已經準備好了。

AICon 2025 強勢來襲，5 月上海站、6 月北京站，雙城聯動，全覽 AI 技術前沿和行業落地。大會聚焦技術與應用深度融合，匯聚 AI Agent、多模態、場景應用、大模型架構創新、智能數據基建、AI 產品設計和出海策略等話題。即刻掃碼購票，一同探索 AI 應用邊界！

今日薦文

你也「在看」嗎？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.