作者 | 付秋偉
4 月 29 日凌晨,阿里正式發布并開源了最新的通義千問 Qwen3 模型(以下簡稱 Qwen3),并迅速登頂多項大模型測評榜單,引發了全行業的關注。
據介紹,Qwen3 在推理、指令遵循、工具調用、多語言能力等方面均大幅增強,尤其是旗艦模型 Qwen3-235B-A22B,在多個國際權威基準測試中刷新了開源模型紀錄。
Qwen3 的實際表現到底如何?是否真如榜單這般?「AI 前線」在第一時間對 Qwen3 展開了多角度的實測體驗,看看 Qwen3 到底“能不能打”。感興趣的小伙伴也可以通過「通義 App」或者網頁版 tongyi.com 自行體驗 Qwen3-235B-A22B。
本次測評通過官方推薦的「通義 App」和網頁版進行,測試結果均為首次向模型提問而獲得的答案。測試內容主要包含兩大核心場景,一是代碼、數學、邏輯推理等專業場景,二是文本創作和旅行規劃等大眾場景,希望從這兩個維度幫助大家快速理解 Qwen3 的優勢以及能力邊界。
Part 1:代碼、數學與
邏輯推理能力優異,推理速度驚人
首先我們來測試一下 Qwen3 的推理能力,包含代碼生成時的復雜邏輯陷阱、數學推理與嘗試邏輯、多角度論證能力三項測試,這三項測試對模型的動態自洽性驗證與隱藏規則挖掘能力、符號邏輯與現實語義的映射關系處理、角色立場/學科領域/倫理框架間的動態切換等方面提出了較高要求。
01_ 代碼生成時的復雜邏輯陷阱
指令:請用 Python 編寫一個函數,輸入是一個整數列表,返回列表中所有偶數的平方和。注意:如果列表為空或沒有偶數,函數應返回 None。需要處理列表中的負數、零和極大值(例如 10^18),并確保時間復雜度最優。
測評點:測試模型能否正確處理空列表、負數平方的正值轉換、超大數值計算的溢出問題,以及循環終止條件的邏輯嚴密性。
推理過程:
推理用時:44s
最終結果:
首先作為 UI 控,通義返回的代碼支持深 / 淺色版本這一點,必須給好評!并且在實時推理過程中的一些邏輯序列會用各種有趣的 Emoji 圖標呈現,相比于純文本式的顯式推理表達,在等待過程中確實更加賞心悅目,也更愿意等待它的結果。
對于代碼結果的準確性,如果看不懂或者懶得驗證,不妨用 DeepSeek R1 來校驗一下。
我們將同樣的問題發送給 DeepSeek,同樣打開深度思考(R1)模式和聯網搜索,最終 DeepSeek 耗時 80s 給出了相近的結果。為方便展示,我們截取了問題和答案的頁面,如下:
有趣的是,當我詢問 DeepSeek 它的答案跟 Qwen3 有何區別時,它給出了讓我意想不到的回復。
DeepSeek 認為 Qwen3 的代碼結果細節上更優;而從推理耗時來看,Qwen3(44s)也比 DeepSeek R1(80s)用時也更少。
02_ 數學推理與常識邏輯
指令:某電商平臺滿 200 減 50,會員可以在滿減基礎上額外享 9 折。用戶 A 購物車有 3 件商品,價格分別為:120 元(非會員價;會員價為 115 元)、150 元(會員價;非會員價格為 160 元)、80 元(通用價)。若用戶 A 是非會員,如何組合購買最省錢?若是會員呢?請分步驟解釋。
測評點:測試模型能否識別會員價商品的購買條件限制、計算最優組合時的邏輯完備性等。
推理過程:
推理用時:36s
最終結果:
當然,電商優惠算賬類題目對于大多數人而言并不難,并且上述題目也屬于非常簡單的算術級別,不用 AI 也能很快獲得相同的結果。但是對于大模型而言,多條件約束類問題其實是有一定的挑戰的,至少當我們向 DeepSeek R1 提出同樣的問題后,盡管獲得了正確答案,但是推理耗時 4min 左右,中間有段時間甚至陷入反復推理自證的環節。
03_ 多角度論證能力
指令:人工智能是否會導致大規模失業?請從經濟學、倫理學、技術發展史三個角度展開分析,每部分至少提出兩個論據,最后給出綜合結論。
測評點:論證結構的層次性、論據的多樣性(如自動化替代 vs 新職業創造)、結論的邏輯推導是否嚴謹。
推理過程:
推理用時:18s
最終結果:
從結果來看,無論是推理的邏輯性、表達的結構性,以及對經典理論、案例、數據的引用都無可挑剔。綜合結論采用“總分總”的方式進行簡短總結,清晰易懂,對于很多特定場景幾乎可以拿來即用,但前提是數據無誤。
同樣我們也問了 DeepSeek R1 同樣的問題。
最終,DeepSeek R1 以更快的速度(14s)給出了答案。從答案的詳細程度和綜合結論的條理性來看,Qwen3 似乎更勝一籌。
但是對于論證推理以及一些對數據要求極為嚴謹的場景而言,除了邏輯、結構外,數據準確性更重要。我們查看了 Qwen3 和 DeepSeek R1 的參考資料,發現包含部分非權威信息渠道,用戶需要花費較多的時間去溯源、勘誤,最終反而會使效率下降。而這也是當下國內大模型使用過程中最大的痛點之一,構建權威、有效、互通的中文數據生態仍是全行業需要努力的方向。
Part 2:創意寫作效果驚艷,
旅行規劃有想象空間
除了代碼、數學、邏輯推理能力外,對于文字工作者而言,大模型的“創意賦能”尤為重要;另外對于普通人而言,大家更關注大模型對日常生活的幫助。所以接下來,我們將圍繞大模型的創意寫作能力和旅行規劃能力,對 Qwen3 展開測評。
01_ 創意寫作能力測試
指令:為一個科幻主題的咖啡品牌設計廣告文案,關鍵詞:太空探索感、靈感大爆炸,風格上高級但克制,咖啡的目標用戶為寫字樓白領。要求:1)給出品牌名稱及 Slogan;2)用比喻手法描述產品口感以引發用戶共鳴;3)寫一段 500 字的品牌故事
測評點:創意新穎度、需求理解度、文字風格調性把握等。
推理用時:15s
最終結果:
說實話,對于這個結果,作為曾經的廣告人,是有點驚訝的。Qwen3 對于我想要的調性拿捏非常到位,而且它有 Get 到我需要它將咖啡品牌與打工人的特質相關聯,至少這是一版可以給我帶來很多靈感的初稿。
同樣的問題,我丟給了 DeepSeek R1。
DeepSeek R1 推理用時 23s,也算快,但是內容上給我的第一印象是:品牌名稱不夠好聽,文案的堆砌感比較重,至少沒能 get 到我說的“高級但克制”,以及感受不到咖啡品牌對目標群體“打工人”的同理心。
總體而言,個人感覺 Qwen3 在品牌創意文案方面更勝一籌,無論是需求理解、用詞細膩度、對調性的把控等等。當然這類測評結果的主觀性較大,僅供參考。
02_ 旅行規劃能力測試
指令:馬上就是五一了,請幫我規劃一個單人、從北京出發到深圳的三日自由行攻略,需包含:①交通方式選擇(高鐵 / 飛機對比)②酒店預訂(靠近景區且評分 4.5+)③景點路線(按時間順序排列)④預算分配(總費用不超過 5000 元)。請分步驟說明并給出每個環節的推薦理由。
評測點:任務拆解顆粒度、步驟間邏輯連貫性、參數匹配能力(如預算限制)
推理用時:20s
最終結果:
對于 Qwen3 的回答,先說結論,如果只是單純作為行程參考基本 OK。各個景點的推薦、路線、門票以及交通費用預估等,都沒什么問題。但是對于實際的旅行而言,還需要更多的閉環,比如直接幫我規劃一個具體的、精確到小時的行程,并附上機酒和市內交通建議等。
不過值得一提的是,在回答我既有問題的基礎上,Qwen 還給了我 3 條注意事項,包含避堵建議、天氣與穿衣 / 行李建議,以及出行安全提示等,這一點確實貼心。
同樣,我們向 DeepSeek 提出了同樣的問題,但是熟悉的“服務器繁忙”出現了,按照測試規則(僅展現首次提問的結果),我們不再做二次提問。
正好飛豬 AI 旅行助手最近很火,于是我們讓它回答了同樣的問題。從結果來看,它給的作業是稍微驗證后可以直接抄的,并且還增加了漫畫行程圖和直接預定機酒的按鈕,簡直是懶人之光、P 人福音。同為阿里系的產品,后面有沒有可能直接通過「通義 App」一站式實現旅行閉環?值得期待。
Part3 總結與展望
經過對 Qwen3 在代碼生成、數學與邏輯推理,以及創意寫作與生活助手兩大類核心場景的初步測評(受限于測試周期、樣本多樣性和提示工程精度),其表現雖存在進一步優化空間,但在與 DeepSeek R1 的橫向對比中仍展現出顯著優勢——特別是在復雜任務處理效率方面,推理耗時大幅縮短,符合官網宣傳時提到的“思深,行速”。
除了 Qwen 大模型的開源進度喜人外,另一個值得外界關注的便是阿里在今年 3 月推出的「通義 App」,一經推出便接入最強 Qwen 模型,并持續迭代。「通義 App」以超級智能體作為交互中樞,在主對話頁面實現能問、能聊、理解圖片、生成圖片、翻譯、寫作等智能體驗。
通義產品團隊在早前的采訪中提到:“我們不僅要通過強大的 AI 技術能力幫助用戶解決實際問題,還要讓用戶在使用中感到更方便、更懂我。AI 應用的未來不僅僅是簡單的提效工具,更是一個能夠理解、陪伴并提升用戶生活質量的貼心 AI 助手。”
當大模型的底層能力足夠優異時,上層應用的體驗則是后半場 AI 競賽的關鍵。很顯然,阿里已經準備好了。
AICon 2025 強勢來襲,5 月上海站、6 月北京站,雙城聯動,全覽 AI 技術前沿和行業落地。大會聚焦技術與應用深度融合,匯聚 AI Agent、多模態、場景應用、大模型架構創新、智能數據基建、AI 產品設計和出海策略等話題。即刻掃碼購票,一同探索 AI 應用邊界!
今日薦文
你也「在看」嗎?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.