99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

阿里最新開源模型Qwen3到底能不能打?不妨上「通義App」親自試試

0
分享至


作者 | 付秋偉

4 月 29 日凌晨,阿里正式發布并開源了最新的通義千問 Qwen3 模型(以下簡稱 Qwen3),并迅速登頂多項大模型測評榜單,引發了全行業的關注。

據介紹,Qwen3 在推理、指令遵循、工具調用、多語言能力等方面均大幅增強,尤其是旗艦模型 Qwen3-235B-A22B,在多個國際權威基準測試中刷新了開源模型紀錄。


Qwen3 的實際表現到底如何?是否真如榜單這般?「AI 前線」在第一時間對 Qwen3 展開了多角度的實測體驗,看看 Qwen3 到底“能不能打”。感興趣的小伙伴也可以通過「通義 App」或者網頁版 tongyi.com 自行體驗 Qwen3-235B-A22B。

本次測評通過官方推薦的「通義 App」和網頁版進行,測試結果均為首次向模型提問而獲得的答案。測試內容主要包含兩大核心場景,一是代碼、數學、邏輯推理等專業場景,二是文本創作和旅行規劃等大眾場景,希望從這兩個維度幫助大家快速理解 Qwen3 的優勢以及能力邊界。

Part 1:代碼、數學與

邏輯推理能力優異,推理速度驚人

首先我們來測試一下 Qwen3 的推理能力,包含代碼生成時的復雜邏輯陷阱、數學推理與嘗試邏輯、多角度論證能力三項測試,這三項測試對模型的動態自洽性驗證隱藏規則挖掘能力、符號邏輯現實語義的映射關系處理、角色立場/學科領域/倫理框架間的動態切換等方面提出了較高要求。

01_ 代碼生成時的復雜邏輯陷阱

指令:請用 Python 編寫一個函數,輸入是一個整數列表,返回列表中所有偶數的平方和。注意:如果列表為空或沒有偶數,函數應返回 None。需要處理列表中的負數、零和極大值(例如 10^18),并確保時間復雜度最優。

測評點:測試模型能否正確處理空列表、負數平方的正值轉換、超大數值計算的溢出問題,以及循環終止條件的邏輯嚴密性。

推理過程


推理用時:44s

最終結果


首先作為 UI 控,通義返回的代碼支持深 / 淺色版本這一點,必須給好評!并且在實時推理過程中的一些邏輯序列會用各種有趣的 Emoji 圖標呈現,相比于純文本式的顯式推理表達,在等待過程中確實更加賞心悅目,也更愿意等待它的結果。

對于代碼結果的準確性,如果看不懂或者懶得驗證,不妨用 DeepSeek R1 來校驗一下。

我們將同樣的問題發送給 DeepSeek,同樣打開深度思考(R1)模式和聯網搜索,最終 DeepSeek 耗時 80s 給出了相近的結果。為方便展示,我們截取了問題和答案的頁面,如下:


有趣的是,當我詢問 DeepSeek 它的答案跟 Qwen3 有何區別時,它給出了讓我意想不到的回復。


DeepSeek 認為 Qwen3 的代碼結果細節上更優;而從推理耗時來看,Qwen3(44s)也比 DeepSeek R1(80s)用時也更少。

02_ 數學推理與常識邏輯

指令:某電商平臺滿 200 減 50,會員可以在滿減基礎上額外享 9 折。用戶 A 購物車有 3 件商品,價格分別為:120 元(非會員價;會員價為 115 元)、150 元(會員價;非會員價格為 160 元)、80 元(通用價)。若用戶 A 是非會員,如何組合購買最省錢?若是會員呢?請分步驟解釋。

測評點:測試模型能否識別會員價商品的購買條件限制、計算最優組合時的邏輯完備性等。

推理過程


推理用時:36s

最終結果


當然,電商優惠算賬類題目對于大多數人而言并不難,并且上述題目也屬于非常簡單的算術級別,不用 AI 也能很快獲得相同的結果。但是對于大模型而言,多條件約束類問題其實是有一定的挑戰的,至少當我們向 DeepSeek R1 提出同樣的問題后,盡管獲得了正確答案,但是推理耗時 4min 左右,中間有段時間甚至陷入反復推理自證的環節。


03_ 多角度論證能力

指令:人工智能是否會導致大規模失業?請從經濟學、倫理學、技術發展史三個角度展開分析,每部分至少提出兩個論據,最后給出綜合結論。

測評點:論證結構的層次性、論據的多樣性(如自動化替代 vs 新職業創造)、結論的邏輯推導是否嚴謹。

推理過程


推理用時:18s

最終結果


從結果來看,無論是推理的邏輯性、表達的結構性,以及對經典理論、案例、數據的引用都無可挑剔。綜合結論采用“總分總”的方式進行簡短總結,清晰易懂,對于很多特定場景幾乎可以拿來即用,但前提是數據無誤。

同樣我們也問了 DeepSeek R1 同樣的問題。


最終,DeepSeek R1 以更快的速度(14s)給出了答案。從答案的詳細程度和綜合結論的條理性來看,Qwen3 似乎更勝一籌。

但是對于論證推理以及一些對數據要求極為嚴謹的場景而言,除了邏輯、結構外,數據準確性更重要。我們查看了 Qwen3 和 DeepSeek R1 的參考資料,發現包含部分非權威信息渠道,用戶需要花費較多的時間去溯源、勘誤,最終反而會使效率下降。而這也是當下國內大模型使用過程中最大的痛點之一,構建權威、有效、互通的中文數據生態仍是全行業需要努力的方向。

Part 2:創意寫作效果驚艷,

旅行規劃有想象空間

除了代碼、數學、邏輯推理能力外,對于文字工作者而言,大模型的“創意賦能”尤為重要;另外對于普通人而言,大家更關注大模型對日常生活的幫助。所以接下來,我們將圍繞大模型的創意寫作能力和旅行規劃能力,對 Qwen3 展開測評。

01_ 創意寫作能力測試

指令:為一個科幻主題的咖啡品牌設計廣告文案,關鍵詞:太空探索感、靈感大爆炸,風格上高級但克制,咖啡的目標用戶為寫字樓白領。要求:1)給出品牌名稱及 Slogan;2)用比喻手法描述產品口感以引發用戶共鳴;3)寫一段 500 字的品牌故事

測評點:創意新穎度、需求理解度、文字風格調性把握等。

推理用時:15s

最終結果:


說實話,對于這個結果,作為曾經的廣告人,是有點驚訝的。Qwen3 對于我想要的調性拿捏非常到位,而且它有 Get 到我需要它將咖啡品牌與打工人的特質相關聯,至少這是一版可以給我帶來很多靈感的初稿。

同樣的問題,我丟給了 DeepSeek R1。

DeepSeek R1 推理用時 23s,也算快,但是內容上給我的第一印象是:品牌名稱不夠好聽,文案的堆砌感比較重,至少沒能 get 到我說的“高級但克制”,以及感受不到咖啡品牌對目標群體“打工人”的同理心。


總體而言,個人感覺 Qwen3 在品牌創意文案方面更勝一籌,無論是需求理解、用詞細膩度、對調性的把控等等。當然這類測評結果的主觀性較大,僅供參考。

02_ 旅行規劃能力測試

指令:馬上就是五一了,請幫我規劃一個單人、從北京出發到深圳的三日自由行攻略,需包含:①交通方式選擇(高鐵 / 飛機對比)②酒店預訂(靠近景區且評分 4.5+)③景點路線(按時間順序排列)④預算分配(總費用不超過 5000 元)。請分步驟說明并給出每個環節的推薦理由。

評測點:任務拆解顆粒度、步驟間邏輯連貫性、參數匹配能力(如預算限制)

推理用時:20s

最終結果:


對于 Qwen3 的回答,先說結論,如果只是單純作為行程參考基本 OK。各個景點的推薦、路線、門票以及交通費用預估等,都沒什么問題。但是對于實際的旅行而言,還需要更多的閉環,比如直接幫我規劃一個具體的、精確到小時的行程,并附上機酒和市內交通建議等。

不過值得一提的是,在回答我既有問題的基礎上,Qwen 還給了我 3 條注意事項,包含避堵建議、天氣與穿衣 / 行李建議,以及出行安全提示等,這一點確實貼心。

同樣,我們向 DeepSeek 提出了同樣的問題,但是熟悉的“服務器繁忙”出現了,按照測試規則(僅展現首次提問的結果),我們不再做二次提問。

正好飛豬 AI 旅行助手最近很火,于是我們讓它回答了同樣的問題。從結果來看,它給的作業是稍微驗證后可以直接抄的,并且還增加了漫畫行程圖和直接預定機酒的按鈕,簡直是懶人之光、P 人福音。同為阿里系的產品,后面有沒有可能直接通過「通義 App」一站式實現旅行閉環?值得期待。


Part3 總結與展望

經過對 Qwen3 在代碼生成、數學與邏輯推理,以及創意寫作與生活助手兩大類核心場景的初步測評(受限于測試周期、樣本多樣性和提示工程精度),其表現雖存在進一步優化空間,但在與 DeepSeek R1 的橫向對比中仍展現出顯著優勢——特別是在復雜任務處理效率方面,推理耗時大幅縮短,符合官網宣傳時提到的“思深,行速”。

除了 Qwen 大模型的開源進度喜人外,另一個值得外界關注的便是阿里在今年 3 月推出的「通義 App」,一經推出便接入最強 Qwen 模型,并持續迭代。「通義 App」以超級智能體作為交互中樞,在主對話頁面實現能問、能聊、理解圖片、生成圖片、翻譯、寫作等智能體驗。

通義產品團隊在早前的采訪中提到:“我們不僅要通過強大的 AI 技術能力幫助用戶解決實際問題,還要讓用戶在使用中感到更方便、更懂我。AI 應用的未來不僅僅是簡單的提效工具,更是一個能夠理解、陪伴并提升用戶生活質量的貼心 AI 助手。”

當大模型的底層能力足夠優異時,上層應用的體驗則是后半場 AI 競賽的關鍵。很顯然,阿里已經準備好了。

AICon 2025 強勢來襲,5 月上海站、6 月北京站,雙城聯動,全覽 AI 技術前沿和行業落地。大會聚焦技術與應用深度融合,匯聚 AI Agent、多模態、場景應用、大模型架構創新、智能數據基建、AI 產品設計和出海策略等話題。即刻掃碼購票,一同探索 AI 應用邊界!

今日薦文

你也「在看」嗎?

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
南海局勢有變,4國宣布對華出兵,要和中方一決高下?解放軍出手

南海局勢有變,4國宣布對華出兵,要和中方一決高下?解放軍出手

小lu侃侃而談
2025-05-21 20:18:33
中國第四艘航母橫空出世!五角大樓連夜召開緊急會議?

中國第四艘航母橫空出世!五角大樓連夜召開緊急會議?

阿芒娛樂說
2025-05-20 13:55:04
臺球室有點亂!記者暗訪臺球助教服務,女生:晚上來,更放得開

臺球室有點亂!記者暗訪臺球助教服務,女生:晚上來,更放得開

唐小糖說情感
2025-05-10 10:58:48
魯比奧:這個國家可能很快爆發“史詩級”內戰

魯比奧:這個國家可能很快爆發“史詩級”內戰

環球時報國際
2025-05-21 16:03:20
TVB花旦黃翠如產后現身!可見容光煥發氣色紅潤!自爆現在脫發+記性變差

TVB花旦黃翠如產后現身!可見容光煥發氣色紅潤!自爆現在脫發+記性變差

我愛追港劇
2025-05-22 00:00:58
看完張若昀《慶余年》,再看肖戰《藏海傳》,真是沒對比就沒傷害

看完張若昀《慶余年》,再看肖戰《藏海傳》,真是沒對比就沒傷害

8卦娛
2025-05-21 10:55:08
菲律賓選舉結果出爐

菲律賓選舉結果出爐

傲骨真新
2025-05-21 11:12:13
別再吵啦!北京消防給結論了:未禁止電動汽車在車庫充電!

別再吵啦!北京消防給結論了:未禁止電動汽車在車庫充電!

新豐臺
2025-05-21 23:38:53
假如宋江堅持不接受招安,梁山好漢的下場如何?其實就是兩個字

假如宋江堅持不接受招安,梁山好漢的下場如何?其實就是兩個字

南宗歷史
2025-05-19 18:27:07
虞書欣全家違法?熱巴替黃楊鈿甜轉移炮火?陳奕迅被傳去世?伊能靜悄悄離婚?鬧分手情侶真掰了?

虞書欣全家違法?熱巴替黃楊鈿甜轉移炮火?陳奕迅被傳去世?伊能靜悄悄離婚?鬧分手情侶真掰了?

十錘星人
2025-05-20 22:36:48
媒體聲音:“高價耳環”成為“烏龍事件”的可能性正在上升

媒體聲音:“高價耳環”成為“烏龍事件”的可能性正在上升

南南說娛
2025-05-21 09:14:32
電影業,正式倒退回2012年

電影業,正式倒退回2012年

黑噪音
2025-05-04 04:51:11
美國民調稱77%民眾反感中國,而在中國,看好美國的有多少?

美國民調稱77%民眾反感中國,而在中國,看好美國的有多少?

阿燕姐說育兒
2025-05-22 02:07:02
吃相難看!張學友演唱會和高考“撞期”,家長集體抵制,官方回應

吃相難看!張學友演唱會和高考“撞期”,家長集體抵制,官方回應

吐不滿的痰娛
2025-05-21 21:12:01
加沙爆發最大規模反哈馬斯抗議!以色列宣布將完全控制

加沙爆發最大規模反哈馬斯抗議!以色列宣布將完全控制

項鵬飛
2025-05-20 22:14:43
比房子更荒唐!一個退休老人的養老金抵得上兩三個年輕人的工資?

比房子更荒唐!一個退休老人的養老金抵得上兩三個年輕人的工資?

巢客
2025-02-08 05:35:02
掘金離隊第一人?3585萬場均9+5太溢價,美媒預測下家:勇士居首

掘金離隊第一人?3585萬場均9+5太溢價,美媒預測下家:勇士居首

你的籃球頻道
2025-05-21 11:17:10
男子入室盜竊,誰料別墅女主人反客為主,女子:別吵孩子,去臥室

男子入室盜竊,誰料別墅女主人反客為主,女子:別吵孩子,去臥室

懸案解密檔案
2025-05-19 14:40:10
從4700萬頂薪到300萬底薪!NBA退步最快球星,你英雄無用武之地了

從4700萬頂薪到300萬底薪!NBA退步最快球星,你英雄無用武之地了

籃球掃地僧
2025-05-21 07:36:48
從理想挖來的新CEO到位!魏建軍反思魏牌:必須要做出一些改變

從理想挖來的新CEO到位!魏建軍反思魏牌:必須要做出一些改變

明鏡pro
2025-05-21 08:59:05
2025-05-22 09:04:49
AI前線 incentive-icons
AI前線
面向AI愛好者、開發者和科學家,提供AI領域技術資訊。
856文章數 80關注度
往期回顧 全部

科技要聞

蘋果設計靈魂投奔OpenAI 十年淘汰iPhone?

頭條要聞

牛彈琴:特朗普在白宮當眾羞辱南非總統 馬斯克也在場

頭條要聞

牛彈琴:特朗普在白宮當眾羞辱南非總統 馬斯克也在場

體育要聞

32歲孫興慜哭成淚人:熱刺10年首冠 亞洲第5人

娛樂要聞

中國國家話劇院發訃告:沉痛悼念朱媛媛

財經要聞

中國,拋售美債!

汽車要聞

價格下調 2025聰明款ID.4 X限時13.99萬起

態度原創

家居
數碼
教育
藝術
親子

家居要聞

黑白簡約 見證平凡的蛻變

數碼要聞

Marshall發布首款回音壁產品Heston 120:售7999元

教育要聞

找雙坐標循環規律,求點的坐標!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

親子要聞

小肚子大不是脂肪的鍋!是核心兜不住內臟了,產后和久坐人群必練

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 姚安县| 连平县| 合川市| 甘洛县| 青铜峡市| 双江| 通化市| 紫金县| 德保县| 安仁县| 南昌县| 陆丰市| 泸州市| 三河市| 晋州市| 肃南| 台江县| 大足县| 桂阳县| 绥中县| 定州市| 阿坝| 渝北区| 伊川县| 鄂托克前旗| 赤峰市| 福海县| 长顺县| 崇仁县| 榆社县| 攀枝花市| 双牌县| 苏尼特右旗| 淳安县| 黔南| 星子县| 吉隆县| 德安县| 彝良县| 大同县| 南川市|