網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

全網(wǎng)首測(cè)！?Qwen3?vs?Deepseek-R1?數(shù)據(jù)分析哪家強(qiáng)？

2025-04-30 13:34:38　來源: AI前線

北京舉報(bào)

分享至

作者 | 李飛

昨天凌晨，阿里巴巴開源新一代通義千問模型 Qwen3，AI Agent 廠商數(shù)勢(shì)科技的數(shù)據(jù)分析智能體 SwiftAgent 已率先完成全面適配，并發(fā)布了 Qwen3 與 DeepSeek-R1 的測(cè)評(píng)報(bào)告，下面是具體評(píng)測(cè)內(nèi)容，我們來看看在企業(yè)級(jí)的數(shù)據(jù)分析和智能決策場(chǎng)景上，Qwen3 與 DeepSeek-R1 到底有哪些差異？

(聲明: 本次測(cè)評(píng)主要針對(duì) Qwen3-32B 和 Qwen3-235B-A22B, 對(duì)比 Qwen2.5-72B 和 R1 效果)

針對(duì)數(shù)據(jù)分析 Data Agent，我們有如下關(guān)鍵節(jié)點(diǎn) (如圖 1），分別是改寫，任務(wù)編排，工具選擇和參數(shù)解析，工具運(yùn)行和總結(jié)等。其中數(shù)據(jù)查詢工具又涵蓋了復(fù)雜的能力，例如如何將用戶的查詢語(yǔ)句解析成對(duì)應(yīng)的語(yǔ)義層要素 (時(shí)間，指標(biāo)，維度，邏輯算子等）。不同節(jié)點(diǎn)的準(zhǔn)確性對(duì)最終結(jié)果都會(huì)造成較大的影響。

圖 1：數(shù)據(jù)分析 Agent 流程概要

當(dāng)前在落地的過程中，不同廠商針對(duì)其中節(jié)點(diǎn)的準(zhǔn)確性優(yōu)化基本都是三種手段，分別是提示詞工程、RAG 增強(qiáng)判斷和模型微調(diào)等。這三種手段的實(shí)施成本是遞進(jìn)的，效果也不可控。因此，數(shù)勢(shì)科技一直秉持積極擁抱最先進(jìn)的開源大模型的原則，踐行第一時(shí)間適配，以提高 Agent 產(chǎn)品的效果，降低交付中的實(shí)施成本。先說結(jié)論，在上下文改寫、任務(wù)編排和工具調(diào)用、數(shù)據(jù)查詢、圖表生成、總結(jié)反思五個(gè)方面，Qwen3 對(duì)比 Qwen2.5 有極大的效果提升，對(duì)比 DeepSeek-R1 模型也不遑多讓，甚至在某些環(huán)節(jié)上還有意外的驚喜。成本上，根據(jù)阿里官方的報(bào)告，Qwen3 模型在整體部署上成本極大地降低，進(jìn)一步降低了各個(gè)企業(yè)部署和使用的門檻。

本次，數(shù)勢(shì)科技的 SwiftAgent 產(chǎn)品針對(duì)其中的不同節(jié)點(diǎn)，對(duì) Qwen3 大模型進(jìn)行整體測(cè)評(píng)，并對(duì)比以往模型的效果。

上下文改寫

Chat 類產(chǎn)品首先接收的就是用戶的輸入語(yǔ)句，由于會(huì)話通常存在上下文干擾，以及用戶的輸入往往都是非標(biāo)準(zhǔn)的，因此我們必須對(duì)用戶當(dāng)次的輸入語(yǔ)句進(jìn)行改寫判斷，符合“優(yōu)質(zhì)進(jìn)，優(yōu)質(zhì)出”的原則。以下測(cè)試我們分別把上下文帶入到大模型中進(jìn)行改寫，讓大模型判斷用戶問題的語(yǔ)境并進(jìn)行改寫的判斷。

總結(jié)：針對(duì) Case1 的語(yǔ)境，不應(yīng)該進(jìn)行改寫，出乎意料的只有 Qwen3-32B 回答準(zhǔn)確；針對(duì) Case2，由于本輪提問的語(yǔ)境是絕對(duì)時(shí)間，Qwen2.5-72B 會(huì)基于上輪時(shí)間進(jìn)行推理，對(duì)本輪 Query 進(jìn)行改寫，其他模型則理解語(yǔ)境不會(huì)判斷成改寫。針對(duì) Case3，INV 代表“當(dāng)日庫(kù)存量”的縮寫，當(dāng)大模型不理解該術(shù)語(yǔ)時(shí)，會(huì)擅自繼承上輪內(nèi)容并改寫本輪 Query，4 個(gè)模型均沒辦法正確回答。

任務(wù)編排和工具調(diào)用

總結(jié)：Qwen2.5-72B 在數(shù)據(jù)分析任務(wù)拆解和工具調(diào)用選擇上，均落后于其它三個(gè)模型。其中，Case2 中我們期望通過子任務(wù)的拆解執(zhí)行提高最終結(jié)果生成的準(zhǔn)確性，DeepSeek-R1 以及 Qwen3-32B 和 Qwen3-235B-A22B 推理和非推理模式均表現(xiàn)優(yōu)秀，Qwen2.5-72B 無法成功拆解相應(yīng)任務(wù)，Case3 中，Qwen2.5-72B 在第 5 步任務(wù)中無法識(shí)別到應(yīng)該調(diào)用歸因分析工具，其它三個(gè)模型均能做到。可見Qwen3-32B 做到了成本下降了，效果反而更好了。

數(shù)據(jù)查詢

數(shù)據(jù)要素解析中，對(duì)時(shí)間要素的識(shí)別往往是較難的，因?yàn)闀r(shí)間是帶動(dòng)態(tài)更新和邏輯推理特性的。例如：“我行銷售額較去年增加多少”是時(shí)間的隱性推理，實(shí)際表達(dá)的時(shí)間是“今年”和“去年”。此外還有相對(duì)時(shí)間和絕對(duì)時(shí)間理解，以及周的開始和結(jié)束時(shí)間推理識(shí)別等。

總結(jié)：在這三種時(shí)間難例 Case 下，DeepSeek-R1 以及 Qwen3-32B 和 Qwen3-235B-A22B 推理和非推理模式均領(lǐng)先于 Qwen2.5-72B，其中 Qwen3-32B 的效果已經(jīng)完全接近 R1 的識(shí)別效果。

數(shù)據(jù)要素解析中，對(duì)實(shí)體的抽取也是要素匹配的一個(gè)前提條件，實(shí)體抽取的質(zhì)量好壞會(huì)干擾后面要素匹配的效果，針對(duì)以往的難例 case，不同模型的測(cè)試情況如下：

總結(jié)：DeepSeek-R1 和 Qwen3-32B 在 Case1 和 Case2 的效果優(yōu)于其他模型，然而 DeepSeek-R1 在 Case3 上漏識(shí)別了維度，總體來看，實(shí)體語(yǔ)義識(shí)別的效果差距不大，反而 Qwen3-32B 的 Dense 模型效果要優(yōu)于其他模型。

圖表生成

本次評(píng)測(cè)中，我們采用 Echart 圖表生成的方式來驗(yàn)證不同模型基于數(shù)據(jù)的理解后，生成并渲染圖表的效果

總結(jié)：Qwen72B 對(duì)于數(shù)據(jù)理解和代碼生成的能力弱于 Qwen3-32B, Case2 和 Case3 中甚至出現(xiàn)了數(shù)據(jù)遺漏的現(xiàn)象。此外，Qwen3-32B 在渲染排版上略遜色于 Qwen3-235B-A22B 和 DeepSeek-R1 模型。

總結(jié)反思

這里，我們測(cè)試了針對(duì)生成的錯(cuò)誤代碼，大模型是否可以結(jié)合錯(cuò)誤反思并生成準(zhǔn)確的代碼。

總結(jié)：原始代碼存在包括【類型錯(cuò)誤】、【潛在的空列表錯(cuò)誤】、【字符串與整數(shù)操作問題】等數(shù)據(jù)分析中常見的代碼問題。經(jīng)過四個(gè)不同模型反思優(yōu)化后，Qwen2.5-72B選擇直接丟棄不符合數(shù)值格式的數(shù)據(jù)，雖然能夠跑通，但并不是數(shù)據(jù)預(yù)處理時(shí)的最佳選擇，優(yōu)化了潛在的空列表錯(cuò)誤。DeepSeek-R1對(duì)數(shù)據(jù)進(jìn)行了強(qiáng)制轉(zhuǎn)換，但傳入無法強(qiáng)制轉(zhuǎn)換的類型時(shí)，依舊會(huì)報(bào)錯(cuò)，且并未解決潛在的空列表錯(cuò)誤。Qwen3 的兩個(gè)模型對(duì)數(shù)據(jù)類型做了最符合預(yù)期地處理，優(yōu)先嘗試轉(zhuǎn)換為數(shù)值，無法強(qiáng)制轉(zhuǎn)換才選擇拋棄，但同樣并未解決潛在的空列表錯(cuò)誤。關(guān)于潛在的空列表錯(cuò)誤，在二次提示優(yōu)化后，四個(gè)模型均給出優(yōu)化方案，達(dá)到預(yù)期。

此外，我們還測(cè)了一些其他和數(shù)據(jù)分析相關(guān)的大模型能力，例如數(shù)學(xué)推理計(jì)算能力，我們從網(wǎng)上借鑒了一些數(shù)學(xué)測(cè)試題，先說結(jié)論，DeepSeek-R1 模型和 Qwen3-235B-A22B 在數(shù)學(xué)計(jì)算推理能力上要優(yōu)于另外兩種模型，符合 Scale Law 的認(rèn)知。

具體來說，Case1 中，DeepSeek-R1 模型和 Qwen3-235B-A22B 均回答正確，其他兩個(gè)模型回答錯(cuò)誤。Case2 和 Case3 中所有模型均回答準(zhǔn)確。

綜上所述，在數(shù)據(jù)分析 Agent 構(gòu)建方面，Qwen3 模型的發(fā)布對(duì)于 Agent 的構(gòu)建有極大的提升作用。無論是在任務(wù)規(guī)劃、代碼生成、數(shù)學(xué)計(jì)算和語(yǔ)義識(shí)別等方面，Qwen3 模型都表現(xiàn)較為出色，其中 Qwen3-32B 模型也遠(yuǎn)優(yōu)于上一代模型，甚至接近于 DeepSeek-R1 模型，且部署成本更低，消費(fèi)級(jí)顯卡即可實(shí)現(xiàn)推理自由，對(duì)企業(yè)使用大模型來說，是重大的利好。

在 Qwen3 模型發(fā)布的首日，數(shù)勢(shì)科技 SwiftAgent 率先完成了對(duì) Qwen3 的全面適配，并對(duì) Agent 的中間環(huán)節(jié)進(jìn)行了能力升級(jí)和創(chuàng)新性功能開發(fā)，為企業(yè)客戶構(gòu)建 AI 驅(qū)動(dòng)的數(shù)據(jù)分析和智能決策提供了更高性能、更低成本的智能產(chǎn)品。

AICon 2025 強(qiáng)勢(shì)來襲，5 月上海站、6 月北京站，雙城聯(lián)動(dòng)，全覽 AI 技術(shù)前沿和行業(yè)落地。大會(huì)聚焦技術(shù)與應(yīng)用深度融合，匯聚 AI Agent、多模態(tài)、場(chǎng)景應(yīng)用、大模型架構(gòu)創(chuàng)新、智能數(shù)據(jù)基建、AI 產(chǎn)品設(shè)計(jì)和出海策略等話題。即刻掃碼購(gòu)票，一同探索 AI 應(yīng)用邊界！

今日薦文

你也「在看」嗎？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.