作者 | 李飛
昨天凌晨,阿里巴巴開源新一代通義千問模型 Qwen3,AI Agent 廠商數(shù)勢(shì)科技的數(shù)據(jù)分析智能體 SwiftAgent 已率先完成全面適配,并發(fā)布了 Qwen3 與 DeepSeek-R1 的測(cè)評(píng)報(bào)告,下面是具體評(píng)測(cè)內(nèi)容,我們來看看在企業(yè)級(jí)的數(shù)據(jù)分析和智能決策場(chǎng)景上,Qwen3 與 DeepSeek-R1 到底有哪些差異?
(聲明: 本次測(cè)評(píng)主要針對(duì) Qwen3-32B 和 Qwen3-235B-A22B, 對(duì)比 Qwen2.5-72B 和 R1 效果)
針對(duì)數(shù)據(jù)分析 Data Agent,我們有如下關(guān)鍵節(jié)點(diǎn) (如圖 1),分別是改寫,任務(wù)編排,工具選擇和參數(shù)解析,工具運(yùn)行和總結(jié)等。其中數(shù)據(jù)查詢工具又涵蓋了復(fù)雜的能力,例如如何將用戶的查詢語(yǔ)句解析成對(duì)應(yīng)的語(yǔ)義層要素 (時(shí)間,指標(biāo),維度,邏輯算子等)。不同節(jié)點(diǎn)的準(zhǔn)確性對(duì)最終結(jié)果都會(huì)造成較大的影響。
圖 1:數(shù)據(jù)分析 Agent 流程概要
當(dāng)前在落地的過程中,不同廠商針對(duì)其中節(jié)點(diǎn)的準(zhǔn)確性優(yōu)化基本都是三種手段,分別是提示詞工程、RAG 增強(qiáng)判斷和模型微調(diào)等。這三種手段的實(shí)施成本是遞進(jìn)的,效果也不可控。因此,數(shù)勢(shì)科技一直秉持積極擁抱最先進(jìn)的開源大模型的原則,踐行第一時(shí)間適配,以提高 Agent 產(chǎn)品的效果,降低交付中的實(shí)施成本。先說結(jié)論,在上下文改寫、任務(wù)編排和工具調(diào)用、數(shù)據(jù)查詢、圖表生成、總結(jié)反思五個(gè)方面,Qwen3 對(duì)比 Qwen2.5 有極大的效果提升,對(duì)比 DeepSeek-R1 模型也不遑多讓,甚至在某些環(huán)節(jié)上還有意外的驚喜。成本上,根據(jù)阿里官方的報(bào)告,Qwen3 模型在整體部署上成本極大地降低,進(jìn)一步降低了各個(gè)企業(yè)部署和使用的門檻。
本次,數(shù)勢(shì)科技的 SwiftAgent 產(chǎn)品針對(duì)其中的不同節(jié)點(diǎn),對(duì) Qwen3 大模型進(jìn)行整體測(cè)評(píng),并對(duì)比以往模型的效果。
上下文改寫
Chat 類產(chǎn)品首先接收的就是用戶的輸入語(yǔ)句,由于會(huì)話通常存在上下文干擾,以及用戶的輸入往往都是非標(biāo)準(zhǔn)的,因此我們必須對(duì)用戶當(dāng)次的輸入語(yǔ)句進(jìn)行改寫判斷,符合“優(yōu)質(zhì)進(jìn),優(yōu)質(zhì)出”的原則。以下測(cè)試我們分別把上下文帶入到大模型中進(jìn)行改寫,讓大模型判斷用戶問題的語(yǔ)境并進(jìn)行改寫的判斷。
總結(jié):針對(duì) Case1 的語(yǔ)境,不應(yīng)該進(jìn)行改寫,出乎意料的只有 Qwen3-32B 回答準(zhǔn)確;針對(duì) Case2,由于本輪提問的語(yǔ)境是絕對(duì)時(shí)間,Qwen2.5-72B 會(huì)基于上輪時(shí)間進(jìn)行推理,對(duì)本輪 Query 進(jìn)行改寫,其他模型則理解語(yǔ)境不會(huì)判斷成改寫。針對(duì) Case3,INV 代表“當(dāng)日庫(kù)存量”的縮寫,當(dāng)大模型不理解該術(shù)語(yǔ)時(shí),會(huì)擅自繼承上輪內(nèi)容并改寫本輪 Query,4 個(gè)模型均沒辦法正確回答。
任務(wù)編排和工具調(diào)用
總結(jié):Qwen2.5-72B 在數(shù)據(jù)分析任務(wù)拆解和工具調(diào)用選擇上,均落后于其它三個(gè)模型。其中,Case2 中我們期望通過子任務(wù)的拆解執(zhí)行提高最終結(jié)果生成的準(zhǔn)確性,DeepSeek-R1 以及 Qwen3-32B 和 Qwen3-235B-A22B 推理和非推理模式均表現(xiàn)優(yōu)秀,Qwen2.5-72B 無法成功拆解相應(yīng)任務(wù),Case3 中,Qwen2.5-72B 在第 5 步任務(wù)中無法識(shí)別到應(yīng)該調(diào)用歸因分析工具,其它三個(gè)模型均能做到。可見Qwen3-32B 做到了成本下降了,效果反而更好了。
數(shù)據(jù)查詢
數(shù)據(jù)要素解析中,對(duì)時(shí)間要素的識(shí)別往往是較難的,因?yàn)闀r(shí)間是帶動(dòng)態(tài)更新和邏輯推理特性的。例如:“我行銷售額較去年增加多少”是時(shí)間的隱性推理,實(shí)際表達(dá)的時(shí)間是“今年”和“去年”。此外還有相對(duì)時(shí)間和絕對(duì)時(shí)間理解,以及周的開始和結(jié)束時(shí)間推理識(shí)別等。
總結(jié):在這三種時(shí)間難例 Case 下,DeepSeek-R1 以及 Qwen3-32B 和 Qwen3-235B-A22B 推理和非推理模式均領(lǐng)先于 Qwen2.5-72B,其中 Qwen3-32B 的效果已經(jīng)完全接近 R1 的識(shí)別效果。
數(shù)據(jù)要素解析中,對(duì)實(shí)體的抽取也是要素匹配的一個(gè)前提條件,實(shí)體抽取的質(zhì)量好壞會(huì)干擾后面要素匹配的效果,針對(duì)以往的難例 case,不同模型的測(cè)試情況如下:
總結(jié):DeepSeek-R1 和 Qwen3-32B 在 Case1 和 Case2 的效果優(yōu)于其他模型,然而 DeepSeek-R1 在 Case3 上漏識(shí)別了維度,總體來看,實(shí)體語(yǔ)義識(shí)別的效果差距不大,反而 Qwen3-32B 的 Dense 模型效果要優(yōu)于其他模型。
圖表生成
本次評(píng)測(cè)中,我們采用 Echart 圖表生成的方式來驗(yàn)證不同模型基于數(shù)據(jù)的理解后,生成并渲染圖表的效果
總結(jié):Qwen72B 對(duì)于數(shù)據(jù)理解和代碼生成的能力弱于 Qwen3-32B, Case2 和 Case3 中甚至出現(xiàn)了數(shù)據(jù)遺漏的現(xiàn)象。此外,Qwen3-32B 在渲染排版上略遜色于 Qwen3-235B-A22B 和 DeepSeek-R1 模型。
總結(jié)反思
這里,我們測(cè)試了針對(duì)生成的錯(cuò)誤代碼,大模型是否可以結(jié)合錯(cuò)誤反思并生成準(zhǔn)確的代碼。
總結(jié):原始代碼存在包括【類型錯(cuò)誤】、【潛在的空列表錯(cuò)誤】、【字符串與整數(shù)操作問題】等數(shù)據(jù)分析中常見的代碼問題。經(jīng)過四個(gè)不同模型反思優(yōu)化后,Qwen2.5-72B選擇直接丟棄不符合數(shù)值格式的數(shù)據(jù),雖然能夠跑通,但并不是數(shù)據(jù)預(yù)處理時(shí)的最佳選擇,優(yōu)化了潛在的空列表錯(cuò)誤。DeepSeek-R1對(duì)數(shù)據(jù)進(jìn)行了強(qiáng)制轉(zhuǎn)換,但傳入無法強(qiáng)制轉(zhuǎn)換的類型時(shí),依舊會(huì)報(bào)錯(cuò),且并未解決潛在的空列表錯(cuò)誤。Qwen3 的兩個(gè)模型對(duì)數(shù)據(jù)類型做了最符合預(yù)期地處理,優(yōu)先嘗試轉(zhuǎn)換為數(shù)值,無法強(qiáng)制轉(zhuǎn)換才選擇拋棄,但同樣并未解決潛在的空列表錯(cuò)誤。關(guān)于潛在的空列表錯(cuò)誤,在二次提示優(yōu)化后,四個(gè)模型均給出優(yōu)化方案,達(dá)到預(yù)期。
此外,我們還測(cè)了一些其他和數(shù)據(jù)分析相關(guān)的大模型能力,例如數(shù)學(xué)推理計(jì)算能力,我們從網(wǎng)上借鑒了一些數(shù)學(xué)測(cè)試題,先說結(jié)論,DeepSeek-R1 模型和 Qwen3-235B-A22B 在數(shù)學(xué)計(jì)算推理能力上要優(yōu)于另外兩種模型,符合 Scale Law 的認(rèn)知。
具體來說,Case1 中,DeepSeek-R1 模型和 Qwen3-235B-A22B 均回答正確,其他兩個(gè)模型回答錯(cuò)誤。Case2 和 Case3 中所有模型均回答準(zhǔn)確。
綜上所述,在數(shù)據(jù)分析 Agent 構(gòu)建方面,Qwen3 模型的發(fā)布對(duì)于 Agent 的構(gòu)建有極大的提升作用。無論是在任務(wù)規(guī)劃、代碼生成、數(shù)學(xué)計(jì)算和語(yǔ)義識(shí)別等方面,Qwen3 模型都表現(xiàn)較為出色,其中 Qwen3-32B 模型也遠(yuǎn)優(yōu)于上一代模型,甚至接近于 DeepSeek-R1 模型,且部署成本更低,消費(fèi)級(jí)顯卡即可實(shí)現(xiàn)推理自由,對(duì)企業(yè)使用大模型來說,是重大的利好。
在 Qwen3 模型發(fā)布的首日,數(shù)勢(shì)科技 SwiftAgent 率先完成了對(duì) Qwen3 的全面適配,并對(duì) Agent 的中間環(huán)節(jié)進(jìn)行了能力升級(jí)和創(chuàng)新性功能開發(fā),為企業(yè)客戶構(gòu)建 AI 驅(qū)動(dòng)的數(shù)據(jù)分析和智能決策提供了更高性能、更低成本的智能產(chǎn)品。
AICon 2025 強(qiáng)勢(shì)來襲,5 月上海站、6 月北京站,雙城聯(lián)動(dòng),全覽 AI 技術(shù)前沿和行業(yè)落地。大會(huì)聚焦技術(shù)與應(yīng)用深度融合,匯聚 AI Agent、多模態(tài)、場(chǎng)景應(yīng)用、大模型架構(gòu)創(chuàng)新、智能數(shù)據(jù)基建、AI 產(chǎn)品設(shè)計(jì)和出海策略等話題。即刻掃碼購(gòu)票,一同探索 AI 應(yīng)用邊界!
今日薦文
你也「在看」嗎?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.