99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

全網(wǎng)首測(cè)!?Qwen3?vs?Deepseek-R1?數(shù)據(jù)分析哪家強(qiáng)?

0
分享至


作者 | 李飛

昨天凌晨,阿里巴巴開源新一代通義千問模型 Qwen3,AI Agent 廠商數(shù)勢(shì)科技的數(shù)據(jù)分析智能體 SwiftAgent 已率先完成全面適配,并發(fā)布了 Qwen3 與 DeepSeek-R1 的測(cè)評(píng)報(bào)告,下面是具體評(píng)測(cè)內(nèi)容,我們來看看在企業(yè)級(jí)的數(shù)據(jù)分析和智能決策場(chǎng)景上,Qwen3 與 DeepSeek-R1 到底有哪些差異?


(聲明: 本次測(cè)評(píng)主要針對(duì) Qwen3-32B 和 Qwen3-235B-A22B, 對(duì)比 Qwen2.5-72B 和 R1 效果)

針對(duì)數(shù)據(jù)分析 Data Agent,我們有如下關(guān)鍵節(jié)點(diǎn) (如圖 1),分別是改寫,任務(wù)編排,工具選擇和參數(shù)解析,工具運(yùn)行和總結(jié)等。其中數(shù)據(jù)查詢工具又涵蓋了復(fù)雜的能力,例如如何將用戶的查詢語(yǔ)句解析成對(duì)應(yīng)的語(yǔ)義層要素 (時(shí)間,指標(biāo),維度,邏輯算子等)。不同節(jié)點(diǎn)的準(zhǔn)確性對(duì)最終結(jié)果都會(huì)造成較大的影響。


圖 1:數(shù)據(jù)分析 Agent 流程概要

當(dāng)前在落地的過程中,不同廠商針對(duì)其中節(jié)點(diǎn)的準(zhǔn)確性優(yōu)化基本都是三種手段,分別是提示詞工程、RAG 增強(qiáng)判斷和模型微調(diào)等。這三種手段的實(shí)施成本是遞進(jìn)的,效果也不可控。因此,數(shù)勢(shì)科技一直秉持積極擁抱最先進(jìn)的開源大模型的原則,踐行第一時(shí)間適配,以提高 Agent 產(chǎn)品的效果,降低交付中的實(shí)施成本。先說結(jié)論,在上下文改寫、任務(wù)編排和工具調(diào)用、數(shù)據(jù)查詢、圖表生成、總結(jié)反思五個(gè)方面,Qwen3 對(duì)比 Qwen2.5 有極大的效果提升,對(duì)比 DeepSeek-R1 模型也不遑多讓,甚至在某些環(huán)節(jié)上還有意外的驚喜。成本上,根據(jù)阿里官方的報(bào)告,Qwen3 模型在整體部署上成本極大地降低,進(jìn)一步降低了各個(gè)企業(yè)部署和使用的門檻。


本次,數(shù)勢(shì)科技的 SwiftAgent 產(chǎn)品針對(duì)其中的不同節(jié)點(diǎn),對(duì) Qwen3 大模型進(jìn)行整體測(cè)評(píng),并對(duì)比以往模型的效果。

上下文改寫

Chat 類產(chǎn)品首先接收的就是用戶的輸入語(yǔ)句,由于會(huì)話通常存在上下文干擾,以及用戶的輸入往往都是非標(biāo)準(zhǔn)的,因此我們必須對(duì)用戶當(dāng)次的輸入語(yǔ)句進(jìn)行改寫判斷,符合“優(yōu)質(zhì)進(jìn),優(yōu)質(zhì)出”的原則。以下測(cè)試我們分別把上下文帶入到大模型中進(jìn)行改寫,讓大模型判斷用戶問題的語(yǔ)境并進(jìn)行改寫的判斷。


總結(jié):針對(duì) Case1 的語(yǔ)境,不應(yīng)該進(jìn)行改寫,出乎意料的只有 Qwen3-32B 回答準(zhǔn)確;針對(duì) Case2,由于本輪提問的語(yǔ)境是絕對(duì)時(shí)間,Qwen2.5-72B 會(huì)基于上輪時(shí)間進(jìn)行推理,對(duì)本輪 Query 進(jìn)行改寫,其他模型則理解語(yǔ)境不會(huì)判斷成改寫。針對(duì) Case3,INV 代表“當(dāng)日庫(kù)存量”的縮寫,當(dāng)大模型不理解該術(shù)語(yǔ)時(shí),會(huì)擅自繼承上輪內(nèi)容并改寫本輪 Query,4 個(gè)模型均沒辦法正確回答。

任務(wù)編排和工具調(diào)用


總結(jié):Qwen2.5-72B 在數(shù)據(jù)分析任務(wù)拆解和工具調(diào)用選擇上,均落后于其它三個(gè)模型。其中,Case2 中我們期望通過子任務(wù)的拆解執(zhí)行提高最終結(jié)果生成的準(zhǔn)確性,DeepSeek-R1 以及 Qwen3-32B 和 Qwen3-235B-A22B 推理和非推理模式均表現(xiàn)優(yōu)秀,Qwen2.5-72B 無法成功拆解相應(yīng)任務(wù),Case3 中,Qwen2.5-72B 在第 5 步任務(wù)中無法識(shí)別到應(yīng)該調(diào)用歸因分析工具,其它三個(gè)模型均能做到。可見Qwen3-32B 做到了成本下降了,效果反而更好了

數(shù)據(jù)查詢

數(shù)據(jù)要素解析中,對(duì)時(shí)間要素的識(shí)別往往是較難的,因?yàn)闀r(shí)間是帶動(dòng)態(tài)更新和邏輯推理特性的。例如:“我行銷售額較去年增加多少”是時(shí)間的隱性推理,實(shí)際表達(dá)的時(shí)間是“今年”和“去年”。此外還有相對(duì)時(shí)間和絕對(duì)時(shí)間理解,以及周的開始和結(jié)束時(shí)間推理識(shí)別等。


總結(jié):在這三種時(shí)間難例 Case 下,DeepSeek-R1 以及 Qwen3-32B 和 Qwen3-235B-A22B 推理和非推理模式均領(lǐng)先于 Qwen2.5-72B,其中 Qwen3-32B 的效果已經(jīng)完全接近 R1 的識(shí)別效果。

數(shù)據(jù)要素解析中,對(duì)實(shí)體的抽取也是要素匹配的一個(gè)前提條件,實(shí)體抽取的質(zhì)量好壞會(huì)干擾后面要素匹配的效果,針對(duì)以往的難例 case,不同模型的測(cè)試情況如下:


總結(jié):DeepSeek-R1 和 Qwen3-32B 在 Case1 和 Case2 的效果優(yōu)于其他模型,然而 DeepSeek-R1 在 Case3 上漏識(shí)別了維度,總體來看,實(shí)體語(yǔ)義識(shí)別的效果差距不大,反而 Qwen3-32B 的 Dense 模型效果要優(yōu)于其他模型。

圖表生成

本次評(píng)測(cè)中,我們采用 Echart 圖表生成的方式來驗(yàn)證不同模型基于數(shù)據(jù)的理解后,生成并渲染圖表的效果


總結(jié):Qwen72B 對(duì)于數(shù)據(jù)理解和代碼生成的能力弱于 Qwen3-32B, Case2 和 Case3 中甚至出現(xiàn)了數(shù)據(jù)遺漏的現(xiàn)象。此外,Qwen3-32B 在渲染排版上略遜色于 Qwen3-235B-A22B 和 DeepSeek-R1 模型。

總結(jié)反思

這里,我們測(cè)試了針對(duì)生成的錯(cuò)誤代碼,大模型是否可以結(jié)合錯(cuò)誤反思并生成準(zhǔn)確的代碼。


總結(jié):原始代碼存在包括【類型錯(cuò)誤】、【潛在的空列表錯(cuò)誤】、【字符串與整數(shù)操作問題】等數(shù)據(jù)分析中常見的代碼問題。經(jīng)過四個(gè)不同模型反思優(yōu)化后,Qwen2.5-72B選擇直接丟棄不符合數(shù)值格式的數(shù)據(jù),雖然能夠跑通,但并不是數(shù)據(jù)預(yù)處理時(shí)的最佳選擇,優(yōu)化了潛在的空列表錯(cuò)誤。DeepSeek-R1對(duì)數(shù)據(jù)進(jìn)行了強(qiáng)制轉(zhuǎn)換,但傳入無法強(qiáng)制轉(zhuǎn)換的類型時(shí),依舊會(huì)報(bào)錯(cuò),且并未解決潛在的空列表錯(cuò)誤。Qwen3 的兩個(gè)模型對(duì)數(shù)據(jù)類型做了最符合預(yù)期地處理,優(yōu)先嘗試轉(zhuǎn)換為數(shù)值,無法強(qiáng)制轉(zhuǎn)換才選擇拋棄,但同樣并未解決潛在的空列表錯(cuò)誤。關(guān)于潛在的空列表錯(cuò)誤,在二次提示優(yōu)化后,四個(gè)模型均給出優(yōu)化方案,達(dá)到預(yù)期。

此外,我們還測(cè)了一些其他和數(shù)據(jù)分析相關(guān)的大模型能力,例如數(shù)學(xué)推理計(jì)算能力,我們從網(wǎng)上借鑒了一些數(shù)學(xué)測(cè)試題,先說結(jié)論,DeepSeek-R1 模型和 Qwen3-235B-A22B 在數(shù)學(xué)計(jì)算推理能力上要優(yōu)于另外兩種模型,符合 Scale Law 的認(rèn)知


具體來說,Case1 中,DeepSeek-R1 模型和 Qwen3-235B-A22B 均回答正確,其他兩個(gè)模型回答錯(cuò)誤。Case2 和 Case3 中所有模型均回答準(zhǔn)確。

綜上所述,在數(shù)據(jù)分析 Agent 構(gòu)建方面,Qwen3 模型的發(fā)布對(duì)于 Agent 的構(gòu)建有極大的提升作用。無論是在任務(wù)規(guī)劃、代碼生成、數(shù)學(xué)計(jì)算和語(yǔ)義識(shí)別等方面,Qwen3 模型都表現(xiàn)較為出色,其中 Qwen3-32B 模型也遠(yuǎn)優(yōu)于上一代模型,甚至接近于 DeepSeek-R1 模型,且部署成本更低,消費(fèi)級(jí)顯卡即可實(shí)現(xiàn)推理自由,對(duì)企業(yè)使用大模型來說,是重大的利好

在 Qwen3 模型發(fā)布的首日,數(shù)勢(shì)科技 SwiftAgent 率先完成了對(duì) Qwen3 的全面適配,并對(duì) Agent 的中間環(huán)節(jié)進(jìn)行了能力升級(jí)和創(chuàng)新性功能開發(fā),為企業(yè)客戶構(gòu)建 AI 驅(qū)動(dòng)的數(shù)據(jù)分析和智能決策提供了更高性能、更低成本的智能產(chǎn)品。

AICon 2025 強(qiáng)勢(shì)來襲,5 月上海站、6 月北京站,雙城聯(lián)動(dòng),全覽 AI 技術(shù)前沿和行業(yè)落地。大會(huì)聚焦技術(shù)與應(yīng)用深度融合,匯聚 AI Agent、多模態(tài)、場(chǎng)景應(yīng)用、大模型架構(gòu)創(chuàng)新、智能數(shù)據(jù)基建、AI 產(chǎn)品設(shè)計(jì)和出海策略等話題。即刻掃碼購(gòu)票,一同探索 AI 應(yīng)用邊界!

今日薦文

你也「在看」嗎?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
被中產(chǎn)炒熱的自行車,價(jià)格崩了?

被中產(chǎn)炒熱的自行車,價(jià)格崩了?

中國(guó)新聞周刊
2025-05-21 22:41:08
“下輩子不來了”,點(diǎn)贊440萬(wàn),評(píng)論52萬(wàn),評(píng)論區(qū)破防

“下輩子不來了”,點(diǎn)贊440萬(wàn),評(píng)論52萬(wàn),評(píng)論區(qū)破防

灰產(chǎn)圈
2025-05-14 12:37:28
網(wǎng)友稱黃楊鈿甜塌房早有預(yù)兆,她10歲時(shí),爸爸戴的手表已很大牌

網(wǎng)友稱黃楊鈿甜塌房早有預(yù)兆,她10歲時(shí),爸爸戴的手表已很大牌

丫頭舫
2025-05-20 11:24:32
張本智和悄無聲息輸?shù)魞?nèi)戰(zhàn)告別多哈,兄妹倆都被同一個(gè)人逮著薅!

張本智和悄無聲息輸?shù)魞?nèi)戰(zhàn)告別多哈,兄妹倆都被同一個(gè)人逮著薅!

晚霧空青
2025-05-22 10:51:09
日本人開始“逆生長(zhǎng)”!勉強(qiáng)沖到一米七就停了,基因遇到上限了?

日本人開始“逆生長(zhǎng)”!勉強(qiáng)沖到一米七就停了,基因遇到上限了?

阿纂看事
2025-05-18 23:59:53
中國(guó)氣象局提升重大氣象災(zāi)害(暴雨)Ⅳ級(jí)應(yīng)急響應(yīng)為Ⅲ級(jí)

中國(guó)氣象局提升重大氣象災(zāi)害(暴雨)Ⅳ級(jí)應(yīng)急響應(yīng)為Ⅲ級(jí)

界面新聞
2025-05-21 09:28:46
美智庫(kù):一旦中美開戰(zhàn),中國(guó)不能擊沉美國(guó)航母,否則引起世界大戰(zhàn)

美智庫(kù):一旦中美開戰(zhàn),中國(guó)不能擊沉美國(guó)航母,否則引起世界大戰(zhàn)

Ck的蜜糖
2025-05-22 10:22:41
張志坤:已經(jīng)到喊出“打過海峽去,統(tǒng)一全中國(guó)”的時(shí)候了

張志坤:已經(jīng)到喊出“打過海峽去,統(tǒng)一全中國(guó)”的時(shí)候了

秦安戰(zhàn)略
2025-05-20 18:47:04
記住:永遠(yuǎn)不要對(duì)任何人透露你的真實(shí)情況,你要學(xué)會(huì)藏兩樣?xùn)|西!

記住:永遠(yuǎn)不要對(duì)任何人透露你的真實(shí)情況,你要學(xué)會(huì)藏兩樣?xùn)|西!

煙臺(tái)秀姐
2025-05-21 10:28:23
戰(zhàn)后算總賬,巴公布最新戰(zhàn)果!18日,美媒:殲10擊穿世界軍工市場(chǎng)

戰(zhàn)后算總賬,巴公布最新戰(zhàn)果!18日,美媒:殲10擊穿世界軍工市場(chǎng)

林子說事
2025-05-21 01:34:41
王菲謝霆鋒飛日本過情人節(jié),低頭耳語(yǔ)好恩愛,輪流背包王菲很嬌羞

王菲謝霆鋒飛日本過情人節(jié),低頭耳語(yǔ)好恩愛,輪流背包王菲很嬌羞

娛樂圈圈圓
2025-05-21 17:00:36
阿莫林:如果需要我下課我連賠償金都不要,但我不會(huì)辭職

阿莫林:如果需要我下課我連賠償金都不要,但我不會(huì)辭職

懂球帝
2025-05-22 07:08:42
西決G1收視率較去年下降24%,自2013年之后歷史最低

西決G1收視率較去年下降24%,自2013年之后歷史最低

雷速體育
2025-05-22 07:28:26
20歲女孩被強(qiáng)奸殺害,身體被當(dāng)成小羊捆綁,一根體毛成破案關(guān)鍵

20歲女孩被強(qiáng)奸殺害,身體被當(dāng)成小羊捆綁,一根體毛成破案關(guān)鍵

胖胖侃咖
2025-05-21 08:00:07
“我就一件事,怎么規(guī)避責(zé)任,其他的,玩去”

“我就一件事,怎么規(guī)避責(zé)任,其他的,玩去”

槽邏輯
2025-05-21 18:19:16
曝朱媛媛患卵巢癌3期,4月露面瘦好多,辛柏青發(fā)博時(shí)間惹淚目

曝朱媛媛患卵巢癌3期,4月露面瘦好多,辛柏青發(fā)博時(shí)間惹淚目

古希臘掌管月桂的神
2025-05-21 16:12:36
公公退休,給了大哥一套房和100萬(wàn)元。我和老公卻一無所獲

公公退休,給了大哥一套房和100萬(wàn)元。我和老公卻一無所獲

朗威談星座
2025-05-22 10:07:57
朱媛媛已于昨天火化 國(guó)家話劇院院長(zhǎng)懷念其笑容

朱媛媛已于昨天火化 國(guó)家話劇院院長(zhǎng)懷念其笑容

看看新聞Knews
2025-05-21 23:42:25
又是100%關(guān)稅,中方未發(fā)請(qǐng)柬,特朗普又翻臉了,隨即展開“報(bào)復(fù)”

又是100%關(guān)稅,中方未發(fā)請(qǐng)柬,特朗普又翻臉了,隨即展開“報(bào)復(fù)”

科技講者66
2025-05-21 22:34:58
辛柏青沉痛發(fā)文:妻子、演員朱媛媛抗癌五年后去世,享年51歲

辛柏青沉痛發(fā)文:妻子、演員朱媛媛抗癌五年后去世,享年51歲

文匯報(bào)
2025-05-21 11:40:30
2025-05-22 11:40:49
AI前線 incentive-icons
AI前線
面向AI愛好者、開發(fā)者和科學(xué)家,提供AI領(lǐng)域技術(shù)資訊。
856文章數(shù) 80關(guān)注度
往期回顧 全部

科技要聞

蘋果設(shè)計(jì)靈魂投奔OpenAI 十年淘汰iPhone?

頭條要聞

牛彈琴:南非總統(tǒng)穿西裝參加鴻門宴 他比澤連斯基老練

頭條要聞

牛彈琴:南非總統(tǒng)穿西裝參加鴻門宴 他比澤連斯基老練

體育要聞

威少被交易時(shí),雷霆下一個(gè)MVP已在陣中

娛樂要聞

朱媛媛喪事一切從簡(jiǎn),親戚剛知她去世

財(cái)經(jīng)要聞

中國(guó),拋售美債!

汽車要聞

或超700馬力 保時(shí)捷911 GT2 RS最新消息曝光

態(tài)度原創(chuàng)

家居
藝術(shù)
時(shí)尚
親子
數(shù)碼

家居要聞

黑白簡(jiǎn)約 見證平凡的蛻變

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

今夏超流行這6種顏色,每一種都是顯白高手

親子要聞

馬賽原始部落

數(shù)碼要聞

PNY 推出 microSD Express 存儲(chǔ)卡:128GB、256GB 兩種容量可選

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 保靖县| 蛟河市| 诏安县| 文成县| 清水河县| 德兴市| 县级市| 白城市| 罗甸县| 平武县| 庆元县| 宁陵县| 通江县| 荔波县| 玉龙| 葫芦岛市| 福建省| 土默特右旗| 苏尼特左旗| 历史| 乐东| 合阳县| 临高县| 马尔康县| 武安市| 文安县| 苍梧县| 全南县| 万州区| 泰顺县| 全州县| 钦州市| 红河县| 吉首市| 昌邑市| 乌拉特中旗| 郁南县| 景洪市| 清苑县| 揭东县| 申扎县|