99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

全網首測!?Qwen3?vs?Deepseek-R1?數據分析哪家強?

0
分享至

今天凌晨,阿里巴巴開源新一代通義千問模型Qwen3,AI Agent廠商數勢科技的數據分析智能體SwiftAgent已率先完成全面適配,并發布了Qwen3與DeepSeek-R1的測評報告,下面是具體評測內容,我們來看看在企業級的數據分析和智能決策場景上,Qwen3與DeepSeek-R1到底有哪些差異?

數據分析Agent深度測評總結

(聲明: 本次測評主要針對Qwen3-32B和Qwen3-235B-A22B,對比Qwen2.5-72B和R1效果)

針對數據分析Data Agent,我們有如下關鍵節點(如圖1),分別是改寫,任務編排,工具選擇和參數解析,工具運行和總結等。其中數據查詢工具又涵蓋了復雜的能力,例如如何將用戶的查詢語句解析成對應的語義層要素(時間,指標,維度,邏輯算子等)。不同節點的準確性對最終結果都會造成較大的影響。



圖1:數據分析Agent流程概要

當前在落地的過程中,不同廠商針對其中節點的準確性優化基本都是三種手段,分別是提示詞工程、RAG增強判斷和模型微調等。這三種手段的實施成本是遞進的,效果也不可控。因此,數勢科技一直秉持積極擁抱最先進的開源大模型的原則,踐行第一時間適配,以提高Agent產品的效果,降低交付中的實施成本。先說結論,在上下文改寫、任務編排和工具調用、數據查詢、圖表生成、總結反思五個方面,Qwen3對比Qwen2.5有極大的效果提升,對比DeepSeek-R1模型也不遑多讓,甚至在某些環節上還有意外的驚喜。成本上,根據阿里官方的報告,Qwen3模型在整體部署上成本極大地降低,進一步降低了各個企業部署和使用的門檻。

本次,數勢科技的SwiftAgent產品針對其中的不同節點,對Qwen3大模型進行整體測評,并對比以往模型的效果。



(1)上下文改寫

Chat類產品首先接收的就是用戶的輸入語句,由于會話通常存在上下文干擾,以及用戶的輸入往往都是非標準的,因此我們必須對用戶當次的輸入語句進行改寫判斷,符合“優質進,優質出”的原則。以下測試我們分別把上下文帶入到大模型中進行改寫,讓大模型判斷用戶問題的語境并進行改寫的判斷。



總結:針對Case1的語境,不應該進行改寫,出乎意料的只有Qwen3-32B回答準確;針對Case2,由于本輪提問的語境是絕對時間,Qwen2.5-72B會基于上輪時間進行推理,對本輪Query進行改寫,其他模型則理解語境不會判斷成改寫。針對Case3,INV代表“當日庫存量”的縮寫,當大模型不理解該術語時,會擅自繼承上輪內容并改寫本輪Query,4個模型均沒辦法正確回答。

(2)任務編排和工具調用



總結:Qwen2.5-72B在數據分析任務拆解和工具調用選擇上,均落后于其它三個模型。其中,Case2中我們期望通過子任務的拆解執行提高最終結果生成的準確性,DeepSeek-R1以及Qwen3-32B和Qwen3-235B-A22B推理和非推理模式均表現優秀,Qwen2.5-72B無法成功拆解相應任務,Case3中,Qwen2.5-72B在第5步任務中無法識別到應該調用歸因分析工具,其它三個模型均能做到。可見Qwen3-32B做到了成本下降了,效果反而更好了。

(3)數據查詢

數據要素解析中,對時間要素的識別往往是較難的,因為時間是帶動態更新和邏輯推理特性的。例如:“我行銷售額較去年增加多少”是時間的隱性推理,實際表達的時間是“今年”和“去年”。此外還有相對時間和絕對時間理解,以及周的開始和結束時間推理識別等。



總結:在這三種時間難例Case下,DeepSeek-R1以及Qwen3-32B和Qwen3-235B-A22B推理和非推理模式均領先于Qwen2.5-72B,其中Qwen3-32B的效果已經完全接近R1的識別效果。

數據要素解析中,對實體的抽取也是要素匹配的一個前提條件,實體抽取的質量好壞會干擾后面要素匹配的效果,針對以往的難例case,不同模型的測試情況如下:



總結:DeepSeek-R1和Qwen3-32B在Case1和Case2的效果優于其他模型,然而DeepSeek-R1在Case3上漏識別了維度,總體來看,實體語義識別的效果差距不大,反而Qwen3-32B的Dense模型效果要優于其他模型。

(4)圖表生成

本次評測中,我們采用Echart圖表生成的方式來驗證不同模型基于數據的理解后,生成并渲染圖表的效果



總結:Qwen72B對于數據理解和代碼生成的能力弱于Qwen3-32B, Case2和Case3中甚至出現了數據遺漏的現象。此外,Qwen3-32B在渲染排版上略遜色于Qwen3-235B-A22B和DeepSeek-R1模型。

(5)總結反思

這里,我們測試了針對生成的錯誤代碼,大模型是否可以結合錯誤反思并生成準確的代碼。



總結:原始代碼存在包括【類型錯誤】、【潛在的空列表錯誤】、【字符串與整數操作問題】等數據分析中常見的代碼問題。經過四個不同模型反思優化后,Qwen2.5-72B選擇直接丟棄不符合數值格式的數據,雖然能夠跑通,但并不是數據預處理時的最佳選擇,優化了潛在的空列表錯誤。DeepSeek-R1對數據進行了強制轉換,但傳入無法強制轉換的類型時,依舊會報錯,且并未解決潛在的空列表錯誤。Qwen3的兩個模型對數據類型做了最符合預期地處理,優先嘗試轉換為數值,無法強制轉換才選擇拋棄,但同樣并未解決潛在的空列表錯誤。關于潛在的空列表錯誤,在二次提示優化后,四個模型均給出優化方案,達到預期。

此外,我們還測了一些其他和數據分析相關的大模型能力,例如數學推理計算能力,我們從網上借鑒了一些數學測試題,先說結論,DeepSeek-R1模型Qwen3-235B-A22B在數學計算推理能力上要優于另外兩種模型,符合Scale Law的認知。



具體來說,Case1中,DeepSeek-R1模型Qwen3-235B-A22B均回答正確,其他兩個模型回答錯誤。Case2和Case3中所有模型均回答準確。

綜上所述,在數據分析Agent構建方面,Qwen3模型的發布對于Agent的構建有極大的提升作用。無論是在任務規劃、代碼生成、數學計算和語義識別等方面,Qwen3模型都表現較為出色,其中Qwen3-32B模型也遠優于上一代模型,甚至接近于DeepSeek-R1模型,且部署成本更低,消費級顯卡即可實現推理自由,對企業使用大模型來說,是重大的利好。

在Qwen3模型發布的首日,數勢科技SwiftAgent率先完成了對Qwen3的全面適配,并對Agent的中間環節進行了能力升級和創新性功能開發,為企業客戶構建AI驅動的數據分析和智能決策提供了更高性能、更低成本的智能產品。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
河南鶴壁一水庫水位下降驚現千佛石窟,石窟開鑿于東魏內有1043尊石佛,水庫管理方回應

河南鶴壁一水庫水位下降驚現千佛石窟,石窟開鑿于東魏內有1043尊石佛,水庫管理方回應

極目新聞
2025-05-31 18:05:52
0-5丟冠!國米揪出一罪人:全場不換前鋒,賽季4線作戰,拖垮全隊

0-5丟冠!國米揪出一罪人:全場不換前鋒,賽季4線作戰,拖垮全隊

體育知多少
2025-06-01 07:47:09
德國外長瓦德普爾強硬表示,德國與俄羅斯不再處于明確的和平狀態

德國外長瓦德普爾強硬表示,德國與俄羅斯不再處于明確的和平狀態

山河路口
2025-05-31 20:41:28
哈利伯頓霸氣回懟:我就是要把你們打包送回去

哈利伯頓霸氣回懟:我就是要把你們打包送回去

雷速體育
2025-06-01 16:25:13
雷軍余承東互撕!車圈大佬開懟:誰在眼紅誰?

雷軍余承東互撕!車圈大佬開懟:誰在眼紅誰?

元氣科技館
2025-06-01 12:29:45
錫伯杜談西卡:他極具天賦 防守他是一件很棘手的事情

錫伯杜談西卡:他極具天賦 防守他是一件很棘手的事情

北青網-北京青年報
2025-06-01 15:59:03
秦安:中國戰機端午上硬菜,一次被證實,一次被辟謠,誰也擋不住

秦安:中國戰機端午上硬菜,一次被證實,一次被辟謠,誰也擋不住

秦安戰略
2025-06-01 05:57:42
英國欠中國97億要不回來了?態度蠻橫無理,英政府要立法強制清零

英國欠中國97億要不回來了?態度蠻橫無理,英政府要立法強制清零

boss外傳
2025-05-31 15:35:03
老師前排打傘后續:當事人被多方談話刪掉原視頻,同類事件引爭議

老師前排打傘后續:當事人被多方談話刪掉原視頻,同類事件引爭議

石辰搞笑日常
2025-06-01 12:41:12
出手了!特朗普斷供C919發動機,中國多年的準備,派上用場了

出手了!特朗普斷供C919發動機,中國多年的準備,派上用場了

科技有趣事
2025-05-31 10:29:05
喪鐘已敲響,新能源汽車金融泡沫已到崩的前夜?

喪鐘已敲響,新能源汽車金融泡沫已到崩的前夜?

米筐投資
2025-05-30 07:18:09
絕不允許“親華派”上臺!美國出手整李在明,讓韓國創造新歷史

絕不允許“親華派”上臺!美國出手整李在明,讓韓國創造新歷史

一個有靈魂的作者
2025-05-28 11:08:44
朱丹端午節帶娃爬山!一家四口好溫馨,倆孩子都戴近視眼鏡惹人憂

朱丹端午節帶娃爬山!一家四口好溫馨,倆孩子都戴近視眼鏡惹人憂

檸檬有娛樂
2025-06-01 09:56:50
臺劇又出佳作,女性題材成制勝法寶,劉若英首次執導劇集就這么頂

臺劇又出佳作,女性題材成制勝法寶,劉若英首次執導劇集就這么頂

最愛酷影視
2025-06-01 09:40:08
香港“第一惡人”方剛去世,一生未婚無子,億萬遺產誰來繼承?

香港“第一惡人”方剛去世,一生未婚無子,億萬遺產誰來繼承?

鋭娛之樂
2025-05-31 21:22:42
場均24+13,卻遭全隊集體霸凌?季后賽最憋屈球員!趕緊離開吧

場均24+13,卻遭全隊集體霸凌?季后賽最憋屈球員!趕緊離開吧

毒舌NBA
2025-06-01 14:00:40
這樣的哈佛大學,死了也罷!

這樣的哈佛大學,死了也罷!

難得君
2025-06-01 14:21:27
5月上海一二手住房成交同比增加17%

5月上海一二手住房成交同比增加17%

界面新聞
2025-06-01 16:25:06
隨處可見的花蚊子,來中國僅50年,為何會令人“聞風喪膽”?

隨處可見的花蚊子,來中國僅50年,為何會令人“聞風喪膽”?

心中的麥田
2025-05-30 16:16:19
四川成都市都江堰市附近發生4.0級左右地震

四川成都市都江堰市附近發生4.0級左右地震

界面新聞
2025-06-01 16:05:06
2025-06-01 16:36:49
數據猿DataYuan incentive-icons
數據猿DataYuan
數據智能產業創新服務媒體
2093文章數 584關注度
往期回顧 全部

科技要聞

特朗普突然炒掉NASA準局長,嫌他不"忠誠"?

頭條要聞

奔馳4S店"忠誠客戶"過保半年發現車子"通病":接受不了

頭條要聞

奔馳4S店"忠誠客戶"過保半年發現車子"通病":接受不了

體育要聞

一邊倒的歐冠決賽,青春無敵的新科冠軍

娛樂要聞

張若昀夫婦國外遛娃 男方推平價兒童車

財經要聞

油價繼續下跌?歐佩克宣布將再度增產

汽車要聞

零跑汽車5月交付量達45,067臺 穩居新勢力前三

態度原創

藝術
教育
游戲
公開課
軍事航空

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

二年級競賽題,思維拓展,有難度嗎?

《劍星》體驗版已上線Steam !獲特別好評但中文配音被吐槽出戲

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美防長在香會大肆渲染中國威脅 中方回應

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 珠海市| 云阳县| 竹北市| 大荔县| 永丰县| 景泰县| 加查县| 建平县| 韶关市| 肥乡县| 临汾市| 东乌珠穆沁旗| 饶阳县| 常熟市| 宁化县| 卢氏县| 南部县| 越西县| 加查县| 安溪县| 金平| 青铜峡市| 榆社县| 读书| 富川| 都兰县| 乃东县| 灵璧县| 葫芦岛市| 龙南县| 宝应县| 通化县| 福海县| 灵武市| 金湖县| 邯郸市| 白朗县| 会东县| 曲周县| 湘潭县| 阿拉善盟|