網易首頁 > 網易號 > 正文申請入駐

全網首測！?Qwen3?vs?Deepseek-R1?數據分析哪家強？

2025-04-29 23:14:46　來源: 數據猿DataYuan

內蒙古舉報

分享至

今天凌晨，阿里巴巴開源新一代通義千問模型Qwen3，AI Agent廠商數勢科技的數據分析智能體SwiftAgent已率先完成全面適配，并發布了Qwen3與DeepSeek-R1的測評報告，下面是具體評測內容，我們來看看在企業級的數據分析和智能決策場景上，Qwen3與DeepSeek-R1到底有哪些差異？

數據分析Agent深度測評總結

(聲明: 本次測評主要針對Qwen3-32B和Qwen3-235B-A22B,對比Qwen2.5-72B和R1效果)

針對數據分析Data Agent，我們有如下關鍵節點(如圖1），分別是改寫，任務編排，工具選擇和參數解析，工具運行和總結等。其中數據查詢工具又涵蓋了復雜的能力，例如如何將用戶的查詢語句解析成對應的語義層要素(時間，指標，維度，邏輯算子等）。不同節點的準確性對最終結果都會造成較大的影響。

圖1：數據分析Agent流程概要

當前在落地的過程中，不同廠商針對其中節點的準確性優化基本都是三種手段，分別是提示詞工程、RAG增強判斷和模型微調等。這三種手段的實施成本是遞進的，效果也不可控。因此，數勢科技一直秉持積極擁抱最先進的開源大模型的原則，踐行第一時間適配，以提高Agent產品的效果，降低交付中的實施成本。先說結論，在上下文改寫、任務編排和工具調用、數據查詢、圖表生成、總結反思五個方面，Qwen3對比Qwen2.5有極大的效果提升，對比DeepSeek-R1模型也不遑多讓，甚至在某些環節上還有意外的驚喜。成本上，根據阿里官方的報告，Qwen3模型在整體部署上成本極大地降低，進一步降低了各個企業部署和使用的門檻。

本次，數勢科技的SwiftAgent產品針對其中的不同節點，對Qwen3大模型進行整體測評，并對比以往模型的效果。

（1）上下文改寫

Chat類產品首先接收的就是用戶的輸入語句，由于會話通常存在上下文干擾，以及用戶的輸入往往都是非標準的，因此我們必須對用戶當次的輸入語句進行改寫判斷，符合“優質進，優質出”的原則。以下測試我們分別把上下文帶入到大模型中進行改寫，讓大模型判斷用戶問題的語境并進行改寫的判斷。

總結：針對Case1的語境，不應該進行改寫，出乎意料的只有Qwen3-32B回答準確；針對Case2，由于本輪提問的語境是絕對時間，Qwen2.5-72B會基于上輪時間進行推理，對本輪Query進行改寫，其他模型則理解語境不會判斷成改寫。針對Case3，INV代表“當日庫存量”的縮寫，當大模型不理解該術語時，會擅自繼承上輪內容并改寫本輪Query，4個模型均沒辦法正確回答。

（2）任務編排和工具調用

總結：Qwen2.5-72B在數據分析任務拆解和工具調用選擇上，均落后于其它三個模型。其中，Case2中我們期望通過子任務的拆解執行提高最終結果生成的準確性，DeepSeek-R1以及Qwen3-32B和Qwen3-235B-A22B推理和非推理模式均表現優秀，Qwen2.5-72B無法成功拆解相應任務，Case3中，Qwen2.5-72B在第5步任務中無法識別到應該調用歸因分析工具，其它三個模型均能做到。可見Qwen3-32B做到了成本下降了，效果反而更好了。

（3）數據查詢

數據要素解析中，對時間要素的識別往往是較難的，因為時間是帶動態更新和邏輯推理特性的。例如：“我行銷售額較去年增加多少”是時間的隱性推理，實際表達的時間是“今年”和“去年”。此外還有相對時間和絕對時間理解，以及周的開始和結束時間推理識別等。

總結：在這三種時間難例Case下，DeepSeek-R1以及Qwen3-32B和Qwen3-235B-A22B推理和非推理模式均領先于Qwen2.5-72B，其中Qwen3-32B的效果已經完全接近R1的識別效果。

數據要素解析中，對實體的抽取也是要素匹配的一個前提條件，實體抽取的質量好壞會干擾后面要素匹配的效果，針對以往的難例case，不同模型的測試情況如下：

總結：DeepSeek-R1和Qwen3-32B在Case1和Case2的效果優于其他模型，然而DeepSeek-R1在Case3上漏識別了維度，總體來看，實體語義識別的效果差距不大，反而Qwen3-32B的Dense模型效果要優于其他模型。

（4）圖表生成

本次評測中，我們采用Echart圖表生成的方式來驗證不同模型基于數據的理解后，生成并渲染圖表的效果

總結：Qwen72B對于數據理解和代碼生成的能力弱于Qwen3-32B, Case2和Case3中甚至出現了數據遺漏的現象。此外，Qwen3-32B在渲染排版上略遜色于Qwen3-235B-A22B和DeepSeek-R1模型。

（5）總結反思

這里，我們測試了針對生成的錯誤代碼，大模型是否可以結合錯誤反思并生成準確的代碼。

總結：原始代碼存在包括【類型錯誤】、【潛在的空列表錯誤】、【字符串與整數操作問題】等數據分析中常見的代碼問題。經過四個不同模型反思優化后，Qwen2.5-72B選擇直接丟棄不符合數值格式的數據，雖然能夠跑通，但并不是數據預處理時的最佳選擇，優化了潛在的空列表錯誤。DeepSeek-R1對數據進行了強制轉換，但傳入無法強制轉換的類型時，依舊會報錯，且并未解決潛在的空列表錯誤。Qwen3的兩個模型對數據類型做了最符合預期地處理，優先嘗試轉換為數值，無法強制轉換才選擇拋棄，但同樣并未解決潛在的空列表錯誤。關于潛在的空列表錯誤，在二次提示優化后，四個模型均給出優化方案，達到預期。

此外，我們還測了一些其他和數據分析相關的大模型能力，例如數學推理計算能力，我們從網上借鑒了一些數學測試題，先說結論，DeepSeek-R1模型和Qwen3-235B-A22B在數學計算推理能力上要優于另外兩種模型，符合Scale Law的認知。

具體來說，Case1中，DeepSeek-R1模型和Qwen3-235B-A22B均回答正確，其他兩個模型回答錯誤。Case2和Case3中所有模型均回答準確。

綜上所述，在數據分析Agent構建方面，Qwen3模型的發布對于Agent的構建有極大的提升作用。無論是在任務規劃、代碼生成、數學計算和語義識別等方面，Qwen3模型都表現較為出色，其中Qwen3-32B模型也遠優于上一代模型，甚至接近于DeepSeek-R1模型，且部署成本更低，消費級顯卡即可實現推理自由，對企業使用大模型來說，是重大的利好。

在Qwen3模型發布的首日，數勢科技SwiftAgent率先完成了對Qwen3的全面適配，并對Agent的中間環節進行了能力升級和創新性功能開發，為企業客戶構建AI驅動的數據分析和智能決策提供了更高性能、更低成本的智能產品。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.