今天凌晨,阿里巴巴開源新一代通義千問模型Qwen3,AI Agent廠商數勢科技的數據分析智能體SwiftAgent已率先完成全面適配,并發布了Qwen3與DeepSeek-R1的測評報告,下面是具體評測內容,我們來看看在企業級的數據分析和智能決策場景上,Qwen3與DeepSeek-R1到底有哪些差異?
數據分析Agent深度測評總結
(聲明: 本次測評主要針對Qwen3-32B和Qwen3-235B-A22B,對比Qwen2.5-72B和R1效果)
針對數據分析Data Agent,我們有如下關鍵節點(如圖1),分別是改寫,任務編排,工具選擇和參數解析,工具運行和總結等。其中數據查詢工具又涵蓋了復雜的能力,例如如何將用戶的查詢語句解析成對應的語義層要素(時間,指標,維度,邏輯算子等)。不同節點的準確性對最終結果都會造成較大的影響。
圖1:數據分析Agent流程概要
當前在落地的過程中,不同廠商針對其中節點的準確性優化基本都是三種手段,分別是提示詞工程、RAG增強判斷和模型微調等。這三種手段的實施成本是遞進的,效果也不可控。因此,數勢科技一直秉持積極擁抱最先進的開源大模型的原則,踐行第一時間適配,以提高Agent產品的效果,降低交付中的實施成本。先說結論,在上下文改寫、任務編排和工具調用、數據查詢、圖表生成、總結反思五個方面,Qwen3對比Qwen2.5有極大的效果提升,對比DeepSeek-R1模型也不遑多讓,甚至在某些環節上還有意外的驚喜。成本上,根據阿里官方的報告,Qwen3模型在整體部署上成本極大地降低,進一步降低了各個企業部署和使用的門檻。
本次,數勢科技的SwiftAgent產品針對其中的不同節點,對Qwen3大模型進行整體測評,并對比以往模型的效果。
(1)上下文改寫
Chat類產品首先接收的就是用戶的輸入語句,由于會話通常存在上下文干擾,以及用戶的輸入往往都是非標準的,因此我們必須對用戶當次的輸入語句進行改寫判斷,符合“優質進,優質出”的原則。以下測試我們分別把上下文帶入到大模型中進行改寫,讓大模型判斷用戶問題的語境并進行改寫的判斷。
總結:針對Case1的語境,不應該進行改寫,出乎意料的只有Qwen3-32B回答準確;針對Case2,由于本輪提問的語境是絕對時間,Qwen2.5-72B會基于上輪時間進行推理,對本輪Query進行改寫,其他模型則理解語境不會判斷成改寫。針對Case3,INV代表“當日庫存量”的縮寫,當大模型不理解該術語時,會擅自繼承上輪內容并改寫本輪Query,4個模型均沒辦法正確回答。
(2)任務編排和工具調用
總結:Qwen2.5-72B在數據分析任務拆解和工具調用選擇上,均落后于其它三個模型。其中,Case2中我們期望通過子任務的拆解執行提高最終結果生成的準確性,DeepSeek-R1以及Qwen3-32B和Qwen3-235B-A22B推理和非推理模式均表現優秀,Qwen2.5-72B無法成功拆解相應任務,Case3中,Qwen2.5-72B在第5步任務中無法識別到應該調用歸因分析工具,其它三個模型均能做到。可見Qwen3-32B做到了成本下降了,效果反而更好了。
(3)數據查詢
數據要素解析中,對時間要素的識別往往是較難的,因為時間是帶動態更新和邏輯推理特性的。例如:“我行銷售額較去年增加多少”是時間的隱性推理,實際表達的時間是“今年”和“去年”。此外還有相對時間和絕對時間理解,以及周的開始和結束時間推理識別等。
總結:在這三種時間難例Case下,DeepSeek-R1以及Qwen3-32B和Qwen3-235B-A22B推理和非推理模式均領先于Qwen2.5-72B,其中Qwen3-32B的效果已經完全接近R1的識別效果。
數據要素解析中,對實體的抽取也是要素匹配的一個前提條件,實體抽取的質量好壞會干擾后面要素匹配的效果,針對以往的難例case,不同模型的測試情況如下:
總結:DeepSeek-R1和Qwen3-32B在Case1和Case2的效果優于其他模型,然而DeepSeek-R1在Case3上漏識別了維度,總體來看,實體語義識別的效果差距不大,反而Qwen3-32B的Dense模型效果要優于其他模型。
(4)圖表生成
本次評測中,我們采用Echart圖表生成的方式來驗證不同模型基于數據的理解后,生成并渲染圖表的效果
總結:Qwen72B對于數據理解和代碼生成的能力弱于Qwen3-32B, Case2和Case3中甚至出現了數據遺漏的現象。此外,Qwen3-32B在渲染排版上略遜色于Qwen3-235B-A22B和DeepSeek-R1模型。
(5)總結反思
這里,我們測試了針對生成的錯誤代碼,大模型是否可以結合錯誤反思并生成準確的代碼。
總結:原始代碼存在包括【類型錯誤】、【潛在的空列表錯誤】、【字符串與整數操作問題】等數據分析中常見的代碼問題。經過四個不同模型反思優化后,Qwen2.5-72B選擇直接丟棄不符合數值格式的數據,雖然能夠跑通,但并不是數據預處理時的最佳選擇,優化了潛在的空列表錯誤。DeepSeek-R1對數據進行了強制轉換,但傳入無法強制轉換的類型時,依舊會報錯,且并未解決潛在的空列表錯誤。Qwen3的兩個模型對數據類型做了最符合預期地處理,優先嘗試轉換為數值,無法強制轉換才選擇拋棄,但同樣并未解決潛在的空列表錯誤。關于潛在的空列表錯誤,在二次提示優化后,四個模型均給出優化方案,達到預期。
此外,我們還測了一些其他和數據分析相關的大模型能力,例如數學推理計算能力,我們從網上借鑒了一些數學測試題,先說結論,DeepSeek-R1模型和Qwen3-235B-A22B在數學計算推理能力上要優于另外兩種模型,符合Scale Law的認知。
具體來說,Case1中,DeepSeek-R1模型和Qwen3-235B-A22B均回答正確,其他兩個模型回答錯誤。Case2和Case3中所有模型均回答準確。
綜上所述,在數據分析Agent構建方面,Qwen3模型的發布對于Agent的構建有極大的提升作用。無論是在任務規劃、代碼生成、數學計算和語義識別等方面,Qwen3模型都表現較為出色,其中Qwen3-32B模型也遠優于上一代模型,甚至接近于DeepSeek-R1模型,且部署成本更低,消費級顯卡即可實現推理自由,對企業使用大模型來說,是重大的利好。
在Qwen3模型發布的首日,數勢科技SwiftAgent率先完成了對Qwen3的全面適配,并對Agent的中間環節進行了能力升級和創新性功能開發,為企業客戶構建AI驅動的數據分析和智能決策提供了更高性能、更低成本的智能產品。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.