網易首頁 > 網易號 > 正文申請入駐

Qwen 真的超越了 DeepSeek 嗎？那些眼花繚亂的大模型指標到底是什么意思？

2025-03-07 10:40:36　來源: AI范兒

上海舉報

分享至

隨著大語言模型（LLM）的快速發展，如何準確評估其能力成為人工智能研究和應用中的核心問題。從通用知識到專業推理，從編碼能力到工具調用，各種基準測試（Benchmarks）為我們提供了量化模型性能的窗口。

但我們發現，每家公司在公布自己的數據時，可能用的都是不同的指標，這讓我們在對比的時候十分困難，就好比每家都拿著不同的尺子。比如我們在 DeepSeek R1 的論文里面會看到這樣的圖：

而到了阿里發布的 Qwen QwQ-32B又看到這樣的數據：

看這個數據，Qwen-QwQ -32 似乎全面超越了 DeepSeek R1，很多媒體也這宣傳，那么果真如此嗎？我們還得先了解這些參數才能知道。

為此，本文將介紹這兩張圖里面所列的這些參數，這十個重要的大模型性能測試基準——AIME2024、Codeforces、GPQA Diamond、MATH-500、MMLU、SWE-Bench Verified、LiveCodeBench、LiveBench、IFEval 和 BFCL是我們常見的，我們將解析它們的含義、測試內容及其在當前技術背景下的重要性（截至 2025 年 3 月 7 日）。

看完之后，你應該有自己的判斷了。

▍1、AIME2024：高中水平數學能力

-含義：AIME（American Invitational Mathematics Examination）是美國高中數學競賽的一個環節，2024年版指的是當年更新的題目集。AIME題目通常涉及代數、幾何、數論和組合數學，難度高于普通高中水平但低于奧林匹克級別。

-測試內容：評估模型在數學問題求解中的邏輯推理和計算能力，尤其是多步驟推理和抽象思維。

-重要性：中等偏高。數學能力是衡量模型邏輯推理和問題解決能力的重要指標。AIME2024作為較新的數據集，能避免數據污染（即模型在訓練中見過類似題目），因此對測試模型的泛化能力有一定價值。但相比更難的 MATH-500 或 IMO（國際數學奧林匹克），其挑戰性稍低，可能無法完全區分頂級模型。

▍2、Codeforces：編程能力

-含義：Codeforces 是一個知名的在線競技編程平臺，定期舉辦編程比賽，題目涵蓋算法和數據結構（如圖論、動態規劃、貪心算法等），并通過 Elo 評分系統衡量參賽者能力。

-測試內容：評估模型在代碼生成、算法設計和問題解決中的表現。題目難度從簡單到極高不等。

-重要性：高。作為動態更新的真實編程挑戰平臺，Codeforces 提供了一個“活的”基準，能有效檢測模型在編碼任務上的泛化能力和實際應用潛力。它的重要性在于題目多樣性和社區驗證，避免了靜態數據集的過擬合問題。頂級模型（如 GPT-4）在 Codeforces 上平均 Elo 評分為 392（低于人類新手水平），顯示其仍有提升空間。

▍3、GPQA 鉆石：博士級多學科

-含義：GPQA（Graduate-Level Google-Proof Q&A Benchmark）Diamond 是 GPQA 數據集的高質量子集，包含 198 個由博士專家設計的多項選擇題，覆蓋生物學、物理學和化學，要求深入的專業知識和多步驟推理。這個數據集是由紐約大學、CohereAI 和 Anthropic 的研究人員聯合開發的。

-測試內容：測試模型在研究生級科學問題上的推理能力和知識深度，特別強調“Google-Proof”（難以通過搜索直接解答）。

-重要性：非常高。GPQA Diamond 是目前最困難的科學問答基準之一，專家準確率僅 65%-74%，而頂級模型（如 OpenAI o1）達到 78%，顯示其能挑戰模型極限。它對評估模型在專業領域的真實理解（而非簡單記憶）至關重要，尤其適用于 AGI（通用人工智能）研究。

▍4、MATH-500：高難度數學

-含義：MATH-500 是一個包含 500 個高難度數學問題的基準，源自 MATH 數據集，覆蓋代數、微積分、數論等，難度接近或超過大學水平。

-測試內容：測試模型在復雜數學問題上的求解能力，強調符號推理和證明能力。

-重要性：高。數學是測試模型邏輯和抽象思維的“硬核”領域，MATH-500 的高難度使其成為區分頂級模型的重要工具。例如，鏈式思維（Chain-of-Thought）提示能顯著提升模型表現，反映其推理深度。對追求數學強模型（如科學計算或教育應用）的開發至關重要。

▍ 5、MMLU：通用知識基準

-含義：MMLU（Massive Multitask Language Understanding）是一個包含 57 個學科（從 STEM 到人文學科）的多任務基準，約 15,908 個多項選擇題，難度從小學到專業水平。

-測試內容：評估模型的廣博知識和跨領域理解能力。

-重要性：中等偏高。MMLU 是最廣泛使用的通用知識基準，提供了模型整體能力的快照。頂級模型（如 Claude 3.5 Sonnet 和 GPT-4o）準確率接近 88%，但其部分題目可能已被訓練數據污染，且推理要求不如 GPQA Diamond 或 MATH-500 嚴格，因此重要性略有下降。

▍6、SWE-Bench 驗證：軟件工程能力

-含義：SWE-Bench（Software Engineering Benchmark）Verified 是 SWE-Bench 的精選子集，包含 500 個由專業開發者驗證的真實軟件工程任務，來自 GitHub 倉庫，涉及代碼修復和問題解決。

-測試內容：測試模型在實際軟件開發場景中的代碼理解和生成能力。

-重要性：高。軟件工程是 LLM 的重要應用領域，SWE-Bench Verified 的真實性和專業驗證使其成為評估模型實用性的關鍵基準。它能揭示模型在處理復雜代碼庫和上下文時的表現，對工業應用（如自動化編程）意義重大。

▍7、LiveCodeBench：編碼能力

-含義：LiveCodeBench 是一個動態更新的編碼基準，從 LeetCode、AtCoder 和 Codeforces 收集新問題（截至 2024 年 8 月超過 600 個），測試代碼生成、自修復、執行和測試預測等能力。

-測試內容：全面評估模型在編碼任務中的多樣化能力，強調無污染評估。

-重要性：非常高。其動態性和多任務設計避免了數據污染，同時覆蓋編碼的多個方面（如調試和優化）。它能區分模型在不同編碼場景中的相對優勢（如 Claude-3-Opus 在測試預測上超過 GPT-4），對開發全面的代碼助手至關重要。

▍8、LiveBench：模型綜合能力

-含義：LiveBench 是一個多領域基準，包含數學、編碼、推理、語言理解、指令遵循和數據分析 6 大類 18 個任務，使用近期數據（如過去 12 個月的數學競賽題目）確保無污染。

-測試內容：測試模型在多樣化任務中的綜合能力，強調客觀評分和實時更新。

-重要性：高。LiveBench 的多樣性和更新頻率使其成為評估模型全面性和適應性的強大工具。當前模型最高準確率僅 65%，顯示其挑戰性。對開發多功能 LLM（如聊天機器人或智能代理）有重要參考價值。

▍9、IFEval：模型指令遵循能力

-含義：IFEval（Instruction Following Evaluation）包含 500 個提示，每個提示附帶可驗證的指令（如“用 400-450 字回答”或“提及某關鍵詞 3 次”），測試模型遵循指令的能力。

-測試內容：評估模型在理解和執行具體指令時的精確性。

-重要性：中等。指令遵循是 LLM 在實際應用（如寫作助手）中的核心能力，IFEval 提供了一種客觀的量化方法。但其任務較為單一，重要性不及多領域或高難度基準。

▍10、BFCL：外部交互能力

-含義：BFCL（Berkeley Function-Calling Leaderboard）是一個評估模型調用外部函數和 API 能力的基準，包含 2000 個多語言（Python、Java 等）問答對，涉及多函數調用和相關性檢測。

-測試內容：測試模型與外部工具交互的能力，模擬真實應用場景。

-重要性：高。隨著 LLM 被集成到工具鏈（如自動化工作流），函數調用能力日益重要。BFCL 的多樣性和實用性使其成為評估模型生態適應性的關鍵指標。

▍綜合重要性排序與分析

基于當前 LLM 發展趨勢（截至 2025年3月7日），以下是重要性排序（從高到低）及理由：

1.GPQA Diamond：挑戰模型極限，測試專業推理，AGI 研究核心。

2.LiveCodeBench：動態、無污染、多任務編碼評估，實用性強。

3.SWE-Bench Verified：真實軟件工程任務，工業應用關鍵。

4.Codeforces：動態編程挑戰，算法能力標桿。

5.MATH-500：高難度數學推理，邏輯能力試金石。

6.LiveBench：多領域綜合評估，適應性測試。

7.BFCL：工具調用能力，生態集成趨勢。

8.MMLU：廣博知識基準，基礎評估工具。

9.AIME2024：數學推理中等挑戰，泛化能力參考。

10.IFEval：指令遵循專項，應用場景有限。

▍重要性背后的邏輯

-挑戰性與區分度：GPQA Diamond、MATH-500 等高難度基準能區分頂級模型（如 o1 的 78% vs. Claude 3.5 的 59.4%），對技術進步更有指導意義。

-實用性：LiveCodeBench、SWE-Bench Verified、BFCL 直接關聯實際應用（如編碼、軟件開發、工具集成）。

-動態性與無污染：LiveCodeBench、LiveBench、Codeforces 的實時更新避免數據泄露，確保公平性。

- 全面性：MMLU 和 LiveBench 覆蓋多領域，但可能因廣度犧牲深度。

▍Qwen-QwQ-32B 真的全面超越了 DeepSeek R1 嗎？

根據所列指標重要度排行，我們在來看阿里公布的這張圖：

我們發現，TOP 5 的指標里面阿里只公布了一個，而 DeepSeek 幾乎全公布了。對于最重要的一個參數GPQA Diamond阿里的報告里面沒有，吳恩達的公司Artificial Analysis連夜做了測試：

測試結果：59.5%，顯著低于 DeepSeek R1 的 71% 成績，略低于 Gemini 2.0 Flash 的 62% 成績

AIME 2024 測試：78%，與阿里巴巴官方宣稱一致，此成績超過了 DeepSeek R1，并且在測試的所有模型中僅次于 o3-mini-high。

▍其他相關背景信息：

? QwQ-32B 的參數量比 DeepSeek R1 的 671B 總參數量少約 20 倍，甚至少于 DeepSeek R1 的 37B 活躍參數量;

? 值得注意的是，QwQ-32B 采用 BF16 格式訓練和發布，而 DeepSeek R1 則采用 FP8 格式原生訓練和發布;

? 這意味著 QwQ-32B 和 DeepSeek R1 的原生版本分別占用 65GB 和 671GB 的存儲空間—但在支持原生 FP8 的硬件上 (如 NVIDIA H100)，DeepSeek R1 在每次前向傳遞中可能實際使用更少的有效計算資源。

看到這里，我想你大概明白了是怎么回事。至于阿里的 Qwen-QwQ-32B 是否真的能以小博大，超越比自己大 20 倍參數的 DeepSeek R1。很明顯不可能，充其量只是在某些指標上超越。但完整的結論只有等到雙方的對比指標都一致才能進行判斷，吳恩達的公司Artificial Analysis正在進行測試，相信謎底很快就能揭曉了。

? AI范兒

要進“交流群”，請關注公眾號獲取進群方式

投稿、需求合作或報道請添加公眾號獲取聯系方式

阿里開源32B推理模型，性能媲美DeepSeek R1滿血版！

低調的"東方神秘力量"：一個用4%的價格挑戰OpenAI的中國AI黑馬

點這里關注我，記得標星哦～

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.