99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Qwen 真的超越了 DeepSeek 嗎?那些眼花繚亂的大模型指標到底是什么意思?

0
分享至


隨著大語言模型(LLM)的快速發展,如何準確評估其能力成為人工智能研究和應用中的核心問題。從通用知識到專業推理,從編碼能力到工具調用,各種基準測試(Benchmarks)為我們提供了量化模型性能的窗口。

但我們發現,每家公司在公布自己的數據時,可能用的都是不同的指標,這讓我們在對比的時候十分困難,就好比每家都拿著不同的尺子。比如我們在 DeepSeek R1 的論文里面會看到這樣的圖:


而到了阿里發布的 Qwen QwQ-32B又看到這樣的數據:


看這個數據,Qwen-QwQ -32 似乎全面超越了 DeepSeek R1,很多媒體也這宣傳,那么果真如此嗎?我們還得先了解這些參數才能知道。

為此,本文將介紹這兩張圖里面所列的這些參數,這十個重要的大模型性能測試基準——AIME2024、Codeforces、GPQA Diamond、MATH-500、MMLU、SWE-Bench Verified、LiveCodeBench、LiveBench、IFEval 和 BFCL是我們常見的,我們將解析它們的含義、測試內容及其在當前技術背景下的重要性(截至 2025 年 3 月 7 日)。

看完之后,你應該有自己的判斷了。

▍1、AIME2024:高中水平數學能力

-含義:AIME(American Invitational Mathematics Examination)是美國高中數學競賽的一個環節,2024年版指的是當年更新的題目集。AIME題目通常涉及代數、幾何、數論和組合數學,難度高于普通高中水平但低于奧林匹克級別

-測試內容:評估模型在數學問題求解中的邏輯推理和計算能力,尤其是多步驟推理和抽象思維。

-重要性中等偏高。數學能力是衡量模型邏輯推理和問題解決能力的重要指標。AIME2024作為較新的數據集,能避免數據污染(即模型在訓練中見過類似題目),因此對測試模型的泛化能力有一定價值。但相比更難的 MATH-500 或 IMO(國際數學奧林匹克),其挑戰性稍低,可能無法完全區分頂級模型。

▍2、Codeforces:編程能力


-含義:Codeforces 是一個知名的在線競技編程平臺,定期舉辦編程比賽,題目涵蓋算法和數據結構(如圖論、動態規劃、貪心算法等),并通過 Elo 評分系統衡量參賽者能力。

-測試內容:評估模型在代碼生成、算法設計和問題解決中的表現。題目難度從簡單到極高不等。

-重要性。作為動態更新的真實編程挑戰平臺,Codeforces 提供了一個“活的”基準,能有效檢測模型在編碼任務上的泛化能力和實際應用潛力。它的重要性在于題目多樣性和社區驗證,避免了靜態數據集的過擬合問題。頂級模型(如 GPT-4)在 Codeforces 上平均 Elo 評分為 392(低于人類新手水平),顯示其仍有提升空間。

▍3、GPQA 鉆石:博士級多學科


-含義:GPQA(Graduate-Level Google-Proof Q&A Benchmark)Diamond 是 GPQA 數據集的高質量子集,包含 198 個由博士專家設計的多項選擇題,覆蓋生物學、物理學和化學,要求深入的專業知識和多步驟推理。這個數據集是由紐約大學、CohereAI 和 Anthropic 的研究人員聯合開發的。

-測試內容:測試模型在研究生級科學問題上的推理能力和知識深度,特別強調“Google-Proof”(難以通過搜索直接解答)。

-重要性非常高GPQA Diamond 是目前最困難的科學問答基準之一,專家準確率僅 65%-74%,而頂級模型(如 OpenAI o1)達到 78%,顯示其能挑戰模型極限。它對評估模型在專業領域的真實理解(而非簡單記憶)至關重要,尤其適用于 AGI(通用人工智能)研究。

▍4、MATH-500:高難度數學

-含義:MATH-500 是一個包含 500 個高難度數學問題的基準,源自 MATH 數據集,覆蓋代數、微積分、數論等,難度接近或超過大學水平。

-測試內容:測試模型在復雜數學問題上的求解能力,強調符號推理和證明能力。

-重要性。數學是測試模型邏輯和抽象思維的“硬核”領域,MATH-500 的高難度使其成為區分頂級模型的重要工具。例如,鏈式思維(Chain-of-Thought)提示能顯著提升模型表現,反映其推理深度。對追求數學強模型(如科學計算或教育應用)的開發至關重要。

▍ 5、MMLU:通用知識基準

-含義:MMLU(Massive Multitask Language Understanding)是一個包含 57 個學科(從 STEM 到人文學科)的多任務基準,約 15,908 個多項選擇題,難度從小學到專業水平。

-測試內容:評估模型的廣博知識和跨領域理解能力。

-重要性中等偏高MMLU 是最廣泛使用的通用知識基準,提供了模型整體能力的快照。頂級模型(如 Claude 3.5 Sonnet 和 GPT-4o)準確率接近 88%,但其部分題目可能已被訓練數據污染,且推理要求不如 GPQA Diamond 或 MATH-500 嚴格,因此重要性略有下降。

▍6、SWE-Bench 驗證:軟件工程能力

-含義:SWE-Bench(Software Engineering Benchmark)Verified 是 SWE-Bench 的精選子集,包含 500 個由專業開發者驗證的真實軟件工程任務,來自 GitHub 倉庫,涉及代碼修復和問題解決。

-測試內容:測試模型在實際軟件開發場景中的代碼理解和生成能力。

-重要性。軟件工程是 LLM 的重要應用領域,SWE-Bench Verified 的真實性和專業驗證使其成為評估模型實用性的關鍵基準。它能揭示模型在處理復雜代碼庫和上下文時的表現,對工業應用(如自動化編程)意義重大。

▍7、LiveCodeBench:編碼能力

-含義:LiveCodeBench 是一個動態更新的編碼基準,從 LeetCode、AtCoder 和 Codeforces 收集新問題(截至 2024 年 8 月超過 600 個),測試代碼生成、自修復、執行和測試預測等能力。

-測試內容:全面評估模型在編碼任務中的多樣化能力,強調無污染評估。

-重要性非常高。其動態性和多任務設計避免了數據污染,同時覆蓋編碼的多個方面(如調試和優化)。它能區分模型在不同編碼場景中的相對優勢(如 Claude-3-Opus 在測試預測上超過 GPT-4),對開發全面的代碼助手至關重要。

▍8、LiveBench:模型綜合能力

-含義:LiveBench 是一個多領域基準,包含數學、編碼、推理、語言理解、指令遵循和數據分析 6 大類 18 個任務,使用近期數據(如過去 12 個月的數學競賽題目)確保無污染。

-測試內容:測試模型在多樣化任務中的綜合能力,強調客觀評分和實時更新。

-重要性。LiveBench 的多樣性和更新頻率使其成為評估模型全面性和適應性的強大工具。當前模型最高準確率僅 65%,顯示其挑戰性。對開發多功能 LLM(如聊天機器人或智能代理)有重要參考價值。

▍9、IFEval:模型指令遵循能力

-含義:IFEval(Instruction Following Evaluation)包含 500 個提示,每個提示附帶可驗證的指令(如“用 400-450 字回答”或“提及某關鍵詞 3 次”),測試模型遵循指令的能力。

-測試內容評估模型在理解和執行具體指令時的精確性。

-重要性中等。指令遵循是 LLM 在實際應用(如寫作助手)中的核心能力,IFEval 提供了一種客觀的量化方法。但其任務較為單一,重要性不及多領域或高難度基準。

▍10、BFCL:外部交互能力

-含義:BFCL(Berkeley Function-Calling Leaderboard)是一個評估模型調用外部函數和 API 能力的基準,包含 2000 個多語言(Python、Java 等)問答對,涉及多函數調用和相關性檢測。

-測試內容:測試模型與外部工具交互的能力,模擬真實應用場景。

-重要性。隨著 LLM 被集成到工具鏈(如自動化工作流),函數調用能力日益重要。BFCL 的多樣性和實用性使其成為評估模型生態適應性的關鍵指標。

▍綜合重要性排序與分析

基于當前 LLM 發展趨勢(截至 2025年3月7日),以下是重要性排序(從高到低)及理由:

1.GPQA Diamond:挑戰模型極限,測試專業推理,AGI 研究核心。

2.LiveCodeBench:動態、無污染、多任務編碼評估,實用性強。

3.SWE-Bench Verified:真實軟件工程任務,工業應用關鍵。

4.Codeforces:動態編程挑戰,算法能力標桿。

5.MATH-500:高難度數學推理,邏輯能力試金石。

6.LiveBench:多領域綜合評估,適應性測試。

7.BFCL:工具調用能力,生態集成趨勢。

8.MMLU:廣博知識基準,基礎評估工具。

9.AIME2024:數學推理中等挑戰,泛化能力參考。

10.IFEval:指令遵循專項,應用場景有限。

▍重要性背后的邏輯

-挑戰性與區分度:GPQA Diamond、MATH-500 等高難度基準能區分頂級模型(如 o1 的 78% vs. Claude 3.5 的 59.4%),對技術進步更有指導意義。

-實用性:LiveCodeBench、SWE-Bench Verified、BFCL 直接關聯實際應用(如編碼、軟件開發、工具集成)。

-動態性與無污染:LiveCodeBench、LiveBench、Codeforces 的實時更新避免數據泄露,確保公平性。

- 全面性:MMLU 和 LiveBench 覆蓋多領域,但可能因廣度犧牲深度。

▍Qwen-QwQ-32B 真的全面超越了 DeepSeek R1 嗎?

根據所列指標重要度排行,我們在來看阿里公布的這張圖:


我們發現,TOP 5 的指標里面阿里只公布了一個,而 DeepSeek 幾乎全公布了。對于最重要的一個參數GPQA Diamond阿里的報告里面沒有,吳恩達的公司Artificial Analysis連夜做了測試:


測試結果:59.5%,顯著低于 DeepSeek R1 的 71% 成績,略低于 Gemini 2.0 Flash 的 62% 成績

AIME 2024 測試:78%,與阿里巴巴官方宣稱一致,此成績超過了 DeepSeek R1,并且在測試的所有模型中僅次于 o3-mini-high。


其他相關背景信息:

? QwQ-32B 的參數量比 DeepSeek R1 的 671B 總參數量少約 20 倍,甚至少于 DeepSeek R1 的 37B 活躍參數量;

? 值得注意的是,QwQ-32B 采用 BF16 格式訓練和發布,而 DeepSeek R1 則采用 FP8 格式原生訓練和發布;

? 這意味著 QwQ-32B 和 DeepSeek R1 的原生版本分別占用 65GB 和 671GB 的存儲空間—但在支持原生 FP8 的硬件上 (如 NVIDIA H100),DeepSeek R1 在每次前向傳遞中可能實際使用更少的有效計算資源。

看到這里,我想你大概明白了是怎么回事。至于阿里的 Qwen-QwQ-32B 是否真的能以小博大,超越比自己大 20 倍參數的 DeepSeek R1。很明顯不可能,充其量只是在某些指標上超越。但完整的結論只有等到雙方的對比指標都一致才能進行判斷,吳恩達的公司Artificial Analysis正在進行測試,相信謎底很快就能揭曉了。

? AI范兒

要進“交流群”,請關注公眾號獲取進群方式

投稿、需求合作或報道請添加公眾號獲取聯系方式

阿里開源32B推理模型,性能媲美DeepSeek R1滿血版!

低調的"東方神秘力量":一個用4%的價格挑戰OpenAI的中國AI黑馬

點這里關注我,記得標星哦~

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
一博主爆料直播收到28000元的禮物,實際到手37.5%,僅10500元

一博主爆料直播收到28000元的禮物,實際到手37.5%,僅10500元

火山詩話
2025-05-16 13:53:38
上海已大量出現,千萬別誤食!寄生蟲多達6000條

上海已大量出現,千萬別誤食!寄生蟲多達6000條

看看新聞Knews
2025-05-16 20:15:47
真正的黑社會是什么樣的?網友:八零九零后應該聽說過不少這種事

真正的黑社會是什么樣的?網友:八零九零后應該聽說過不少這種事

解讀熱點事件
2025-05-16 00:10:03
盧克文:傷感,很多溫州人把子女送到國外,他們已經不會說中文了

盧克文:傷感,很多溫州人把子女送到國外,他們已經不會說中文了

振華觀史
2025-05-15 22:28:12
西安下周熱到44℃?市氣象局:19-21日迎40℃以上高溫,具體數值會有差異

西安下周熱到44℃?市氣象局:19-21日迎40℃以上高溫,具體數值會有差異

紅星新聞
2025-05-16 15:02:11
中國還是得防著巴基斯坦,它跟越南不同,內部高層全部親美

中國還是得防著巴基斯坦,它跟越南不同,內部高層全部親美

慢看世界
2025-05-16 10:07:27
成都枇杷價格“腰斬”!業內人士:已大量上市,價格將呈“U”形波動

成都枇杷價格“腰斬”!業內人士:已大量上市,價格將呈“U”形波動

紅星新聞
2025-05-16 19:17:56
感謝印度神助攻,中國3天打了美國一個2:0,美國霸權或將徹底終結

感謝印度神助攻,中國3天打了美國一個2:0,美國霸權或將徹底終結

文史道
2025-05-16 12:38:30
法系“重炮”來了,這才是全球頂級設計!

法系“重炮”來了,這才是全球頂級設計!

米粒說車唯一呀
2025-05-16 12:33:45
深圳一女子網上應聘文員被回復“太丑了”,涉事公司回應

深圳一女子網上應聘文員被回復“太丑了”,涉事公司回應

上游新聞
2025-05-16 19:21:21
母女就餐1小時未動筷老板報警?網友:原來有“詐”丨有話聊

母女就餐1小時未動筷老板報警?網友:原來有“詐”丨有話聊

封面新聞
2025-05-16 12:34:38
好安達,曼聯國米,夏季醞釀9000萬歐互換交易,德荷2大國腳在列

好安達,曼聯國米,夏季醞釀9000萬歐互換交易,德荷2大國腳在列

體育全天候
2025-05-16 18:30:11
王喜還原遭男友人迷奸細節:兩次被下藥迷暈,醒來后下半身已失禁

王喜還原遭男友人迷奸細節:兩次被下藥迷暈,醒來后下半身已失禁

素素娛樂
2025-05-15 08:35:59
夏天這么穿會顯瘦,超贊!

夏天這么穿會顯瘦,超贊!

Yuki女人故事
2025-05-15 23:10:30
從彩排到確診僅24小時。陳奕迅感染軌跡曝光。密接形成引全網自查

從彩排到確診僅24小時。陳奕迅感染軌跡曝光。密接形成引全網自查

春序娛樂
2025-05-15 22:28:49
驚!湖北大學外教搖身一變成英國情報局局長!董明珠“海龜有間諜”言論再引深思

驚!湖北大學外教搖身一變成英國情報局局長!董明珠“海龜有間諜”言論再引深思

大白聊IT
2025-05-15 10:33:44
俄羅斯,秋后算賬開始了!

俄羅斯,秋后算賬開始了!

大嘴說天下
2025-05-15 22:44:28
獨家觀察:阻兩岸交流融合, “臺獨”打手幫兇必遭嚴懲

獨家觀察:阻兩岸交流融合, “臺獨”打手幫兇必遭嚴懲

海峽導報社
2025-05-15 23:26:19
張巍任河南省委副書記

張巍任河南省委副書記

新京報政事兒
2025-05-16 19:20:55
呼吸醫學專家杜曉華博士逝世,終年50歲

呼吸醫學專家杜曉華博士逝世,終年50歲

澎湃新聞
2025-05-14 21:48:27
2025-05-17 00:40:49
AI范兒 incentive-icons
AI范兒
AI范兒是一個專注于人工智能領域的資訊和學習平臺,提供最新的人工智能資訊
496文章數 128關注度
往期回顧 全部

科技要聞

雷軍:一場事故讓我們受到狂風暴雨般的質疑

頭條要聞

特朗普稱有意在本周末同中國領導人通電話 中方回應

頭條要聞

特朗普稱有意在本周末同中國領導人通電話 中方回應

體育要聞

退役8個月后喜提3冠,人生的轉折如此突然

娛樂要聞

嘉行回應黃楊鈿甜風波翻車,引發眾怒

財經要聞

一船難求,又要開始了?

汽車要聞

吉利發布最強一季報后,繼續整合、補短板是關鍵

態度原創

藝術
親子
健康
教育
軍事航空

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

親子要聞

專家:應打破觀念壁壘,提升男性在生育健康中的參與意識

唇皰疹和口腔潰瘍是"同伙"嗎?

教育要聞

你沒想到吧,解這道題,我們要先求出他的倒數

軍事要聞

沒等到普京 澤連斯基走了

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 大洼县| 新邵县| 洪雅县| 和顺县| 仙游县| 南郑县| 西青区| 宁武县| 苏尼特右旗| 康定县| 德江县| 独山县| 斗六市| 桦南县| 朝阳市| 佛教| 平罗县| 高雄市| 金秀| 宕昌县| 紫阳县| 凤冈县| 邵阳市| 利辛县| 阿巴嘎旗| 南丰县| 沂南县| 绍兴县| 右玉县| 岐山县| 新田县| 桦甸市| 区。| 连江县| 边坝县| 雷州市| 东宁县| 浦县| 杨浦区| 南木林县| 洪湖市|