網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

AI“壓力面”，DeepSeek性能暴跌近30% | 清華&上海AI Lab

2025-07-19 19:19:16　來源: 量子位

北京舉報

分享至

REST 團隊投稿
量子位 | 公眾號 QbitAI

給AI一場壓力測試，結果性能暴跌近30%。

來自上海人工智能實驗室、清華大學和中國人民大學的研究團隊設計了一個全新的“壓力測試”框架——REST (Reasoning Evaluation through Simultaneous Testing)。

該框架在一個prompt里同時拋給模型多個問題，模擬真實世界中復雜的、多任務并行的推理場景。

結果發(fā)現(xiàn)，即便是像DeepSeek-R1這樣的頂級模型，在“高壓”之下的表現(xiàn)也大幅縮水，例如，在AIME24測試集上的準確率驟降29.1%。

給大模型來一場“壓力測試”

如今的大模型在各種推理能力測試中動輒拿下接近滿分的成績。

如果讓模型一次做好幾道題，它還會那么“神”嗎？

團隊認為，當前大模型的評測模式普遍存在三大痛點：

區(qū)分度低：在許多基準測試中，頂尖模型的得分已趨于飽和，難以分出高下。例如，7B參數(shù)的DeepSeek-R1-Distill-Qwen-7B和671B參數(shù)的DeepSeek-R1在MATH500上的準確率分別為93.0%和97.0%，看似相差不大，但推理能力仍有顯著區(qū)別。

成本高昂：由于現(xiàn)有的數(shù)學題幾乎已經(jīng)被納入了大模型的訓練數(shù)據(jù)。為了有效評估，社區(qū)不得不持續(xù)投入大量人力物力去開發(fā)更新、更難的測試題。但設計這樣的測試題需要極高水平的人類專家，一年也出不了幾個題。例如，AIME24和AIME25都只有30道題。

脫離現(xiàn)實：一次只答一道題的模式，無法考察模型在真實世界中處理交叉信息，完成多重任務的綜合能力。

為了解決這些問題，團隊設計REST框架——改造現(xiàn)有基準，如GSM8K、MATH500、AIME24等7個代表性推理任務，不再逐題測試，而是把多個問題拼接成一個長prompt，一次性讓模型在一次輸出中逐一回答。

研究團隊基于GSM8K、MATH500、AIME24等7個主流推理基準，構建了REST評測集，并對超過30個參數(shù)從1.5B到671B的主流推理模型進行了全面測試。

這種“壓力測試”不僅考察模型基礎的推理能力，更深入評估了以往被忽視的幾項關鍵能力

上下文預算分配：模型得聰明地決定怎么在多個題目中分配思考Token。

跨問題干擾抵抗：避免一道題的錯誤“傳染”到其他題。

動態(tài)認知負載管理：在高壓下保持高效推理，別在一道題上陷入“過度思考”的陷阱。

SOTA模型也“扛不住”，REST拉開差距

最強模型，在多題高壓下也頂不住

LRMs可以在單個推理過程中處理多個相對簡單的問題，但在REST下，性能皆下降。

如下圖所示，DeepSeek-R1，在AIME24基準上，單題模式下效果拔群，但“壓力測試”下準確率直降29.1%。其他模型也類似，整體性能大打折扣。

不同參數(shù)模型性能差距明顯

傳統(tǒng)單題測試中，不同大小模型得分都接近天花板。而REST揭示了不同尺寸模型之間存在顯著的性能差異。如下圖所示，7B參數(shù)的小模型在高壓下崩得更快，而更大的32B參數(shù)的模型性能雖有下降但仍保持優(yōu)勢。如下圖所示，不同壓力水平下，模型性能拉開明顯梯度——這讓REST成為更強的“分辨器”，幫我們精準比較模型。

“過度思考”成大坑，long2short技術救場

為什么模型在REST下變差？分析顯示，關鍵是陷入了過度思考的陷阱。就像學生考試，在一道難題上思考太久，沒時間做后面的題目了。

但用long2short技術（鼓勵模型縮短推理過程）訓練的模型，就能更好地保留單題性能，在REST下領先。如L1Qwen-1.5B-Exact和L1-Qwen-1.5B-Max，在高壓力水平下表現(xiàn)出顯著的性能優(yōu)勢。如表6所示，L1-Qwen-1.5B-Max在MATH500上壓力水平s=9時，準確率比R1-1.5B高出44.71%的顯著差距。7B模型中也觀察到類似的趨勢。

動態(tài)分配token，有的模型更“聰明”

REST下，一些“聰明”的模型（如Nemotron-nano-7B和DeepSeek-R1）會動態(tài)調整推理預算：當壓力增大時，它們?yōu)榈谝坏李}分配更少的推理token，留力后續(xù)。但低性能模型（如DeepSeek-R1-Distill-Qwen-7B）往往在前面的題上用掉太多token，留給后續(xù)問題的空間不足，導致整體崩盤。

這一觀察表明，在REST中表現(xiàn)優(yōu)異的LRM模型在壓力下傾向于對早期問題進行更簡潔的推理，從而為后續(xù)問題留出足夠的空間。

團隊將這種能力稱為“自適應推理努力分配”，認為這是在REST下實現(xiàn)穩(wěn)健性能的關鍵因素。

此外，REST還揭示了一些推理不良行為，如問題遺漏和對推理過程總結錯誤，這些問題在單問題評估中未被發(fā)現(xiàn)。

總而言之，REST不是簡單加題，而是給大模型來場“壓力測試”，挑戰(zhàn)了“LLMs是多問題解決者”的普遍假設，揭示了當前評測方法的局限性，提供了一種更低成本、更貼近真實的評測數(shù)據(jù)構建新范式，為未來開發(fā)更健壯和強大的LRMs提供了更加深刻的見解。

論文地址：
https://arxiv.org/abs/2507.10541
項目地址：
https://opendatalab.github.io/REST
代碼倉庫：
https://github.com/opendatalab/REST

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.