99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI“壓力面”,DeepSeek性能暴跌近30% | 清華&上海AI Lab

0
分享至

REST 團隊 投稿
量子位 | 公眾號 QbitAI

給AI一場壓力測試,結果性能暴跌近30%。

來自上海人工智能實驗室、清華大學和中國人民大學的研究團隊設計了一個全新的“壓力測試”框架——REST (Reasoning Evaluation through Simultaneous Testing)

該框架在一個prompt里同時拋給模型多個問題,模擬真實世界中復雜的、多任務并行的推理場景。

結果發(fā)現(xiàn),即便是像DeepSeek-R1這樣的頂級模型,在“高壓”之下的表現(xiàn)也大幅縮水,例如,在AIME24測試集上的準確率驟降29.1%



給大模型來一場“壓力測試”

如今的大模型在各種推理能力測試中動輒拿下接近滿分的成績。

如果讓模型一次做好幾道題,它還會那么“神”嗎?

團隊認為,當前大模型的評測模式普遍存在三大痛點:

區(qū)分度低:在許多基準測試中,頂尖模型的得分已趨于飽和,難以分出高下。例如,7B參數(shù)的DeepSeek-R1-Distill-Qwen-7B和671B參數(shù)的DeepSeek-R1在MATH500上的準確率分別為93.0%和97.0%,看似相差不大,但推理能力仍有顯著區(qū)別。

成本高昂:由于現(xiàn)有的數(shù)學題幾乎已經(jīng)被納入了大模型的訓練數(shù)據(jù)。為了有效評估,社區(qū)不得不持續(xù)投入大量人力物力去開發(fā)更新、更難的測試題。但設計這樣的測試題需要極高水平的人類專家,一年也出不了幾個題。例如,AIME24和AIME25都只有30道題。

脫離現(xiàn)實:一次只答一道題的模式,無法考察模型在真實世界中處理交叉信息,完成多重任務的綜合能力。

為了解決這些問題,團隊設計REST框架——改造現(xiàn)有基準,如GSM8K、MATH500、AIME24等7個代表性推理任務,不再逐題測試,而是把多個問題拼接成一個長prompt,一次性讓模型在一次輸出中逐一回答

研究團隊基于GSM8K、MATH500、AIME24等7個主流推理基準,構建了REST評測集,并對超過30個參數(shù)從1.5B到671B的主流推理模型進行了全面測試。

這種“壓力測試”不僅考察模型基礎的推理能力,更深入評估了以往被忽視的幾項關鍵能力

上下文預算分配:模型得聰明地決定怎么在多個題目中分配思考Token。

跨問題干擾抵抗:避免一道題的錯誤“傳染”到其他題。

動態(tài)認知負載管理:在高壓下保持高效推理,別在一道題上陷入“過度思考”的陷阱。



SOTA模型也“扛不住”,REST拉開差距

最強模型,在多題高壓下也頂不住

LRMs可以在單個推理過程中處理多個相對簡單的問題,但在REST下,性能皆下降。

如下圖所示,DeepSeek-R1,在AIME24基準上,單題模式下效果拔群,但“壓力測試”下準確率直降29.1%。其他模型也類似,整體性能大打折扣。



不同參數(shù)模型性能差距明顯

傳統(tǒng)單題測試中,不同大小模型得分都接近天花板。而REST揭示了不同尺寸模型之間存在顯著的性能差異。如下圖所示,7B參數(shù)的小模型在高壓下崩得更快,而更大的32B參數(shù)的模型性能雖有下降但仍保持優(yōu)勢。如下圖所示,不同壓力水平下,模型性能拉開明顯梯度——這讓REST成為更強的“分辨器”,幫我們精準比較模型。



“過度思考”成大坑,long2short技術救場

為什么模型在REST下變差?分析顯示,關鍵是陷入了過度思考的陷阱。就像學生考試,在一道難題上思考太久,沒時間做后面的題目了。

但用long2short技術(鼓勵模型縮短推理過程)訓練的模型,就能更好地保留單題性能,在REST下領先。如L1Qwen-1.5B-Exact和L1-Qwen-1.5B-Max,在高壓力水平下表現(xiàn)出顯著的性能優(yōu)勢。如表6所示,L1-Qwen-1.5B-Max在MATH500上壓力水平s=9時,準確率比R1-1.5B高出44.71%的顯著差距。7B模型中也觀察到類似的趨勢。





動態(tài)分配token,有的模型更“聰明”

REST下,一些“聰明”的模型(如Nemotron-nano-7B和DeepSeek-R1)會動態(tài)調整推理預算:當壓力增大時,它們?yōu)榈谝坏李}分配更少的推理token,留力后續(xù)。但低性能模型(如DeepSeek-R1-Distill-Qwen-7B)往往在前面的題上用掉太多token,留給后續(xù)問題的空間不足,導致整體崩盤。

這一觀察表明,在REST中表現(xiàn)優(yōu)異的LRM模型在壓力下傾向于對早期問題進行更簡潔的推理,從而為后續(xù)問題留出足夠的空間。

團隊將這種能力稱為“自適應推理努力分配”,認為這是在REST下實現(xiàn)穩(wěn)健性能的關鍵因素。



此外,REST還揭示了一些推理不良行為,如問題遺漏和對推理過程總結錯誤,這些問題在單問題評估中未被發(fā)現(xiàn)。

總而言之,REST不是簡單加題,而是給大模型來場“壓力測試”,挑戰(zhàn)了“LLMs是多問題解決者”的普遍假設,揭示了當前評測方法的局限性,提供了一種更低成本、更貼近真實的評測數(shù)據(jù)構建新范式,為未來開發(fā)更健壯和強大的LRMs提供了更加深刻的見解。

論文地址:
https://arxiv.org/abs/2507.10541
項目地址:
https://opendatalab.github.io/REST
代碼倉庫:
https://github.com/opendatalab/REST

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
秋后算賬?所有豪門非婚生子女,這下都睡不著了,宗馥莉手段驚人

秋后算賬?所有豪門非婚生子女,這下都睡不著了,宗馥莉手段驚人

寒士之言本尊
2025-07-15 19:10:18
廣東珠海發(fā)布防臺風緊急動員令 港珠澳大橋臨時封閉

廣東珠海發(fā)布防臺風緊急動員令 港珠澳大橋臨時封閉

環(huán)球網(wǎng)資訊
2025-07-20 15:17:06
《南京照相館》未成年不宜,硬要看,要做好性教育和暴力教育鋪墊

《南京照相館》未成年不宜,硬要看,要做好性教育和暴力教育鋪墊

馬慶云的影音娛
2025-07-20 11:29:51
張元英十四歲的素顏 獨一份的青澀俊美

張元英十四歲的素顏 獨一份的青澀俊美

草莓解說體育
2025-07-20 15:30:12
線下斷貨!馬云西湖夜騎帶火同款,旗艦店每人限購2輛

線下斷貨!馬云西湖夜騎帶火同款,旗艦店每人限購2輛

第一財經(jīng)資訊
2025-07-20 13:20:26
阻礙救護車后續(xù)!暴走團大媽發(fā)聲:你靠邊停停吧,我們一百多人呢

阻礙救護車后續(xù)!暴走團大媽發(fā)聲:你靠邊停停吧,我們一百多人呢

說說史事
2025-07-19 12:06:22
俄議員:俄有權從中國“收回”遼寧艦,中方務必拆掉武器停止軍用

俄議員:俄有權從中國“收回”遼寧艦,中方務必拆掉武器停止軍用

通文知史
2025-05-01 20:00:06
這一次,被傳欠債百萬,被何超瓊起訴的向佐,徹底撕碎向家遮羞布

這一次,被傳欠債百萬,被何超瓊起訴的向佐,徹底撕碎向家遮羞布

墨印齋
2025-07-16 13:34:24
Manus跑路、DeepSeek爽約,國產(chǎn)AI泡沫要破?

Manus跑路、DeepSeek爽約,國產(chǎn)AI泡沫要破?

深水研究
2025-07-18 18:04:21
美記:下賽季湖&船&勇&狼會有2支因傷病進附加賽區(qū) 馬刺可能拿前6

美記:下賽季湖&船&勇&狼會有2支因傷病進附加賽區(qū) 馬刺可能拿前6

直播吧
2025-07-20 20:11:06
從央視主持人到芳心縱火犯,藏13年的撒貝寧,終于露出真面目

從央視主持人到芳心縱火犯,藏13年的撒貝寧,終于露出真面目

七公子娛樂
2025-05-27 23:02:37
入伏后,“打死”都不要買的6種果蔬,商販自己都不吃,建議了解

入伏后,“打死”都不要買的6種果蔬,商販自己都不吃,建議了解

神牛
2025-07-18 15:36:46
捂臉痛苦傷退!奧斯卡在巴甲比賽爭頂,隨后背部重重著地傷退

捂臉痛苦傷退!奧斯卡在巴甲比賽爭頂,隨后背部重重著地傷退

直播吧
2025-07-20 11:29:22
臺風“韋帕”已登陸!今天給廣東多地帶來強風雨,未來兩天太平、藤縣、梧州仍有強風雨~

臺風“韋帕”已登陸!今天給廣東多地帶來強風雨,未來兩天太平、藤縣、梧州仍有強風雨~

太平微資
2025-07-20 20:47:24
我被撤銷縣委書記職務后,回到老家給父親過生日,全村只來一個人

我被撤銷縣委書記職務后,回到老家給父親過生日,全村只來一個人

喬生桂
2025-07-17 12:14:52
江西一女老板發(fā)現(xiàn)男員工神似亡夫,見到員工父母后她愣了

江西一女老板發(fā)現(xiàn)男員工神似亡夫,見到員工父母后她愣了

蘭姐說故事
2025-05-11 10:00:14
比房價下跌更讓人操心的事情,2025年退休人員,可能要過苦日子了

比房價下跌更讓人操心的事情,2025年退休人員,可能要過苦日子了

小談食刻美食
2025-06-16 16:32:23
韓前總統(tǒng)候選人金文洙宣布競選最大在野黨黨首:“讓韓國更偉大”

韓前總統(tǒng)候選人金文洙宣布競選最大在野黨黨首:“讓韓國更偉大”

環(huán)球網(wǎng)資訊
2025-07-20 19:09:03
罵聲一片!大鵬《長安的荔枝》電影首映翻車,五大槽點網(wǎng)友忍不了

罵聲一片!大鵬《長安的荔枝》電影首映翻車,五大槽點網(wǎng)友忍不了

洲洲影視娛評
2025-07-18 19:30:21
娃哈哈被美國人瓜分?私生子胃口大,國家緊急出手,宗家麻煩大了

娃哈哈被美國人瓜分?私生子胃口大,國家緊急出手,宗家麻煩大了

奉壹數(shù)碼
2025-07-20 19:59:37
2025-07-20 21:36:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
10893文章數(shù) 176192關注度
往期回顧 全部

科技要聞

Manus"跑路新加坡"后,創(chuàng)始人首次復盤

頭條要聞

甘肅再通報"幼兒血鉛異常":天水市委書記、市長被立案

頭條要聞

甘肅再通報"幼兒血鉛異常":天水市委書記、市長被立案

體育要聞

中國女籃輸日本,天賦完敗給努力和戰(zhàn)術

娛樂要聞

肖戰(zhàn)改名官宣!徹底不裝了,要自由

財經(jīng)要聞

夾縫中的芯片之王:黃仁勛能守住4萬億嗎?

汽車要聞

輔助駕駛五維測評 蔚來世界模型:大智小糙

態(tài)度原創(chuàng)

游戲
數(shù)碼
親子
時尚
公開課

LPL第三階段:EDG零封TT,為卡位賽,打下良好基礎

數(shù)碼要聞

計劃有變!Intel新一代Arrow Lake Refresh僅提升頻率:NPU不變

親子要聞

甘肅通報“天水幼兒血鉛異常”:檢測醫(yī)院存在修改檢驗結果情況,此前也曾違規(guī)

夏天穿衣別死氣沉沉!來點彩色、多穿牛仔褲,減齡又不老套

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 铁岭市| 郸城县| 陇川县| 泌阳县| 铁岭市| 濮阳市| 繁峙县| 洛宁县| 奉新县| 阳朔县| 延津县| 桑植县| 黔西| 新巴尔虎右旗| 栾城县| 稷山县| 香港 | 城市| 永泰县| 南乐县| 临高县| 诸城市| 建瓯市| 锡林郭勒盟| 饶河县| 时尚| 梓潼县| 潜江市| 乌兰察布市| 宁晋县| 巫溪县| 莲花县| 平凉市| 中方县| 河西区| 小金县| 辽源市| 金阳县| 和顺县| 桐梓县| 霸州市|