99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

科學家提出動力學擴展定律,支持更長的文本生成

0
分享至

近日,美國卡內基梅隆大學助理教授陳貝迪和團隊提出了“動力學擴展定律”(Kinetics Scaling Law)。在該定律的指導之下,當在英偉達 B200 上實現相同精度時,資源需求最高可降低至原來的三分之一。


(來源:http://publish.illinois.edu/rising-stars/beidi-chen)

同樣是在該定律的指導之下,在 AIME 和 LiveCodeBench 上,稀疏注意力在低成本模式下將問題解決率提高了 60%,在高成本模式下提高了 5% 以上。


(來源:arXiv)

動力學擴展定律的核心觀點是:在測試時擴展(TTS,Test-time scaling)任務中,影響性能的主要因素不是參數數量,而是注意力機制的計算成本。

本次研究團隊證明,稀疏注意力從根本上重塑了擴展格局,使得生成內容的長度更長、精度更高。其在論文中表示,稀疏動力學可能預示著一種新范式,這種新范式使得即便在預訓練進入平臺期后仍能推動持續進步。

研究中,他們還強調了將模型架構、測試時推理技術與硬件基礎設施進行協同設計的必要性,并認為這是推動下一波可擴展大模型部署的關鍵步驟。雖然本次分析主要集中在英偉達 GPU 上,但“擴展內存帶寬比擴展浮點運算(FLOP,floating-point operation)能力更具挑戰性且成本更高”這一基本原理廣泛適用于各類硬件平臺,因此本次成果具有一定的普適性。



降低每個 token 的計算成本,支持更長的文本生成和更多的并行樣本處理

研究團隊表示,他們從實際效率的角度重新思考了測試時擴展定律,發現較小模型的有效性實際上被嚴重高估了。具體來說,此前人們基于計算最優性的研究工作,其實忽略了推理時策略所引入的關鍵內存訪問瓶頸問題。

而在本次研究之中,他們全面分析涵蓋了從 0.6B 到 32B 參數的模型,借此揭示了動力學擴展定律,該定律通過同時納入計算成本和內存訪問成本,能夠更好地指導資源分配。

動力學擴展定律表明,在參數超過某個閾值的模型上使用測試時計算,比在較小模型上使用更為有效。一個關鍵原因是在測試時擴展中,注意力才是主要的成本因素(而非參數數量)。

受此啟發,研究團隊提出了以稀疏注意力為中心的新擴展范式,該范式可以降低每個 token 的計算成本,從而能在相同的資源預算下,支持更長的文本生成和更多的并行樣本處理。

研究團隊發現,稀疏注意力模型始終優于密集注意力模型。這說明隨著計算投入的增加,稀疏注意力是必不可少的,而且會越來越重要,只有這樣才能實現測試時擴展的全部潛力。而與訓練不同的是,準確性并未隨著計算的增加而飽和,而是會通過增加生成量不斷得到提高。

那么,研究團隊開展本次課題的原因是什么?這要從測試時擴展(TTS,Test-time scaling)說起。眼下,測試時擴展策略已經成為增強大模型推理能力的一種重要手段,特別是在智能體與復雜環境交互的場景中,例如編寫代碼、瀏覽網頁等場景中。

然而,這些能力會帶來顯著的推理時成本,因此理解這一新范式下的性能擴展規律至關重要。現有的擴展定律研究主要關注浮點運算(FLOP,floating-point operation),但卻忽略了內存訪問成本。而內存訪問成本往往是決定實際延遲的關鍵因素,因此上述做法可能會導致部署決策不夠優化。


(來源:arXiv)

如前所述,在本次研究之中他們展示了測試時擴展的動力學擴展定律,該定律源自于一個明確納入內存訪問成本的成本模型,它揭示了關于測試時計算資源分配的帕累托最優策略的截然不同的結論。

具體而言,研究團隊發現:首先,先前的標度律始終高估了通過推理時策略增強的小模型的有效性;其次,計算資源最好先用于將模型規模增大到一個關鍵閾值,然后再投入測試時策略。

研究中,他們針對一系列最先進的推理模型所進行的屋頂線分析表明:之所以出現最優測試時計算策略的轉變,是因為測試時策略不成比例地增加了注意力成本,而非增加了參數成本。


(來源:arXiv)

研究團隊的等成本分析表明,注意力機制隨生成長度呈二次方增長的特性,加上鍵值內存相對于模型參數的失衡擴展趨勢,共同使得人們更加傾向于擴大模型規模、而非增加生成長度。這種失衡現象在混合專家架構中被進一步加劇,正因此這種架構雖然能夠降低激活參數量,但卻未能緩解注意力計算的高開銷現狀。

基于上述分析,研究團隊引入了本次新的擴展范式,該范式以稀疏注意力為中心,從根本上重塑了擴展規律,顯著提高了測試時擴展的可擴展性。


(來源:arXiv)

根據研究團隊的稀疏動力學擴展定律,最好將計算資源分配給測試時策略,而非用于降低稀疏性。隨著在測試階段投入更多計算資源,高稀疏性對于充分利用這些策略的優勢變得愈發關鍵。

盡管稀疏性傳統上要么用于小模型的正則化,要么用于在參數過多的網絡中減少計算量,但本次研究引入了一個根本不同的視角——稀疏性能夠成為實現高效可擴展測試時計算的核心使能技術。與此同時,本次研究強調了在建立可擴展性定律的實際認知過程中,必須同時考量硬件因素與模型架構的重要性。



讓 Qwen3-0.6B 模型實現 23.6~33.3 倍的吞吐量增長

在實驗設置和實驗任務上,研究團隊聚焦于以下三個具有一定挑戰性的推理基準:涵蓋代數、組合數學和幾何的 AIME24 和 AIME25,以及包含近期編程競賽中的復雜編程問題的 LiveCodeBench。在模型選擇上,研究團隊評估了 Qwen3 和 DeepSeek-R1-DistilledQwen 系列不同模型的性能。

為了消除測試時策略的具體實現所引入的混雜效應,研究團隊采用了兩種具有代表性但簡單的方法:長 CoT 和 Best-of-N。長 CoT 是一種在先進推理模型中被廣泛使用的方法,Best-of-N 則通過可驗證問題的解決率進行效果評估,并借助測試時間擴展給出理論性能上限。

在硬件上,研究團隊使用了英偉達 B200。實驗中,他們在每個節點 8 個 GPU 上,通過批量大小和上下文長度分別為(4096,16384)和(2048,32768)的設置,展示了塊 top-k 注意力在不同模型規模下的優勢。

同時,他們假設具有相似上下文長度和生成長度的任務的工作負載是統一的。如下圖所示,塊 top-k 注意力能夠大大提高推理吞吐量,特別是對于較小的模型來說。例如,Qwen3-0.6B 模型實現了 23.6~33.3 倍的吞吐量增長。


(來源:arXiv)

這一性能提升反映出:隨著上下文長度的增加,稠密注意力機制的效率會逐漸下降,而較小模型受到的影響尤為顯著。吞吐量的顯著提升凸顯了這樣一種潛力:當與推理系統和測試時策略進行適當的協同設計時,任務級吞吐量也能獲得相應的提升。

除了 top-k 注意力機制之外,目前他們僅探討了一種簡單的變體(即塊 top-k 注意力),盡管如此已能展現出強大的可擴展性。眼下,已經存在更先進的稀疏注意力算法,這些算法具備將測試時擴展效率的邊界推向更高水平的潛力。

另一方面,測試時擴展算法旨在自適應地將計算資源分配給任務甚至是分配給 token。將它們擴展到稀疏注意力中的新資源分配問題,對于達到稀疏動力學的極限至關重要。例如,由于生成長度與稀疏注意力下的最佳試驗次數密切相關,因此可以將其用作調整試驗次數和鍵值預算的動態信號。


(來源:arXiv)

此外,稀疏的注意力大大降低了推理成本,使得更多的推理試驗和更長的生成成為可能,這為在固定資源預算內配置測試時擴展策略提供了更大的靈活性。

同時,通過將關注點從 token 級指標轉向任務級吞吐量,研究團隊認為本次成果能為算法與系統的協同設計開辟更廣闊的空間。需要說明的是,本次研究本質上屬于算法層面的成果,并不針對特定應用。盡管大模型可能被惡意濫用,但本研究并未引入現有系統之外的新能力或風險。

研究團隊表示,測試時擴展可能會消耗大量能源,引發人們對廣泛部署的環境可持續性的擔憂。而通過推廣稀疏注意力,他們希望幫助減少推理系統的碳足跡和能耗,并助力實現更廣泛的可持續人工智能目標。

未來,他們希望這項研究能夠指導在模型架構、測試時策略和硬件系統方面的協同設計,以便更好地解鎖下一波大模型擴展的潛力。

參考資料:

https://arxiv.org/pdf/2506.05333

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
安泰科技:公司難熔合金、稀土永磁等多項產品應用于航空航天等相關產業

安泰科技:公司難熔合金、稀土永磁等多項產品應用于航空航天等相關產業

每日經濟新聞
2025-06-15 21:00:45
95年我在路上撿個女乞丐結成夫妻,洞房夜我才知道,她的真實身份

95年我在路上撿個女乞丐結成夫妻,洞房夜我才知道,她的真實身份

球場的看客
2025-06-05 19:52:12
東北大妞為丹麥男友生遺腹子,回國給媽買125萬房,被母親擺一道

東北大妞為丹麥男友生遺腹子,回國給媽買125萬房,被母親擺一道

面包夾知識
2025-06-15 12:55:51
搞不好成為第二個烏克蘭?美國防長放話:中國敢動手,美國就下場

搞不好成為第二個烏克蘭?美國防長放話:中國敢動手,美國就下場

林子說事
2025-06-14 16:22:58
中俄東北虎數量差距斷崖:俄羅斯700只,中國的數量令人意外!

中俄東北虎數量差距斷崖:俄羅斯700只,中國的數量令人意外!

阿紿聊社會
2025-02-26 15:08:35
是什么把老百姓辛苦幾十年積攢的資產吞噬殆盡?

是什么把老百姓辛苦幾十年積攢的資產吞噬殆盡?

慢看世界
2025-06-07 16:16:30
印度放話想要退出金磚組織,拉夫羅夫作出最新表態

印度放話想要退出金磚組織,拉夫羅夫作出最新表態

行走的知識庫
2025-06-15 16:37:52
隨著無錫2-0常州,徐州1-0絕殺&蘇州1-1,江蘇城市足球聯賽積出爐

隨著無錫2-0常州,徐州1-0絕殺&蘇州1-1,江蘇城市足球聯賽積出爐

阿覽
2025-06-16 00:05:54
養老院也開始退場了,到2025年后,將迎來很多養老院的“閉院潮”

養老院也開始退場了,到2025年后,將迎來很多養老院的“閉院潮”

天氣觀察站
2025-06-10 14:33:49
大量自燃事故后,某車企終于召回!

大量自燃事故后,某車企終于召回!

電動知家
2025-06-14 10:56:51
正大量上市!女子僅吃了兩顆,眼睛差點看不見,有人吃到搶救

正大量上市!女子僅吃了兩顆,眼睛差點看不見,有人吃到搶救

春序娛樂
2025-06-14 15:51:09
被蚊子叮得越多越狠,說明身體越健康?這是啥道理?醫生告訴你

被蚊子叮得越多越狠,說明身體越健康?這是啥道理?醫生告訴你

明月聊史
2025-06-14 17:32:10
伊朗一句話,直接判了以色列“死刑”,中國勸、普京哄,都白搭了

伊朗一句話,直接判了以色列“死刑”,中國勸、普京哄,都白搭了

奉壹數碼
2025-06-15 22:55:46
半場-巴黎2-0馬競 法比安、維蒂尼亞破門克瓦拉茨赫利亞兩助攻

半場-巴黎2-0馬競 法比安、維蒂尼亞破門克瓦拉茨赫利亞兩助攻

直播吧
2025-06-16 03:55:23
女籃觀察|李夢無緣亞洲杯陣容 宮魯鳴釋放了什么信號?

女籃觀察|李夢無緣亞洲杯陣容 宮魯鳴釋放了什么信號?

狼叔評論
2025-06-16 01:53:10
最新曝光!沈陽這2個單位被臨時查封!

最新曝光!沈陽這2個單位被臨時查封!

沈陽生活圈i
2025-06-15 13:11:23
上海小伙連殺6名警察!判死刑前說:你不給我說法,我就給你說法

上海小伙連殺6名警察!判死刑前說:你不給我說法,我就給你說法

談史論天地
2025-06-13 05:10:06
離婚7年,楊冪高調宣布喜訊,劉愷威終為自己的錯誤買了單!

離婚7年,楊冪高調宣布喜訊,劉愷威終為自己的錯誤買了單!

聚合大娛
2025-06-14 17:40:06
重磅!事關2.3億人的大消息來了!

重磅!事關2.3億人的大消息來了!

胖兔財經
2025-06-15 20:05:53
勝負已分,特朗普被催交兵權,紐森連下3封戰書,美國新總統要出

勝負已分,特朗普被催交兵權,紐森連下3封戰書,美國新總統要出

娛樂的宅急便
2025-06-14 18:11:58
2025-06-16 05:32:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15297文章數 513784關注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴重缺貨

頭條要聞

以伊導彈互襲三天 位于兩國之間的約旦和伊拉克遭殃

頭條要聞

以伊導彈互襲三天 位于兩國之間的約旦和伊拉克遭殃

體育要聞

裁判可以噴,但也從步行者自身找找問題?

娛樂要聞

朱丹重男輕女惹爭議!讓弟弟吃雞腿惹怒網友

財經要聞

以伊沖突持續升級,對全球市場影響多大

汽車要聞

一汽豐田bZ5:試圖掀桌的“合資新力量”王牌

態度原創

藝術
數碼
旅游
手機
房產

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

數碼要聞

消息稱蘋果 AirPods Pro 3 明年發布

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

手機要聞

羅巍建議榮耀400系列手機用戶不貼鏡頭膜:影響拍照效果,還會導致雜音

房產要聞

又一城購房補貼!買房就發錢,正在海南樓市瘋狂擴散!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 介休市| 木里| 客服| 科尔| 正阳县| 炉霍县| 郧西县| 靖宇县| 永川市| 临沧市| 宜州市| 永善县| 巴里| 北川| 丹凤县| 文化| 峨边| 万山特区| 班玛县| 德阳市| 阜城县| 边坝县| 饶河县| 西青区| 连江县| 辉南县| 资源县| 长沙市| 吉隆县| 东乡县| 泉州市| 澎湖县| 长子县| 福安市| 资中县| 沁源县| 正阳县| 仁布县| 安陆市| 城口县| 兴安盟|