99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

DeepSeek推理最高提速6倍!開源研究加裝思維進度條,計算量減30%

0
分享至

不圓 發自 凹非寺
量子位 | 公眾號 QbitAI

DeepSeek推理要詳細還是要迅速,現在可以自己選了?

來自特拉維夫大學的研究團隊開發出了一種新方法,可以監控和控制LLM中的思考路徑長度

給LLM的推理任務裝上進度條,還能控制推理的深度、調整推理速度。

加速后的模型和原模型相比,使用的token數減少了近6倍,且都得出了正確答案



LLMs在顯示結構化推理時,會隱式跟蹤其在思考階段的相對位置,并通過隱藏狀態編碼這一信息。

而論文提出了一種“思維進度向量”(Thinking Progress Vector,TPV),可用于實時預測模型在推理階段的相對位置,并通過可視化進度條展示模型的推理動態。



通過干預TPV,可以加速或減速模型的推理過程,實現“超頻”(overclocking)和“降頻”(downclocking)。

超頻能夠減少不必要的推理步驟,使模型更快地得出結論,同時避免因過度推理導致的性能下降。



該模型已在gitHub上開源。

方法:實時監控并控制推理深度

在有效推理學習過程中,模型必須隱式地學習跟蹤其思考階段進度,并保持對例如距離最終答案有多近的估計。

由于進度跟蹤依賴于輸入,這類信息不能存儲在模型的靜態權重中,而必須動態編碼在層間傳遞的隱藏表示中。

為此,論文的研究團隊選擇從最終隱藏層提取信息。

研究團隊專注于執行顯式結構化推理的模型,這種模型的特點是具有一個由標記明確界定且連續的推理階段,如DeepSeek-R1。

由此可以通過根據每個標記的相對位置精確地用介于零和一之間的插值值進行標記,來量化模型在推理階段的進展。

形式上,通過以下方式構建數據集:

其中



是第k個思考軌跡中第j個詞的隱藏表示,



是該詞在其思考序列中的相對位置 。K表示采樣軌跡的數量,

中的總樣本數為



在此基礎上優化一個進度提取函數



,將隱藏表示映射為其相對位置,形式為一個回歸任務



使用參數為



的線性回歸器作為函數



來進行擬合進度屬性



,將參數向量稱為“思考進度向量”(TPV)。

為了提高預測效果,利用模型的自回歸特性,并對預測歷史應用指數平滑以減少噪聲。在Math-500測試集中進行TPV預測,結果如下圖所示:



其中圖(a)展示了多個思考軌跡的數據點的匯總視圖,圖 (b, c)則展示了Math-500測試集中單個問題的思考軌跡上的TPV預測和平滑預測。

可以看到,兩種方法都成功預測了相對位置,而后者產生了更精確的結果,可用于創建更清晰、更易于解釋的進度條。

受此啟發,為了更好地利用進度條預測任務的時序結構,使用可訓練的序列模型替換指數平滑,即使用與相同的訓練樣本,只是將相對位置序列作為輸入,而不是進行單步預測:



通過這種方法,就可以實現推理進度的可視化。

一個關鍵問題是,TPVs是否反映了模型用來跟蹤其推理進度的基本機制,或者它們是否僅僅是與進度相關但不起因果作用計算的殘余物?

為解決這一疑惑,對TPY進行干預:通過投影向量的方向將隱藏表示移動量α,即



,修改后的表示具有新的預測值

通過在所有注意力層執行此干預,就可以干預下一個詞的預測,并避免編輯在連續解碼步驟中緩存和使用的表示值。

在實驗中,將α視為決定干預強度的超參數。設置α=0會導致沒有干預,保留原始計算。 α的正值會導致超頻。

實驗證明,超頻將加速模型的推理階段,使其更短、更果斷:



上圖比較了DeepSeek-R1-Distill-Qwen-32B模型生成的兩種思考序列——干預前和干預后。

原始序列表現出猶豫和冗長,而TPV加速版本則顯著更簡潔,使用的token數量減少了近6倍

并且,兩條軌跡最終都得到了正確的答案。

效果:最高提速近6倍,準確率不降反升

在DeepSeek-R1-Qwen-32B和DeepSeek-R1-LLaMA-8B上測量TPV的有效性,結果如下所示:



實驗結果揭示了四個顯著趨勢:

1、α 的影響:增加α從5到100,無論是否使用基于指令的加速,都會增加模型生成的完成、結束和正確答案的數量,證明TPV的干預方法影響了思考長度。

2、將加速基線與基礎模型進行比較:基線(ii)和(iii)通過提示響應和基于溫度的集成來加速基礎模型。在大多數情況下,這兩種方法都提高了所有三個指標,證明它們是評估TPV超頻方法的強基線。

3、與基線方法的比較:盡管基線方法表現優異,且基于溫度的基線方法需要大約五倍的計算資源,但TPV的方法通過產生更多正確答案和更明確的響應,在性能上超越了它們。

在計算預算較低(如256或512個token)的情況下,TPV的方法增加了80%的正確答案,并且這些正確答案的增加并未以增加錯誤率為代價,錯誤率保持不變。這表明,TPV方法縮短了推理過程而不增加錯誤,促進了更明確的思考。

對于大于512的計算預算,通常遵循相同趨勢,在大多數情況下正確答案數量有所提升,而錯誤率并未增加。

4、互補性貢獻:盡管實證研究結果證實TPV方法比基線方法更有效,但仍有該方法落后于基于提示的方法(記為“指令”)的情況。一個突出的例子是在 Math 500 上使用 2048個token 預算的機制,其中指令基線正確回答的比例比TPV方法高出10%。

這一觀察引發了這樣的問題:這些改進是正交的還是相互競爭的?

將基于指令的提示技術與TPV的干預方法相結合,并與每種方法單獨進行比較。結果如表中最后兩行所示:這種混合方法在大多數情況下始終表現出最佳性能,平均提高了66% ,最高提高了285% ;相對于基礎模型平均提高了223% ,最高提高了1416% 。

這些發現表明TPV方法與提示策略相輔相成,可以有效地與其他加速技術相結合



對Math-500和GSM8K數據集進行一系列干預實驗,通過改變干預參數α來超頻模型的思考階段。

結果顯示,增加α可以持續縮短思考階段的長度,使推理過程更加高效。

這些發現支持TPV在模型內部計算中充當一種主動控制的信號,而不是被動相關。

當使用提示策略(基線 iii)在GSM8K數據集上對 DeepSeek-R1 LLaMA模型應用TPV方法時,平均 token 數量從大約500減少到不到350,計算量減少了30%

此外,所有α的正值都相對于基線( α=0 )持續加速思考階段,并提高了其有效性。



為進一步評估TPVs在估計模型在其推理過程中位置時的可靠性,研究團隊還在兩種附加條件下測試了它們的性能:

  • (i) 不同的提示策略
  • (ii) 不同的推理序列長度

圖(a-d) 顯示TPVs在各種指令中仍然有效,這與訓練期間使用的原始提示不同。

圖(e) 顯示在不同思考序列長度分箱中測試損失始終較低,表明對推理深度的變化具有魯棒性。

更多內容可見論文詳細。

參考鏈接:https://royeisen.github.io/OverclockingLLMReasoning-paper/

代碼:https://github.com/royeisen/reasoning_loading_bar

論文:https://arxiv.org/abs/2506.07240

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
央視直播美國大滿貫7月9日賽程,孫穎莎對漢娜,王楚欽戰高承睿

央視直播美國大滿貫7月9日賽程,孫穎莎對漢娜,王楚欽戰高承睿

乒乓球球
2025-07-08 20:17:15
與普京通話后,特朗普又改了主意,一場硬仗將打響,俄軍有麻煩了

與普京通話后,特朗普又改了主意,一場硬仗將打響,俄軍有麻煩了

蕭嚉影視解說
2025-07-08 20:36:25
加州州長紐森猛烈抨擊特朗普:你的心 臟了

加州州長紐森猛烈抨擊特朗普:你的心 臟了

看看新聞Knews
2025-07-08 17:02:51
特朗普在社媒發長文抨擊馬斯克成立“美國黨”,馬斯克援引《沙丘》名句回應

特朗普在社媒發長文抨擊馬斯克成立“美國黨”,馬斯克援引《沙丘》名句回應

環球網資訊
2025-07-07 10:00:21
云南一公務員發文引爭議,稱懷孕前期請假兩月工作分給合同工,單位回應:身體原因請假

云南一公務員發文引爭議,稱懷孕前期請假兩月工作分給合同工,單位回應:身體原因請假

瀟湘晨報
2025-07-08 16:48:44
石破茂態度急轉一百八十度,下達防衛死命令,多國緊急啟動應對

石破茂態度急轉一百八十度,下達防衛死命令,多國緊急啟動應對

流年拾光
2025-07-07 22:20:14
翻了天,美航母打頭菲艦墊后,強闖黃巖島,中方直接“上硬菜”

翻了天,美航母打頭菲艦墊后,強闖黃巖島,中方直接“上硬菜”

影史侃談
2025-07-07 08:23:16
上海一老板把離職員工隱私發朋友圈,并回復:你在狗叫什么!二人鬧上法庭!

上海一老板把離職員工隱私發朋友圈,并回復:你在狗叫什么!二人鬧上法庭!

環球網資訊
2025-07-08 18:46:29
臺風要折回廣東!廣州緊急提醒:今天體感將到40℃

臺風要折回廣東!廣州緊急提醒:今天體感將到40℃

南方都市報
2025-07-08 14:07:29
正大集團考察胖東來,于東來親自接見、全程陪同,卻因穿著被吐槽

正大集團考察胖東來,于東來親自接見、全程陪同,卻因穿著被吐槽

削桐作琴
2025-07-07 23:53:16
“七查七看”!湖北省委書記王忠林:要真刀真槍、動真碰硬,堅決把問題改徹底、治到位

“七查七看”!湖北省委書記王忠林:要真刀真槍、動真碰硬,堅決把問題改徹底、治到位

政知新媒體
2025-07-08 17:04:36
突發!特朗普宣布重啟對烏武器供應,普京好日子恐將終結!

突發!特朗普宣布重啟對烏武器供應,普京好日子恐將終結!

國際情爆猿
2025-07-08 09:12:03
暴擊!廣州昔日二手頂流,如今100萬內能拿下!

暴擊!廣州昔日二手頂流,如今100萬內能拿下!

廣州PLUS
2025-07-08 20:59:41
48年濰縣戰役司令指揮16天未果,一位文官在眾人震驚中登上觀察哨

48年濰縣戰役司令指揮16天未果,一位文官在眾人震驚中登上觀察哨

紀實文錄
2025-06-11 17:11:27
安徽省委決定,錢志剛履新

安徽省委決定,錢志剛履新

魯中晨報
2025-07-08 09:52:40
5年最高2.87億美元!魔術與班凱羅頂薪續約 鎖定三大年輕核心陣容

5年最高2.87億美元!魔術與班凱羅頂薪續約 鎖定三大年輕核心陣容

羅說NBA
2025-07-08 06:47:57
我大使出席俄共十九大開幕式,并宣讀中共中央賀信

我大使出席俄共十九大開幕式,并宣讀中共中央賀信

觀察者網
2025-07-08 16:02:04
57歲歌唱家張也:雖然我沒有伴侶沒有孩子,但是我有老年生活搭子

57歲歌唱家張也:雖然我沒有伴侶沒有孩子,但是我有老年生活搭子

南南說娛
2025-07-08 09:59:55
二進宮失敗!老鷹宣布裁掉昨日從火箭交易得到的大衛-羅迪

二進宮失敗!老鷹宣布裁掉昨日從火箭交易得到的大衛-羅迪

直播吧
2025-07-08 14:53:06
國潮難做,李寧開始收割打羽毛球的中產

國潮難做,李寧開始收割打羽毛球的中產

源Sight
2025-07-08 20:22:21
2025-07-08 23:12:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10817文章數 176180關注度
往期回顧 全部

科技要聞

"失去新鮮感",中國車主為何不再追捧特斯拉

頭條要聞

廣汽菲克破產 一句"不是所有吉普都叫Jeep"曾廣為人知

頭條要聞

廣汽菲克破產 一句"不是所有吉普都叫Jeep"曾廣為人知

體育要聞

17歲的朱正很好,但他救不了中國男籃

娛樂要聞

麻煩大了,鳳凰傳奇再次遭受“重創”

財經要聞

新消費浪潮下的資本敘事能持續嗎?

汽車要聞

遵循“極簡主義” 北京現代ELEXIO發布內飾官圖

態度原創

數碼
家居
親子
游戲
軍事航空

數碼要聞

領先同行一個時代!海信RGB-Mini LED電視UX評測:光色同控引發畫質革命

家居要聞

簡約時尚 返璞歸真之境

親子要聞

這句鳳凰真的絕

騰訊野心之作為何5年涼透?上線即巔峰,毀于匹配拉胯與外掛泛濫

軍事要聞

特朗普:美國將對烏克蘭輸送更多武器

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 出国| 稻城县| 祁门县| 阿瓦提县| 准格尔旗| 松滋市| 汶川县| 铁力市| 登封市| 保靖县| 镇雄县| 黑山县| 富裕县| 静安区| 政和县| 思南县| 句容市| 法库县| 福贡县| 德令哈市| 漠河县| 乌鲁木齐市| 汤阴县| 左权县| 梨树县| 大城县| 萨嘎县| 峨眉山市| 高台县| 临泽县| 钟祥市| 灌南县| 永和县| 桂阳县| 桂东县| 郁南县| 龙游县| 墨江| 曲松县| 嘉定区| 湟源县|