網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

前沿分享丨只用2700萬(wàn)參數(shù)，這個(gè)推理模型超越了DeepSeek和Claude

2025-07-02 20:25:50　來(lái)源: 中國(guó)人工智能學(xué)會(huì)

北京舉報(bào)

分享至

轉(zhuǎn)自機(jī)器之心

像人一樣推理。

大模型的架構(gòu)，到了需要變革的時(shí)候？

在對(duì)復(fù)雜任務(wù)的推理工作上，當(dāng)前的大語(yǔ)言模型（LLM）主要采用思維鏈（CoT）技術(shù)，但這些技術(shù)存在任務(wù)分解復(fù)雜、數(shù)據(jù)需求大以及高延遲等問(wèn)題。

近日，受到人腦分層和多時(shí)間尺度處理機(jī)制啟發(fā)，來(lái)自 Sapient Intelligence 的研究者提出了分層推理模型（HRM），這是一種全新循環(huán)架構(gòu)，能夠在保持訓(xùn)練穩(wěn)定性和效率的同時(shí)，實(shí)現(xiàn)高計(jì)算深度。

具體來(lái)說(shuō)，HRM 通過(guò)兩個(gè)相互依賴的循環(huán)模塊，在單次前向傳遞中執(zhí)行順序推理任務(wù)，而無(wú)需對(duì)中間過(guò)程進(jìn)行明確的監(jiān)督：其中一個(gè)高級(jí)模塊負(fù)責(zé)緩慢、抽象的規(guī)劃，另一個(gè)低級(jí)模塊負(fù)責(zé)處理快速、細(xì)致的計(jì)算。HRM 僅包含 2700 萬(wàn)個(gè)參數(shù)，僅使用 1000 個(gè)訓(xùn)練樣本，便在復(fù)雜的推理任務(wù)上取得了卓越的性能。

該模型無(wú)需預(yù)訓(xùn)練或 CoT 數(shù)據(jù)即可運(yùn)行，但在包括復(fù)雜數(shù)獨(dú)謎題和大型迷宮中最優(yōu)路徑查找在內(nèi)的挑戰(zhàn)性任務(wù)上卻取得了近乎完美的性能。此外，在抽象與推理語(yǔ)料庫(kù) (ARC) 上，HRM 的表現(xiàn)優(yōu)于上下文窗口明顯更長(zhǎng)的大型模型。ARC 是衡量通用人工智能能力的關(guān)鍵基準(zhǔn)。

由此觀之，HRM 具有推動(dòng)通用計(jì)算變革性進(jìn)步的潛力。

論文：Hierarchical Reasoning Model
論文鏈接：https://arxiv.org/abs/2506.21734

如下圖所示：左圖 ——HRM 的靈感源自大腦的層級(jí)處理和時(shí)間分離機(jī)制。它包含兩個(gè)在不同時(shí)間尺度上運(yùn)行的循環(huán)網(wǎng)絡(luò)，用于協(xié)同解決任務(wù)。右圖 —— 僅使用約 1000 個(gè)訓(xùn)練樣本，HRM（約 2700 萬(wàn)個(gè)參數(shù)）在歸納基準(zhǔn)測(cè)試（ARC-AGI）和具有挑戰(zhàn)性的符號(hào)樹搜索謎題（Sudoku-Extreme、Maze-Hard）上就超越了最先進(jìn)的 CoT 模型，而 CoT 模型則完全失敗。HRM 采用隨機(jī)初始化，無(wú)需思維鏈，直接根據(jù)輸入完成任務(wù)。

分層推理模型

復(fù)雜推理中深度的必要性如下圖所示。

左圖：在需要大量樹搜索和回溯的 Sudoku-Extreme Full 上，增加 Transformer 的寬度不會(huì)帶來(lái)性能提升，而增加深度則至關(guān)重要。右圖：標(biāo)準(zhǔn)架構(gòu)已飽和，無(wú)法從增加深度中獲益。HRM 克服了這一根本限制，有效地利用其計(jì)算深度實(shí)現(xiàn)了近乎完美的準(zhǔn)確率。

HRM 核心設(shè)計(jì)靈感來(lái)源于大腦：分層結(jié)構(gòu) + 多時(shí)間尺度處理。具體包括：

分層處理機(jī)制：大腦通過(guò)皮層區(qū)域的多級(jí)層次結(jié)構(gòu)處理信息。高級(jí)腦區(qū)（如前額葉）在更長(zhǎng)的時(shí)間尺度上整合信息并形成抽象表示，而低級(jí)腦區(qū)（如感覺(jué)皮層）則負(fù)責(zé)處理即時(shí)、具體的感知運(yùn)動(dòng)信息。

時(shí)間尺度分離：這些層次結(jié)構(gòu)的神經(jīng)活動(dòng)具有不同的內(nèi)在時(shí)間節(jié)律，體現(xiàn)為特定的神經(jīng)振蕩模式。這種時(shí)間分離機(jī)制使得高級(jí)腦區(qū)能穩(wěn)定地指導(dǎo)低級(jí)腦區(qū)的快速計(jì)算過(guò)程。

循環(huán)連接特性：大腦具有密集的循環(huán)神經(jīng)網(wǎng)絡(luò)連接。這種反饋回路通過(guò)迭代優(yōu)化實(shí)現(xiàn)表示精確度的提升和上下文適應(yīng)性增強(qiáng)，但需要額外的處理時(shí)間。值得注意的是，這種機(jī)制能有效規(guī)避反向傳播時(shí)間算法（BPTT）中存在的深層信用分配難題。

HRM 模型由四個(gè)可學(xué)習(xí)的組件組成：輸入網(wǎng)絡(luò) f_I (?; θ_I )，低級(jí)循環(huán)模塊 f_L (?; θ_L) ，高級(jí)循環(huán)模塊 f_H (?; θ_H) 和輸出網(wǎng)絡(luò) f_O (?; θ_O) 。

HRM 將輸入向量 x 映射到輸出預(yù)測(cè)向量 y′。首先，輸入 x 被網(wǎng)絡(luò)投影成一個(gè)表示：

模塊在一個(gè)周期結(jié)束時(shí)的最終狀態(tài)為：

最后，在經(jīng)過(guò) N 個(gè)完整周期后，從 H 模塊的隱藏狀態(tài)中提取預(yù)測(cè) 。

HRM 表現(xiàn)出層級(jí)收斂性：H 模塊穩(wěn)定收斂，而 L 模塊在周期內(nèi)反復(fù)收斂，然后被 H 重置，導(dǎo)致殘差出現(xiàn)峰值。循環(huán)神經(jīng)網(wǎng)絡(luò)表現(xiàn)出快速收斂，殘差迅速趨近于零。相比之下，深度神經(jīng)網(wǎng)絡(luò)則經(jīng)歷了梯度消失，顯著的殘差主要出現(xiàn)在初始層（輸入層）和最終層。

HRM 引入了：

首先是近似梯度。循環(huán)模型通常依賴 BPTT 計(jì)算梯度。然而，BPTT 需要存儲(chǔ)前向傳播過(guò)程中的所有隱藏狀態(tài)，并在反向傳播時(shí)將其與梯度結(jié)合，這導(dǎo)致內(nèi)存消耗與時(shí)間步長(zhǎng) T 呈線性關(guān)系（O (T)）。

HRM 設(shè)計(jì)了一種一步梯度近似法，核心思想是：使用每個(gè)模塊最后狀態(tài)的梯度，并將其他狀態(tài)視為常數(shù)。

上述方法需要 O (1) 內(nèi)存，不需要隨時(shí)間展開，并且可以使用 PyTorch 等自動(dòng)求導(dǎo)框架輕松實(shí)現(xiàn)，如圖 4 所示。

其次是深度監(jiān)督，本文將深度監(jiān)督機(jī)制融入 HRM。

給定一個(gè)數(shù)據(jù)樣本 (x, y)，然后對(duì) HRM 模型進(jìn)行多次前向傳遞，每次傳遞稱為一個(gè)段。令 M 表示終止前執(zhí)行的段總數(shù)。對(duì)于每個(gè)段 m ∈ {1, ..., M}，令表示段 m 結(jié)束時(shí)的隱藏狀態(tài)，包含高級(jí)狀態(tài)分量和低級(jí)狀態(tài)分量。圖 4 展示了深度監(jiān)督訓(xùn)練的偽代碼。

自適應(yīng)計(jì)算時(shí)間（ACT）。大腦在自動(dòng)化思維（System 1）與審慎推理（System 2）之間動(dòng)態(tài)切換。

受上述機(jī)制的啟發(fā)，本文將自適應(yīng)停止策略融入 HRM，以實(shí)現(xiàn)快思考，慢思考。

圖 5 展示了兩種 HRM 變體的性能比較。結(jié)果表明，ACT 能夠根據(jù)任務(wù)復(fù)雜性有效地調(diào)整其計(jì)算資源，從而顯著節(jié)省計(jì)算資源，同時(shí)最大程度地降低對(duì)性能的影響。

推理時(shí)間擴(kuò)展。有效的神經(jīng)模型應(yīng)當(dāng)能夠在推理階段動(dòng)態(tài)利用額外計(jì)算資源來(lái)提升性能。如圖 5-(c) 所示，HRM 模型僅需增加計(jì)算限制參數(shù) Mmax，即可無(wú)縫實(shí)現(xiàn)推理計(jì)算擴(kuò)展，而無(wú)需重新訓(xùn)練或調(diào)整模型架構(gòu)。

實(shí)驗(yàn)及結(jié)果

該研究中，作者跑了 ARC-AGI、數(shù)獨(dú)和迷宮基準(zhǔn)測(cè)試，結(jié)果如圖 1 所示：

HRM 在復(fù)雜的推理任務(wù)上表現(xiàn)出色，但它引出了一個(gè)耐人尋味的問(wèn)題：HRM 神經(jīng)網(wǎng)絡(luò)究竟實(shí)現(xiàn)了哪些底層推理算法？解答這個(gè)問(wèn)題對(duì)于增強(qiáng)模型的可解釋性以及加深對(duì) HRM 解決方案空間的理解至關(guān)重要。

作者嘗試對(duì) HRM 的推理過(guò)程進(jìn)行可視化。在迷宮任務(wù)中，HRM 似乎最初會(huì)同時(shí)探索多條潛在路徑，隨后排除阻塞或低效的路徑，構(gòu)建初步解決方案大綱，并進(jìn)行多次優(yōu)化迭代；在數(shù)獨(dú)任務(wù)中，該策略類似于深度優(yōu)先搜索方法，模型會(huì)探索潛在解決方案，并在遇到死胡同時(shí)回溯；HRM 對(duì) ARC 任務(wù)采用了不同的方法，會(huì)對(duì)棋盤進(jìn)行漸進(jìn)式調(diào)整，并不斷迭代改進(jìn)，直至找到解決方案。與需要頻繁回溯的數(shù)獨(dú)不同，ARC 的解題路徑遵循更一致的漸進(jìn)式，類似于爬山優(yōu)化。

更重要的是，該模型可以適應(yīng)不同的推理方法，并可能為每個(gè)特定任務(wù)選擇有效的策略。不過(guò)作者也表示，我們還需要進(jìn)一步研究以更全面地了解這些解題策略。

HRM 在基準(zhǔn)任務(wù)中對(duì)中間預(yù)測(cè)結(jié)果的可視化。上圖：MazeHard—— 藍(lán)色單元格表示預(yù)測(cè)路徑。中圖：Sudoku-Extreme—— 粗體單元格表示初始給定值；紅色突出顯示違反數(shù)獨(dú)約束的單元格；灰色陰影表示與上一時(shí)間步的變化。下圖：ARC-AGI-2 任務(wù) —— 左圖：提供的示例輸入輸出對(duì)；右圖：求解測(cè)試輸入的中間步驟。

下圖為 HRM 模型與小鼠皮層的層級(jí)維度組織結(jié)構(gòu)對(duì)比。

例如，在小鼠皮層中可以觀察到維度層次，其中群體活動(dòng)的 PR（ Participation Ratio ）從低水平感覺(jué)區(qū)域到高水平關(guān)聯(lián)區(qū)域單調(diào)增加，支持維度和功能復(fù)雜性之間的這種聯(lián)系（圖 8 a，b）。

圖 8-(e,f) 所示的結(jié)果顯示出明顯對(duì)比：未經(jīng)過(guò)訓(xùn)練的模型中，高層模塊與低層模塊沒(méi)有表現(xiàn)出任何層級(jí)分化，它們的 PR 值都較低，且?guī)缀鯖](méi)有差異。

這一對(duì)照實(shí)驗(yàn)表明，維度層級(jí)結(jié)構(gòu)是一種隨著模型學(xué)習(xí)復(fù)雜推理任務(wù)而自然涌現(xiàn)的特性，并非模型架構(gòu)本身固有的屬性。

作者在進(jìn)一步討論中表示，HRM 的圖靈完備性與早期的神經(jīng)推理算法（包括 Universal Transformer）類似，在給定足夠的內(nèi)存和時(shí)間約束的情況下，HRM 具有計(jì)算通用性。

換句話說(shuō)，它克服了標(biāo)準(zhǔn) Transformer 的計(jì)算限制，屬于可以模擬任何圖靈機(jī)的模型類別。再加上具有自適應(yīng)計(jì)算能力，HRM 可以在長(zhǎng)推理過(guò)程中進(jìn)行訓(xùn)練，解決需要密集深度優(yōu)先搜索和回溯的復(fù)雜難題，并更接近實(shí)用的圖靈完備性。

除了 CoT 微調(diào)之外，強(qiáng)化學(xué)習(xí)（RL）是最近另一種被廣泛采用的訓(xùn)練方法。然而，最近的證據(jù)表明，強(qiáng)化學(xué)習(xí)主要是為了解鎖現(xiàn)有的類似 CoT 能力，而非探索全新的推理機(jī)制。此外，使用強(qiáng)化學(xué)習(xí)進(jìn)行 CoT 訓(xùn)練以其不穩(wěn)定性和數(shù)據(jù)效率低而聞名，通常需要大量的探索和精心的獎(jiǎng)勵(lì)設(shè)計(jì)。相比之下，HRM 從基于梯度的密集監(jiān)督中獲取反饋，而不是依賴于稀疏的獎(jiǎng)勵(lì)信號(hào)。此外，HRM 在連續(xù)空間中自然運(yùn)行，這在生物學(xué)上是合理的，避免了為每個(gè) token 分配相同的計(jì)算資源進(jìn)而導(dǎo)致的低效。

更多內(nèi)容，請(qǐng)參閱原論文。

【免責(zé)聲明】轉(zhuǎn)載出于非商業(yè)性的教育和科研目的，只為學(xué)術(shù)新聞信息的傳播，版權(quán)歸原作者所有，如有侵權(quán)請(qǐng)立即與我們聯(lián)系，我們將及時(shí)刪除。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.