99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

只用2700萬參數,這個推理模型超越了DeepSeek和Claude

0
分享至



機器之心報道

編輯:澤南、陳陳

像人一樣推理。

大模型的架構,到了需要變革的時候?

在對復雜任務的推理工作上,當前的大語言模型(LLM)主要采用思維鏈(CoT)技術,但這些技術存在任務分解復雜、數據需求大以及高延遲等問題。

近日,受到人腦分層和多時間尺度處理機制啟發,來自 Sapient Intelligence 的研究者提出了分層推理模型(HRM),這是一種全新循環架構,能夠在保持訓練穩定性和效率的同時,實現高計算深度。

具體來說,HRM 通過兩個相互依賴的循環模塊,在單次前向傳遞中執行順序推理任務,而無需對中間過程進行明確的監督:其中一個高級模塊負責緩慢、抽象的規劃,另一個低級模塊負責處理快速、細致的計算。HRM 僅包含 2700 萬個參數,僅使用 1000 個訓練樣本,便在復雜的推理任務上取得了卓越的性能。

該模型無需預訓練或 CoT 數據即可運行,但在包括復雜數獨謎題和大型迷宮中最優路徑查找在內的挑戰性任務上卻取得了近乎完美的性能。此外,在抽象與推理語料庫 (ARC) 上,HRM 的表現優于上下文窗口明顯更長的大型模型。ARC 是衡量通用人工智能能力的關鍵基準。

由此觀之,HRM 具有推動通用計算變革性進步的潛力。



  • 論文:Hierarchical Reasoning Model
  • 論文鏈接:https://arxiv.org/abs/2506.21734

如下圖所示:左圖 ——HRM 的靈感源自大腦的層級處理和時間分離機制。它包含兩個在不同時間尺度上運行的循環網絡,用于協同解決任務。右圖 —— 僅使用約 1000 個訓練樣本,HRM(約 2700 萬個參數)在歸納基準測試(ARC-AGI)和具有挑戰性的符號樹搜索謎題(Sudoku-Extreme、Maze-Hard)上就超越了最先進的 CoT 模型,而 CoT 模型則完全失敗。HRM 采用隨機初始化,無需思維鏈,直接根據輸入完成任務。



分層推理模型

復雜推理中深度的必要性如下圖所示。

左圖:在需要大量樹搜索和回溯的 Sudoku-Extreme Full 上,增加 Transformer 的寬度不會帶來性能提升,而增加深度則至關重要。右圖:標準架構已飽和,無法從增加深度中獲益。HRM 克服了這一根本限制,有效地利用其計算深度實現了近乎完美的準確率。



HRM 核心設計靈感來源于大腦:分層結構 + 多時間尺度處理。 具體包括:

分層處理機制:大腦通過皮層區域的多級層次結構處理信息。高級腦區(如前額葉)在更長的時間尺度上整合信息并形成抽象表示,而低級腦區(如感覺皮層)則負責處理即時、具體的感知運動信息。

時間尺度分離:這些層次結構的神經活動具有不同的內在時間節律,體現為特定的神經振蕩模式。這種時間分離機制使得高級腦區能穩定地指導低級腦區的快速計算過程。

循環連接特性:大腦具有密集的循環神經網絡連接。這種反饋回路通過迭代優化實現表示精確度的提升和上下文適應性增強,但需要額外的處理時間。值得注意的是,這種機制能有效規避反向傳播時間算法(BPTT)中存在的深層信用分配難題。

HRM 模型由四個可學習的組件組成:輸入網絡 f_I (?; θ_I ),低級循環模塊 f_L (?; θ_L) ,高級循環模塊 f_H (?; θ_H) 和輸出網絡 f_O (?; θ_O) 。

HRM 將輸入向量 x 映射到輸出預測向量 y′。首先,輸入 x 被網絡投影成一個表示:



模塊在一個周期結束時的最終狀態為:



最后,在經過 N 個完整周期后,從 H 模塊的隱藏狀態中提取預測 。



HRM 表現出層級收斂性:H 模塊穩定收斂,而 L 模塊在周期內反復收斂,然后被 H 重置,導致殘差出現峰值。循環神經網絡表現出快速收斂,殘差迅速趨近于零。相比之下,深度神經網絡則經歷了梯度消失,顯著的殘差主要出現在初始層(輸入層)和最終層。



HRM 引入了:

首先是近似梯度。循環模型通常依賴 BPTT 計算梯度。然而,BPTT 需要存儲前向傳播過程中的所有隱藏狀態,并在反向傳播時將其與梯度結合,這導致內存消耗與時間步長 T 呈線性關系(O (T))。

HRM 設計了一種一步梯度近似法,核心思想是: 使用每個模塊最后狀態的梯度,并將其他狀態視為常數。

上述方法需要 O (1) 內存,不需要隨時間展開,并且可以使用 PyTorch 等自動求導框架輕松實現,如圖 4 所示。



其次是深度監督,本文將深度監督機制融入 HRM。



自適應計算時間(ACT)。大腦在自動化思維(System 1)與審慎推理(System 2)之間動態切換。

受上述機制的啟發,本文將自適應停止策略融入 HRM,以實現快思考,慢思考。

圖 5 展示了兩種 HRM 變體的性能比較。結果表明,ACT 能夠根據任務復雜性有效地調整其計算資源,從而顯著節省計算資源,同時最大程度地降低對性能的影響。



推理時間擴展。有效的神經模型應當能夠在推理階段動態利用額外計算資源來提升性能。如圖 5-(c) 所示,HRM 模型僅需增加計算限制參數 Mmax,即可無縫實現推理計算擴展,而無需重新訓練或調整模型架構。

實驗及結果

該研究中,作者跑了 ARC-AGI、數獨和迷宮基準測試,結果如圖 1 所示:



HRM 在復雜的推理任務上表現出色,但它引出了一個耐人尋味的問題:HRM 神經網絡究竟實現了哪些底層推理算法?解答這個問題對于增強模型的可解釋性以及加深對 HRM 解決方案空間的理解至關重要。

作者嘗試對 HRM 的推理過程進行可視化。在迷宮任務中,HRM 似乎最初會同時探索多條潛在路徑,隨后排除阻塞或低效的路徑,構建初步解決方案大綱,并進行多次優化迭代;在數獨任務中,該策略類似于深度優先搜索方法,模型會探索潛在解決方案,并在遇到死胡同時回溯;HRM 對 ARC 任務采用了不同的方法,會對棋盤進行漸進式調整,并不斷迭代改進,直至找到解決方案。與需要頻繁回溯的數獨不同,ARC 的解題路徑遵循更一致的漸進式,類似于爬山優化。

更重要的是,該模型可以適應不同的推理方法,并可能為每個特定任務選擇有效的策略。不過作者也表示,我們還需要進一步研究以更全面地了解這些解題策略。



HRM 在基準任務中對中間預測結果的可視化。上圖:MazeHard—— 藍色單元格表示預測路徑。中圖:Sudoku-Extreme—— 粗體單元格表示初始給定值;紅色突出顯示違反數獨約束的單元格;灰色陰影表示與上一時間步的變化。下圖:ARC-AGI-2 任務 —— 左圖:提供的示例輸入輸出對;右圖:求解測試輸入的中間步驟。

下圖為 HRM 模型與小鼠皮層的層級維度組織結構對比。

例如,在小鼠皮層中可以觀察到維度層次,其中群體活動的 PR( Participation Ratio )從低水平感覺區域到高水平關聯區域單調增加,支持維度和功能復雜性之間的這種聯系(圖 8 a,b)。

圖 8-(e,f) 所示的結果顯示出明顯對比:未經過訓練的模型中,高層模塊與低層模塊沒有表現出任何層級分化,它們的 PR 值都較低,且幾乎沒有差異。

這一對照實驗表明,維度層級結構是一種隨著模型學習復雜推理任務而自然涌現的特性,并非模型架構本身固有的屬性。



作者在進一步討論中表示,HRM 的圖靈完備性與早期的神經推理算法(包括 Universal Transformer)類似,在給定足夠的內存和時間約束的情況下,HRM 具有計算通用性。

換句話說,它克服了標準 Transformer 的計算限制,屬于可以模擬任何圖靈機的模型類別。再加上具有自適應計算能力,HRM 可以在長推理過程中進行訓練,解決需要密集深度優先搜索和回溯的復雜難題,并更接近實用的圖靈完備性。

除了 CoT 微調之外,強化學習(RL)是最近另一種被廣泛采用的訓練方法。然而,最近的證據表明,強化學習主要是為了解鎖現有的類似 CoT 能力,而非探索全新的推理機制 。此外,使用強化學習進行 CoT 訓練以其不穩定性和數據效率低而聞名,通常需要大量的探索和精心的獎勵設計。相比之下,HRM 從基于梯度的密集監督中獲取反饋,而不是依賴于稀疏的獎勵信號。此外,HRM 在連續空間中自然運行,這在生物學上是合理的,避免了為每個 token 分配相同的計算資源進而導致的低效。

更多內容,請參閱原論文

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
消失16年的失聯潛艇突然浮現,打開艙室后,里面的景象讓眾人都懵了

消失16年的失聯潛艇突然浮現,打開艙室后,里面的景象讓眾人都懵了

嘮叨情感屋
2025-06-26 11:12:08
明日將賬戶到賬一筆錢,注意查收!

明日將賬戶到賬一筆錢,注意查收!

中國能源網
2025-06-30 18:20:43
以法之名:蘭景茗根本不知,張放解散指導小組,才是她噩夢的開始

以法之名:蘭景茗根本不知,張放解散指導小組,才是她噩夢的開始

大笑江湖史
2025-06-30 17:36:02
臺媒:柯文哲同案被告、臺北市前副市長彭振聲開庭前得知妻子突然輕生墜樓,崩潰哭喊“我是冤枉的”

臺媒:柯文哲同案被告、臺北市前副市長彭振聲開庭前得知妻子突然輕生墜樓,崩潰哭喊“我是冤枉的”

環球網資訊
2025-07-01 11:51:09
人民幣國際化的新機遇

人民幣國際化的新機遇

經濟觀察報
2025-06-30 14:48:05
伊朗鉆地彈貫穿大樓,摧毀以軍地下指揮所!特拉維夫真實傷亡驚人

伊朗鉆地彈貫穿大樓,摧毀以軍地下指揮所!特拉維夫真實傷亡驚人

影孖看世界
2025-06-29 17:31:55
毛主席的警衛部隊有多少人?貼身衛士道出真相:大概一個師建制

毛主席的警衛部隊有多少人?貼身衛士道出真相:大概一個師建制

老謝談史
2025-06-06 09:31:12
中產被山姆背刺了一刀,山姆這波翻車,戳痛了多少人的信任

中產被山姆背刺了一刀,山姆這波翻車,戳痛了多少人的信任

億通電子游戲
2025-06-24 03:52:31
俄方稱已控制盧甘斯克全境,烏軍:俄軍集結11萬兵力欲強攻烏東重鎮紅軍城

俄方稱已控制盧甘斯克全境,烏軍:俄軍集結11萬兵力欲強攻烏東重鎮紅軍城

魯中晨報
2025-07-01 09:52:07
?自由市場大魚:保羅威少領銜控衛 霍福德+庫明加+格萊姆斯

?自由市場大魚:保羅威少領銜控衛 霍福德+庫明加+格萊姆斯

直播吧
2025-07-01 10:44:08
這絕對是人才!四川小伙印制360萬假美元,以假亂真能過印鈔機

這絕對是人才!四川小伙印制360萬假美元,以假亂真能過印鈔機

娛樂的硬糖吖
2025-07-01 12:03:38
精神小妹在飯館吃飯被免單,老板還送特殊福利:有她在不愁沒顧客

精神小妹在飯館吃飯被免單,老板還送特殊福利:有她在不愁沒顧客

唐小糖說情感
2025-06-26 23:44:36
ESPN獨家爆料:梅西親承將轉會!為衛冕世界杯,他要打回歐洲主戰場

ESPN獨家爆料:梅西親承將轉會!為衛冕世界杯,他要打回歐洲主戰場

野渡舟山人
2025-07-01 09:13:27
洪森唯獨算漏的一點,就是佩通坦的決絕,泰國對柬埔寨反將一軍

洪森唯獨算漏的一點,就是佩通坦的決絕,泰國對柬埔寨反將一軍

觀星賞月
2025-06-26 11:47:40
天涯論壇因為什么原因關閉的?網友:高人太多,泄露的天機過多

天涯論壇因為什么原因關閉的?網友:高人太多,泄露的天機過多

帶你感受人間冷暖
2025-06-18 13:28:38
懈怠?Shams爆克拉克森慢Haynes3分鐘落后直播吧2分鐘

懈怠?Shams爆克拉克森慢Haynes3分鐘落后直播吧2分鐘

直播吧
2025-07-01 10:01:34
姚策臨終前的事情,許媽本不知道,小熊的為難,成全了她

姚策臨終前的事情,許媽本不知道,小熊的為難,成全了她

子芫伴你成長
2025-06-30 22:43:04
蘇超觀眾人數與中超對比?媒體人趙震:這就不是一個項目

蘇超觀眾人數與中超對比?媒體人趙震:這就不是一個項目

懂球帝
2025-06-30 18:48:21
董路:一踩一拉是最Low的方式;網暴吳曦是中國足球最大之恥

董路:一踩一拉是最Low的方式;網暴吳曦是中國足球最大之恥

懂球帝
2025-07-01 07:32:12
我國著名主持人赴瑞士安樂死,兒子講述其死前慘狀:我非常后悔

我國著名主持人赴瑞士安樂死,兒子講述其死前慘狀:我非常后悔

南南說娛
2025-06-30 14:20:13
2025-07-01 16:27:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10754文章數 142352關注度
往期回顧 全部

科技要聞

1顆自研芯頂4顆英偉達 李斌自曝背后辛酸史

頭條要聞

美軍前司令抱怨主力預警機"嚴重過時":它看不見殲-20

頭條要聞

美軍前司令抱怨主力預警機"嚴重過時":它看不見殲-20

體育要聞

創造歷史!世俱杯首次亞洲球隊戰勝歐洲

娛樂要聞

Baby現身新加坡!8歲兒子太像黃曉明

財經要聞

習近平:縱深推進全國統一大市場建設

汽車要聞

2026款MG Cyberster/MG5 兩款新車售5.99萬起

態度原創

旅游
教育
健康
游戲
公開課

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

教育要聞

三年級數學,豎式謎難題,學會了很簡單

呼吸科專家破解呼吸道九大謠言!

九柱全員集結,《鬼滅之刃》的游戲續作能這么燃?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 白河县| 新乐市| 疏附县| 湖南省| 高雄县| 确山县| 讷河市| 泌阳县| 中阳县| 吉林市| 吉首市| 芜湖市| 深州市| 河西区| 崇信县| 堆龙德庆县| 尚志市| 沈阳市| 梁河县| 濮阳县| 广宁县| 高尔夫| 景宁| 泗洪县| 芦山县| 海晏县| 寿光市| 砚山县| 盐源县| 陆河县| 思南县| 江北区| 德钦县| 岳阳县| 义马市| 汤阴县| 丹阳市| 会同县| 孙吴县| 大英县| 屯留县|