99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

前沿分享丨只用2700萬(wàn)參數(shù),這個(gè)推理模型超越了DeepSeek和Claude

0
分享至

轉(zhuǎn)自 機(jī)器之心

像人一樣推理。

大模型的架構(gòu),到了需要變革的時(shí)候?

在對(duì)復(fù)雜任務(wù)的推理工作上,當(dāng)前的大語(yǔ)言模型(LLM)主要采用思維鏈(CoT)技術(shù),但這些技術(shù)存在任務(wù)分解復(fù)雜、數(shù)據(jù)需求大以及高延遲等問(wèn)題。

近日,受到人腦分層和多時(shí)間尺度處理機(jī)制啟發(fā),來(lái)自 Sapient Intelligence 的研究者提出了分層推理模型(HRM),這是一種全新循環(huán)架構(gòu),能夠在保持訓(xùn)練穩(wěn)定性和效率的同時(shí),實(shí)現(xiàn)高計(jì)算深度。

具體來(lái)說(shuō),HRM 通過(guò)兩個(gè)相互依賴的循環(huán)模塊,在單次前向傳遞中執(zhí)行順序推理任務(wù),而無(wú)需對(duì)中間過(guò)程進(jìn)行明確的監(jiān)督:其中一個(gè)高級(jí)模塊負(fù)責(zé)緩慢、抽象的規(guī)劃,另一個(gè)低級(jí)模塊負(fù)責(zé)處理快速、細(xì)致的計(jì)算。HRM 僅包含 2700 萬(wàn)個(gè)參數(shù),僅使用 1000 個(gè)訓(xùn)練樣本,便在復(fù)雜的推理任務(wù)上取得了卓越的性能。

該模型無(wú)需預(yù)訓(xùn)練或 CoT 數(shù)據(jù)即可運(yùn)行,但在包括復(fù)雜數(shù)獨(dú)謎題和大型迷宮中最優(yōu)路徑查找在內(nèi)的挑戰(zhàn)性任務(wù)上卻取得了近乎完美的性能。此外,在抽象與推理語(yǔ)料庫(kù) (ARC) 上,HRM 的表現(xiàn)優(yōu)于上下文窗口明顯更長(zhǎng)的大型模型。ARC 是衡量通用人工智能能力的關(guān)鍵基準(zhǔn)。

由此觀之,HRM 具有推動(dòng)通用計(jì)算變革性進(jìn)步的潛力。


  • 論文:Hierarchical Reasoning Model

  • 論文鏈接:https://arxiv.org/abs/2506.21734

如下圖所示:左圖 ——HRM 的靈感源自大腦的層級(jí)處理和時(shí)間分離機(jī)制。它包含兩個(gè)在不同時(shí)間尺度上運(yùn)行的循環(huán)網(wǎng)絡(luò),用于協(xié)同解決任務(wù)。右圖 —— 僅使用約 1000 個(gè)訓(xùn)練樣本,HRM(約 2700 萬(wàn)個(gè)參數(shù))在歸納基準(zhǔn)測(cè)試(ARC-AGI)和具有挑戰(zhàn)性的符號(hào)樹搜索謎題(Sudoku-Extreme、Maze-Hard)上就超越了最先進(jìn)的 CoT 模型,而 CoT 模型則完全失敗。HRM 采用隨機(jī)初始化,無(wú)需思維鏈,直接根據(jù)輸入完成任務(wù)。


分層推理模型

復(fù)雜推理中深度的必要性如下圖所示。

左圖:在需要大量樹搜索和回溯的 Sudoku-Extreme Full 上,增加 Transformer 的寬度不會(huì)帶來(lái)性能提升,而增加深度則至關(guān)重要。右圖:標(biāo)準(zhǔn)架構(gòu)已飽和,無(wú)法從增加深度中獲益。HRM 克服了這一根本限制,有效地利用其計(jì)算深度實(shí)現(xiàn)了近乎完美的準(zhǔn)確率。


HRM 核心設(shè)計(jì)靈感來(lái)源于大腦:分層結(jié)構(gòu) + 多時(shí)間尺度處理。 具體包括:

分層處理機(jī)制:大腦通過(guò)皮層區(qū)域的多級(jí)層次結(jié)構(gòu)處理信息。高級(jí)腦區(qū)(如前額葉)在更長(zhǎng)的時(shí)間尺度上整合信息并形成抽象表示,而低級(jí)腦區(qū)(如感覺(jué)皮層)則負(fù)責(zé)處理即時(shí)、具體的感知運(yùn)動(dòng)信息。

時(shí)間尺度分離:這些層次結(jié)構(gòu)的神經(jīng)活動(dòng)具有不同的內(nèi)在時(shí)間節(jié)律,體現(xiàn)為特定的神經(jīng)振蕩模式。這種時(shí)間分離機(jī)制使得高級(jí)腦區(qū)能穩(wěn)定地指導(dǎo)低級(jí)腦區(qū)的快速計(jì)算過(guò)程。

循環(huán)連接特性:大腦具有密集的循環(huán)神經(jīng)網(wǎng)絡(luò)連接。這種反饋回路通過(guò)迭代優(yōu)化實(shí)現(xiàn)表示精確度的提升和上下文適應(yīng)性增強(qiáng),但需要額外的處理時(shí)間。值得注意的是,這種機(jī)制能有效規(guī)避反向傳播時(shí)間算法(BPTT)中存在的深層信用分配難題。

HRM 模型由四個(gè)可學(xué)習(xí)的組件組成:輸入網(wǎng)絡(luò) f_I (?; θ_I ),低級(jí)循環(huán)模塊 f_L (?; θ_L) ,高級(jí)循環(huán)模塊 f_H (?; θ_H) 和輸出網(wǎng)絡(luò) f_O (?; θ_O) 。

HRM 將輸入向量 x 映射到輸出預(yù)測(cè)向量 y′。首先,輸入 x 被網(wǎng)絡(luò)投影成一個(gè)表示:


模塊在一個(gè)周期結(jié)束時(shí)的最終狀態(tài)為:


最后,在經(jīng)過(guò) N 個(gè)完整周期后,從 H 模塊的隱藏狀態(tài)中提取預(yù)測(cè) 。


HRM 表現(xiàn)出層級(jí)收斂性:H 模塊穩(wěn)定收斂,而 L 模塊在周期內(nèi)反復(fù)收斂,然后被 H 重置,導(dǎo)致殘差出現(xiàn)峰值。循環(huán)神經(jīng)網(wǎng)絡(luò)表現(xiàn)出快速收斂,殘差迅速趨近于零。相比之下,深度神經(jīng)網(wǎng)絡(luò)則經(jīng)歷了梯度消失,顯著的殘差主要出現(xiàn)在初始層(輸入層)和最終層。


HRM 引入了:

首先是近似梯度。循環(huán)模型通常依賴 BPTT 計(jì)算梯度。然而,BPTT 需要存儲(chǔ)前向傳播過(guò)程中的所有隱藏狀態(tài),并在反向傳播時(shí)將其與梯度結(jié)合,這導(dǎo)致內(nèi)存消耗與時(shí)間步長(zhǎng) T 呈線性關(guān)系(O (T))。

HRM 設(shè)計(jì)了一種一步梯度近似法,核心思想是: 使用每個(gè)模塊最后狀態(tài)的梯度,并將其他狀態(tài)視為常數(shù)。

上述方法需要 O (1) 內(nèi)存,不需要隨時(shí)間展開,并且可以使用 PyTorch 等自動(dòng)求導(dǎo)框架輕松實(shí)現(xiàn),如圖 4 所示。


其次是深度監(jiān)督,本文將深度監(jiān)督機(jī)制融入 HRM。

給定一個(gè)數(shù)據(jù)樣本 (x, y),然后對(duì) HRM 模型進(jìn)行多次前向傳遞,每次傳遞稱為一個(gè)段。令 M 表示終止前執(zhí)行的段總數(shù)。對(duì)于每個(gè)段 m ∈ {1, ..., M},令表示段 m 結(jié)束時(shí)的隱藏狀態(tài),包含高級(jí)狀態(tài)分量和低級(jí)狀態(tài)分量。圖 4 展示了深度監(jiān)督訓(xùn)練的偽代碼。

自適應(yīng)計(jì)算時(shí)間(ACT)。大腦在自動(dòng)化思維(System 1)與審慎推理(System 2)之間動(dòng)態(tài)切換。

受上述機(jī)制的啟發(fā),本文將自適應(yīng)停止策略融入 HRM,以實(shí)現(xiàn)快思考,慢思考。

圖 5 展示了兩種 HRM 變體的性能比較。結(jié)果表明,ACT 能夠根據(jù)任務(wù)復(fù)雜性有效地調(diào)整其計(jì)算資源,從而顯著節(jié)省計(jì)算資源,同時(shí)最大程度地降低對(duì)性能的影響。


推理時(shí)間擴(kuò)展。有效的神經(jīng)模型應(yīng)當(dāng)能夠在推理階段動(dòng)態(tài)利用額外計(jì)算資源來(lái)提升性能。如圖 5-(c) 所示,HRM 模型僅需增加計(jì)算限制參數(shù) Mmax,即可無(wú)縫實(shí)現(xiàn)推理計(jì)算擴(kuò)展,而無(wú)需重新訓(xùn)練或調(diào)整模型架構(gòu)。

實(shí)驗(yàn)及結(jié)果

該研究中,作者跑了 ARC-AGI、數(shù)獨(dú)和迷宮基準(zhǔn)測(cè)試,結(jié)果如圖 1 所示:


HRM 在復(fù)雜的推理任務(wù)上表現(xiàn)出色,但它引出了一個(gè)耐人尋味的問(wèn)題:HRM 神經(jīng)網(wǎng)絡(luò)究竟實(shí)現(xiàn)了哪些底層推理算法?解答這個(gè)問(wèn)題對(duì)于增強(qiáng)模型的可解釋性以及加深對(duì) HRM 解決方案空間的理解至關(guān)重要。

作者嘗試對(duì) HRM 的推理過(guò)程進(jìn)行可視化。在迷宮任務(wù)中,HRM 似乎最初會(huì)同時(shí)探索多條潛在路徑,隨后排除阻塞或低效的路徑,構(gòu)建初步解決方案大綱,并進(jìn)行多次優(yōu)化迭代;在數(shù)獨(dú)任務(wù)中,該策略類似于深度優(yōu)先搜索方法,模型會(huì)探索潛在解決方案,并在遇到死胡同時(shí)回溯;HRM 對(duì) ARC 任務(wù)采用了不同的方法,會(huì)對(duì)棋盤進(jìn)行漸進(jìn)式調(diào)整,并不斷迭代改進(jìn),直至找到解決方案。與需要頻繁回溯的數(shù)獨(dú)不同,ARC 的解題路徑遵循更一致的漸進(jìn)式,類似于爬山優(yōu)化。

更重要的是,該模型可以適應(yīng)不同的推理方法,并可能為每個(gè)特定任務(wù)選擇有效的策略。不過(guò)作者也表示,我們還需要進(jìn)一步研究以更全面地了解這些解題策略。



HRM 在基準(zhǔn)任務(wù)中對(duì)中間預(yù)測(cè)結(jié)果的可視化。上圖:MazeHard—— 藍(lán)色單元格表示預(yù)測(cè)路徑。中圖:Sudoku-Extreme—— 粗體單元格表示初始給定值;紅色突出顯示違反數(shù)獨(dú)約束的單元格;灰色陰影表示與上一時(shí)間步的變化。下圖:ARC-AGI-2 任務(wù) —— 左圖:提供的示例輸入輸出對(duì);右圖:求解測(cè)試輸入的中間步驟。

下圖為 HRM 模型與小鼠皮層的層級(jí)維度組織結(jié)構(gòu)對(duì)比。

例如,在小鼠皮層中可以觀察到維度層次,其中群體活動(dòng)的 PR( Participation Ratio )從低水平感覺(jué)區(qū)域到高水平關(guān)聯(lián)區(qū)域單調(diào)增加,支持維度和功能復(fù)雜性之間的這種聯(lián)系(圖 8 a,b)。

圖 8-(e,f) 所示的結(jié)果顯示出明顯對(duì)比:未經(jīng)過(guò)訓(xùn)練的模型中,高層模塊與低層模塊沒(méi)有表現(xiàn)出任何層級(jí)分化,它們的 PR 值都較低,且?guī)缀鯖](méi)有差異。

這一對(duì)照實(shí)驗(yàn)表明,維度層級(jí)結(jié)構(gòu)是一種隨著模型學(xué)習(xí)復(fù)雜推理任務(wù)而自然涌現(xiàn)的特性,并非模型架構(gòu)本身固有的屬性。


作者在進(jìn)一步討論中表示,HRM 的圖靈完備性與早期的神經(jīng)推理算法(包括 Universal Transformer)類似,在給定足夠的內(nèi)存和時(shí)間約束的情況下,HRM 具有計(jì)算通用性。

換句話說(shuō),它克服了標(biāo)準(zhǔn) Transformer 的計(jì)算限制,屬于可以模擬任何圖靈機(jī)的模型類別。再加上具有自適應(yīng)計(jì)算能力,HRM 可以在長(zhǎng)推理過(guò)程中進(jìn)行訓(xùn)練,解決需要密集深度優(yōu)先搜索和回溯的復(fù)雜難題,并更接近實(shí)用的圖靈完備性。

除了 CoT 微調(diào)之外,強(qiáng)化學(xué)習(xí)(RL)是最近另一種被廣泛采用的訓(xùn)練方法。然而,最近的證據(jù)表明,強(qiáng)化學(xué)習(xí)主要是為了解鎖現(xiàn)有的類似 CoT 能力,而非探索全新的推理機(jī)制 。此外,使用強(qiáng)化學(xué)習(xí)進(jìn)行 CoT 訓(xùn)練以其不穩(wěn)定性和數(shù)據(jù)效率低而聞名,通常需要大量的探索和精心的獎(jiǎng)勵(lì)設(shè)計(jì)。相比之下,HRM 從基于梯度的密集監(jiān)督中獲取反饋,而不是依賴于稀疏的獎(jiǎng)勵(lì)信號(hào)。此外,HRM 在連續(xù)空間中自然運(yùn)行,這在生物學(xué)上是合理的,避免了為每個(gè) token 分配相同的計(jì)算資源進(jìn)而導(dǎo)致的低效。

更多內(nèi)容,請(qǐng)參閱原論文。

【免責(zé)聲明】轉(zhuǎn)載出于非商業(yè)性的教育和科研目的,只為學(xué)術(shù)新聞信息的傳播,版權(quán)歸原作者所有,如有侵權(quán)請(qǐng)立即與我們聯(lián)系,我們將及時(shí)刪除。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
年輕兒媳哭述:婆婆每個(gè)月都向我們要很多錢,不給就說(shuō)不孝順

年輕兒媳哭述:婆婆每個(gè)月都向我們要很多錢,不給就說(shuō)不孝順

清水家庭故事
2025-07-16 08:07:01
曼聯(lián)放棄皇馬5000萬(wàn)新援原因曝光!滕哈格看衰,寧可沒(méi)左閘也不用

曼聯(lián)放棄皇馬5000萬(wàn)新援原因曝光!滕哈格看衰,寧可沒(méi)左閘也不用

羅米的曼聯(lián)博客
2025-07-17 07:21:11
35歲民政局副局長(zhǎng)公示任鄉(xiāng)鎮(zhèn)長(zhǎng),21歲時(shí)咋以高中學(xué)歷聘為鎮(zhèn)勞動(dòng)服務(wù)站站長(zhǎng)?相關(guān)回應(yīng):那時(shí)要求沒(méi)那么嚴(yán)格

35歲民政局副局長(zhǎng)公示任鄉(xiāng)鎮(zhèn)長(zhǎng),21歲時(shí)咋以高中學(xué)歷聘為鎮(zhèn)勞動(dòng)服務(wù)站站長(zhǎng)?相關(guān)回應(yīng):那時(shí)要求沒(méi)那么嚴(yán)格

大風(fēng)新聞
2025-07-16 11:35:34
萬(wàn)億順差下的殘酷真相,中國(guó)企業(yè)為何越卷越窮?

萬(wàn)億順差下的殘酷真相,中國(guó)企業(yè)為何越卷越窮?

楓冷慕詩(shī)
2025-07-15 12:34:17
11歲玥兒正臉曝光,模樣清純性格溫順,難怪汪小菲這么疼愛(ài)女兒

11歲玥兒正臉曝光,模樣清純性格溫順,難怪汪小菲這么疼愛(ài)女兒

娛圈小愚
2025-07-16 11:55:17
新能源車徹底取代油車是鬧劇嗎?網(wǎng)友:當(dāng)年小靈通也是這么想的

新能源車徹底取代油車是鬧劇嗎?網(wǎng)友:當(dāng)年小靈通也是這么想的

帶你感受人間冷暖
2025-07-06 00:05:10
東北小伙賣11套房,15年花450萬(wàn)送孩子到加拿大讀書,如今咋樣?

東北小伙賣11套房,15年花450萬(wàn)送孩子到加拿大讀書,如今咋樣?

曉林說(shuō)娛
2025-07-16 10:37:35
北京醫(yī)科大學(xué)曲黎敏教授大膽直言:“一夫一妻制是違背人性的

北京醫(yī)科大學(xué)曲黎敏教授大膽直言:“一夫一妻制是違背人性的

忠于法紀(jì)
2025-07-16 18:55:38
杜建英反擊?港媒曝猛料,宗馥莉疑為雙重國(guó)籍,網(wǎng)友倒戈要求制裁

杜建英反擊?港媒曝猛料,宗馥莉疑為雙重國(guó)籍,網(wǎng)友倒戈要求制裁

文雅筆墨
2025-07-17 03:28:16
阿里錯(cuò)失的七年:打通淘寶與餓了么的結(jié)界后,單日激增4000萬(wàn)單

阿里錯(cuò)失的七年:打通淘寶與餓了么的結(jié)界后,單日激增4000萬(wàn)單

侃故事的阿慶
2025-07-16 14:25:37
五家野戰(zhàn)軍入朝鮮:在國(guó)內(nèi)時(shí)難以評(píng)比,一打美軍就看出誰(shuí)更強(qiáng)

五家野戰(zhàn)軍入朝鮮:在國(guó)內(nèi)時(shí)難以評(píng)比,一打美軍就看出誰(shuí)更強(qiáng)

舊書卷里的長(zhǎng)安
2025-02-15 23:55:03
不打了!再見狀元和榜眼!全部退出NBA夏季聯(lián)賽

不打了!再見狀元和榜眼!全部退出NBA夏季聯(lián)賽

籃球?qū)崙?zhàn)寶典
2025-07-17 08:37:12
淄博188個(gè)雨量站全部降雨,暴雨33個(gè)

淄博188個(gè)雨量站全部降雨,暴雨33個(gè)

魯中晨報(bào)
2025-07-17 09:38:19
沒(méi)想到,美國(guó)大滿貫剛結(jié)束,張本智和就憑一則言論,實(shí)現(xiàn)口碑暴增

沒(méi)想到,美國(guó)大滿貫剛結(jié)束,張本智和就憑一則言論,實(shí)現(xiàn)口碑暴增

順靜自然
2025-07-17 03:29:57
加媒:擺脫美國(guó),靠緊中國(guó)

加媒:擺脫美國(guó),靠緊中國(guó)

環(huán)球時(shí)報(bào)國(guó)際
2025-07-16 11:54:00
7月下旬福氣連枝,這3生肖喜事環(huán)繞,賺錢勢(shì)頭猛,日子過(guò)得紅火

7月下旬福氣連枝,這3生肖喜事環(huán)繞,賺錢勢(shì)頭猛,日子過(guò)得紅火

人閒情事
2025-07-17 09:39:41
這6類事業(yè)編崗位,將退出編制體系,“鐵飯碗”也不“鐵”了

這6類事業(yè)編崗位,將退出編制體系,“鐵飯碗”也不“鐵”了

巢客HOME
2025-07-14 09:18:43
江蘇一網(wǎng)友吐槽:3臺(tái)空調(diào)開了一天一夜用了91度電,網(wǎng)友:抱冬瓜

江蘇一網(wǎng)友吐槽:3臺(tái)空調(diào)開了一天一夜用了91度電,網(wǎng)友:抱冬瓜

興史興談
2025-07-12 22:26:45
隊(duì)記:湖人對(duì)詹姆斯無(wú)休止的消極對(duì)抗式抨擊相當(dāng)厭煩

隊(duì)記:湖人對(duì)詹姆斯無(wú)休止的消極對(duì)抗式抨擊相當(dāng)厭煩

直播吧
2025-07-17 09:50:11
農(nóng)業(yè)銀行存款利率調(diào)整!7 月 16 日全新利息表,10 萬(wàn)塊該怎么存

農(nóng)業(yè)銀行存款利率調(diào)整!7 月 16 日全新利息表,10 萬(wàn)塊該怎么存

錘不倒的拖油瓶
2025-07-16 15:57:11
2025-07-17 10:24:49
中國(guó)人工智能學(xué)會(huì)
中國(guó)人工智能學(xué)會(huì)
中國(guó)人工智能學(xué)會(huì)網(wǎng)易官方賬號(hào)
3466文章數(shù) 1482關(guān)注度
往期回顧 全部

科技要聞

不只H20?黃仁勛:希望對(duì)華銷售更好的芯片

頭條要聞

上海最大原拆原建小區(qū)回搬:始建于1958年 有94種戶型

頭條要聞

上海最大原拆原建小區(qū)回搬:始建于1958年 有94種戶型

體育要聞

不給楊瀚森傳球,他有自己的理由

娛樂(lè)要聞

都美竹將參加綜藝,單身媽媽發(fā)文抵制

財(cái)經(jīng)要聞

宗馥莉的繼承之戰(zhàn) 會(huì)把娃哈哈打散嗎?

汽車要聞

理想i8內(nèi)飾官圖公布 李想回應(yīng)"被打臉"

態(tài)度原創(chuàng)

親子
手機(jī)
數(shù)碼
房產(chǎn)
公開課

親子要聞

寶媽哭訴凌晨?jī)牲c(diǎn)手洗真絲圍嘴 網(wǎng)友:求求,別自我感動(dòng)了

手機(jī)要聞

白色版三星 Galaxy S25 FE 手機(jī)渲染圖曝光:收窄“下巴”邊框

數(shù)碼要聞

英特爾下一場(chǎng)大型活動(dòng)將首次在亞利桑那州鳳凰城舉行

房產(chǎn)要聞

三亞又有好地要賣,起拍樓面價(jià)飆到了1.6萬(wàn)/㎡!

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 鹰潭市| 吴川市| 东乌珠穆沁旗| 文山县| 小金县| 阳山县| 科尔| 项城市| 湖口县| 仲巴县| 新密市| 图木舒克市| 西华县| 师宗县| 延安市| 乌兰浩特市| 丹巴县| 赫章县| 柘城县| 镇安县| 叶城县| 聂荣县| 福泉市| 盘山县| 百色市| 上虞市| 湛江市| 台北县| 马山县| 克东县| 新郑市| 襄垣县| 无锡市| 利川市| 富蕴县| 扬中市| 宜阳县| 玉溪市| 视频| 临安市| 湄潭县|