轉(zhuǎn)自 機(jī)器之心
像人一樣推理。
大模型的架構(gòu),到了需要變革的時(shí)候?
在對(duì)復(fù)雜任務(wù)的推理工作上,當(dāng)前的大語(yǔ)言模型(LLM)主要采用思維鏈(CoT)技術(shù),但這些技術(shù)存在任務(wù)分解復(fù)雜、數(shù)據(jù)需求大以及高延遲等問(wèn)題。
近日,受到人腦分層和多時(shí)間尺度處理機(jī)制啟發(fā),來(lái)自 Sapient Intelligence 的研究者提出了分層推理模型(HRM),這是一種全新循環(huán)架構(gòu),能夠在保持訓(xùn)練穩(wěn)定性和效率的同時(shí),實(shí)現(xiàn)高計(jì)算深度。
具體來(lái)說(shuō),HRM 通過(guò)兩個(gè)相互依賴的循環(huán)模塊,在單次前向傳遞中執(zhí)行順序推理任務(wù),而無(wú)需對(duì)中間過(guò)程進(jìn)行明確的監(jiān)督:其中一個(gè)高級(jí)模塊負(fù)責(zé)緩慢、抽象的規(guī)劃,另一個(gè)低級(jí)模塊負(fù)責(zé)處理快速、細(xì)致的計(jì)算。HRM 僅包含 2700 萬(wàn)個(gè)參數(shù),僅使用 1000 個(gè)訓(xùn)練樣本,便在復(fù)雜的推理任務(wù)上取得了卓越的性能。
該模型無(wú)需預(yù)訓(xùn)練或 CoT 數(shù)據(jù)即可運(yùn)行,但在包括復(fù)雜數(shù)獨(dú)謎題和大型迷宮中最優(yōu)路徑查找在內(nèi)的挑戰(zhàn)性任務(wù)上卻取得了近乎完美的性能。此外,在抽象與推理語(yǔ)料庫(kù) (ARC) 上,HRM 的表現(xiàn)優(yōu)于上下文窗口明顯更長(zhǎng)的大型模型。ARC 是衡量通用人工智能能力的關(guān)鍵基準(zhǔn)。
由此觀之,HRM 具有推動(dòng)通用計(jì)算變革性進(jìn)步的潛力。
論文:Hierarchical Reasoning Model
論文鏈接:https://arxiv.org/abs/2506.21734
如下圖所示:左圖 ——HRM 的靈感源自大腦的層級(jí)處理和時(shí)間分離機(jī)制。它包含兩個(gè)在不同時(shí)間尺度上運(yùn)行的循環(huán)網(wǎng)絡(luò),用于協(xié)同解決任務(wù)。右圖 —— 僅使用約 1000 個(gè)訓(xùn)練樣本,HRM(約 2700 萬(wàn)個(gè)參數(shù))在歸納基準(zhǔn)測(cè)試(ARC-AGI)和具有挑戰(zhàn)性的符號(hào)樹搜索謎題(Sudoku-Extreme、Maze-Hard)上就超越了最先進(jìn)的 CoT 模型,而 CoT 模型則完全失敗。HRM 采用隨機(jī)初始化,無(wú)需思維鏈,直接根據(jù)輸入完成任務(wù)。
分層推理模型
復(fù)雜推理中深度的必要性如下圖所示。
左圖:在需要大量樹搜索和回溯的 Sudoku-Extreme Full 上,增加 Transformer 的寬度不會(huì)帶來(lái)性能提升,而增加深度則至關(guān)重要。右圖:標(biāo)準(zhǔn)架構(gòu)已飽和,無(wú)法從增加深度中獲益。HRM 克服了這一根本限制,有效地利用其計(jì)算深度實(shí)現(xiàn)了近乎完美的準(zhǔn)確率。
HRM 核心設(shè)計(jì)靈感來(lái)源于大腦:分層結(jié)構(gòu) + 多時(shí)間尺度處理。 具體包括:
分層處理機(jī)制:大腦通過(guò)皮層區(qū)域的多級(jí)層次結(jié)構(gòu)處理信息。高級(jí)腦區(qū)(如前額葉)在更長(zhǎng)的時(shí)間尺度上整合信息并形成抽象表示,而低級(jí)腦區(qū)(如感覺(jué)皮層)則負(fù)責(zé)處理即時(shí)、具體的感知運(yùn)動(dòng)信息。
時(shí)間尺度分離:這些層次結(jié)構(gòu)的神經(jīng)活動(dòng)具有不同的內(nèi)在時(shí)間節(jié)律,體現(xiàn)為特定的神經(jīng)振蕩模式。這種時(shí)間分離機(jī)制使得高級(jí)腦區(qū)能穩(wěn)定地指導(dǎo)低級(jí)腦區(qū)的快速計(jì)算過(guò)程。
循環(huán)連接特性:大腦具有密集的循環(huán)神經(jīng)網(wǎng)絡(luò)連接。這種反饋回路通過(guò)迭代優(yōu)化實(shí)現(xiàn)表示精確度的提升和上下文適應(yīng)性增強(qiáng),但需要額外的處理時(shí)間。值得注意的是,這種機(jī)制能有效規(guī)避反向傳播時(shí)間算法(BPTT)中存在的深層信用分配難題。
HRM 模型由四個(gè)可學(xué)習(xí)的組件組成:輸入網(wǎng)絡(luò) f_I (?; θ_I ),低級(jí)循環(huán)模塊 f_L (?; θ_L) ,高級(jí)循環(huán)模塊 f_H (?; θ_H) 和輸出網(wǎng)絡(luò) f_O (?; θ_O) 。
HRM 將輸入向量 x 映射到輸出預(yù)測(cè)向量 y′。首先,輸入 x 被網(wǎng)絡(luò)投影成一個(gè)表示:
模塊在一個(gè)周期結(jié)束時(shí)的最終狀態(tài)為:
最后,在經(jīng)過(guò) N 個(gè)完整周期后,從 H 模塊的隱藏狀態(tài)中提取預(yù)測(cè) 。
HRM 表現(xiàn)出層級(jí)收斂性:H 模塊穩(wěn)定收斂,而 L 模塊在周期內(nèi)反復(fù)收斂,然后被 H 重置,導(dǎo)致殘差出現(xiàn)峰值。循環(huán)神經(jīng)網(wǎng)絡(luò)表現(xiàn)出快速收斂,殘差迅速趨近于零。相比之下,深度神經(jīng)網(wǎng)絡(luò)則經(jīng)歷了梯度消失,顯著的殘差主要出現(xiàn)在初始層(輸入層)和最終層。
HRM 引入了:
首先是近似梯度。循環(huán)模型通常依賴 BPTT 計(jì)算梯度。然而,BPTT 需要存儲(chǔ)前向傳播過(guò)程中的所有隱藏狀態(tài),并在反向傳播時(shí)將其與梯度結(jié)合,這導(dǎo)致內(nèi)存消耗與時(shí)間步長(zhǎng) T 呈線性關(guān)系(O (T))。
HRM 設(shè)計(jì)了一種一步梯度近似法,核心思想是: 使用每個(gè)模塊最后狀態(tài)的梯度,并將其他狀態(tài)視為常數(shù)。
上述方法需要 O (1) 內(nèi)存,不需要隨時(shí)間展開,并且可以使用 PyTorch 等自動(dòng)求導(dǎo)框架輕松實(shí)現(xiàn),如圖 4 所示。
其次是深度監(jiān)督,本文將深度監(jiān)督機(jī)制融入 HRM。
給定一個(gè)數(shù)據(jù)樣本 (x, y),然后對(duì) HRM 模型進(jìn)行多次前向傳遞,每次傳遞稱為一個(gè)段。令 M 表示終止前執(zhí)行的段總數(shù)。對(duì)于每個(gè)段 m ∈ {1, ..., M},令表示段 m 結(jié)束時(shí)的隱藏狀態(tài),包含高級(jí)狀態(tài)分量和低級(jí)狀態(tài)分量。圖 4 展示了深度監(jiān)督訓(xùn)練的偽代碼。
自適應(yīng)計(jì)算時(shí)間(ACT)。大腦在自動(dòng)化思維(System 1)與審慎推理(System 2)之間動(dòng)態(tài)切換。
受上述機(jī)制的啟發(fā),本文將自適應(yīng)停止策略融入 HRM,以實(shí)現(xiàn)快思考,慢思考。
圖 5 展示了兩種 HRM 變體的性能比較。結(jié)果表明,ACT 能夠根據(jù)任務(wù)復(fù)雜性有效地調(diào)整其計(jì)算資源,從而顯著節(jié)省計(jì)算資源,同時(shí)最大程度地降低對(duì)性能的影響。
推理時(shí)間擴(kuò)展。有效的神經(jīng)模型應(yīng)當(dāng)能夠在推理階段動(dòng)態(tài)利用額外計(jì)算資源來(lái)提升性能。如圖 5-(c) 所示,HRM 模型僅需增加計(jì)算限制參數(shù) Mmax,即可無(wú)縫實(shí)現(xiàn)推理計(jì)算擴(kuò)展,而無(wú)需重新訓(xùn)練或調(diào)整模型架構(gòu)。
實(shí)驗(yàn)及結(jié)果
該研究中,作者跑了 ARC-AGI、數(shù)獨(dú)和迷宮基準(zhǔn)測(cè)試,結(jié)果如圖 1 所示:
HRM 在復(fù)雜的推理任務(wù)上表現(xiàn)出色,但它引出了一個(gè)耐人尋味的問(wèn)題:HRM 神經(jīng)網(wǎng)絡(luò)究竟實(shí)現(xiàn)了哪些底層推理算法?解答這個(gè)問(wèn)題對(duì)于增強(qiáng)模型的可解釋性以及加深對(duì) HRM 解決方案空間的理解至關(guān)重要。
作者嘗試對(duì) HRM 的推理過(guò)程進(jìn)行可視化。在迷宮任務(wù)中,HRM 似乎最初會(huì)同時(shí)探索多條潛在路徑,隨后排除阻塞或低效的路徑,構(gòu)建初步解決方案大綱,并進(jìn)行多次優(yōu)化迭代;在數(shù)獨(dú)任務(wù)中,該策略類似于深度優(yōu)先搜索方法,模型會(huì)探索潛在解決方案,并在遇到死胡同時(shí)回溯;HRM 對(duì) ARC 任務(wù)采用了不同的方法,會(huì)對(duì)棋盤進(jìn)行漸進(jìn)式調(diào)整,并不斷迭代改進(jìn),直至找到解決方案。與需要頻繁回溯的數(shù)獨(dú)不同,ARC 的解題路徑遵循更一致的漸進(jìn)式,類似于爬山優(yōu)化。
更重要的是,該模型可以適應(yīng)不同的推理方法,并可能為每個(gè)特定任務(wù)選擇有效的策略。不過(guò)作者也表示,我們還需要進(jìn)一步研究以更全面地了解這些解題策略。
HRM 在基準(zhǔn)任務(wù)中對(duì)中間預(yù)測(cè)結(jié)果的可視化。上圖:MazeHard—— 藍(lán)色單元格表示預(yù)測(cè)路徑。中圖:Sudoku-Extreme—— 粗體單元格表示初始給定值;紅色突出顯示違反數(shù)獨(dú)約束的單元格;灰色陰影表示與上一時(shí)間步的變化。下圖:ARC-AGI-2 任務(wù) —— 左圖:提供的示例輸入輸出對(duì);右圖:求解測(cè)試輸入的中間步驟。
下圖為 HRM 模型與小鼠皮層的層級(jí)維度組織結(jié)構(gòu)對(duì)比。
例如,在小鼠皮層中可以觀察到維度層次,其中群體活動(dòng)的 PR( Participation Ratio )從低水平感覺(jué)區(qū)域到高水平關(guān)聯(lián)區(qū)域單調(diào)增加,支持維度和功能復(fù)雜性之間的這種聯(lián)系(圖 8 a,b)。
圖 8-(e,f) 所示的結(jié)果顯示出明顯對(duì)比:未經(jīng)過(guò)訓(xùn)練的模型中,高層模塊與低層模塊沒(méi)有表現(xiàn)出任何層級(jí)分化,它們的 PR 值都較低,且?guī)缀鯖](méi)有差異。
這一對(duì)照實(shí)驗(yàn)表明,維度層級(jí)結(jié)構(gòu)是一種隨著模型學(xué)習(xí)復(fù)雜推理任務(wù)而自然涌現(xiàn)的特性,并非模型架構(gòu)本身固有的屬性。
作者在進(jìn)一步討論中表示,HRM 的圖靈完備性與早期的神經(jīng)推理算法(包括 Universal Transformer)類似,在給定足夠的內(nèi)存和時(shí)間約束的情況下,HRM 具有計(jì)算通用性。
換句話說(shuō),它克服了標(biāo)準(zhǔn) Transformer 的計(jì)算限制,屬于可以模擬任何圖靈機(jī)的模型類別。再加上具有自適應(yīng)計(jì)算能力,HRM 可以在長(zhǎng)推理過(guò)程中進(jìn)行訓(xùn)練,解決需要密集深度優(yōu)先搜索和回溯的復(fù)雜難題,并更接近實(shí)用的圖靈完備性。
除了 CoT 微調(diào)之外,強(qiáng)化學(xué)習(xí)(RL)是最近另一種被廣泛采用的訓(xùn)練方法。然而,最近的證據(jù)表明,強(qiáng)化學(xué)習(xí)主要是為了解鎖現(xiàn)有的類似 CoT 能力,而非探索全新的推理機(jī)制 。此外,使用強(qiáng)化學(xué)習(xí)進(jìn)行 CoT 訓(xùn)練以其不穩(wěn)定性和數(shù)據(jù)效率低而聞名,通常需要大量的探索和精心的獎(jiǎng)勵(lì)設(shè)計(jì)。相比之下,HRM 從基于梯度的密集監(jiān)督中獲取反饋,而不是依賴于稀疏的獎(jiǎng)勵(lì)信號(hào)。此外,HRM 在連續(xù)空間中自然運(yùn)行,這在生物學(xué)上是合理的,避免了為每個(gè) token 分配相同的計(jì)算資源進(jìn)而導(dǎo)致的低效。
更多內(nèi)容,請(qǐng)參閱原論文。
【免責(zé)聲明】轉(zhuǎn)載出于非商業(yè)性的教育和科研目的,只為學(xué)術(shù)新聞信息的傳播,版權(quán)歸原作者所有,如有侵權(quán)請(qǐng)立即與我們聯(lián)系,我們將及時(shí)刪除。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.