Boosting Performance on ARC is a Matter of Perspective
提升 ARC 性能:視角決定成效
https://arxiv.org/pdf/2505.07859?
摘要
抽象與推理語料庫(ARC-AGI)對大語言模型(LLMs)構成了重大挑戰,暴露了它們在抽象推理能力方面的局限性。在本研究中,我們在訓練、生成和評分階段利用任務特定的數據增強,并采用深度優先搜索算法來生成多樣化且高概率的候選解決方案。此外,我們不僅將大語言模型用作生成器,還用作評分器,利用其輸出概率來選擇最有前景的解決方案。我們的方法在公開的ARC-AGI評估集上取得了71.6%的得分(400個任務中解決了286.5個),展示了在公開可用方法中的最先進性能。盡管同時期的一些閉源工作報告了更高的得分,但我們的方法以其透明性、可重復性以及顯著低廉的推理成本脫穎而出,平均每個任務僅需約2分錢的成本即可在現成硬件上完成。
1引言
大語言模型(Large Language Models,LLMs)在多種任務中展現出卓越的能力,從自然語言處理到代碼生成。即便如此,評估這些系統在何種程度上具備抽象推理能力,仍然是人工智能領域面臨的一項重大挑戰。由 Chollet(2019)提出并用于評估人工智能核心知識和泛化能力的抽象與推理語料庫(Abstraction and Reasoning Corpus,ARC-AGI)便體現了這一難題。盡管對于人類而言,這些任務(如圖1所示)看似簡單,但傳統的算法方法(Wind,2020)和現代神經網絡架構(Li 等,2024a)在 ARC-AGI 上都難以取得顯著成功,這突顯了當前人工推理方法的一些潛在局限性。
盡管模型規模的擴大無疑在許多任務上帶來了顯著的性能提升,但僅靠規模本身并不能完全解決像 ARC-AGI 這類挑戰所暴露的核心問題。事實上,開源系統的快速發展——例如 LLaMA-3.2-3B(Dubey 等,2024)和 Nvidia NeMo-Minitron-8B(Sreenivas 等,2024)——表明即使在相對較小的規模下也能涌現出顯著的能力。這也與越來越多的研究證據一致,即大語言模型的許多被認為的缺陷可能源于實現細節或次優的數據表示,而非根本性的推理缺陷(Singh & Strouse,2024b;Bostrom & Durrett,2020;Sun 等,2023)。例如,Allen-Zhu 和 Li(2024)觀察到模型可能意識到自己的錯誤卻無法糾正,而 Allen-Zhu 和 Li(2023)則強調細微的數據建模選擇如何阻礙微調的進展。總體來看,這些見解表明模型通常具備應對 ARC-AGI 的潛在能力;真正的挑戰在于創造一種條件,使這些能力能夠被可靠地表達出來。
基于這些見解,我們開發了一種專門針對ARC數據集的方法。我們的方法在公開的ARC-AGI評估集上實現了開源模型中最先進的性能,得分為71.6%(或點數),并超過了LeGris等人(2024年)測量的平均人類表現60.2% 。
特別是,我們在大語言模型(LLM)預測的基礎上采用深度優先搜索(DFS)算法,以生成多樣化且高概率的解決方案,并再次利用相同的LLM作為專家的產物(見第4.1節),以選擇最佳候選方案。這種雙重角色使我們能夠通過增強的似然估計對候選解決方案進行排序,從而有效放大模型潛在的推理能力。與更大規模或閉源系統相比,我們的方法以其透明性、可重復性以及極低的推理成本脫穎而出,每個任務的花費僅為約0.02美元,而arcprize.org(2025年)報告的o3模型每個任務的成本高達17美元。這表明,ARC-AGI上的抽象推理并非大規模專有模型的專屬領域。
在接下來的章節中,我們將詳細說明我們的數據建模和訓練策略,描述基于DFS的解決方案探索過程,并提供全面的結果和消融研究。一旦論文被接受,我們將公開最終模型以及訓練和推理代碼。
2. 相關工作
抽象與推理語料庫(ARC)在推動人工智能領域抽象推理研究方面發揮了核心作用,激發了大量專注于其數據集、競爭性基準測試以及受限資源驅動下的創新解決方案開發的研究。原始 ARC 數據集: 由 Chollet(2019)引入的抽象與推理語料庫(ARC-AGI)挑戰了語言模型能夠從少量示例中有效泛化的觀點,通常稱為“少樣本提示”(few-shot prompting)。原始的 ARC-AGI 數據集包含 900 個推理任務,分為 400 個訓練任務、400 個公開評估任務和 100 個私有且未發布的評估任務。每個任務涉及大小各異的網格,范圍從 1x1 到 30x30,并使用包含十種不同顏色的調色板。
個體 ARC 任務的目標是從示例中識別出規則,并將其應用于新的輸入網格以生成正確的輸出。當模型在最多兩次嘗試內生成準確輸出時,該任務被視為成功解決。這些任務被設計為對人類來說簡單,但對機器學習系統構成挑戰,突出了當前人工智能在抽象推理方面的局限性。根據 LeGris 等人(2024)的研究,普通人類能夠正確解決 60.2% 的評估任務,而通過兩次猜測至少有一個參與者解決了 97.8% 的任務。
競賽推動的進步: 自 2019 年引入 ARC 以來,多個擁有數百名參賽者的競賽旨在開發在該數據集上表現優異的解決方案。截至 2024 年的方法通常采用基于領域特定語言(DSL)的程序搜索,并取得了 39% 的 Top-3 得分(Wind, 2020)。
2024 年,ARC-AGI 又舉辦了一次 Kaggle 競賽,這是首次大型語言模型(LLM)方法主導排行榜。一種流行的方法是“測試時訓練”(Test-Time Training, TTT)。這種方法最初由Sun等人(2020)提出,Cole(2024)首次將其應用于 ARC,隨后 Akyurek 等人(2024)進一步推廣。測試時訓練利用每個挑戰中提供的少量示例作為小型數據集。通過對這些示例進行微調后再生成答案,LLM可以顯著提升性能。Akyurek 等人(2024)表明,TTT 使他們在 ARC-AGI 上的表現翻倍。TTT在像ARC這樣的競賽環境中特別有效,因為它允許模型從有限的示例中提取額外的訓練數據,增強其泛化能力并解決新任務。
值得注意的方法: 其他方法探索了多種利用 LLM 的策略。Li 等人(2024c)將兩種主要路徑分類為:歸納(Induction) 和 轉導(Transduction) 。其中,歸納是指 LLM 推理出一個可以解決問題的函數,然后應用它(通常使用 Python 或 DSL),而轉導則是指 LLM 使用問題標記化描述直接生成解決方案(見圖2)。作者認為,盡管使用相同的底層架構,這兩種方法解決的是不同類型的問題。在他們的實驗中,歸納和轉導分別解決了約 38% 和 43% 的問題,通過集成方法可將這一比例提高到 56.75%。此外,他們還使用歸納網絡生成了一組大量新穎的挑戰,命名為 ARC-Heavy。
此外,一些方法使用了替代的ARC數據集,例如 ConceptARC(Moskvichev 等人,2023)。最值得注意的——也是我們唯一使用的附加數據集——是廣為人知的 RE-ARC 數據集。Hodel(2024)引入了這個數據集,它重新實現了公共訓練數據集中全部 400 個任務。他們的代碼可用于為這些任務生成任意數量的訓練數據,但并未引入新的挑戰。其他所有數據集可能包含模仿評估挑戰的任務——從而極大降低了這些挑戰的難度。僅使用 RE-ARC 數據集,我們仍然極大地增加了訓練數據量,同時保持了解決 ARC 挑戰的初衷。
數據增強一直是先前 ARC-AGI 競賽中的常見做法(Akyurek 等人,2024;Li 等人,2024b)。然而,我們的方法超越了傳統的數據集增強,在整個方法中應用了變換操作,包括訓練、推理和選擇階段。
表1比較了近期的 ARC 方法,結果顯示 OpenAI-o3(一種閉源方法)目前報告了最高得分,但缺乏可復現的細節。此外,o3 對每個任務都使用了巨大的計算資源,單個挑戰就耗費了 17 美元的算力(arcprize.org, 2025)。相比之下,TTT+BARC 是完全開源的,并且是有史以來第一個在 ARC 上超過平均人類表現的公開方法,展示了透明方法論在推進抽象推理研究方面的優勢。
3. 符號與設定
為了使我們的方法具有形式上的基礎,我們從貝葉斯視角出發來解決謎題問題,將每個謎題視為來自潛在解空間分布的一個部分觀測結果。
我們考慮一組任務(例如從 ARC 基準中抽取),其中每個任務用 p∈P表示,P代表所有可能任務的空間。對于每個任務 p,都存在一個對應的解空間 Sp。
問題表示 。在本文中,我們交替使用“任務”(task)、“謎題”(puzzle)和“問題”(problem)這三個術語,它們都指由少量 k個輸入-輸出示例以及一個單獨的測試輸入所定義的問題描述。具體地,我們表示:
對于 ARC 謎題來說,這類增強包括對每個任務進行旋轉和反射、打亂示例順序以及對顏色進行置換。增強集合 Φ 通過編碼所有有效解都應滿足的不變性,定義了先驗概率 P(s)的一部分。
4. 方法
其中 T>0是對 LLM 概率估計設定的一個閾值。在實際操作中,我們在潛在解空間上執行深度優先搜索(DFS),并對累積概率低于閾值 T的任何部分路徑進行剪枝。如果多個增強形式產生了相同的解(在增強意義下等價),我們會將它們合并為一個候選解。通過在推理過程中緩存中間計算結果,這種基于 DFS 的方法可以快速定位所有高于閾值 T的可能解。這確保了具有足夠高概率的解 P^(s∣p)不會被遺漏,而概率較低的解則不會被考慮。
(3) 基于“專家乘積”的候選排序 。然而,一旦我們生成了候選集合 Cp,T,根據單一增強形式所得到的最高概率解并不總是正確的,部分原因在于自回歸生成中的不一致性。
我們可以通過重新利用增強來緩解這一問題,甚至從中受益:即對每一個候選解 s,在每一種增強變換 ?j∈Φ下重新評估,并使用 LLM 提供的概率 P^來計算其似然。
與前一步不同,此階段不再依賴生成式采樣;而是直接評估每個增強輸入 ?j(p)對應的解 s的各個詞元的對數似然。利用這些經過重新增強的候選解,我們通過對所有增強情況下的概率取乘積,形成一個綜合得分:
這種基于乘積的方法對異常值較為敏感,能夠過濾掉那些在不同增強視角下看起來不太可能的解。因此,正如我們在下一節中所證明的那樣,這種方法平均而言優于隨機選擇的增強方式。最后,我們選擇得分最高的解作為最終答案:
這種兩步方法——(1)基于深度優先搜索(DFS)的生成,結合單一增強下的剪枝;以及(2)事后多增強評分——確保我們系統地探索高概率解,并隨后對其排名進行優化,從而考慮到大型語言模型在不同問題表示下的不一致性。在實際應用中,即使有多個解進入了候選集 Cp,T ,它們的最終排名仍可能差異很大。通過整合來自多個視角的證據,正確的解往往能夠脫穎而出,變得更加容易識別。
4.1. 專家乘積增強
接下來,我們從 KL 散度的角度分析所提出集成方法的性能,即集成分布 P^相對于真實分布 P的差異。設每一個有效的增強變換 ?j通過 LLM 對真實增強后的分布 P(?j(s)∣?j(p))進行近似,記作:
由于大語言模型在不同增強樣本上的表現可能不一致(與真實分布 P 不同),我們在上一節中描述的方法通過幾何平均集成(geometric-mean ensemble)來整合這些結果:
關于定理 4.1 的證明,請參見附錄 A。關鍵結論是,當增強樣本之間存在分歧時,logZ≤0會變得更小,這在期望上可以使集成結果優于任意一個隨機選擇的單個增強樣本的預測器。因此,當不同的“專家”(即增強樣本)意見不一致時,這種方法表現尤為出色——而在我們的情形中,由于大語言模型(LLMs)具有因果關系的自回歸特性,這種狀態自然就會出現。
實際意義:在實踐中,“專家乘積”(product of experts)方法在不同增強樣本能夠捕捉不同錯誤的情況下往往表現出色。只要真實解在任何一個增強樣本下都沒有被賦予零概率,它就仍然是可行的。因此,盡管增強樣本之間的分歧可以剔除那些看似合理但錯誤的候選答案,正確的候選答案卻能在不同視角下不斷積累優勢。這種協同效應通常能產生比僅依賴單一問題表示更可靠的預測結果。
5. 實驗
我們解決 ARC-AGI 問題的方法結合了數據擴展、語言模型的多階段微調以及專門的解法評估。下面,我們將解釋這些組件是如何協同工作,在控制計算成本的同時提升模型性能的。
5.1 數據建模
為了將大語言模型(LLMs)應用于 ARC-AGI 謎題,我們需要以適合模型的方式對數據進行分詞(tokenize)。這一過程需要仔細考慮兩個主要挑戰:
首先,由于典型的 LLM 架構中上下文長度有限,長上下文任務會導致推理時間增加且性能下降(Liu 等,2024),因此我們需要一種能夠最小化模型所需處理 token 數量的表示方式。其次,已有廣泛認識的是,大語言模型(LLMs)中的許多常見失敗模式源于分詞過程(Singh & Strouse, 2024b;Bostrom & Durrett, 2020;Sun 等,2023)。例如,標準的分詞技術會將一個、兩個或三個連續數字中的某些(但不是所有)組合合并為專用的“數字組合 token”(Singh & Strouse, 2024a)。這類合并會使謎題變得不必要地復雜。
為了解決這個問題,我們選擇簡化模型可用的 token 集合。具體來說,我們將可用 token 的數量從超過 120,000 個減少到 64 個(見附錄中的表 5)。
這種簡化帶來了關鍵優勢。它顯著減小了模型大小,因為我們能夠從嵌入層中刪除大部分行。此外,通常在文本分詞過程中發生的 token 合并不再可能發生。這確保了模型可以專注于數據本身,而不會受到數字分隔符的干擾。
如圖 2 所示,我們在每個任務的開頭添加了一小部分額外的 token。令人驚訝的是,這種添加提升了模型的表現。我們認為,在微調過程中(此時嵌入層也在訓練),模型學會了將這些額外的 token 用作一種計算緩沖區,從而影響后續每一個 token,進而提升整體性能。
5.2 訓練模型
選擇一個合適的大型語言模型(LLM)對于實現優異的性能至關重要。在評估了多個模型之后,我們發現 Mistral-NeMo-Minitron-8B-Base(Sreenivas 等,2024)在我們的實驗中表現最佳。鑒于該模型的規模,我們需要采用高效的微調方法才能有效使用它。
因此,我們采用了低秩適應(LoRA)(Hu 等,2021)、4 位量化以及梯度檢查點技術,這些功能都得到了 unsloth 庫的支持。我們將 LoRA 適配應用于網絡的所有層,包括輸入和輸出嵌入層。
對于每一個任務,
初始微調 :初始微調使用了 LoRA 秩數(rank)為 256,并在單個 H100 GPU 上完成。盡管存在多個類似 ARC 的數據集,例如 Concept-ARC(Moskvichev 等,2023)和 ARC-Heavy(Li 等,2024b),但我們選擇僅使用 RE-ARC(Hodel,2024)進行訓練。這樣做的目的是最小化“概念泄漏”(conceptual leakage)的風險,即某些類型的問題可能出現在訓練數據中,從而非預期地大幅降低評估任務的難度。相反,我們只訓練官方 ARC-AGI 訓練集的復制品(即 RE-ARC),以最小化這種影響,確保我們的結果具有魯棒性。
測試時訓練 (Test-time training):第二階段的訓練時間受限,且僅針對評估集進行,使用 LoRA 秩數為 32,共運行 64 個訓練步,批量大小為 1。僅使用測試時訓練就能顯著提升正確解決任務的比例,如表 2 所示。調整不同的訓練參數僅對結果產生微小影響。
初始微調在 NVIDIA H100 GPU 上耗時 98 小時,而測試時訓練在 NVIDIA RTX 4090 GPU 上平均每個任務僅需 51 秒。有關我們訓練參數的概覽,請參見附錄中的表 4。
5.3 解法推理
如第 4 節所述,我們使用基于深度優先搜索(DFS)的采樣方法生成潛在解法的候選集 Cp,T。此處的目標是快速生成一個包含少量候選解的小集合,并且該集合中包含正確解的概率較高。
我們的增強函數集合 Φ每個任務包含 16 個函數——每個 D8 對稱變換被使用兩次,但分別搭配不同的、隨機選擇的顏色置換和示例重排序。
表 3 提供了 DFS、束搜索(Beam Search)、多項式采樣和貪心采樣之間的對比。DFS 采樣能夠快速高效地找到高質量的候選集合,相比用于生成多個解的隨機采樣方法,其計算開銷更低,而且比束搜索使用的顯存(VRAM)顯著更少。此外,它還具有較低的誤報率(false positive rate)。
雖然在 T=9%的情況下,DFS 找到的正確解數量略少于 4 倍隨機采樣(76.0% vs. 77.3%),但它仍能獲得更好的“選擇得分”,因為平均而言,它返回的誤報數量只有后者的一半左右。此外,DFS 只用了四分之一的推理時間(9 小時 32 分 vs. 39 小時 47 分)。
雖然采用4束的束搜索(beam search)可以達到深度優先搜索(DFS)在T = 9%時的相同性能,但它需要大約兩倍的顯存(7.3GB對比14GB),并且耗時是后者的4倍(37小時36分鐘對比9小時32分鐘)。需要注意的是,與其他實驗中使用的Unsloth庫相比,束搜索算法并未在該庫中實現,這可能會帶來一些時間節省。然而,即使考慮這些節省,束搜索仍然需要更多的時間,因為它會返回大量的誤檢結果,這增加了后續選擇過程中的運行時間,因為每個候選結果都需要在不同的增強條件下進行評估。
由于我們事先不知道正確解的采樣概率,因此必須將概率下界 T視為一個超參數。我們發現,T在 5% 到 20% 之間時,在推理時間和正確解數量之間取得了合理的平衡;但具體數值取決于所使用的模型和訓練流程。
同樣地,由于概率質量在解樹上的分布方式,當模型對其預測有更高置信度時,DFS 的效率也會更高。
我們在圖 4 中比較了不同 T值下包含正確解的候選集數量。這個函數隨著 T的增加而單調遞增,但推理成本和集合 Cp,T的大小也隨之上升,使得從候選集中挑選出正確解變得更加困難。
最終結果使用的是 T=9%,因為它的推理時間大致與貪心采樣相當。
我們在附錄中的算法 1 中提供了 DFS 采樣算法的偽代碼。
5.4 選擇策略
到目前為止,我們的方法生成的候選解集合很可能包含正確解。然而,要真正解決任務,還需要在最多兩次猜測中從這些候選解中識別出正確解。
如第 4.1 節所述,我們再次使用一組增強函數 Φ來計算“專家乘積”集成(product of experts ensemble)的結果 P。如果某個候選解 s∈Cp,T在 P中具有(第二)最高概率,則它會被選為我們兩次猜測中的一次。
在圖 5 中,我們比較了使用增強過程前后正確解的排名情況。在大多數情況下,當正確解初始排名不在第一位時,這種增強能夠提升它的排名,從而提高了我們解決給定任務的可能性。
在定理 4.1 中,我們已證明我們的“專家乘積”(product of experts, PoE)方法優于隨機選擇一個增強結果的方法,這一點在表 3 中也清晰可見。在此部分中,我們比較了不同的采樣方法和不同的聚合方法。在所有情況下,使用概率的乘積都帶來了分數的提升,其中使用最小值 minPi的方法在大多數采樣方法下排名第二,而最大值 maxPi的表現最差。
對于我們 T=9%的 DFS 推理,“專家乘積”方法相比對概率取平均的方法,最終得分提升了 5%(66.6% vs. 71.6%)。
6. 討論
我們的方法建立在一些熟悉的技術基礎之上——數據增強、貝葉斯建模和專家乘積評分——但針對類似 ARC 的謎題進行了專門的定制。
我們方法的核心是讓一個經過微調的大語言模型(LLM)扮演兩個角色:作為生成器(generator),它為每個謎題的增強版本提出解法;作為評分器(scorer),它通過對所有增強下的似然值取乘積(幾何平均)來對每個生成的候選解重新打分。這種方法帶來了兩方面的優勢。
首先,一個候選解必須在每一種有效的變換下都具有較高的聯合合理性,才能獲得較好的排名,這使得模型難以依賴僅在某一種表示中出現的虛假相關性。其次,正如我們在第 4.1 節所展示的那樣,這種對數線性池化(log-linear pooling)方法自然地起到了集成學習的作用。
盡管 ARC 以復雜著稱,我們這種“先生成再重評分”的兩階段策略仍在開源模型中達到了最先進的(SOTA)表現。雖然目前只有一個閉源解決方案(arcprize.org, 2025)在絕對得分上更高,達到每任務 17 美元成本,但我們完全開源的流程以其透明性、可復現性,以及尤其突出的成本效益(每任務僅 0.02 美元)脫穎而出。
通過將這些思想應用于 ARC,我們強調了一個更廣泛的原則:在處理結構化或抽象推理任務時,關鍵因素是利用語義保持(semantic-preserving)的有效變換,迫使模型在面對同一問題的不同視角時保持一致性。這使我們能夠將單一模型用作一個“專家集成體”。
我們認為這一視角可以推廣到更多復雜的符號推理挑戰中,只要能為這些問題定義出相應的變換方式。我們的結果表明,大語言模型在推理過程中若能受到恰當引導,并輔以前驗感知(prior-aware)的評分機制,就可以超越默認的采樣方法,在抽象領域中捕捉更深層的結構。
原文鏈接:https://arxiv.org/pdf/2505.07859?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.