ARC-AGI-2: A New Challenge for Frontier AI Reasoning Systems
ARC-AGI-2:面向前沿AI推理系統的新挑戰
https://arxiv.org/pdf/2505.11831
摘要
《面向人工通用智能的抽象與推理語料庫》(ARC-AGI)于2019年推出,建立了一個具有挑戰性的基準,用于通過一組獨特且新穎的任務來評估人工智能系統的總體流體智力,這些任務僅需極少的先驗知識。盡管在過去五年中,ARC-AGI激發了大量的研究活動,但近年來人工智能的進步要求具備更細粒度、更高認知復雜度的評估基準。我們推出了ARC-AGI-2,這是該基準的升級版本。ARC-AGI-2保留了其前身的輸入-輸出配對任務格式,確保研究人員的延續性。它包含一組新策劃并擴展的任務,專門設計用于在更高的流體智力水平上提供更細致的信號,以評估抽象推理和問題解決能力。為了說明ARC-AGI-2的難度和特點,我們展示了大量人類測試的結果,提供了強有力的基線,突出了該基準對人類智能的可及性,同時又對當前的人工智能系統構成挑戰。ARC-AGI-2旨在作為下一代工具,用于嚴格衡量向更通用、類人AI能力發展的進展。
7 是什么讓 ARC-AGI-2 更具挑戰性? 7.1 關鍵設計變化
許多ARC-AGI-1任務往往可以被人類測試者幾乎立即解決,而無需付出顯著的認知努力。相比之下,ARC-AGI-2中的所有任務都需要一定程度的深思熟慮——例如,在我們的樣本中,人類測試者平均每個任務耗時2.7分鐘完成。
這種難度的提升源自幾個關鍵的設計變化。
首先,一個基礎性的變化是:ARC-AGI-2任務更加“獨特”——雖然一些ARC-AGI-1任務與外部可找到的模式存在一定程度的重疊(由于它們較為簡單),但據我們所知,每一個ARC-AGI-2任務都是完全新穎的。
其次,從信息內容的角度來看,ARC-AGI-2任務更加復雜——通常包含更大的網格、每個網格中更多的對象,以及每個任務中更多的概念。對ARC-AGI-2任務進行壓縮后,每個任務所包含的信息比特數普遍高于ARC-AGI-1。
最后,ARC-AGI-2的一個重要目標是探索組合泛化(compositional generalization)的更深層次能力——即以新的方式組合已知規則或概念的能力。這通常表現為多規則組合推理、多步驟組合推理、上下文相關規則應用,以及上下文中定義符號等能力。下面我們將回顧這些設計原則,展示定性示例,并討論它們為何對AI系統構成挑戰。
7.2 面向組合泛化的設計:示例
多規則組合推理:雖然大多數ARC-AGI-1任務可以通過識別并應用一個高層次的單一變換規則來解決(例如,“物體向下掉落”),ARC-AGI-2任務則旨在融合多個同時起作用、且常常相互影響的規則。例如,在圖6中,解題者必須裁剪輸入網格至矩形邊框區域,縮放彩色對象,并將縮放后的對象放入邊框區域內形狀相同的對應空洞中。
多步驟組合推理:許多ARC-AGI-2任務要求按順序應用某條規則,其中第N步后的狀態直接依賴于第N?1步的結果。一個例子可能是迭代地放置對象,其中下一個對象的正確位置和方向由前一個對象的放置方式決定(如圖7所示)。如果不執行前N個步驟,幾乎不可能預測第N+1個對象的位置。
上下文相關規則應用:ARC-AGI-2中包含一些任務,要求測試者不僅要識別核心的變換規則,還必須理解其應用方式是如何受到網格中特定上下文元素調節的。這在推理鏈中增加了一個額外的步驟,通常涉及某種形式的控制流。例如,一個任務可能涉及像圖8中那樣將形狀隔離并堆疊到一側,但選擇哪一側(例如左側或右側)則取決于一個上下文線索,比如形狀輪廓的顏色。雖然當前系統可能識別出基本的形狀堆疊操作,但要正確解讀和應用這種上下文控制機制仍然是一個重大挑戰。這需要將變換規則與一個從上下文中得出的選擇或條件規則進行組合。
上下文中的符號定義:許多ARC-AGI-2任務中包含“符號”(即代表自身之外意義的對象),其含義是在任務內部定義的。例如在圖1中,帶有孔洞的彩色矩形表示與該孔洞數量相同的形狀所應使用的顏色。根據我們的經驗,這種即時性的符號賦值對當前前沿的AI系統來說是一個重大挑戰。
1 ARC-AGI-1:2019-2024 年歷史
由 Fran?ois Chollet 在2019年的論文《論智能的衡量》中引入的“抽象與推理語料庫”(ARC),后來被稱為 ARC-AGI-1,代表了與傳統人工智能基準的重大偏離。傳統基準通常關注特定技能或在大型數據集中進行知識回憶。相反,ARC-AGI-1 的設計目的是評估一種更為通用、類似人類的流體智力——即高效地推理和解決新問題的能力,而無需依賴大量的先前經驗或領域特定訓練。
1.1 數據集
該數據集由一系列推理任務組成,任務以離散符號的網格配對形式呈現(顯示為彩色單元格)。每個任務包含少量(通常為2到5個)示例配對,其中每對展示了一個輸入網格根據某個未明確說明的規則被轉換為輸出網格。測試者(人類或AI)的目標是從這些少量示例中推斷出該規則,并將其正確應用于一個或多個未見過的測試輸入網格,以生成相應的輸出網格。網格大小各不相同,但最大不超過30×30,最多使用10種不同顏色。圖1中可以找到一個示例。
原始公開數據集中包含400個訓練任務和400個評估任務。此外,還保留了一個包含100個任務的私有評估集(Private Evaluation set),用于競賽排行榜;在2024年中期又引入了一個包含100個任務的“半私有”評估集(Semi-Private Evaluation set),用于驗證閉源模型(1)。
ARC-AGI 有三個核心特征:
- 它旨在防止過擬合和記憶化,專注于純粹的一般流體智力測試
。不應存在可以提前準備應對的任務。數據集中的每個任務都是獨一無二的。
- 它最大限度地減少了對先驗知識的需求
。ARC-AGI任務僅需人類與生俱來的基本認知先驗能力,例如物體恒存性、目標導向性、基礎數感(計數)以及基本幾何與拓撲概念(如連通性、對稱性)(10)。關鍵在于,它完全不需要專門的世界知識(例如歷史事實)或語言理解能力來解答,這使其區別于那些用于評估大語言模型(LLMs)的知識密集型基準。
- 普通人在沒有特殊訓練的情況下也能完成這些任務
ARC-AGI-1 基準已成為多個高知名度公共競賽的核心主題,隨著對該基準的興趣日益增長,競賽獎金池也逐年顯著增加。舉辦這些競賽的目的在于激勵研究人員提出新思路,推動高效、通用系統的發展,以期戰勝 ARC-AGI 的挑戰。
過往的 ARC-AGI 競賽(獎金單位為美元):
在推出后的幾年里,進展一直較為緩慢。2020年競賽的獲勝方案使用程序合成技術,在私有評估集上僅取得了20%的成績(3)。盡管從2020年到2024年初,大語言模型(LLMs)迅速擴展(在此期間基礎LLM的規模增長了超過1萬倍),但ARC-AGI的最先進成績仍停留在約34%(7),遠低于估計的人類表現。
這一局面在ARC Prize 2024競賽期間迅速轉變,這是由ARC Prize基金會主辦的首屆競賽(9)。在該競賽中,私有評估集上的最高得分達到了55.5%(由MindsAI團隊取得),盡管該解決方案并未開源,因此不符合獲獎資格。提交符合要求的獲勝團隊“the ARChitects”取得了53.5%的成績(7)。相較于此前最先進的水平,這是一個顯著的躍升,突顯了競賽所激發的新方法的有效性,特別是測試時適應(Test-Time Adaptation, TTA)方法的應用。這類方法通過在測試時進行動態調整來提升性能,例如采用測試時搜索(如思維鏈合成或符號程序合成)或測試時梯度下降等方式實現。這些方法在《ARC Prize 2024 Technical Report》中有詳細討論(8)。
在2024年底競賽結束后不久,OpenAI 的“o3”模型在一個預覽版本的私下測試中,在ARC-AGI-1的半私有評估數據集上表現出色。借助大量計算資源,該模型在測試中分別實現了76%(低計算量;估計每任務成本:200美元)和88%(高計算量;估計每任務成本:20,000美元)的成績(12),首次超越了名義上的人類基準線。隨后公開發布的o3版本表現有所下降,但依然強勁(例如,o3-medium在半私有集上得分為53%)(11)。盡管如此,這一預覽結果表明,在使用大量計算資源的情況下,基于測試時適應范式的ARC-AGI-1正在接近飽和狀態。
ARC Prize 2024帶來了幾個關鍵性的啟示。首先,它表明要推進ARC-AGI的發展,必須超越以往主流的深度學習范式。值得注意的是,所有頂尖團隊都采用了測試時適應方法,這已成為不可或缺的策略。此次競賽成功激勵了這些新方向的探索與開源,驗證了ARC-AGI在推動人工智能研究向更通用、靈活的推理能力發展方面的價值。同時,這也凸顯出有必要推出一個升級版、更具挑戰性的ARC-AGI版本,以持續推動通往人工通用智能(AGI)的進步。
2 ARC-AGI-1 的局限性
以往的競賽揭示了ARC-AGI-1的若干關鍵局限性(8):
任務易受非通用化策略的影響
在2020年的首屆競賽中,表現最佳的個人提交方案取得了20%的得分。然而,后續的一項元分析匯總了當年所有提交方案所解決的獨特任務后發現,至少有一個團隊成功解決了私有評估集中49%的任務。關鍵在于,這些成功提交所采用的主要技術被報告為暴力程序搜索(brute-force program search)的各種變體。
這表明,ARC-AGI-1私有評估集中近一半的任務可能容易受到計算密集型、窮舉式搜索方法的攻擊,而無需依賴我們認為對AGI至關重要的高效抽象推理能力。盡管剩余任務(約50%)已被證明足夠困難,足以抵御當前的方法(從而使該基準仍未被完全破解),但存在相當一部分任務可被暴力破解,這大大削弱了該基準的評估信號。它可能會獎勵計算資源的投入,而非更通用認知架構的發展。一個穩健的AGI基準理想情況下應盡可能減少對這類非通用化解題策略的敏感性。
缺乏可靠的第一方人類測試數據
盡管原始的ARC-AGI私有任務已被確認對人類可解(最初的兩名測試者得分分別為97%和98%),并且一些第三方研究也調查了Mechanical Turk用戶在公開數據集上的表現(例如紐約大學的“Fast and flexible: Human program induction in abstract reasoning tasks”(13)以及“H-ARC: A Robust Estimate of Human Performance on the Abstraction and Reasoning Corpus Benchmark”(14)),但目前尚無基于統一條件、針對競賽中使用的隱藏任務所獲得的官方第一方人類基線得分。
缺乏這樣一個人類基線,使得對人類表現的準確認識變得困難。第三方研究中參與者群體、動機、時間限制以及使用界面的不同,可能會引入變異性,與潛在的標準化第一方協議相比存在差異。
低于人類流體智力水平的飽和度
從經驗來看,處于智力分布高端的人類可以毫不費力地解決超過97%的ARC-AGI-1任務,這意味著該基準在尚未能捕捉完整人類流體智力范圍時就已經達到了上限。
難度分布不一致
根據實測得分情況,ARC-AGI-1在其不同數據子集之間可能存在難度分布上的不一致(例如,公共評估集通常被認為比私有評估集更容易)。如果這些子集并非來自一個底層任務難度分布的可比抽樣,那么對于得分的解讀將變得不可靠。
信息泄露風險
在所有四屆主要的ARC-AGI-1競賽(2020–2024年)中,相同的100個私有評估任務被重復使用且未作更改,用于為參賽者提供排行榜的中間反饋。因此,多年來已有約10,000次基于該隱藏任務集的表現得分被公開。雖然單個得分提供的信息有限,但每個數據點都可能成為一個潛在的信息泄露渠道,無論其影響多么微小。經過數千次迭代和多個團隊的嘗試,參賽者可能通過分析得分變化與提交修改之間的關聯,隱式或顯式地推斷出隱藏任務的特征。
這種累積性的反饋循環帶來了顯著的風險:模型可能會逐漸調整以適應這100個特定任務的獨特特性,而不是發展出真正通用的推理能力。因此,排行榜上的性能提升可能反映的是對特定測試集的適應,而非抽象問題解決能力的真實進步。
3 ARC-AGI-2 的目標
針對上述局限性,我們于2021年底開始開發ARC-AGI-2。這個更新版的基準旨在延續ARC-AGI-1的核心理念,同時全面解決上述問題。
我們在此次更新中的主要目標如下:
保持基本原理一致。堅持ARC-AGI-1的基本原則:每個任務都是唯一的、無法提前記憶的;所有任務僅需基礎的“核心知識”(Core Knowledge);所有任務都力求遵循“對人類簡單、對AI困難”的設計準則。
保持任務格式一致。保留ARC-AGI-1已被廣泛理解和使用任務格式:每個任務通過輸入-輸出網格對來定義,網格大小從1×1到30×30不等,每個單元格具有最多10種離散值(顏色)。這確保了研究人員的熟悉度,并便于復用現有的工具和可視化方法。
減少可被暴力破解的可能性。在任務設計上有意減少對樸素或計算密集型的暴力程序搜索技術的易感性,因為這類任務無法為AGI進展提供有效信號。此舉進一步將重點轉向高效的適應能力。
大規模的第一方人類測試。開展面向多樣化人群的大規模實時人類測試。這將提供關于人類任務可解率、感知難度以及解題策略的可靠第一方數據,建立可用于嚴格對比AI系統表現的人類基線性能指標(包括準確率,以及可能的效率指標如時間或成本)。
更廣的有效“信號帶寬”。提供一個更廣泛的、有實際意義的得分區間來衡量AI能力。通過納入經過精心設計、覆蓋合理難度范圍的任務,同時仍保持對人類的普遍可及性,并減少可通過近乎簡單手段解決的任務數量,ARC-AGI-2應能更好地區分具備不同流體推理能力的系統。
各子集間面向人類的難度校準。對每一個子集(公共評估集、私有評估集、半私有評估集)進行篩選,使其在人類可解性和感知難度方面來自明顯相似的分布,從而確保在一個集合上的表現可以可靠地預測在其他集合上的表現。
4 面向人類的校準測試 4.1 測試協議
我們在一個受控環境中,對潛在的ARC-AGI-2任務進行了面向人類志愿者的測試。參與者在會議室環境下單獨使用電腦進行測試,每次最多容納34人。分配的任務是隨機的,并通過一個控制界面極簡的自定義用戶界面呈現。參與者在開始任務前需完成一份簡短問卷和界面操作教程。每位參與者在90分鐘的測試環節中可獲得115至150美元的基本報酬,此外每正確完成一個任務還可獲得5美元的激勵獎勵。三輪測試分別于2024年11月至2025年5月之間進行。
4.2 參與者背景
研究參與者來自多樣化的專業背景,在技術、編程、數學和解謎能力方面的自我報告經驗也存在廣泛差異(部分數據如圖2所示)。
4.3 測試結果
所測試的任務中,大多數(68%)包含一個測試配對,其余任務包含兩個(29%)、三個(3%)或四個(<1%)測試配對。只有當一個任務中的所有測試配對都被正確解答時,才被視為“完全正確”;若至少有一個測試配對被正確解答,則視為“部分正確”。
我們將“一次嘗試”定義為任何持續時間超過5秒的任務查看行為。
根據這些定義,我們記錄了515個測試環節中407名獨立參與者對1,848個獨特任務測試配對的嘗試(其中許多任務未被納入最終的ARC-AGI-2)。總計發生了13,405次測試配對嘗試,其中8,277次(62%)成功解決。參與者在每個嘗試的測試配對上花費的中位時間為2.3分鐘,而在成功完成的測試配對上,中位用時為2.2分鐘(見圖3)。
4.4 表現情況
參與者在解題速度(每分鐘完成的任務數)和準確率(每次嘗試中完成的任務比例)方面表現出顯著差異,總體來看,這兩個指標之間呈現出正相關關系(見圖4)。
在觀察單個參與者在測試環節中的表現時,我們發現大多數參與者按照指示依次完成任務,偶爾會回退去重新審視之前未能解決的任務。
對于所有記錄的自我報告人口統計因素——包括職業、行業、技術經驗、編程能力、數學背景、解謎能力以及其他各種測量屬性—— none 展現出與表現結果之間具有明確的、統計上顯著的相關性。這一發現表明,ARC-AGI-2任務評估的是一般的解決問題能力,而非依賴于特定領域知識或通過特定職業或教育經歷獲得的專業技能。
5 任務篩選流程
初步篩選與任務納入:候選任務來自兩個渠道:一部分是由ARC Prize基金會工作人員及合作伙伴專門為ARC-AGI-2新創作的任務,另一部分則是此前ARC-AGI版本中未使用過的儲備任務。由于在人類測試階段增加分配的任務數量相對成本較低,我們有意生成了過多的任務,預計在后續篩選過程中會有所淘汰。來自ARC-AGI-1公共訓練集的任務未被納入此次測試。
只有當至少有兩名獨立參與者在其前兩次嘗試中各自解決了一個或多個子配對任務時,該任務才會通過人類測試階段并進入后續流程。
任務子集的難度校準:對于每個任務,我們計算了實現“完全正確”解法的參與者比例,并將此作為經驗難度指標。我們將任務劃分為公開集、半私有集和私有集,確保各集合之間的人類準確率平均差異不超過1個百分點。新創作的任務優先分配到私有集中,而之前已公開的任務則繼續保留在公開集中。
冗余檢測:我們使用了一個定制的評審界面,對所有符合條件的任務進行視覺對比。當判斷一個程序化解決方案很可能可以同時解決兩個任務時,這兩個任務就被視為存在冗余。被標記的任務對需經過共識評審流程,最終確保所保留的任務之間不重疊。
訓練子集:那些被大多數測試者輕松解決的任務被歸入“公共訓練集”(Public Training set)。該集合未進行難度校準。公共訓練集不是一個評估集,而是為模型訓練和展示ARC-AGI格式而設的一個通用任務庫。因此,該集合中包含不同難度級別的任務。此外,并非該集合中的所有任務都經過了完整的人類測試。
最終驗證:所有任務都經歷了兩層驗證流程。外部驗證方面,兩名獨立的人類測試者完成了ARC-AGI-2公共評估集、半私有集和私有集中的每一個任務(見圖5),這為任務的可解性提供了初步確認。內部驗證方面,除原作者外,額外安排了一名評審人必須獨立完成其他任務的求解。
這些協議優先確保測試配對的正確性。在少數訓練配對中發現了單元格級別的輕微不一致問題。雖然這些錯誤并非有意造成,且并未影響測試配對的可解性(人類知道忽略這些噪聲單元格),但我們在發現之處均進行了修正,以保持任務的美觀性和邏輯一致性。
在完成這些任務篩選與驗證流程之后,最終的ARC-AGI-2測試配對平均被75%的嘗試者成功解決。普通測試者平均解決了他們嘗試任務中的66%。100% 的 ARC-AGI-2任務在最多兩次嘗試內被至少兩人解決(其中許多任務被更多人解決)。
6 最新技術水平(State-of-the-art)
ARC-AGI-2上的基線模型性能是使用公開可用的《Model Baseline》倉庫生成的(6)。模型是在半私有評估集上進行評估的。
完整的更新得分發布在官方的 ARC-AGI 排行榜 上(1)。
盡管得分高于0%表明模型至少解決了一個任務,但在ARC-AGI-2中,低于5%的準確率通常不被視為具有實際意義,因為這些得分很可能來自于噪聲級別的啟發式方法或偶然的模式匹配。根據我們的經驗,只有當表現超過5%這一閾值時,才能開始觀察到有意義的信號。
7 是什么讓 ARC-AGI-2 更具挑戰性? 7.1 關鍵設計變化
許多ARC-AGI-1任務往往可以被人類測試者幾乎立即解決,而無需付出顯著的認知努力。相比之下,ARC-AGI-2中的所有任務都需要一定程度的深思熟慮——例如,在我們的樣本中,人類測試者平均每個任務耗時2.7分鐘完成。
這種難度的提升源自幾個關鍵的設計變化。
首先,一個基礎性的變化是:ARC-AGI-2任務更加“獨特”——雖然一些ARC-AGI-1任務與外部可找到的模式存在一定程度的重疊(由于它們較為簡單),但據我們所知,每一個ARC-AGI-2任務都是完全新穎的。
其次,從信息內容的角度來看,ARC-AGI-2任務更加復雜——通常包含更大的網格、每個網格中更多的對象,以及每個任務中更多的概念。對ARC-AGI-2任務進行壓縮后,每個任務所包含的信息比特數普遍高于ARC-AGI-1。
最后,ARC-AGI-2的一個重要目標是探索組合泛化(compositional generalization)的更深層次能力——即以新的方式組合已知規則或概念的能力。這通常表現為多規則組合推理、多步驟組合推理、上下文相關規則應用,以及上下文中定義符號等能力。下面我們將回顧這些設計原則,展示定性示例,并討論它們為何對AI系統構成挑戰。
7.2 面向組合泛化的設計:示例
多規則組合推理:雖然大多數ARC-AGI-1任務可以通過識別并應用一個高層次的單一變換規則來解決(例如,“物體向下掉落”),ARC-AGI-2任務則旨在融合多個同時起作用、且常常相互影響的規則。例如,在圖6中,解題者必須裁剪輸入網格至矩形邊框區域,縮放彩色對象,并將縮放后的對象放入邊框區域內形狀相同的對應空洞中。
多步驟組合推理:許多ARC-AGI-2任務要求按順序應用某條規則,其中第N步后的狀態直接依賴于第N?1步的結果。一個例子可能是迭代地放置對象,其中下一個對象的正確位置和方向由前一個對象的放置方式決定(如圖7所示)。如果不執行前N個步驟,幾乎不可能預測第N+1個對象的位置。
上下文相關規則應用:ARC-AGI-2中包含一些任務,要求測試者不僅要識別核心的變換規則,還必須理解其應用方式是如何受到網格中特定上下文元素調節的。這在推理鏈中增加了一個額外的步驟,通常涉及某種形式的控制流。例如,一個任務可能涉及像圖8中那樣將形狀隔離并堆疊到一側,但選擇哪一側(例如左側或右側)則取決于一個上下文線索,比如形狀輪廓的顏色。雖然當前系統可能識別出基本的形狀堆疊操作,但要正確解讀和應用這種上下文控制機制仍然是一個重大挑戰。這需要將變換規則與一個從上下文中得出的選擇或條件規則進行組合。
上下文中的符號定義:許多ARC-AGI-2任務中包含“符號”(即代表自身之外意義的對象),其含義是在任務內部定義的。例如在圖1中,帶有孔洞的彩色矩形表示與該孔洞數量相同的形狀所應使用的顏色。根據我們的經驗,這種即時性的符號賦值對當前前沿的AI系統來說是一個重大挑戰。
8 ARC Prize 2025 8.1 Kaggle 競賽
全球性的 ARC Prize 競賽于 2025 年回歸,提供總計100萬美元的獎金,以加速開源社區在完成 ARC-AGI 方面的研究進展。其目標是通過公開發布 ARC-AGI 解決方案這一具體挑戰,激勵人工智能研究人員探索新的思路與方法。本競賽面向個人研究者和小型團隊——他們因好奇心驅動、被復雜性激發靈感,并致力于對真正通用智能的嚴謹追求。
100萬美元的獎金分配如下:
- 大獎(70萬美元)
:授予第一個在隱藏的 ARC-AGI-2 私有評估集上達到或超過85% 準確率的團隊。
- 年度進步獎(12.5萬美元)
:分為“最高得分獎”(5萬美元)和“論文獎”(7.5萬美元),并確保在2025年頒發。
- 待定獎項(17.5萬美元)
:額外的獎金池,用于獎勵特別突出的成就。
評估協議:每次提交將在 Kaggle 的安全沙箱服務器環境中,在四塊 NVIDIA L4 GPU上離線執行。在單個12小時的真實時間窗口內,提交代碼必須解決240個此前未見過的 ARC-AGI-2任務,其中包括 120 個半私有評估任務和 120 個私有評估任務,且不得訪問互聯網(以防止數據泄露)。
每次提交后,半私有評估準確率將反映在公共排行榜上;而私有評估準確率在競賽結束前保持隱藏狀態,直到參賽者在賽后公開其解決方案。最終排名由競賽結束后計算出的私有評估集得分來決定。
時間安排:ARC Prize 2025 于2025年3月24日啟動。最終提交截止時間為2025年11月3日,論文提交截止時間為2025年11月9日。
8.2 公共排行榜
公共的 ARC-AGI 排行榜(1)提供了前沿閉源模型在該基準上的表現快照。雖然這些提交不參與 ARC Prize 2025 的評獎,但它們展示了當前公眾可訪問系統所能達到的水平。
排行榜采用一個2×2矩陣形式組織,兩個軸分別為“每任務成本”和“得分”。將模型映射到這個空間中可以揭示效率(以成本為代理)與任務性能之間的權衡關系。
ARC Prize 還對哪些公司和模型有資格參與測試進行了限制。公共測試政策可在 ARC Prize 官網 arcprize.org/policy 查閱(2)。
9 結論
ARC-AGI-2 是對原始基準的重大升級,在保留其核心原則和任務格式的同時,解決了已知的局限性。它引入了更具復雜性和獨特性的任務,專門設計用于抵御暴力破解方法,并更有效地評估組合泛化能力。大規模的人類校準測試確保了這些任務對人類仍然可解,并且在難度上得到了準確的校準。
原文鏈接:https://arxiv.org/pdf/2505.11831
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.