網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

LLM推理能力深度解析

2025-06-24 08:58:27　來源: CreateAMind

上海舉報

分享至

Reasoning Abilities of Large Language Models: In-Depth Analysis on the Abstraction and Reasoning Corpus

大語言模型推理能力研究：基于抽象推理語料庫的深度分析

https://arxiv.org/pdf/2403.11793

摘要

現(xiàn)有的評估大語言模型（LLMs）推理能力的方法主要集中在結(jié)果導(dǎo)向上，這使得全面評估其推理過程變得具有挑戰(zhàn)性。我們引入了一種新穎的方法，使用抽象與推理語料庫（ARC）基準，以一種過程導(dǎo)向的方式評估LLMs的推理和上下文理解能力。我們的方法聚焦于思維語言假說（Language of Thought Hypothesis, LoTH）中的三個關(guān)鍵要素：邏輯一致性（Logical Coherence）、組合性（Compositionality）以及生成性（Productivity）。

我們精心設(shè)計的實驗表明，盡管大語言模型在某些推理任務(wù)上展現(xiàn)出一定能力，但在上述三個方面仍顯著落后于人類水平的推理能力。本文的主要貢獻在于引入了LoTH視角，提出了一種傳統(tǒng)結(jié)果導(dǎo)向方法無法捕捉的、用于評估推理過程的方法，從而為實現(xiàn)類人水平推理的人工智能系統(tǒng)的發(fā)展提供了新的洞見。

1 引言

最近的大語言模型（LLMs）展現(xiàn)出了接近人類水平的表現(xiàn)，但實驗結(jié)果顯示它們?nèi)狈νㄟ^思維或推理進行規(guī)劃的能力 [6]。因此，當(dāng)前語言模型研究中的一個關(guān)鍵問題是：大語言模型能否思考？

為了解答這個問題，研究人員提出了新的用于衡量推理能力的基準測試任務(wù)，例如 MathVista [37]、Bongard-Logo [44] 和 Raven [75]。在這些任務(wù)中，抽象與推理語料庫（Abstraction and Reasoning Corpus, ARC）[8] 成為了評估推理能力的一個代表性基準。

如下圖1所示，ARC 中的每個任務(wù)包含2到5對演示示例（即輸入-輸出配對），以及一個測試用的輸入網(wǎng)格。目標是從給定的演示示例中推斷出規(guī)則，并將其應(yīng)用到測試示例上。輸入和輸出的網(wǎng)格大小可以從最小的 1×1 到最大的 30×30 不等，每個網(wǎng)格中最多可包含10種不同的顏色。

盡管ARC的內(nèi)容和評估方法看似簡單，它仍然是一個尚未解決的挑戰(zhàn)。它要求高度的抽象能力和多步驟推理能力，這也解釋了為什么傳統(tǒng)的深度學(xué)習(xí)技術(shù)未能取得成功。迄今為止表現(xiàn)最好的模型僅達到了40-55%的準確率 [30]，而大語言模型（LLMs）如GPT-4和PaLM的準確率則大約在10-20% [42]。與人類平均80%的準確率 [27] 相比，這些結(jié)果表明人類與LLMs在推理和抽象能力方面存在顯著差異。

然而，目前對于LLMs如何進行推理、以及其推理方式與人類有何不同的深入研究仍然缺乏。這一空白促使人們呼吁從結(jié)果導(dǎo)向的評估轉(zhuǎn)向?qū)?strong>推理過程更為細致的分析 [2, 7, 24, 72]，表明我們需要一種新的視角，即基于推理過程而非僅僅結(jié)果來評估推理能力。

為了克服人工智能領(lǐng)域中結(jié)果導(dǎo)向分析的局限性，本研究采用了關(guān)于人類推理能力本質(zhì)的已有理論。根據(jù)思維語言假說（Language of Thought Hypothesis, LoTH）[17]，人類的推理能力包含三個基本特征：

邏輯一致性（Logical Coherence），即在推理過程中保持一致性的能力；組合性（Compositionality），即通過較簡單的組成部分構(gòu)建復(fù)雜思想的能力；生成性（Productivity），即利用有限的元素集合生成無限數(shù)量的思想或解決方案的能力。

盡管之前已有研究嘗試評估邏輯一致性、組合性和生成性 [6, 58]，但存在一些局限性：一方面，不同論文中對每個組成部分的定義各不相同；另一方面，現(xiàn)有的基準測試在評估各個方面的能力時表現(xiàn)不足。本研究與以往研究主要有兩點關(guān)鍵區(qū)別：1）將來自心理學(xué)的概念重新定義并適配到計算機科學(xué)領(lǐng)域；2）通過視覺推理基準 ARC 來評估所有這些要素。

為實現(xiàn)上述目標，我們設(shè)計了三項實驗：

（1）邏輯一致性（Logical Coherence）：LoTH 指出邏輯一致性包含兩種類型。一是推理一致性（Inferential Coherence）——即在多個相關(guān)實例中連貫地應(yīng)用邏輯推理的能力；二是語義一致性（Semantic Coherence）——即在推理過程和結(jié)果中保持邏輯一致性的能力 [18]。為了驗證這兩種邏輯一致性，我們在每一個已解決的 ARC 任務(wù)基礎(chǔ)上增加了 100 個相似的測試樣例，并評估 LLM 在這些相關(guān)實例上的表現(xiàn)。此外，我們還分析了解題過程，識別那些答案正確但推理錯誤的情況，以衡量 LLM 的語義一致性。

（2）組合性（Compositionality）：組合性指的是一個系統(tǒng)表達某一命題的能力與其表達相關(guān)命題的能力之間具有內(nèi)在聯(lián)系 [18]。在本研究中，我們將組合性定義為能夠組合給定語義信息的能力。因此，為了評估組合性，需要驗證模型是否能按照預(yù)期組合這些語義信息。為此，我們向 LLM 提供了一系列分步驟的功能函數(shù)，并考察它們是否能夠識別出用于解決 ARC 問題的合適函數(shù)。隨后，我們進一步分析了 LLM 是否能準確預(yù)測這些分步函數(shù)的執(zhí)行結(jié)果，并探究其失敗的原因。

（3）生成性（Productivity）：生成性指的是通過有限的一組語義信息無限地創(chuàng)造未曾見過的新表達的能力 [18]。然而，要定量地衡量是否能夠創(chuàng)造出無限數(shù)量的新表達是困難的。因此，以往的研究通常通過評估模型是否能夠生成符合規(guī)則且未見過的新表達來衡量生成性 [25, 31, 59]。類似地，在本研究中，為了評估生成新表達的能力，我們在給定一組功能函數(shù)的前提下，考察模型是否能夠生成符合規(guī)則、且未曾在訓(xùn)練中出現(xiàn)過的 ARC 任務(wù)。

結(jié)果表明，我們確認當(dāng)前水平的 LLMs 具備對圖像的基本理解能力，并能夠執(zhí)行簡單類型的組合性對象操作。然而，與人類的推理能力相比，LLMs 在以下三個方面仍存在不足：
1）它們在推理一致性和語義一致性方面表現(xiàn)不佳；
2）它們的邏輯推理能力，尤其是以逐步方式進行推理的能力較弱；
3）它們在復(fù)雜約束條件下理解和生成未曾見過的表示形式時存在困難。

最后，本研究總結(jié)并提出了近期為解決抽象能力和推理能力不足而提出的若干發(fā)展趨勢。根據(jù)人類推理的各個組成部分來分析 LLMs 的推理能力，并探討如何增強每一個組成部分，這是一種區(qū)別于以往研究的新方法。它為未來測量和提升 LLMs 推理能力提供了新的視角。

2 預(yù)賽

本節(jié)旨在在對大語言模型（LLMs）的推理能力進行詳細評估之前，解釋我們?yōu)楹芜x擇從思維語言假說（LoTH）視角和抽象與推理語料庫（ARC）出發(fā)來進行研究。首先，在第2.1節(jié)中，我們將回顧關(guān)于推理能力的現(xiàn)有定義，并說明為何 LoTH 在衡量智能方面具有重要意義。隨后，在第2.2節(jié)中，我們將展示 ARC 是一個適合從人類推理角度研究 LLMs 的基準測試，原因如下：1）它使用可泛化的抽象語義；2）它易于修改。

2.1 對評估 LLMs 推理能力的局限性

對評估 LLMs 能力的研究持續(xù)不斷，并突出了其在圖像和文本生成方面的優(yōu)勢。特別是分析表明，LLMs 具備某種“世界模型”（World Model）[22] 的元素，顯示出其在推理任務(wù)中的潛力。然而，推理能力仍存在挑戰(zhàn) [58]，常常觀察到諸如推理扭曲或不完整等錯誤 [34]。研究表明，復(fù)雜的組合性仍然是一個重大挑戰(zhàn) [16]。

關(guān)于 LLMs 推理能力的不同觀點源于以結(jié)果為中心的測量方法。圖靈首次將評估方式引向了注重結(jié)果的方向 [56]，之后許多研究者也聚焦于性能指標 [40, 49, 67]。最近，Chollet 嘗試從結(jié)果導(dǎo)向的角度量化推理能力 [8]。然而，這些研究都關(guān)注推理所能實現(xiàn)的結(jié)果，而未具體說明其組成部分。West 等人 [66] 對僅從這一視角評估 LLMs 的推理能力提出了擔(dān)憂。

為克服這些局限性，我們提出采用LoTH 視角。LoTH 通過將推理的組成部分與定量指標相結(jié)合，豐富了相關(guān)討論。該理論認為，推理涉及具有組合語法和組合語義的心理表征的操作過程。我們的研究基于 LoTH 來評估 LLMs 的推理能力，重點關(guān)注邏輯一致性、組合性和生成性。

以往的研究曾分別評估過這些方面：

邏輯一致性指在解決問題過程中構(gòu)建一致邏輯的能力 [76]；
組合性涉及理解和組合復(fù)雜表達式的能力 [31]；
生成性則通過有限資源下輸出的準確性和效率來評估 [25, 59]。

然而，這些嘗試缺乏統(tǒng)一的標準，也無法直接與人類推理過程進行對比。

采用 LoTH 視角為提升推理能力提供了有力依據(jù)。它有助于開發(fā)出一種類似人類推理的信息處理和任務(wù)解決方式：

邏輯一致性確保推理過程中無矛盾；
組合性使已有知識能適應(yīng)新場景；
生成性提升根據(jù)給定規(guī)則生成結(jié)果的能力。

因此，這種方法有助于 LLMs 實現(xiàn)更接近人類的推理能力，使其能夠以創(chuàng)新且合理的方式應(yīng)對復(fù)雜問題。

2.2 使用 ARC 作為推理基準的優(yōu)勢

抽象與推理語料庫（Abstraction and Reasoning Corpus, ARC）成為從 LoTH 視角評估推理能力的一個有力候選。ARC 與 LoTH 相契合，因為它要求通過組合語義信息來解決問題，并且允許任務(wù)的靈活修改。

2.2.1 ARC 的核心特性

ARC 的關(guān)鍵特征在于它要求提取并組合具有組合性的語義信息，這需要復(fù)雜的解題方法。兩個研究發(fā)現(xiàn)支持這一觀點：

（1）語義信息的重要性：研究表明，補充的語義信息能顯著提升 ARC 任務(wù)的表現(xiàn)。例如，整合以圖形式表示的對象信息后，成功率幾乎翻倍 [71]。

（2）ARC 的高抽象層次：ARC 的抽象程度超過了其他基準測試 [41]。Chollet 認為，傳統(tǒng)特征提取方法在 ARC 面前顯得不足，因為 ARC 要求對形狀進行復(fù)雜解釋并對變換過程有深入理解 [8]。

這些觀察結(jié)果突顯了開發(fā)能夠有效提取和利用復(fù)雜、抽象信息的方法的必要性，以便解決 ARC 任務(wù)。這種特性正好契合 LoTH 的視角，即將推理能力視為由語義組合所驅(qū)動的能力。

2.2.2 基準適應(yīng)的靈活性

盡管 ARC 的規(guī)則看似簡單，但它仍然是一項極具挑戰(zhàn)性的任務(wù)：LLMs 的準確率僅為 15% [47]，傳統(tǒng)程序合成模型達到了 26% [68]，而人類平均準確率為 80% [27]。為了應(yīng)對這一挑戰(zhàn)，出現(xiàn)了多種 ARC 的變體：

（1）1D-ARC [71]：將維度從二維降低到一維，在保留核心知識的同時簡化了復(fù)雜度。該變體有效解決了對象聚合問題，LLMs 在其上的準確率高達約 90%。

（2）MC-LARC [51]：采用多選格式，將生成式任務(wù)轉(zhuǎn)變?yōu)檫x擇式任務(wù)。GPT-4 在此格式下表現(xiàn)出色，準確率約為 75%。

（3）Mini-ARC [28]：將網(wǎng)格大小限制為 5×5，在保留二維生成特性的前提下簡化輸入。其表現(xiàn)仍具挑戰(zhàn)性，與原始 ARC 相似（準確率約為 15%）。

（4）ConceptARC [43]：將任務(wù)按概念分組，聚焦于特定的空間和語義概念。其表現(xiàn)也與原始 ARC 類似（準確率約為 20%）。

這些變體展示了 ARC 在實驗設(shè)計中的高度可塑性，并強調(diào)了解決 ARC 任務(wù)時組合性的重要性。其中，MC-LARC 和 1D-ARC 減少了推理步驟的復(fù)雜性，而 Mini-ARC 則專注于降低圖像復(fù)雜度。不同變體之間的性能差異表明，減少對復(fù)雜變換組合的需求可以顯著提升模型表現(xiàn)，從而突出了組合語法在解決 ARC 任務(wù)中的重要性。

綜上所述，ARC 成為了一個適合從 LoTH 視角評估推理能力的有力基準。其核心優(yōu)勢在于要求通過提取和組合具有組合性的語義信息來完成任務(wù)，這一點已被附加語義信息帶來性能提升的實驗證據(jù)所證實。各種 ARC 變體展現(xiàn)了其在不同實驗?zāi)康南碌撵`活性，而它們之間的性能差異進一步凸顯了組合語法在解決 ARC 任務(wù)中的必要性。此外，ARC 所展現(xiàn)出的高度抽象性和推理復(fù)雜性——體現(xiàn)為人機之間顯著的表現(xiàn)差距——也驗證了其作為探索 LoTH 框架下推理能力的有效工具的價值。

3 使用 ARC 基準評估 LLMs 的推理能力

為了評估語言模型（LMs）是否具備推理能力，可以將其與人類的推理能力進行比較。正如第 2.1 節(jié)所解釋的那樣，根據(jù)思維語言假說（LoTH），人類的推理能力大致可分為三個主要組成部分：邏輯一致性（第 3.1 節(jié)）、組合性（第 3.2 節(jié)）和生成性（第 3.3 節(jié)）。我們利用 ARC 來從 LoTH 的視角評估 LLMs 的各項推理能力。

3.1 LLMs 的能力之一：邏輯一致性 3.1.1 動機

第 3.1 節(jié)旨在評估 LLMs 的邏輯一致性。這是 LoTH 中一個基礎(chǔ)性的方面，它將“一致性”分為兩個維度：推理一致性和語義一致性[18]。

語義一致性指的是在推理過程及結(jié)果中保持邏輯一致的能力；
推理一致性則指一個系統(tǒng)在某些情況下能夠執(zhí)行某種推理的前提下，能否在所有相關(guān)實例中一致地應(yīng)用該類推理。

這些概念在人類認知過程中至關(guān)重要，并且與 ARC 任務(wù)中所需的規(guī)則推理密切相關(guān)。

我們的初步實驗主要通過評估 LLMs 所產(chǎn)生的結(jié)果是否在其問題解決步驟中具有邏輯連貫性，來衡量其語義一致性。這項評估使用了多種提示技術(shù)（prompt techniques），如思維鏈（Chain of Thought, CoT）[65]、由簡至繁（Least to Most, LtM）[78] 和思維樹（Tree of Thought, ToT）[74]，這與之前嘗試解決 ARC 任務(wù)的方法類似 [42, 71]。我們比較了不同提示策略所達到的一致性水平，旨在識別出在多樣化的解題情境中哪些技術(shù)能夠產(chǎn)生最具有語義一致性的結(jié)果。

然而，我們也意識到這種方法在評估推理一致性方面的局限性，因此引入了基于增強型 ARC 任務(wù)的補充實驗。這些任務(wù)是通過 Re-ARC 程序 [23] 創(chuàng)建的，使我們能夠評估 LLMs 在原本已解決的問題變體中是否能持續(xù)應(yīng)用相同的邏輯模式，從而更全面地評估其邏輯推理能力。

3.1.2 不同提示技術(shù)之間的比較

LLMs 在邏輯推理方面存在不足，這一問題已被多次指出，直接嘗試解決 ARC 任務(wù)的成功率通常低于 10% [42]。為了解決這一問題，研究者正通過諸如思維鏈（CoT）、由簡至繁（LtM）和思維樹（ToT）等提示技術(shù)來提升 LLMs 的邏輯推理能力。這些策略被證明能夠有效激發(fā) LLMs 的推理能力 [61]，并且由于它們采用逐步推理的方式，使得人類更容易理解和分析其推理過程，從而具備更高的透明度。

因此，在本實驗中，我們通過解決 ARC 任務(wù)的方式來評估這些提示策略對 LLMs邏輯一致性的影響。

我們使用GPT-4-32k模型，采用三種主要的提示技術(shù) —— CoT、LtM 和 ToT，來解決 100 個 ARC 評估任務(wù)。每種技術(shù)都進行了五輪測試。ARC 任務(wù)遵循“少樣本學(xué)習(xí)”（few-shot learning）范式，要求模型從給定的示例對中推斷出任務(wù)規(guī)則，并將其應(yīng)用于測試示例。

CoT 方法通過生成結(jié)構(gòu)化的思維鏈條來提升推理表現(xiàn)，該鏈條系統(tǒng)地連接了解決 ARC 任務(wù)所需的各個步驟，并在提示中提供相應(yīng)的示例；
LtM 方法將任務(wù)分解為多個可管理的步驟，并依次執(zhí)行；
ToT 方法則在每個分解步驟后生成多個候選答案，通過投票機制選出最佳候選后再繼續(xù)下一步。

表 1：每種提示技術(shù)的平均表現(xiàn)。準確率基于使用 CoT、LtM 和 ToT 提示解決 100 個隨機 ARC 任務(wù)的結(jié)果，每種提示重復(fù)五次。括號外的準確率表示僅結(jié)果正確的準確率，括號內(nèi)的準確率表示結(jié)果和過程均正確的準確率。

在不同提示方式下對 ARC 任務(wù)的準確率進行比較時，CoT 的表現(xiàn)優(yōu)于 LtM 和 ToT。表1展示了將 LtM、CoT 和 ToT 應(yīng)用于從 ARC 評估集中隨機選取的 100 個任務(wù)的結(jié)果。實驗重復(fù)了五次，每次迭代中都包含了正確答案的百分比。

CoT 的準確率約為 10%
LtM 和 ToT 的準確率約為 6%

這表明 CoT 具有更優(yōu)越的表現(xiàn)，而 ToT 和 LtM 則存在累積誤差傳播的問題：其多步驟答案生成過程中，某一步驟中的小錯誤可能會在后續(xù)步驟中導(dǎo)致更大的錯誤。

考慮到 CoT 相較于 LtM 和 ToT 更高的準確率（約 11% 對比約 7%）以及更強的抗誤差傳播能力，我們在后續(xù)實驗中僅使用了 CoT 提示方法。

然而，當(dāng)我們檢查解題過程的正確性時，三種提示技術(shù)的準確率均較低，括號內(nèi)的數(shù)據(jù)顯示它們的準確率都在3% 左右，且沒有顯著差異。這些結(jié)果表明，盡管不同的提示技術(shù)在準確率上有所差異，但在語義一致性方面幾乎沒有差別。

這種在各種提示方法之間的一致性表明，問題并不在于引導(dǎo)模型輸出的方式，而在于 LLMs 自身的基本推理能力存在局限性。此外，無論是在結(jié)果還是過程方面，LLMs 的表現(xiàn)都遠低于人類平均 80% 的準確率。

這些低性能指標，特別是與人類基準相比時，不能歸因于特定提示技術(shù)的局限性。研究結(jié)果表明，LLMs 在邏輯一致性方面明顯落后于人類。為了進一步分析造成這一現(xiàn)象的具體原因，我們進行了后續(xù)實驗。

第 3.1.3 節(jié)分析了邏輯一致性的一個方面 ——推理一致性；
第 3.1.4 節(jié)則通過案例研究，考察了 LLMs 的語義一致性。

3.1.3 LLMs 的推理一致性

在我們的第二項實驗中，我們測試了 LLMs 的推理一致性，即它們在共享同一類比規(guī)則的任務(wù)中保持相同邏輯推理能力的表現(xiàn)。為了評估這一點，我們檢驗了 LLM 是否能夠解決那些與先前已解決的 ARC 任務(wù)具有相同規(guī)則的新問題。

圖6總結(jié)了該實驗，詳細流程見算法1。我們首先使用GPT-4o來解決400個ARC任務(wù)中的示例，1 并重復(fù)此過程五次，以識別出那些可以被持續(xù)解決的任務(wù)。對于至少有一次被正確解決的任務(wù)，我們使用 Re-ARC [23] 生成了100個額外的示例，這些示例模仿了原始任務(wù)的解題方式。我們假設(shè)，一個具備推理一致性的模型應(yīng)能解決所有增強后的示例，從而讓我們能夠嚴格測試其在相似任務(wù)間的泛化能力。

圖7展示了結(jié)果的兩個關(guān)鍵分析。累積分布（圖7a）顯示，在所有五次迭代中均呈現(xiàn)出一致的指數(shù)衰減模式，表明無論哪次迭代，一致性水平始終較低。準確率分布（圖7b）顯示，在增強后的示例中，有57.8%的任務(wù)準確率低于10%。總體來看，這些結(jié)果表明LLMs在ARC任務(wù)上的推理一致性非常有限。

3.1.4 案例研究：LLMs 的語義一致性

最后，我們分析了 LLMs 在第 3.1.2 節(jié)和第 3.1.3 節(jié)中所描述的兩個實驗中是如何解決任務(wù)的。在評估 CoT、LtM 和 ToT 三種提示方式時，不僅關(guān)注最終答案的正確性，也考察其解題過程，我們發(fā)現(xiàn)：無論使用哪種提示方式，過程與結(jié)果同時正確的準確率約為 3%，這表明許多正確答案實際上是通過錯誤的推理過程得出的，如圖 8 所示。

為了解決該任務(wù)，應(yīng)執(zhí)行以下步驟：1）在輸入網(wǎng)格中識別出 5×5 的對象；2）統(tǒng)計每個對象中黑色方塊的數(shù)量；3）提取出黑色方塊最多的對象。

然而，CoT、LtM 和 ToT 都以錯誤的方式嘗試解決該任務(wù)：

對于CoT，模型對輸入網(wǎng)格中的對象進行了排序，并選擇了中間的對象作為輸出。盡管 CoT 得出了正確的答案，但其排序?qū)ο蟮姆椒ㄈ狈γ鞔_邏輯；
對于LtM 和 ToT，它們意識到需要從輸入網(wǎng)格中選擇特定對象來完成任務(wù)，但卻錯誤地識別了測試輸入網(wǎng)格中的對象。

這些解決方案存在一個共同缺陷：它們未能在所提供的訓(xùn)練輸入與輸出示例之間建立一個邏輯一致的規(guī)則。換句話說，無論采用哪種提示技術(shù)（CoT、LtM 或 ToT），LLMs 仍難以展現(xiàn)出一種能夠跨示例一致應(yīng)用的、邏輯連貫的推理能力。

在針對訓(xùn)練集開展的第二次實驗中，也觀察到了從錯誤推理過程中得出正確結(jié)果的不一致現(xiàn)象。在對 400 個訓(xùn)練任務(wù)中至少被解決過一次的 83 個任務(wù)進行自然語言解釋分析后，我們發(fā)現(xiàn)其中有 35 個任務(wù)的 LLM 所提出的解決方案實際上無法得出正確答案。

這一發(fā)現(xiàn)表明，無論采用何種提示技術(shù)或任務(wù)類型，LLMs 在語義一致性方面均存在不足。換句話說，LLMs 所產(chǎn)生的結(jié)果與其推理過程之間并無實質(zhì)性關(guān)聯(lián)，這一點已從其通過錯誤的解題過程卻生成正確答案的現(xiàn)象中得到印證。

盡管如此，在第 3.1.3 節(jié)中，我們發(fā)現(xiàn)了有 8 個任務(wù)，LLM 的解決準確率達到了 0.6 或更高。如圖 9 所示，這 8 個任務(wù)的解決方案相對簡單，包括鏡像操作、顏色映射以及部分網(wǎng)格復(fù)制等。這些任務(wù)具有一個共同特征：概念上較為簡單，僅使用了 ARC 中所包含的四個先驗知識領(lǐng)域中的一個：對象性（objectness）、目標導(dǎo)向性（goal-directedness）、數(shù)字與計數(shù)（numbers and counting）和基礎(chǔ)幾何（basic geometry）[8]。

而對于需要使用兩個或以上先驗知識領(lǐng)域的 17 個任務(wù)，LLM 在所有 100 個增強示例中均未能成功解決。盡管 LLM 曾經(jīng)解決了原始任務(wù)，但在增強示例中卻完全無法應(yīng)對，這一事實表明 LLM 并不具備語義一致性，甚至可能暗示存在數(shù)據(jù)泄露（data leakage）的可能性。

這一全面分析表明，雖然 LLM 可以解決某些簡單的模式識別任務(wù)，但在需要整合多個概念的復(fù)雜推理任務(wù)面前仍面臨顯著困難。在增強測試樣例中無法一致地應(yīng)用規(guī)則，再加上通過錯誤推理過程得出正確答案的現(xiàn)象，突顯了當(dāng)前 LLM 系統(tǒng)在面對類似 ARC 所提供的抽象推理任務(wù)時，在推理一致性和語義一致性方面存在重大局限。

3.1.5 結(jié)論

在第 3.1 節(jié)中，我們通過使用三種不同的提示技術(shù)來解決 100 個 ARC 任務(wù)，評估了 LLM 的邏輯一致性。結(jié)果顯示，準確率在 4% 到 12% 之間波動，表明不同提示方法對推理表現(xiàn)有一定影響。此外，在使用 GPT-4o 對 400 個訓(xùn)練任務(wù)進行實驗時，LLM 表現(xiàn)出高達 20% 的準確率。

然而，通過深入的定性分析，我們發(fā)現(xiàn) LLM 的結(jié)果可能并不具備邏輯一致性。對于每個已解決問題所生成的 100 個增強測試樣例，LLM 僅在 83 個已解決問題中的 8 個任務(wù)中實現(xiàn)了超過 60% 的表現(xiàn)。更進一步的是，在 83 個已解決問題中有 35 個任務(wù)（近一半），LLM 提供的解題過程是錯誤的，無法推導(dǎo)出正確的結(jié)果。

這項分析表明，LLM 尚未達到人類水平的邏輯一致性。

本研究的結(jié)果與此前關(guān)于 LLM 在邏輯問題求解方面仍面臨挑戰(zhàn)的研究結(jié)論一致。有研究 [60] 發(fā)現(xiàn)，即使 LLM 的推理步驟存在問題，它也能在 CoT 提示下生成邏輯上一致的推理。另一項研究 [77] 表明，LLM 在數(shù)學(xué)推理和翻譯等任務(wù)中難以實現(xiàn)準確的自我反思。此外，還有研究 [57] 揭示，LLM 常常無法檢測中間步驟中的錯誤，暴露出其推理過程中的缺陷。

盡管這些研究指出，提供更多上下文信息或加強自我反思機制可能有助于提升邏輯推理能力 [60, 65, 77]，但我們的研究結(jié)果表明，這些問題依然存在，說明問題的核心可能并不僅僅是缺乏關(guān)于問題的信息。

3.2 LLMs 的能力之二：組合性 3.2.1 動機

在第 3.2 節(jié)中，我們研究了 LoTH 的第二個核心概念 ——組合性。
組合性指的是在給定簡單表達的前提下，生成復(fù)雜語言表達的能力 [18]。這一特性使個體能夠通過將子任務(wù)分解為更簡單的步驟，來有效應(yīng)對更復(fù)雜的任務(wù)，也體現(xiàn)了人類在面對復(fù)雜任務(wù)時的解決能力。強大的組合性不僅有助于解決復(fù)雜任務(wù)，還能對解決過程進行清晰透明的描述，這也是 LLMs 的一個重要方面。

本節(jié)使用 ARC 來測試 LLMs 的組合性。以往的研究通過在提示中提供可以組合以解決任務(wù)的功能函數(shù)，并檢查模型是否能夠利用這些函數(shù)完成任務(wù)，從而測試其組合性 [53]。同樣地，在本研究中，我們也提供了一系列分步驟的功能函數(shù)，我們將其稱為DSL（領(lǐng)域特定語言），并開展實驗驗證 LLMs 是否能夠利用這些函數(shù)解決 ARC 任務(wù)。

此外，為了理解某些任務(wù)為何未能被解決，我們還進一步對模型對這些函數(shù)的理解能力進行了實驗。因此，我們驗證了 LLMs 是否理解為 ARC 任務(wù)所提供的函數(shù)含義，以及它們是否能夠正確地組合這些函數(shù)以產(chǎn)生預(yù)期結(jié)果。

實驗結(jié)果顯示，盡管 LLMs 對所提供的函數(shù)及其與圖像之間的關(guān)系具有一定的理解能力，但它們在分解和組合函數(shù)以實現(xiàn)預(yù)期目標方面的能力仍然較弱。

3.2.2 LLMs 的組合性

在第一個實驗中，為了測量組合性，我們向 LLM 提供了關(guān)于 DSL（領(lǐng)域特定語言）的信息，并要求它們解決給定的 ARC 任務(wù)。圖 10 展示了整個實驗的結(jié)構(gòu)。

如果一個 LLM 具備足夠的組合性，它應(yīng)該能夠為給定的目標選擇合適的 DSL 及其參數(shù)。然而，在 LLM 未能選擇正確 DSL 的情況下，我們進一步劃分了條件以識別失敗原因。這些條件包括：LLM 是否理解目標（goal）以及是否理解解題過程。

為了根據(jù)每種條件分析結(jié)果，我們進行了四種類型的實驗： 1）僅提供 DSL； 2）提供正確的輸出結(jié)果以及 DSL； 3）提供 ARC 測試樣例的人類描述 [51] 以及 DSL； 4）同時提供正確的輸出網(wǎng)格、人類描述以及 DSL。

提供正確的輸出網(wǎng)格可以用于判斷在已知或未知目標的情況下的組合性表現(xiàn)；而提供人類描述則可以展示自然語言描述對組合性的影響。

我們將每個 DSL 作為 Python 函數(shù)提供。在本實驗中，我們使用了 19 種可用于解決 ARC 任務(wù)的 DSL。提示信息通常包括：

對 ARC 的簡要說明，
帶注釋的 DSL 函數(shù)代碼，
DSL 使用示例，
任務(wù)演示示例，
測試樣例的輸入，
以及測試輸入的對象信息。

對象信息是解決 ARC 任務(wù)的關(guān)鍵參數(shù)之一，因此我們將其添加到了提示中。我們使用PnP 算法 [46]從 ARC 任務(wù)中提取對象信息。

LLM 在每一步返回一個 JSON 格式的字符串，表示所選擇的 DSL 和對應(yīng)的參數(shù)。我們利用這些信息來驗證 LLM 是否通過適當(dāng)?shù)?DSL 和參數(shù)組合得出了正確的測試輸出。

本實驗使用的是最新模型GPT-4o。

最后，為了建立一個基線（baseline），我們還進行了人類實驗。我們開發(fā)了一個專用工具（圖 11），向參與者提供與 LLM 相同的信息：ARC 任務(wù)的示例演示、初始測試輸入、當(dāng)前網(wǎng)格狀態(tài)、DSL 函數(shù)以及通過 PnP 提取的對象信息。

共有七名參與者參與實驗，他們被限制只能使用與 LLM 相同的 DSL 來解決任務(wù)。通過這些實驗我們發(fā)現(xiàn)，在 800 個公開可用的 ARC 任務(wù)中，有 158 個任務(wù)可以在 10 步 DSL 操作內(nèi)使用給定的操作解決。因此，第 3.2 節(jié)中的所有實驗都是基于這個可解任務(wù)子集進行的。

實驗結(jié)果如表 2 所示。在 LLM 實驗中，當(dāng)提供測試輸出時，平均準確率為9%；未提供測試輸出時，準確率下降至3%。當(dāng)提示中加入人類解釋時，組合性表現(xiàn)有所增強，其提升幅度與提供測試輸出的情況相似。Cronbach’s alpha 測量結(jié)果顯示了響應(yīng)的一致性，四項實驗的得分均超過 0.7。

在人類實驗中，參與者平均解決了 137 個任務(wù)，在可解任務(wù)上的準確率約為86%。LLM（3–14%）與人類（86%）之間顯著的性能差距表明，盡管擁有相同的信息和工具，LLM 在 DSL 組合性方面仍面臨根本性的挑戰(zhàn)，而這些挑戰(zhàn)是人類可以自然克服的。

3.2.3 因 DSL 誤解導(dǎo)致的組合失敗分析

問題在于，表 2 中描述的平均準確率并不完全反映組合性。DSL 提供了一種逐步方式來表示 ARC 任務(wù)中的解題步驟。當(dāng)我們使用 DSL 來解決這些任務(wù)時，可以將每一步選擇正確 DSL 的可能性分為兩個部分來考慮：

1）LLMs 對 DSL 的理解程度：這體現(xiàn)在給定 DSL 指令后，模型預(yù)測下一步網(wǎng)格狀態(tài)的準確性； 2）每一步預(yù)測網(wǎng)格對最終解決方案的必要性：這與各個步驟之間是否能夠良好銜接、共同完成任務(wù)有關(guān)。

能否在所有步驟中都選擇正確的 DSL，取決于這兩個因素的共同作用。要成功解決一個任務(wù)，必須在連續(xù) 10 步中都選擇正確的 DSL。基于我們的初步分析，我們將 DSL 理解能力與組合難度之間的關(guān)系建模為一種乘法交互關(guān)系，如公式（1）所示。

在該公式中：

表示 DSL 序列長度，
表示需要個步驟才能解決的任務(wù)數(shù)量，
表示單步準確率，
表示每個任務(wù)的組合難度。

我們假設(shè)，LLM 的組合能力會因提供給它的信息內(nèi)容以及任務(wù)本身的不同而有所變化。

為了僅考慮組合難度來確定任務(wù)準確率，我們必須在= 1（即單步選擇完全準確）的情況下估算值。因此，我們進行了一個額外的實驗，如圖 12 所示，以驗證在選擇 DSL 時由于無法預(yù)測輸出網(wǎng)格而導(dǎo)致找不到合適 DSL 的概率。

在額外的實驗中，我們從 800 個公開可用的 ARC 任務(wù)中選取了 158 個任務(wù)，特別選擇了那些可以在 10 步 DSL 操作內(nèi)解決的任務(wù)。我們檢查了在給定 DSL 和 ARC 輸入網(wǎng)格的情況下，LLM 能夠多準確地生成正確的輸出網(wǎng)格。每個任務(wù)重復(fù)進行了 10 次，以確保結(jié)果的可靠性。

在這些實驗中，我們向 LLM 提供了由人類解題者創(chuàng)建的正確 DSL 操作和參數(shù)鏈。在多個可能的人類解決方案中，我們優(yōu)先選擇了步驟最少的方案，以盡量降低復(fù)雜度。由于輸入網(wǎng)格和 DSL 指令都已提供，因此假設(shè) LLM 對 DSL 完全理解，無論序列長度如何，它都應(yīng)該能夠生成正確的輸出網(wǎng)格。

圖 13 顯示了 DSL 序列長度與 LLM 預(yù)測準確率之間的關(guān)系。隨著所需序列長度的增加，我們觀察到模型預(yù)測正確輸出網(wǎng)格的能力明顯下降。

基于這些觀察結(jié)果，我們使用公式（2）計算了一個加權(quán)平均的單步準確率，其中：

表示序列長度為的任務(wù)數(shù)量，
表示該長度下的預(yù)測準確率。

通過計算得出估計的單步準確率為81%，這表明隨著序列變長，錯誤會顯著累積。

表 3 展示了在假設(shè) DSL 完全理解（ = 1.0，從觀察到的 = 0.8 調(diào)整而來）的情況下，估算出的準確率。這一調(diào)整單獨隔離出了組合能力的影響，結(jié)果顯示在提供正確答案和人類描述的理想條件下，近 30% 的任務(wù)可以被解決。

當(dāng)加入正確答案或自然語言描述時，都觀察到了約10 個百分點的穩(wěn)定提升，這表明每種元素都能降低任務(wù)的組合難度（即公式 1 中的）。

3.2.4 案例研究：通過人類描述增強組合性

一個值得注意的觀察結(jié)果是，當(dāng)在提示中加入關(guān)于問題解決方法的人類描述時，LLMs 的組合能力得到了提升。為了探究 LLMs 在有人類描述的情況下是如何解決問題的，我們分析了在提供人類描述后額外解決的 13 個任務(wù)的解題過程。

結(jié)果表明，人類描述有助于任務(wù)輸入與操作步驟的抽象理解，從而提升了問題解決能力。例如，在沒有描述的情況下，LLMs 無法識別正確輸出中的模式；但在有了描述之后，它們能夠立即識別出諸如“X 形狀”之類的模式。這些發(fā)現(xiàn)表明，通過引入抽象化的任務(wù)信息，有可能提升 LLMs 的推理表現(xiàn)。

3.2.5 結(jié)論

在第 3.2 節(jié)中，我們通過使用 ARC 和 DSL 進行實驗，測量了 LLMs 的組合性。結(jié)果得出了三個結(jié)論：

LLMs 在將 DSL 應(yīng)用于輸入時，可以以約 81% 的平均準確率預(yù)測輸出網(wǎng)格。然而，隨著序列長度的增加，準確率下降，這似乎是由于錯誤的累積所致。
在未提供正確答案的情況下，LLMs 僅在 3% 的情況下選擇了正確的 DSL，這表明它既無法推導(dǎo)出規(guī)則來預(yù)測正確的輸出網(wǎng)格，也無法選擇合適的 DSL 來達到預(yù)期輸出。
當(dāng)加入人類描述后，DSL 選擇的準確率提升至與提供正確答案相近的水平。對該過程的分析表明，這種提升源于對 ARC 任務(wù)和 DSL 組合的語言抽象理解。

已有研究強調(diào)了 LLMs 在將簡單元素組合為新含義方面的局限性，揭示了其在組合性方面所面臨的挑戰(zhàn)。一項研究表明，Transformer 模型在面對新的函數(shù)組合時表現(xiàn)出顯著的性能下降，顯示出在系統(tǒng)性泛化知識方面存在困難 [25]。另一項研究引入了 SADE 等數(shù)據(jù)集來評估 LLMs 處理視覺與文本信息的能力，指出它們在處理否定理解和復(fù)雜內(nèi)容等方面仍存在困難 [38]。還有一項研究考察了 LLMs 分解復(fù)雜指令或?qū)⒑唵沃噶罱M合成復(fù)雜指令的能力。結(jié)果顯示，雖然 LLMs 可以通過學(xué)習(xí)復(fù)雜任務(wù)更好地理解簡單任務(wù)，但當(dāng)從簡單任務(wù)出發(fā)去應(yīng)對復(fù)雜任務(wù)時，它們?nèi)悦媾R困難 [73]。

這些研究一致指出，LLMs 在連接簡單與復(fù)雜元素方面仍存在持續(xù)性的挑戰(zhàn)，突顯了其在組合性能力上的局限性。

3.3 LLMs 的能力之三：生成性（Productivity） 3.3.1 動機

在第 3.3 節(jié)中，我們研究了 LoTH 的第三個核心概念 ——生成性（Productivity）。
生成性指的是基于已觀察到的數(shù)據(jù)生成未曾見過的新表示形式的能力 [18]。這一特性使人類能夠從單一現(xiàn)象中想象出多種情境，從而實現(xiàn)無需重復(fù)數(shù)據(jù)暴露的高效學(xué)習(xí)。同樣地，當(dāng) LLMs 具備這種能力時，它們應(yīng)能在面對新任務(wù)時表現(xiàn)出色，因此生成性是基本推理能力中一個至關(guān)重要的功能。

在 ARC 任務(wù)中，能夠在有限規(guī)則集內(nèi)生成新的輸入-輸出對尤其有價值，這突顯了對生成性的需求。本節(jié)中，我們將通過評估 LLM 根據(jù)給定的 ARC 示例對所生成的新示例的有效性來衡量其生成性。

雖然理想情況下的生成性應(yīng)測試無限生成能力，但受實際限制，必須采用替代方法。挑戰(zhàn)在于要證明一個系統(tǒng)可以從有限的輸入和規(guī)則集中生成無限數(shù)量的新穎且有意義的輸出。以往的研究通過檢查模型是否能在新增約束條件下生成有效的輸出來應(yīng)對這一挑戰(zhàn) [25, 31, 59]。這些約束條件有助于創(chuàng)建更可控的測試環(huán)境，同時仍能評估其生成能力。

遵循這一方法論，我們的研究考察了在給定一個 ARC 任務(wù)及其底層概念規(guī)則的情況下，LLMs 能多有效地生成有效輸出。這種方法使我們能夠在受控框架下評估生成性，同時仍然捕捉到生成能力的本質(zhì)。

為了理解 LLMs 在基于內(nèi)在邏輯概念生成新表達方面的能力，我們使用 ARC 任務(wù)進行了實驗。在此背景下，生成性主要包括兩個步驟： 1）從示例圖像和自然語言表達中推斷出用于圖像生成的具體規(guī)則； 2）應(yīng)用這些規(guī)則生成新的、未見過的圖像。

然而，正如前幾節(jié)所探討的那樣，解決 ARC 任務(wù)的標準方法不足以驗證這兩個過程。因此，我們提出了一項新的實驗：
在給定一個 ARC 任務(wù)以及與類似 ARC 任務(wù)共享的基本規(guī)則的前提下，LLMs 是否能夠生成該任務(wù)的有效示例？

如果 LLMs 能夠理解給定 ARC 任務(wù)與抽象規(guī)則之間的關(guān)系，那么它應(yīng)該能夠推導(dǎo)出該任務(wù)的具體規(guī)則，并生成新的有效示例。通過這項實驗，我們旨在判斷 LLMs 是否能夠模仿人類思維中的生成性，在面對新問題時生成新穎的解決方案。

3.3.2 增強示例的有效性

為了評估 LLMs 是否能夠在給定 ARC 示例的情況下推斷出自己的生成規(guī)則，并通過適當(dāng)應(yīng)用這些規(guī)則創(chuàng)建新的任務(wù)，我們對提示（prompt）進行了嚴格控制。

盡管 ARC 提供了多樣化的任務(wù)集，但它缺乏系統(tǒng)性的分類以及對每個任務(wù)的明確規(guī)則說明。因此，我們使用了ConceptARC [43]，它保持與 ARC 相同的格式，但為每個任務(wù)提供了類別標簽，使其更適用于我們的實驗設(shè)計。

我們向 LLMs 提供了兩種類型的提示信息： 1）來自 ConceptARC 任務(wù)的示例對； 2）適用于相似任務(wù)的抽象規(guī)則描述。

在這一步中，一個示例對作為生成的基礎(chǔ)，其他示例則用于推導(dǎo)特定任務(wù)的規(guī)則。根據(jù) ConceptARC 的框架，所有任務(wù)被劃分為16 個不同的類別。在每個 ConceptARC 類別中，都有一個對應(yīng)的抽象規(guī)則，確保同一類別中的任務(wù)都遵循相同的抽象規(guī)則。

我們提出了逆變換提示法（Inverse Transformation Prompting, ITP），作為本實驗中使用的提示技術(shù)。ITP 指導(dǎo) LLMs 利用 ConceptARC 任務(wù)及其相關(guān)的抽象規(guī)則來生成多個有效的示例。

圖 14 展示了在給定 ConceptARC 任務(wù)及相應(yīng) ITP 的情況下，LLMs 如何生成新示例。通過這種方法，LLMs 可以生成多個輸入，這些輸入可以與該任務(wù)某一示例的輸出配對。用于生成的這個示例會被排除在 ITP 之外。

如果 LLMs 理解了通過 ITP 提供的 ConceptARC 任務(wù)規(guī)則，那么它們所生成的新示例對就應(yīng)當(dāng)適合作為該任務(wù)的示例。

ITP 基于“多對一”的方法，其具有兩個優(yōu)勢：

1）僅生成輸入的方法在數(shù)據(jù)利用上更高效，因為相比于同時生成輸入和輸出，現(xiàn)有的任務(wù)輸出無需修改即可重復(fù)使用。由于 ConceptARC 中的所有任務(wù)都包含示例對，因此重復(fù)使用這些示例能夠充分利用已提供的數(shù)據(jù)。ITP 允許單個 ConceptARC 任務(wù)被多次復(fù)用。特別是，通過改變示例順序，ITP 還能進一步提升數(shù)據(jù)效率，使一個 ConceptARC 任務(wù)被重復(fù)使用多次。

2）ITP 提高了生成有效響應(yīng)的可能性。通過模擬我們觀察到，從輸出反推輸入比從輸入生成輸出更容易產(chǎn)生有效的結(jié)果。這是因為從輸出生成輸入所受到的約束相對較少，因此存在更大范圍的可接受結(jié)果。

在構(gòu)建 ITP 的過程中，我們遇到了兩個挑戰(zhàn)。

首先，根據(jù) ConceptARC 的分類標準，同一類別內(nèi)的任務(wù)可能具有不同的具體目標。圖 15a 顯示了在同一類別中存在多種類型的任務(wù)。例如，即使屬于同一類別，一個任務(wù)的核心解法可能是“刪除”，而另一個任務(wù)則可能是“重新著色”。這種差異表明，為每個類別提供的相同抽象規(guī)則描述可能不足以涵蓋各種不同類型的任務(wù)。

其次，有一些 ConceptARC 任務(wù)使得無法從單一輸出推斷出多個有效輸入（見圖 15b）。在這種情況下，只存在唯一一個有效的輸入。盡管我們在編寫 ITP 時嘗試考慮到了這些情況，但這些挑戰(zhàn)仍然對實驗結(jié)果造成了不利影響。

在分析實驗結(jié)果之前，有必要重新定義評估指標，以反映從“解決任務(wù)”到“生成有效示例”的關(guān)注點轉(zhuǎn)變。如前所述，對于某個任務(wù)的一個給定示例，我們生成了可以與相應(yīng)輸出配對的有效輸入。為了成功生成這些輸入，LLM 必須通過其 ITP 推導(dǎo)出該任務(wù)的具體規(guī)則，并將其應(yīng)用于輸出以創(chuàng)建有效的輸入。

在本實驗中，我們評估了每個任務(wù)所生成的所有輸入是否均為有效輸入。這一指標既評估了 LLM 對正確規(guī)則的理解能力，也評估了它基于這些規(guī)則生成有效示例的能力。因此，這項實驗系統(tǒng)地評估了 LLMs 生成邏輯合理且有效的示例對的能力，增強了我們對其創(chuàng)造新表示形式能力的理解。

基于 160 個 ConceptARC 任務(wù)，我們評估了 2,913 個生成示例的有效性。平均有效生成比率為約17.1%，其余示例被判定為無效。如前所述，生成示例的有效性由人工判斷決定，主要評估生成的任務(wù)是否符合用于解決問題的類比規(guī)則。

表 4 中的結(jié)果顯示，LLMs 在生成符合指定規(guī)則的示例方面展現(xiàn)出一定程度的能力。然而，由于確定有效性標準較弱，仍存在局限性：即使可以生成無限多的結(jié)果，在沒有對數(shù)據(jù)進行后處理的情況下，這些結(jié)果也無法可靠地使用。

3.3.3 案例研究：無效生成

我們分析了生成的輸入，以探究 LLMs 在生成 ConceptARC 任務(wù)的有效輸入方面失敗的原因。當(dāng) LLMs 生成新的 ConceptARC 任務(wù)時，觀察到了兩個主要限制：

1）LLMs 傾向于簡單復(fù)制已有輸入，而不是從給定的示例對中推導(dǎo)出有意義的規(guī)則。如圖 16 所示，盡管我們嘗試通過提示防止這種情況發(fā)生，但它仍反復(fù)出現(xiàn)。

2）LLMs未能正確考慮從輸出生成輸入所需的步驟，這經(jīng)常導(dǎo)致生成的示例無法通過任務(wù)的特定規(guī)則求解。例如，在輸入中若一個正方形的所有頂點都被擦除，則無法判斷這些頂點的顏色，從而使得無法推導(dǎo)出給定的輸出。

這些限制表明，LLMs 缺乏對適用于 ConceptARC 任務(wù)的語義理解，以及根據(jù)約束條件組合這些語義的能力。

3.3.4 結(jié)論

在第 3.3 節(jié)中，我們進行了實驗，旨在確認 LLMs 是否具備生成性，即它們是否能夠理解抽象表示下的任務(wù)，并基于抽象規(guī)則生成新的有效示例。

盡管眾所周知 LLMs 在創(chuàng)造性內(nèi)容生成方面具有顯著優(yōu)勢，但我們的實驗結(jié)果顯示，LLMs 在理解規(guī)則并生成符合這些規(guī)則的創(chuàng)作方面表現(xiàn)較弱。此外，所觀察到的局限性突顯了 LLMs 在高階推理和抽象能力方面的關(guān)鍵缺口，而這些能力對于成功完成那些需要理解底層原理而非表面模式的任務(wù)至關(guān)重要。

這些結(jié)果表明，當(dāng) LLMs 生成輸出時，它們傾向于模仿人類創(chuàng)作的結(jié)果，而不是真正理解并應(yīng)用規(guī)則。這使得 LLMs 難以達到人類所能實現(xiàn)的生成水平。

同樣地，以往研究在衡量 AI 模型生成能力時也得出了類似的結(jié)果。研究人員測試了前 LLM 時代模型在面對新命令組合時的泛化能力 [31, 59]，發(fā)現(xiàn)它們在訓(xùn)練數(shù)據(jù)上表現(xiàn)出色，但在生成未見過的指令響應(yīng)方面存在不足。

一些研究者指出，LLMs 在復(fù)雜約束條件下生成內(nèi)容的能力較弱，并提出了改進模型的方法來應(yīng)對這一問題 [29, 35]。他們提出新的框架，以在引入復(fù)雜約束時增強 LLMs 生成期望輸出的能力，而非僅僅依賴基礎(chǔ)模型。

這些研究與我們的研究具有相似之處，均在基于復(fù)雜規(guī)則擴充有效任務(wù)時遇到了困難。

4 討論

通過第 3 節(jié)中的三項實驗，我們觀察到 LLMs 在理解和操作圖像與文本輸入方面展現(xiàn)出一定的優(yōu)勢。然而，它們在邏輯推理、基于理解的順序規(guī)劃，以及根據(jù)預(yù)定義規(guī)則生成未曾見過的圖像方面仍存在明顯不足。

我們將以介紹當(dāng)前旨在進一步提升 LLMs 能力的研究方向，并概述解決 ARC 后的目標作為本節(jié)的總結(jié)。

4.1 解決 ARC 所需具備的能力是什么？

根據(jù)第 3 節(jié)的實驗結(jié)果可以清楚地看出，LLMs 目前仍無法有效解決 ARC 任務(wù)。這主要歸因于其在邏輯一致性、組合性和生成性方面的不足。

我們?nèi)绾翁嵘?LLMs 的推理能力？在本節(jié)中，我們將從抽象知識和推理能力兩個角度探討增強 LLMs 的可能方向。

4.1.1 抽象知識

要解決 ARC 任務(wù)，第一個挑戰(zhàn)在于提取其隱含信息。Xu 等人 [70] 強調(diào)了基于對象表示的重要性，并提出了 ARGA 方法，該方法將示例網(wǎng)格轉(zhuǎn)化為圖結(jié)構(gòu)。他們在后續(xù)研究 [71] 中利用 ARGA 生成的信息，在基于對象的 ARC 任務(wù)中取得了顯著表現(xiàn)。然而，這些方法存在一個關(guān)鍵限制：它們不適用于沒有對象概念的 ARC 任務(wù)。由于只有大約 40% 的 ARC 任務(wù)涉及對象概念 [70]，因此這種方法無法應(yīng)對超過一半的任務(wù)。

Wang 等人 [64] 使用了一個包含 221K 條文本描述的圖結(jié)構(gòu)數(shù)據(jù)集 AbsPyramid，部分提升了 LLM 的抽象能力，并提出了 AbsInstruct 框架。雖然對句子進行結(jié)構(gòu)化可以有效抽象自然語言，但這種方法在不涉及文本數(shù)據(jù)的 ARC 任務(wù)中并不適用。

4.1.2 推理能力

LLMs 在 ARC 中面臨的另一個挑戰(zhàn)是巨大的搜索空間。一種有前景的方法是讓 LLM 自行生成 DSL（領(lǐng)域特定語言）。Rajani 等人 [48] 提出了 CAGE，引導(dǎo) LLM 在生成答案之前先生成解釋。隨后，Wang 等人 [62] 報告稱，如果讓 LLM 基于自己設(shè)定的假設(shè)來生成 DSL，可以獲得更好的結(jié)果。

此外，關(guān)于應(yīng)用算法式提示技術(shù)的研究也在積極進行中。Zhou 等人 [79] 通過上下文學(xué)習(xí)（in-context learning）顯著提升了 LLM 的推理性能。后續(xù)研究圍繞 CoT 和 ToT 展開。例如，CoT-SC [63] 通過投票機制從多個 CoT 實例中選擇最優(yōu)結(jié)果；GoT [3] 通過生成圖狀思維節(jié)點提高靈活性；XoT [14] 則結(jié)合思維樹與蒙特卡洛樹搜索，并使用強化學(xué)習(xí)優(yōu)化樹結(jié)構(gòu)。

然而，這些嘗試更接近于對 LLM 的額外訓(xùn)練，是否能真正實現(xiàn) LLM 推理能力的根本性提升，仍有待進一步研究驗證。

4.2 解決 ARC 后的發(fā)展方向

解決 ARC 任務(wù)并不直接意味著實現(xiàn)了類人水平的人工智能。此外，目前還存在一個挑戰(zhàn)：難以將 AI 的解題方式與人類方式進行比較。因此，我們提出三種替代方案，以更準確地衡量類人水平的推理能力。

4.2.1 使用不同的基準測試

ARC 的一個局限性在于其環(huán)境相對簡單。例如，SQA3D [39] 通過擴展至問答任務(wù)的方式，在三維領(lǐng)域處理推理任務(wù)，使用了如 ScanNet [12] 這樣的模擬器。此外，TGIF-QA [26]、MovieQA [55]、TVQA [32] 和 STAR [69] 等視頻問答基準也被提出。這類模仿現(xiàn)實世界推理場景的基準測試可作為 ARC 的補充，用于衡量 ARC 未能覆蓋的復(fù)雜抽象能力。

4.2.2 對 ARC 解題過程進行量化評估

ARC 的提出者 Chollet 曾指出，ARC 的設(shè)計目標是在最小化先驗知識和經(jīng)驗的前提下最大化通用性 [8]，但這些要素尚未被定量評估。因此，模型在解決 ARC 時所達到的“通用性”、“先驗知識水平”及其組成部分等，仍然難以量化。

一種可能的量化評估方法是對模型在解決 ARC 任務(wù)過程中所體現(xiàn)的“先驗知識”、“經(jīng)驗積累”和“通用性”進行量化分析。

4.2.3 增加評估方法，將解題過程與人類方式進行對比

近年來的 ARC 研究主要集中于尋找 AI 解決任務(wù)的方法。然而，人們對其解題方式與人類是否相似仍存疑問。Johnson 等人 [27 ] 的原始論文分析了人類解決 ARC 任務(wù)的過程。隨后提出的 LARC [1] 則通過語言解釋人類解題方式來分析任務(wù)解決路徑。同時，也有工具不斷被開發(fā)出來，以促進人類數(shù)據(jù)的收集。

例如，Kim 等人 [28] 就通過 O2ARC 分析了任務(wù)的解決方式。基于這些研究，我們建議在評估中不僅計算每個 ARC 任務(wù)的正確率，還應(yīng)加入與人類解題方式的相似度作為新的評估指標。

4.3 關(guān)于 LLMs 推理能力的最新研究趨勢

在本文中，我們利用 ARC 來評估并增強大語言模型（LLMs）的推理能力。ARC 作為一個關(guān)鍵基準，用于測試人工智能模型是否具備類人推理的能力。

除了 ARC，還有一些數(shù)據(jù)集也為提升 LLMs 的多樣化推理能力提供了寶貴資源，例如 DROP [15]、CommonsenseQA [54]、BoolQ [10] 和 GSM8K [11]。

近期研究表明，盡管 LLMs 在基于語言的任務(wù)上表現(xiàn)出色，但在推理能力方面仍存在顯著局限。Carvalho 等人 [13] 發(fā)現(xiàn)，LLMs 在超出訓(xùn)練數(shù)據(jù)范圍的任務(wù)中，尤其是在需要策略性思維和空間推理的非語言任務(wù)中，表現(xiàn)不佳。同樣地，Gendron 等人 [21] 也發(fā)現(xiàn)，LLMs 在從有限示例中識別并應(yīng)用通用模式的任務(wù)中表現(xiàn)較差。

這些研究共同表明，當(dāng)前的 LLMs 盡管在語言任務(wù)方面已經(jīng)非常先進，但在實現(xiàn)跨領(lǐng)域的穩(wěn)健推理能力方面仍有較大差距。

為了解決這些局限性，研究人員提出了多種先進的方法。包括：

結(jié)合人類反饋的強化學(xué)習(xí)[9]，
思維鏈提示（CoT prompting）[65]，
以推理為中心的微調(diào)[33]，
預(yù)訓(xùn)練過程中引入知識圖譜[36]，
可解釋性人工智能技術(shù)[4]。

這些方法在提升 LLMs 在各個領(lǐng)域中的推理能力方面發(fā)揮了重要作用。

此外，最近的研究還提出了一些創(chuàng)新性的方法，以進一步增強 LLMs 的推理能力。包括：

多模態(tài)學(xué)習(xí)技術(shù)[52]，
結(jié)合人類反饋的自適應(yīng)學(xué)習(xí)策略[45]，
將編程語言與 LLMs 相結(jié)合[19]。

這些前沿研究極大地推動了對 LLMs 多維推理能力的系統(tǒng)性增強。

5 結(jié)論

本研究通過采用思維語言假說（Language of Thought Hypothesis, LoTH），解決了當(dāng)前對大語言模型（LLMs）推理能力評估中過于注重結(jié)果導(dǎo)向分析的局限性。盡管近年來的 LLMs 在表現(xiàn)上已接近人類水平，但實驗結(jié)果顯示它們在規(guī)劃與推理方面仍存在顯著差距。

我們基于 LoTH 的三個核心要素 ——邏輯一致性、組合性和生成性，提出了一種結(jié)構(gòu)化的方法，用于評估推理過程本身，而不僅僅是最終結(jié)果。

以抽象與推理語料庫（Abstraction and Reasoning Corpus, ARC）為基準，我們進行了三項定量實驗：

邏輯一致性：我們的分析揭示了在推理一致性和語義一致性方面存在的顯著不足。雖然 LLMs 偶爾能得出正確答案，但它們常常無法在相似問題中保持邏輯一致性，并且經(jīng)常通過錯誤的推理過程得出正確的結(jié)果。
組合性：LLMs 在將簡單元素組合起來解決復(fù)雜問題時表現(xiàn)出根本性的局限性。隨著任務(wù)復(fù)雜度的增加，其性能顯著下降；即使在提供更多上下文的情況下，它們在 DSL（領(lǐng)域特定語言）選擇方面也表現(xiàn)不佳，顯示出較弱的組合能力。
生成性：盡管 LLMs 在創(chuàng)造性任務(wù)方面具有較強的能力，但在基于規(guī)則的生成任務(wù)中卻表現(xiàn)出顯著弱點。它們往往只是模仿觀察到的模式，而非真正理解并應(yīng)用抽象規(guī)則來生成有效的新示例。

這些發(fā)現(xiàn)表明，盡管當(dāng)前 LLMs 在性能指標上令人印象深刻，但從過程導(dǎo)向的角度來看，它們在基本推理能力方面仍存在明顯不足。

為了向?qū)崿F(xiàn)類人水平的人工智能邁進，未來的研究應(yīng)從以下三個互補方向展開：

增強 LLMs 的抽象知識和推理能力：這可能包括開發(fā)更優(yōu)的隱含信息提取表示方法，以及探索更高效的提示技術(shù)，以應(yīng)對巨大的搜索空間。
建立更全面的評估框架，以確保取得有意義的進展：

（1）引入更多樣化的基準測試，更好地反映現(xiàn)實世界的推理場景；
（2）不僅要關(guān)注任務(wù)是否完成，還要對解題過程進行量化評估；
（3）實現(xiàn)人工智能與人類推理方式之間的系統(tǒng)性對比。

本研究最終為該領(lǐng)域做出了貢獻，提供了一個結(jié)構(gòu)化的評估與提升 AI 推理能力的框架，并強調(diào)了將 AI 發(fā)展與人類認知過程相結(jié)合的重要性。

A 補充分析 A.1 比較 LLM 與人類對問題難度的認知

在第 3.1.4 節(jié)分析的基礎(chǔ)上，我們進一步分析了 LLMs（大語言模型）擅長解決的問題和難以應(yīng)對的問題。表 5 展示了根據(jù)人類判斷劃分的問題難度等級下，LLMs 在各類問題上的準確率。

該難度分類基于已有任務(wù)分類體系，并依賴于人類對任務(wù)難度的主觀判斷 [5]。結(jié)果表明，人類認為困難的問題，往往也是 LLMs 難以解決的問題。

這些困難問題具有兩個共同特征： 1）它們需要較長的推理過程才能解決； 2）它們要求同時考慮多個問題，以提取關(guān)于變化的信息。

圖 17 中的一個例子說明了這一點：一個被歸類為“入門”（Entry）的任務(wù)僅需執(zhí)行一步著色操作，而一個被歸類為“困難”（Hard）的任務(wù)則需要三個步驟：

識別每個對象，
確定每個對象的優(yōu)先級，
根據(jù)優(yōu)先級合并各個對象。

“簡單”（Easy）和“中等”（Medium）難度的任務(wù)，則是那些比“入門”更復(fù)雜、但又比“困難”少一些步驟的任務(wù)。

結(jié)合這些觀察可以推斷，人工智能目前具備處理簡單視覺邏輯的能力，但這種能力僅限于 ARC 所包含的四個先驗知識領(lǐng)域中的一個：

對象性（objectness）、
目標導(dǎo)向性（goal-directedness）、
數(shù)字與計數(shù)（numbers and counting）、
基礎(chǔ)幾何（basic geometry）。

然而，它無法處理將這些先驗知識融合在一起的復(fù)雜邏輯組合。

A.2 不同 GPT 版本在增強示例任務(wù)中的成本效率比較

在我們關(guān)于生成性（productivity）研究的后續(xù)實驗中，我們的目標是比較GPT-3.5和GPT-4-32k在增強演示示例任務(wù)時的成本效率。這項研究對于理解實際應(yīng)用中模型性能與相關(guān)成本之間的權(quán)衡至關(guān)重要。

我們的實驗設(shè)置始于創(chuàng)建一個描述任務(wù)類別的提示（prompt）。利用該提示，我們設(shè)計了一個逆變換提示（Inverse Transformation Prompt, ITP），并使用GPT-3.5-16k和GPT-4-32k兩種模型來增強演示示例。

在整個過程中，我們仔細記錄了所有提供給 LLMs 的提示內(nèi)容及其對應(yīng)的輸出結(jié)果。

為了分析成本影響，我們使用tiktoken 庫對記錄的文本進行分詞處理。然后，根據(jù) Azure OpenAI API 提供的每 token 成本，我們計算了生成一個有效演示示例的成本。這種方法使我們能夠準確評估使用不同模型進行示例增強所產(chǎn)生的財務(wù)成本。

對生成示例的驗證是我們實驗中的一個關(guān)鍵環(huán)節(jié)。我們安排了人工評審員手動檢查輸出的質(zhì)量和適用性。這些評審員的任務(wù)是確認兩個關(guān)鍵方面：

1）結(jié)果是否可以合法地從給定規(guī)則中生成； 2）生成的結(jié)果是否具有唯一性，避免重復(fù)或簡單的變體。

這一嚴格的驗證流程確保了我們在實際應(yīng)用場景下對“有效”示例的評估是全面且有意義的。

對生成有效演示示例的成本分析如表 6 所示。分析結(jié)果顯示，盡管GPT-4-32k在有效性方面比GPT-3.5-16k高出約1.5 倍，但其成本卻高出近20 倍。

這表明，在生成受復(fù)雜約束的輸出時，生產(chǎn)力的提升可能不會隨著模型能力和成本的增加而線性增長。因此，在需要生成符合復(fù)雜約束條件的有效輸出的場景中，若考慮性能提升與成本增加之間的權(quán)衡，GPT-3.5 可能比 GPT-4-32k 更具優(yōu)勢。

然而，兩個模型在有效性方面的整體比率均低于 10%，說明當(dāng)前的 LLMs 在此類任務(wù)上的生成能力仍遠低于人類水平。

這一發(fā)現(xiàn)表明，單純升級到更先進的模型并不能完全彌補生成能力上的差距，也突顯了在提升 LLM 在復(fù)雜、受限任務(wù)中的表現(xiàn)方面，仍需進一步的研究與開發(fā)。

A.3 作為類人人工智能基準的 ARC 的局限性

解決 ARC 是否意味著實現(xiàn)了類人水平的人工智能？要回答這個問題，需要恰當(dāng)解決兩個疑問：1）該 ARC 解題器是否具備類人水平的問題解決能力？2）該解題器在解決 ARC 任務(wù)時是否會像人類一樣思考？

如果沒有類人水平的推理能力，我們很難想象這個 ARC 解題器是如何運作的。目前我們可以假設(shè)的是，該模型將具備 LoTH（思維語言假說）所提出的三種特性，并且可能具備 ARC 中所包含的多種推理能力。基于這一假設(shè)，我們嘗試回答以下問題。

A.3.1 模型是否具備類人水平的問題解決能力？

具備推理能力并不等同于具備類人水平的問題解決能力。換句話說，即使一個模型能夠達到足以解決 ARC 的推理水平，它可能仍不具備類人水平的問題解決能力。

人類所面對的各種任務(wù)通常比 ARC 更加復(fù)雜，并且除了推理之外，還涉及其他多種認知因素。因此，即使是能夠解決 ARC 的模型，與類人水平的問題解決能力相比，也可能存在以下限制：

首先，根據(jù)當(dāng)前的 ARC 標準，尚不清楚解決 ARC 的模型是否能夠處理更復(fù)雜的任務(wù)類型。這是因為 ARC 任務(wù)僅聚焦于推理能力，因此其環(huán)境設(shè)計相對簡單。通過 ARC 學(xué)習(xí)到的推理能力是否適用于更復(fù)雜的環(huán)境，尚未得到驗證。

其次，解決 ARC 并不意味著具備除推理以外的其他智能組成部分。雖然推理無疑是認知過程中的核心部分，但它并不是智能的全部。已有研究表明，解決類人復(fù)雜任務(wù)需要多種認知能力的協(xié)同作用 [20]。

A.3.2 模型是否像人類一樣思考？

即使我們假設(shè) ARC 解題器能夠在 LoTH（思維語言假說）的意義上進行推理，我們也無法保證其解題過程是類人的，原因如下兩點：

第一，當(dāng)前的 ARC 提供的評估標準只獎勵任務(wù)的解決結(jié)果，而不考慮解題過程。需要注意的是，這種衡量方式可能會引發(fā)錯誤的目標導(dǎo)向，即所謂的“邁達斯國王問題”（King Midas problem）[50]。

該問題強調(diào)了 AI 過于字面化地實現(xiàn)既定目標所帶來的風(fēng)險，可能導(dǎo)致意料之外的負面后果，這也突顯了將 AI 目標與人類價值觀及更大背景相一致的重要性。

僅以結(jié)果為導(dǎo)向的評分機制使得我們難以評估模型的解題過程是否與人類推理過程相似。因此，基于當(dāng)前 ARC 訓(xùn)練出的模型很可能在任務(wù)解決方式上與人類存在差異。

第二，直接比較人類與語言模型的推理過程本身具有挑戰(zhàn)性。目前對于人類如何解決 ARC 任務(wù)的研究尚屬空白，因此我們尚不清楚人類與人工智能在解題過程上的具體差異。此外，缺乏用于比較解題過程的度量標準，也使直接對比變得困難。

A.3 作為類人人工智能基準的 ARC 的局限性

解決 ARC 是否意味著實現(xiàn)了類人水平的人工智能？要回答這個問題，需要恰當(dāng)解決兩個疑問：
1）該 ARC 解題器是否具備類人水平的問題解決能力？
2）該解題器在解決 ARC 任務(wù)時是否會像人類一樣思考？

A.3.1 模型是否具備類人水平的問題解決能力？

具備推理能力并不一定等同于具備類人水平的問題解決能力。換句話說，即使一個模型能夠達到足以解決 ARC 的推理水平，它可能仍不具備類人水平的問題解決能力。

人類在日常生活中所面對的各種任務(wù)通常比 ARC 更加復(fù)雜，并且除了推理之外，還涉及其他多種認知因素。因此，即使是能夠解決 ARC 的模型，在與類人水平的問題解決能力相比時，也可能存在以下局限性。

首先，根據(jù)當(dāng)前的 ARC 評估標準，我們尚不清楚一個能解決 ARC 的模型是否也能應(yīng)對更復(fù)雜的任務(wù)類型。這是因為 ARC 任務(wù)主要聚焦于推理能力，其環(huán)境設(shè)定相對簡單。通過 ARC 所獲得的推理能力是否適用于更復(fù)雜的現(xiàn)實世界任務(wù)，目前尚未得到驗證。

其次，解決 ARC 并不意味著模型具備除推理以外的其他智能組成部分。雖然推理無疑是認知過程中的核心部分，但它并不是智能的全部。已有研究表明，要解決類人復(fù)雜任務(wù)，需要多種認知能力的協(xié)同作用 [20]。

A.3.2 模型是否像人類一樣思考？

即使我們假設(shè) ARC 解題器能夠在 LoTH（思維語言假說）的意義上進行推理，我們也無法保證它的解題過程是類人的，原因如下：

第一，當(dāng)前的 ARC 提供的評估方式只獎勵任務(wù)的完成結(jié)果，而不考慮其解題過程。需要注意的是，這種衡量機制可能會導(dǎo)致錯誤的目標導(dǎo)向，引發(fā)所謂的“邁達斯國王問題”（King Midas problem）[50]。

這個問題強調(diào)了 AI 在實現(xiàn)既定目標時過于字面化所帶來的風(fēng)險，可能導(dǎo)致意想不到的負面后果，也進一步說明了將 AI 的目標與人類價值觀及整體背景保持一致的重要性。

僅以結(jié)果為導(dǎo)向的評分機制使得我們難以判斷模型的解題過程是否與人類推理相似。因此，基于當(dāng)前 ARC 訓(xùn)練出的模型很可能在任務(wù)解決方式上與人類存在差異。

第二，直接比較人類和語言模型的推理過程本身具有挑戰(zhàn)性。目前對人類如何解決 ARC 任務(wù)的研究仍然空白，因此我們尚不清楚人類與人工智能在解題過程上的具體差異。此外，目前缺乏用于對比解題過程的有效度量指標，這也使直接比較變得困難。

B 實驗細節(jié) B.1 邏輯一致性

邏輯一致性研究包括兩個主要實驗： 1）比較不同提示技術(shù)下的語義一致性； 2）評估 LLMs 的推理一致性。

在第一個實驗（提示技術(shù)比較）中，我們從 ARC 評估集中隨機選取了 100 個任務(wù)。隨后應(yīng)用了三種不同的提示方法 ——思維鏈（Chain of Thought, CoT）、由簡至繁（Least to Most, LtM）和思維樹（Tree of Thoughts, ToT），以比較它們在保持語義一致性方面的有效性。

第二個實驗旨在評估 LLMs 的推理一致性，即判斷模型是否能夠一致地應(yīng)用相同的邏輯。因此，首先需要確認哪些任務(wù)是 LLMs 真正理解了其中的邏輯的。為此，我們使用在提示技術(shù)比較實驗中表現(xiàn)最好的提示方法 ——CoT 提示，來解決 ARC 訓(xùn)練集中的任務(wù)，并重復(fù)該實驗五次。

在五次實驗中至少有一次被正確解決的任務(wù)上，我們進行了關(guān)于推理一致性的進一步實驗。每個實驗所使用的具體任務(wù) ID 和提示信息分別見于B.1.1和B.1.2部分。

B.1.1 每個實驗所使用任務(wù)的 ID 列表

用于邏輯一致性比較實驗的任務(wù) ID 列表如下：

第一個實驗（不同提示技術(shù)之間的比較）基于100 個 ARC 評估任務(wù)進行；
第二個實驗（LLMs 推理一致性實驗）則基于83 個 ARC 訓(xùn)練任務(wù)進行。

B.1.2 提示設(shè)置
在不同提示技術(shù)比較和 LLMs 推理一致性實驗中所使用的提示方法包括：CoT（思維鏈）、LtM（由簡至繁）和ToT（思維樹）。這些提示的具體內(nèi)容詳見B.1.3 節(jié)。
在提示中，用花括號{}括起來的部分表示需要插入相應(yīng)內(nèi)容的位置。
例如，如果是CoT 提示，則包含一個 CoT 的單樣本示例（one-shot example）、任務(wù)中的演示示例以及測試輸入。
無論使用哪種提示方法，所有提示都提供了一個單樣本示例（one-shot example）：
B.1.3 詳細提示內(nèi)容
邏輯一致性實驗中采用了多種提示技術(shù)，包括CoT、LtM和ToT：
- LLMs DSL 理解實驗用于衡量當(dāng)給定任務(wù)答案時，LLMs 能夠多準確地生成正確的 DSL；
- 組合能力實驗則用于檢驗 LLMs 是否能夠從所提供的 DSL 中正確選擇并使用解決問題所需的 DSL。
- CoT 使用CoT提示：
- LtM 使用分解提示和逐步求解提示：
- ToT 則結(jié)合了分解提示、ToT分解投票提示、逐步求解提示和 ToT 逐步求解投票提示
- B.2 組合性
  在關(guān)于組合性的研究中，我們進行了兩個實驗： 1）評估 LLMs 對 DSL（領(lǐng)域特定語言）理解程度的實驗； 2）評估 LLMs組合能力（compositionality ability）的實驗。
  這兩個實驗使用了相同的任務(wù)集合。有關(guān)任務(wù) ID 的詳細信息見表 B.2.1，具體的提示細節(jié)詳見表 B.2.4 和表 B.2.6。
  B.2.1 任務(wù) ID 列表
  組合性實驗所使用的任務(wù) ID 列表共包含158 個任務(wù)。從總共 800 個 ARC 任務(wù)中，我們僅選取了那些輸入和輸出網(wǎng)格大小相同、并且在使用給定 DSL 的情況下可以通過長度不超過 10 的 DSL 序列解決的任務(wù)用于實驗。

B.2.2 所使用的DSL類型。

每種DSL都實現(xiàn)為一個Python函數(shù)。如表7所示，

共有三種類型的DSL，使用了三種不同的參數(shù)類型。顏色變化（Color Change）DSL接受諸如坐標（Coordinate）和對象（Object）等參數(shù)。基于坐標的顏色變化DSL包括：像素顏色（Pixel Color）、X線（X Line）、水平線（Horizontal Line）、垂直線（Vertical Line）和對角線（Diagonal Line）。對于對象參數(shù)，僅存在“obj color”這一種DSL。

變換（Transformation）DSL使用對象（Object）和網(wǎng)格（Grid）參數(shù)。基于對象的變換包括：向左旋轉(zhuǎn)對象（Rotate Left Obj）、向右旋轉(zhuǎn)對象（Rotate Right Obj）、水平翻轉(zhuǎn)對象（Horizontal Flip Obj）、垂直翻轉(zhuǎn)對象（Vertical Flip Obj），以及移動操作（Move Left、Move Right、Move Up、Move Down）。基于網(wǎng)格的變換包括：向左旋轉(zhuǎn)整個狀態(tài)（Rotate Left State）、向右旋轉(zhuǎn)整個狀態(tài)（Rotate Right State）、水平翻轉(zhuǎn)整個狀態(tài)（Horizontal Flip）和垂直翻轉(zhuǎn)整個狀態(tài)（Vertical Flip）。

最后，存在一種獨立于任何參數(shù)的“Complete DSL”，用于表示在達到DSL序列長度10之前任務(wù)已經(jīng)完成。對于恰好使用DSL序列長度為10的任務(wù)來說，不需要使用Complete DSL。

B.2.3 面向大語言模型（LLMs）的提示內(nèi)容，包含DSL代碼與注釋。

在衡量組合性及LLM對DSL理解能力的兩項實驗中，我們確定了一組共10個任務(wù)，這些任務(wù)整體上至少需要使用全部15種DSL中每一種一次。該任務(wù)集被用于確定向LLM解釋DSL時的最佳提示方式。我們嘗試了四種提示變體：不提供DSL信息、僅提供DSL代碼、僅提供DSL注釋、同時提供DSL代碼和注釋。針對這10個任務(wù)，在所有四種提示結(jié)構(gòu)下均進行了LLM對DSL理解能力的實驗。結(jié)果表明，同時提供代碼和注釋可以獲得最佳性能。因此，在后續(xù)關(guān)于LLM對DSL的理解能力和組合性的實驗中，我們采用的是同時包含DSL代碼和注釋的提示內(nèi)容。附錄B.2.4節(jié)展示了向LLM同時提供DSL代碼和注釋的提示內(nèi)容示例。

B.2.4 詳細的DSL提示內(nèi)容。DSL函數(shù)代碼與注釋的提示方式

B.2.5 組合性實驗的提示內(nèi)容

LLM的DSL理解實驗與LLM組合性實驗均使用了附錄B.2.6節(jié)中所述的提示結(jié)構(gòu)。
“ARC簡介提示”（Introduction ARC Prompt）提供了關(guān)于ARC任務(wù)的全面概述，而“DSL使用示例提示”（DSL Usage Example Prompt）則展示了DSL的應(yīng)用方式。
DSL提示由B.2.4節(jié)中的DSL函數(shù)代碼與注釋提示以及DSL使用示例提示組成，提供了對DSL的全面解釋。
任務(wù)提示（Task Prompt）包括演示示例、測試輸入、對象信息（通過PnP獲得的以字典格式表示的對象坐標），以及輸出格式的指導(dǎo)原則。

在LLM的DSL理解實驗中使用的提示不同于任務(wù)提示，因為會提供該任務(wù)所用到的DSL路徑（DSLs path）。
CoT提示（推理鏈提示）包含了ARC簡介提示和DSL提示。
對于LLM的DSL理解實驗，使用的是LLM的DSL理解提示；
而對于LLM的組合性實驗，則使用任務(wù)提示。
在組合性實驗中，采用的是CoT提示。

B.2.6 詳細的提示內(nèi)容。組合性實驗中所使用的提示內(nèi)容構(gòu)成。

B.3 生產(chǎn)力

在生產(chǎn)力實驗中，我們的目標是使用逆變換提示（ITP, Inverse Transformation Prompt）來擴充任務(wù)的演示示例對。ITP 包含一個類別提示（category prompt），其中描述了該類別的特點、示例對以及需要被擴充的目標輸出。類別提示的詳細結(jié)構(gòu)見附錄 B.3.2 節(jié)，而 ITP 的結(jié)構(gòu)則在 B.3.1 節(jié)中進行了說明。

B.3.1 ITP：生產(chǎn)力實驗中所使用提示內(nèi)容的構(gòu)成。

ITP 由類別提示、示例對和目標輸出組成。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.