Reasoning Abilities of Large Language Models: In-Depth Analysis on the Abstraction and Reasoning Corpus
大語(yǔ)言模型推理能力研究:基于抽象推理語(yǔ)料庫(kù)的深度分析
https://arxiv.org/pdf/2403.11793
摘要
現(xiàn)有的評(píng)估大語(yǔ)言模型(LLMs)推理能力的方法主要集中在結(jié)果導(dǎo)向上,這使得全面評(píng)估其推理過程變得具有挑戰(zhàn)性。我們引入了一種新穎的方法,使用抽象與推理語(yǔ)料庫(kù)(ARC)基準(zhǔn),以一種過程導(dǎo)向的方式評(píng)估LLMs的推理和上下文理解能力。我們的方法聚焦于思維語(yǔ)言假說(Language of Thought Hypothesis, LoTH)中的三個(gè)關(guān)鍵要素:邏輯一致性(Logical Coherence)、組合性(Compositionality)以及生成性(Productivity)。
我們精心設(shè)計(jì)的實(shí)驗(yàn)表明,盡管大語(yǔ)言模型在某些推理任務(wù)上展現(xiàn)出一定能力,但在上述三個(gè)方面仍顯著落后于人類水平的推理能力。本文的主要貢獻(xiàn)在于引入了LoTH視角,提出了一種傳統(tǒng)結(jié)果導(dǎo)向方法無法捕捉的、用于評(píng)估推理過程的方法,從而為實(shí)現(xiàn)類人水平推理的人工智能系統(tǒng)的發(fā)展提供了新的洞見。
1 引言
最近的大語(yǔ)言模型(LLMs)展現(xiàn)出了接近人類水平的表現(xiàn),但實(shí)驗(yàn)結(jié)果顯示它們?nèi)狈νㄟ^思維或推理進(jìn)行規(guī)劃的能力 [6]。因此,當(dāng)前語(yǔ)言模型研究中的一個(gè)關(guān)鍵問題是:大語(yǔ)言模型能否思考?
為了解答這個(gè)問題,研究人員提出了新的用于衡量推理能力的基準(zhǔn)測(cè)試任務(wù),例如 MathVista [37]、Bongard-Logo [44] 和 Raven [75]。在這些任務(wù)中,抽象與推理語(yǔ)料庫(kù)(Abstraction and Reasoning Corpus, ARC)[8] 成為了評(píng)估推理能力的一個(gè)代表性基準(zhǔn)。
如下圖1所示,ARC 中的每個(gè)任務(wù)包含2到5對(duì)演示示例(即輸入-輸出配對(duì)),以及一個(gè)測(cè)試用的輸入網(wǎng)格。目標(biāo)是從給定的演示示例中推斷出規(guī)則,并將其應(yīng)用到測(cè)試示例上。輸入和輸出的網(wǎng)格大小可以從最小的 1×1 到最大的 30×30 不等,每個(gè)網(wǎng)格中最多可包含10種不同的顏色。
盡管ARC的內(nèi)容和評(píng)估方法看似簡(jiǎn)單,它仍然是一個(gè)尚未解決的挑戰(zhàn)。它要求高度的抽象能力和多步驟推理能力,這也解釋了為什么傳統(tǒng)的深度學(xué)習(xí)技術(shù)未能取得成功。迄今為止表現(xiàn)最好的模型僅達(dá)到了40-55%的準(zhǔn)確率 [30],而大語(yǔ)言模型(LLMs)如GPT-4和PaLM的準(zhǔn)確率則大約在10-20% [42]。與人類平均80%的準(zhǔn)確率 [27] 相比,這些結(jié)果表明人類與LLMs在推理和抽象能力方面存在顯著差異。
然而,目前對(duì)于LLMs如何進(jìn)行推理、以及其推理方式與人類有何不同的深入研究仍然缺乏。這一空白促使人們呼吁從結(jié)果導(dǎo)向的評(píng)估轉(zhuǎn)向?qū)?strong>推理過程更為細(xì)致的分析 [2, 7, 24, 72],表明我們需要一種新的視角,即基于推理過程而非僅僅結(jié)果來評(píng)估推理能力。
為了克服人工智能領(lǐng)域中結(jié)果導(dǎo)向分析的局限性,本研究采用了關(guān)于人類推理能力本質(zhì)的已有理論。根據(jù)思維語(yǔ)言假說(Language of Thought Hypothesis, LoTH)[17],人類的推理能力包含三個(gè)基本特征:
邏輯一致性(Logical Coherence),即在推理過程中保持一致性的能力;組合性(Compositionality),即通過較簡(jiǎn)單的組成部分構(gòu)建復(fù)雜思想的能力;生成性(Productivity),即利用有限的元素集合生成無限數(shù)量的思想或解決方案的能力。
盡管之前已有研究嘗試評(píng)估邏輯一致性、組合性和生成性 [6, 58],但存在一些局限性:一方面,不同論文中對(duì)每個(gè)組成部分的定義各不相同;另一方面,現(xiàn)有的基準(zhǔn)測(cè)試在評(píng)估各個(gè)方面的能力時(shí)表現(xiàn)不足。本研究與以往研究主要有兩點(diǎn)關(guān)鍵區(qū)別:1)將來自心理學(xué)的概念重新定義并適配到計(jì)算機(jī)科學(xué)領(lǐng)域;2)通過視覺推理基準(zhǔn) ARC 來評(píng)估所有這些要素。
為實(shí)現(xiàn)上述目標(biāo),我們?cè)O(shè)計(jì)了三項(xiàng)實(shí)驗(yàn):
(1)邏輯一致性(Logical Coherence):LoTH 指出邏輯一致性包含兩種類型。一是推理一致性(Inferential Coherence)——即在多個(gè)相關(guān)實(shí)例中連貫地應(yīng)用邏輯推理的能力;二是語(yǔ)義一致性(Semantic Coherence)——即在推理過程和結(jié)果中保持邏輯一致性的能力 [18]。為了驗(yàn)證這兩種邏輯一致性,我們?cè)诿恳粋€(gè)已解決的 ARC 任務(wù)基礎(chǔ)上增加了 100 個(gè)相似的測(cè)試樣例,并評(píng)估 LLM 在這些相關(guān)實(shí)例上的表現(xiàn)。此外,我們還分析了解題過程,識(shí)別那些答案正確但推理錯(cuò)誤的情況,以衡量 LLM 的語(yǔ)義一致性。
(2)組合性(Compositionality):組合性指的是一個(gè)系統(tǒng)表達(dá)某一命題的能力與其表達(dá)相關(guān)命題的能力之間具有內(nèi)在聯(lián)系 [18]。在本研究中,我們將組合性定義為能夠組合給定語(yǔ)義信息的能力。因此,為了評(píng)估組合性,需要驗(yàn)證模型是否能按照預(yù)期組合這些語(yǔ)義信息。為此,我們向 LLM 提供了一系列分步驟的功能函數(shù),并考察它們是否能夠識(shí)別出用于解決 ARC 問題的合適函數(shù)。隨后,我們進(jìn)一步分析了 LLM 是否能準(zhǔn)確預(yù)測(cè)這些分步函數(shù)的執(zhí)行結(jié)果,并探究其失敗的原因。
(3)生成性(Productivity):生成性指的是通過有限的一組語(yǔ)義信息無限地創(chuàng)造未曾見過的新表達(dá)的能力 [18]。然而,要定量地衡量是否能夠創(chuàng)造出無限數(shù)量的新表達(dá)是困難的。因此,以往的研究通常通過評(píng)估模型是否能夠生成符合規(guī)則且未見過的新表達(dá)來衡量生成性 [25, 31, 59]。類似地,在本研究中,為了評(píng)估生成新表達(dá)的能力,我們?cè)诮o定一組功能函數(shù)的前提下,考察模型是否能夠生成符合規(guī)則、且未曾在訓(xùn)練中出現(xiàn)過的 ARC 任務(wù)。
結(jié)果表明,我們確認(rèn)當(dāng)前水平的 LLMs 具備對(duì)圖像的基本理解能力,并能夠執(zhí)行簡(jiǎn)單類型的組合性對(duì)象操作。然而,與人類的推理能力相比,LLMs 在以下三個(gè)方面仍存在不足:
1)它們?cè)谕评硪恢滦院驼Z(yǔ)義一致性方面表現(xiàn)不佳;
2)它們的邏輯推理能力,尤其是以逐步方式進(jìn)行推理的能力較弱;
3)它們?cè)趶?fù)雜約束條件下理解和生成未曾見過的表示形式時(shí)存在困難。
最后,本研究總結(jié)并提出了近期為解決抽象能力和推理能力不足而提出的若干發(fā)展趨勢(shì)。根據(jù)人類推理的各個(gè)組成部分來分析 LLMs 的推理能力,并探討如何增強(qiáng)每一個(gè)組成部分,這是一種區(qū)別于以往研究的新方法。它為未來測(cè)量和提升 LLMs 推理能力提供了新的視角。
2 預(yù)賽
本節(jié)旨在在對(duì)大語(yǔ)言模型(LLMs)的推理能力進(jìn)行詳細(xì)評(píng)估之前,解釋我們?yōu)楹芜x擇從思維語(yǔ)言假說(LoTH)視角和抽象與推理語(yǔ)料庫(kù)(ARC)出發(fā)來進(jìn)行研究。首先,在第2.1節(jié)中,我們將回顧關(guān)于推理能力的現(xiàn)有定義,并說明為何 LoTH 在衡量智能方面具有重要意義。隨后,在第2.2節(jié)中,我們將展示 ARC 是一個(gè)適合從人類推理角度研究 LLMs 的基準(zhǔn)測(cè)試,原因如下:1)它使用可泛化的抽象語(yǔ)義;2)它易于修改。
2.1 對(duì)評(píng)估 LLMs 推理能力的局限性
對(duì)評(píng)估 LLMs 能力的研究持續(xù)不斷,并突出了其在圖像和文本生成方面的優(yōu)勢(shì)。特別是分析表明,LLMs 具備某種“世界模型”(World Model)[22] 的元素,顯示出其在推理任務(wù)中的潛力。然而,推理能力仍存在挑戰(zhàn) [58],常常觀察到諸如推理扭曲或不完整等錯(cuò)誤 [34]。研究表明,復(fù)雜的組合性仍然是一個(gè)重大挑戰(zhàn) [16]。
關(guān)于 LLMs 推理能力的不同觀點(diǎn)源于以結(jié)果為中心的測(cè)量方法。圖靈首次將評(píng)估方式引向了注重結(jié)果的方向 [56],之后許多研究者也聚焦于性能指標(biāo) [40, 49, 67]。最近,Chollet 嘗試從結(jié)果導(dǎo)向的角度量化推理能力 [8]。然而,這些研究都關(guān)注推理所能實(shí)現(xiàn)的結(jié)果,而未具體說明其組成部分。West 等人 [66] 對(duì)僅從這一視角評(píng)估 LLMs 的推理能力提出了擔(dān)憂。
為克服這些局限性,我們提出采用LoTH 視角。LoTH 通過將推理的組成部分與定量指標(biāo)相結(jié)合,豐富了相關(guān)討論。該理論認(rèn)為,推理涉及具有組合語(yǔ)法和組合語(yǔ)義的心理表征的操作過程。我們的研究基于 LoTH 來評(píng)估 LLMs 的推理能力,重點(diǎn)關(guān)注邏輯一致性、組合性和生成性。
以往的研究曾分別評(píng)估過這些方面:
- 邏輯一致性指在解決問題過程中構(gòu)建一致邏輯的能力 [76];
- 組合性涉及理解和組合復(fù)雜表達(dá)式的能力 [31];
- 生成性則通過有限資源下輸出的準(zhǔn)確性和效率來評(píng)估 [25, 59]。
然而,這些嘗試缺乏統(tǒng)一的標(biāo)準(zhǔn),也無法直接與人類推理過程進(jìn)行對(duì)比。
采用 LoTH 視角為提升推理能力提供了有力依據(jù)。它有助于開發(fā)出一種類似人類推理的信息處理和任務(wù)解決方式:
- 邏輯一致性確保推理過程中無矛盾;
- 組合性使已有知識(shí)能適應(yīng)新場(chǎng)景;
- 生成性提升根據(jù)給定規(guī)則生成結(jié)果的能力。
因此,這種方法有助于 LLMs 實(shí)現(xiàn)更接近人類的推理能力,使其能夠以創(chuàng)新且合理的方式應(yīng)對(duì)復(fù)雜問題。
2.2 使用 ARC 作為推理基準(zhǔn)的優(yōu)勢(shì)
抽象與推理語(yǔ)料庫(kù)(Abstraction and Reasoning Corpus, ARC)成為從 LoTH 視角評(píng)估推理能力的一個(gè)有力候選。ARC 與 LoTH 相契合,因?yàn)樗笸ㄟ^組合語(yǔ)義信息來解決問題,并且允許任務(wù)的靈活修改。
2.2.1 ARC 的核心特性
ARC 的關(guān)鍵特征在于它要求提取并組合具有組合性的語(yǔ)義信息,這需要復(fù)雜的解題方法。兩個(gè)研究發(fā)現(xiàn)支持這一觀點(diǎn):
(1)語(yǔ)義信息的重要性:研究表明,補(bǔ)充的語(yǔ)義信息能顯著提升 ARC 任務(wù)的表現(xiàn)。例如,整合以圖形式表示的對(duì)象信息后,成功率幾乎翻倍 [71]。
(2)ARC 的高抽象層次:ARC 的抽象程度超過了其他基準(zhǔn)測(cè)試 [41]。Chollet 認(rèn)為,傳統(tǒng)特征提取方法在 ARC 面前顯得不足,因?yàn)?ARC 要求對(duì)形狀進(jìn)行復(fù)雜解釋并對(duì)變換過程有深入理解 [8]。
這些觀察結(jié)果突顯了開發(fā)能夠有效提取和利用復(fù)雜、抽象信息的方法的必要性,以便解決 ARC 任務(wù)。這種特性正好契合 LoTH 的視角,即將推理能力視為由語(yǔ)義組合所驅(qū)動(dòng)的能力。
2.2.2 基準(zhǔn)適應(yīng)的靈活性
盡管 ARC 的規(guī)則看似簡(jiǎn)單,但它仍然是一項(xiàng)極具挑戰(zhàn)性的任務(wù):LLMs 的準(zhǔn)確率僅為 15% [47],傳統(tǒng)程序合成模型達(dá)到了 26% [68],而人類平均準(zhǔn)確率為 80% [27]。為了應(yīng)對(duì)這一挑戰(zhàn),出現(xiàn)了多種 ARC 的變體:
(1)1D-ARC [71]:將維度從二維降低到一維,在保留核心知識(shí)的同時(shí)簡(jiǎn)化了復(fù)雜度。該變體有效解決了對(duì)象聚合問題,LLMs 在其上的準(zhǔn)確率高達(dá)約 90%。
(2)MC-LARC [51]:采用多選格式,將生成式任務(wù)轉(zhuǎn)變?yōu)檫x擇式任務(wù)。GPT-4 在此格式下表現(xiàn)出色,準(zhǔn)確率約為 75%。
(3)Mini-ARC [28]:將網(wǎng)格大小限制為 5×5,在保留二維生成特性的前提下簡(jiǎn)化輸入。其表現(xiàn)仍具挑戰(zhàn)性,與原始 ARC 相似(準(zhǔn)確率約為 15%)。
(4)ConceptARC [43]:將任務(wù)按概念分組,聚焦于特定的空間和語(yǔ)義概念。其表現(xiàn)也與原始 ARC 類似(準(zhǔn)確率約為 20%)。
這些變體展示了 ARC 在實(shí)驗(yàn)設(shè)計(jì)中的高度可塑性,并強(qiáng)調(diào)了解決 ARC 任務(wù)時(shí)組合性的重要性。其中,MC-LARC 和 1D-ARC 減少了推理步驟的復(fù)雜性,而 Mini-ARC 則專注于降低圖像復(fù)雜度。不同變體之間的性能差異表明,減少對(duì)復(fù)雜變換組合的需求可以顯著提升模型表現(xiàn),從而突出了組合語(yǔ)法在解決 ARC 任務(wù)中的重要性。
綜上所述,ARC 成為了一個(gè)適合從 LoTH 視角評(píng)估推理能力的有力基準(zhǔn)。其核心優(yōu)勢(shì)在于要求通過提取和組合具有組合性的語(yǔ)義信息來完成任務(wù),這一點(diǎn)已被附加語(yǔ)義信息帶來性能提升的實(shí)驗(yàn)證據(jù)所證實(shí)。各種 ARC 變體展現(xiàn)了其在不同實(shí)驗(yàn)?zāi)康南碌撵`活性,而它們之間的性能差異進(jìn)一步凸顯了組合語(yǔ)法在解決 ARC 任務(wù)中的必要性。此外,ARC 所展現(xiàn)出的高度抽象性和推理復(fù)雜性——體現(xiàn)為人機(jī)之間顯著的表現(xiàn)差距——也驗(yàn)證了其作為探索 LoTH 框架下推理能力的有效工具的價(jià)值。
3 使用 ARC 基準(zhǔn)評(píng)估 LLMs 的推理能力
為了評(píng)估語(yǔ)言模型(LMs)是否具備推理能力,可以將其與人類的推理能力進(jìn)行比較。正如第 2.1 節(jié)所解釋的那樣,根據(jù)思維語(yǔ)言假說(LoTH),人類的推理能力大致可分為三個(gè)主要組成部分:邏輯一致性(第 3.1 節(jié))、組合性(第 3.2 節(jié))和生成性(第 3.3 節(jié))。我們利用 ARC 來從 LoTH 的視角評(píng)估 LLMs 的各項(xiàng)推理能力。
3.1 LLMs 的能力之一:邏輯一致性 3.1.1 動(dòng)機(jī)
第 3.1 節(jié)旨在評(píng)估 LLMs 的邏輯一致性。這是 LoTH 中一個(gè)基礎(chǔ)性的方面,它將“一致性”分為兩個(gè)維度:推理一致性和語(yǔ)義一致性[18]。
- 語(yǔ)義一致性指的是在推理過程及結(jié)果中保持邏輯一致的能力;
- 推理一致性則指一個(gè)系統(tǒng)在某些情況下能夠執(zhí)行某種推理的前提下,能否在所有相關(guān)實(shí)例中一致地應(yīng)用該類推理。
這些概念在人類認(rèn)知過程中至關(guān)重要,并且與 ARC 任務(wù)中所需的規(guī)則推理密切相關(guān)。
我們的初步實(shí)驗(yàn)主要通過評(píng)估 LLMs 所產(chǎn)生的結(jié)果是否在其問題解決步驟中具有邏輯連貫性,來衡量其語(yǔ)義一致性。這項(xiàng)評(píng)估使用了多種提示技術(shù)(prompt techniques),如思維鏈(Chain of Thought, CoT)[65]、由簡(jiǎn)至繁(Least to Most, LtM)[78] 和思維樹(Tree of Thought, ToT)[74],這與之前嘗試解決 ARC 任務(wù)的方法類似 [42, 71]。我們比較了不同提示策略所達(dá)到的一致性水平,旨在識(shí)別出在多樣化的解題情境中哪些技術(shù)能夠產(chǎn)生最具有語(yǔ)義一致性的結(jié)果。
然而,我們也意識(shí)到這種方法在評(píng)估推理一致性方面的局限性,因此引入了基于增強(qiáng)型 ARC 任務(wù)的補(bǔ)充實(shí)驗(yàn)。這些任務(wù)是通過 Re-ARC 程序 [23] 創(chuàng)建的,使我們能夠評(píng)估 LLMs 在原本已解決的問題變體中是否能持續(xù)應(yīng)用相同的邏輯模式,從而更全面地評(píng)估其邏輯推理能力。
3.1.2 不同提示技術(shù)之間的比較
LLMs 在邏輯推理方面存在不足,這一問題已被多次指出,直接嘗試解決 ARC 任務(wù)的成功率通常低于 10% [42]。為了解決這一問題,研究者正通過諸如思維鏈(CoT)、由簡(jiǎn)至繁(LtM) 和思維樹(ToT) 等提示技術(shù)來提升 LLMs 的邏輯推理能力。這些策略被證明能夠有效激發(fā) LLMs 的推理能力 [61],并且由于它們采用逐步推理的方式,使得人類更容易理解和分析其推理過程,從而具備更高的透明度。
因此,在本實(shí)驗(yàn)中,我們通過解決 ARC 任務(wù)的方式來評(píng)估這些提示策略對(duì) LLMs邏輯一致性的影響。
我們使用GPT-4-32k模型,采用三種主要的提示技術(shù) —— CoT、LtM 和 ToT,來解決 100 個(gè) ARC 評(píng)估任務(wù)。每種技術(shù)都進(jìn)行了五輪測(cè)試。ARC 任務(wù)遵循“少樣本學(xué)習(xí)”(few-shot learning)范式,要求模型從給定的示例對(duì)中推斷出任務(wù)規(guī)則,并將其應(yīng)用于測(cè)試示例。
- CoT 方法通過生成結(jié)構(gòu)化的思維鏈條來提升推理表現(xiàn),該鏈條系統(tǒng)地連接了解決 ARC 任務(wù)所需的各個(gè)步驟,并在提示中提供相應(yīng)的示例;
- LtM 方法將任務(wù)分解為多個(gè)可管理的步驟,并依次執(zhí)行;
- ToT 方法則在每個(gè)分解步驟后生成多個(gè)候選答案,通過投票機(jī)制選出最佳候選后再繼續(xù)下一步。
表 1:每種提示技術(shù)的平均表現(xiàn)。準(zhǔn)確率基于使用 CoT、LtM 和 ToT 提示解決 100 個(gè)隨機(jī) ARC 任務(wù)的結(jié)果,每種提示重復(fù)五次。括號(hào)外的準(zhǔn)確率表示僅結(jié)果正確的準(zhǔn)確率,括號(hào)內(nèi)的準(zhǔn)確率表示結(jié)果和過程均正確的準(zhǔn)確率。
在不同提示方式下對(duì) ARC 任務(wù)的準(zhǔn)確率進(jìn)行比較時(shí),CoT 的表現(xiàn)優(yōu)于 LtM 和 ToT。表1展示了將 LtM、CoT 和 ToT 應(yīng)用于從 ARC 評(píng)估集中隨機(jī)選取的 100 個(gè)任務(wù)的結(jié)果。實(shí)驗(yàn)重復(fù)了五次,每次迭代中都包含了正確答案的百分比。
- CoT 的準(zhǔn)確率約為 10%
- LtM 和 ToT 的準(zhǔn)確率約為 6%
這表明 CoT 具有更優(yōu)越的表現(xiàn),而 ToT 和 LtM 則存在累積誤差傳播的問題:其多步驟答案生成過程中,某一步驟中的小錯(cuò)誤可能會(huì)在后續(xù)步驟中導(dǎo)致更大的錯(cuò)誤。
考慮到 CoT 相較于 LtM 和 ToT 更高的準(zhǔn)確率(約 11% 對(duì)比約 7%)以及更強(qiáng)的抗誤差傳播能力,我們?cè)诤罄m(xù)實(shí)驗(yàn)中僅使用了 CoT 提示方法。
然而,當(dāng)我們檢查解題過程的正確性時(shí),三種提示技術(shù)的準(zhǔn)確率均較低,括號(hào)內(nèi)的數(shù)據(jù)顯示它們的準(zhǔn)確率都在3% 左右,且沒有顯著差異。這些結(jié)果表明,盡管不同的提示技術(shù)在準(zhǔn)確率上有所差異,但在語(yǔ)義一致性方面幾乎沒有差別。
這種在各種提示方法之間的一致性表明,問題并不在于引導(dǎo)模型輸出的方式,而在于 LLMs 自身的基本推理能力存在局限性。此外,無論是在結(jié)果還是過程方面,LLMs 的表現(xiàn)都遠(yuǎn)低于人類平均 80% 的準(zhǔn)確率。
這些低性能指標(biāo),特別是與人類基準(zhǔn)相比時(shí),不能歸因于特定提示技術(shù)的局限性。研究結(jié)果表明,LLMs 在邏輯一致性方面明顯落后于人類。為了進(jìn)一步分析造成這一現(xiàn)象的具體原因,我們進(jìn)行了后續(xù)實(shí)驗(yàn)。
第 3.1.3 節(jié)分析了邏輯一致性的一個(gè)方面 ——推理一致性;
第 3.1.4 節(jié)則通過案例研究,考察了 LLMs 的語(yǔ)義一致性。
3.1.3 LLMs 的推理一致性
在我們的第二項(xiàng)實(shí)驗(yàn)中,我們測(cè)試了 LLMs 的推理一致性,即它們?cè)诠蚕硗活惐纫?guī)則的任務(wù)中保持相同邏輯推理能力的表現(xiàn)。為了評(píng)估這一點(diǎn),我們檢驗(yàn)了 LLM 是否能夠解決那些與先前已解決的 ARC 任務(wù)具有相同規(guī)則的新問題。
圖6總結(jié)了該實(shí)驗(yàn),詳細(xì)流程見算法1。我們首先使用GPT-4o來解決400個(gè)ARC任務(wù)中的示例,1 并重復(fù)此過程五次,以識(shí)別出那些可以被持續(xù)解決的任務(wù)。對(duì)于至少有一次被正確解決的任務(wù),我們使用 Re-ARC [23] 生成了100個(gè)額外的示例,這些示例模仿了原始任務(wù)的解題方式。我們假設(shè),一個(gè)具備推理一致性的模型應(yīng)能解決所有增強(qiáng)后的示例,從而讓我們能夠嚴(yán)格測(cè)試其在相似任務(wù)間的泛化能力。
圖7展示了結(jié)果的兩個(gè)關(guān)鍵分析。累積分布(圖7a)顯示,在所有五次迭代中均呈現(xiàn)出一致的指數(shù)衰減模式,表明無論哪次迭代,一致性水平始終較低。準(zhǔn)確率分布(圖7b)顯示,在增強(qiáng)后的示例中,有57.8%的任務(wù)準(zhǔn)確率低于10%。總體來看,這些結(jié)果表明LLMs在ARC任務(wù)上的推理一致性非常有限。
3.1.4 案例研究:LLMs 的語(yǔ)義一致性
最后,我們分析了 LLMs 在第 3.1.2 節(jié)和第 3.1.3 節(jié)中所描述的兩個(gè)實(shí)驗(yàn)中是如何解決任務(wù)的。在評(píng)估 CoT、LtM 和 ToT 三種提示方式時(shí),不僅關(guān)注最終答案的正確性,也考察其解題過程,我們發(fā)現(xiàn):無論使用哪種提示方式,過程與結(jié)果同時(shí)正確的準(zhǔn)確率約為 3%,這表明許多正確答案實(shí)際上是通過錯(cuò)誤的推理過程得出的,如圖 8 所示。
為了解決該任務(wù),應(yīng)執(zhí)行以下步驟:1)在輸入網(wǎng)格中識(shí)別出 5×5 的對(duì)象;2)統(tǒng)計(jì)每個(gè)對(duì)象中黑色方塊的數(shù)量;3)提取出黑色方塊最多的對(duì)象。
然而,CoT、LtM 和 ToT 都以錯(cuò)誤的方式嘗試解決該任務(wù):
對(duì)于CoT,模型對(duì)輸入網(wǎng)格中的對(duì)象進(jìn)行了排序,并選擇了中間的對(duì)象作為輸出。盡管 CoT 得出了正確的答案,但其排序?qū)ο蟮姆椒ㄈ狈γ鞔_邏輯;
對(duì)于LtM 和 ToT,它們意識(shí)到需要從輸入網(wǎng)格中選擇特定對(duì)象來完成任務(wù),但卻錯(cuò)誤地識(shí)別了測(cè)試輸入網(wǎng)格中的對(duì)象。
這些解決方案存在一個(gè)共同缺陷:它們未能在所提供的訓(xùn)練輸入與輸出示例之間建立一個(gè)邏輯一致的規(guī)則。換句話說,無論采用哪種提示技術(shù)(CoT、LtM 或 ToT),LLMs 仍難以展現(xiàn)出一種能夠跨示例一致應(yīng)用的、邏輯連貫的推理能力。
在針對(duì)訓(xùn)練集開展的第二次實(shí)驗(yàn)中,也觀察到了從錯(cuò)誤推理過程中得出正確結(jié)果的不一致現(xiàn)象。在對(duì) 400 個(gè)訓(xùn)練任務(wù)中至少被解決過一次的 83 個(gè)任務(wù)進(jìn)行自然語(yǔ)言解釋分析后,我們發(fā)現(xiàn)其中有 35 個(gè)任務(wù)的 LLM 所提出的解決方案實(shí)際上無法得出正確答案。
這一發(fā)現(xiàn)表明,無論采用何種提示技術(shù)或任務(wù)類型,LLMs 在語(yǔ)義一致性方面均存在不足。換句話說,LLMs 所產(chǎn)生的結(jié)果與其推理過程之間并無實(shí)質(zhì)性關(guān)聯(lián),這一點(diǎn)已從其通過錯(cuò)誤的解題過程卻生成正確答案的現(xiàn)象中得到印證。
盡管如此,在第 3.1.3 節(jié)中,我們發(fā)現(xiàn)了有 8 個(gè)任務(wù),LLM 的解決準(zhǔn)確率達(dá)到了 0.6 或更高。如圖 9 所示,這 8 個(gè)任務(wù)的解決方案相對(duì)簡(jiǎn)單,包括鏡像操作、顏色映射以及部分網(wǎng)格復(fù)制等。這些任務(wù)具有一個(gè)共同特征:概念上較為簡(jiǎn)單,僅使用了 ARC 中所包含的四個(gè)先驗(yàn)知識(shí)領(lǐng)域中的一個(gè):對(duì)象性(objectness)、目標(biāo)導(dǎo)向性(goal-directedness)、數(shù)字與計(jì)數(shù)(numbers and counting)和基礎(chǔ)幾何(basic geometry)[8]。
而對(duì)于需要使用兩個(gè)或以上先驗(yàn)知識(shí)領(lǐng)域的 17 個(gè)任務(wù),LLM 在所有 100 個(gè)增強(qiáng)示例中均未能成功解決。盡管 LLM 曾經(jīng)解決了原始任務(wù),但在增強(qiáng)示例中卻完全無法應(yīng)對(duì),這一事實(shí)表明 LLM 并不具備語(yǔ)義一致性,甚至可能暗示存在數(shù)據(jù)泄露(data leakage)的可能性。
這一全面分析表明,雖然 LLM 可以解決某些簡(jiǎn)單的模式識(shí)別任務(wù),但在需要整合多個(gè)概念的復(fù)雜推理任務(wù)面前仍面臨顯著困難。在增強(qiáng)測(cè)試樣例中無法一致地應(yīng)用規(guī)則,再加上通過錯(cuò)誤推理過程得出正確答案的現(xiàn)象,突顯了當(dāng)前 LLM 系統(tǒng)在面對(duì)類似 ARC 所提供的抽象推理任務(wù)時(shí),在推理一致性和語(yǔ)義一致性方面存在重大局限。
3.1.5 結(jié)論
在第 3.1 節(jié)中,我們通過使用三種不同的提示技術(shù)來解決 100 個(gè) ARC 任務(wù),評(píng)估了 LLM 的邏輯一致性。結(jié)果顯示,準(zhǔn)確率在 4% 到 12% 之間波動(dòng),表明不同提示方法對(duì)推理表現(xiàn)有一定影響。此外,在使用 GPT-4o 對(duì) 400 個(gè)訓(xùn)練任務(wù)進(jìn)行實(shí)驗(yàn)時(shí),LLM 表現(xiàn)出高達(dá) 20% 的準(zhǔn)確率。
然而,通過深入的定性分析,我們發(fā)現(xiàn) LLM 的結(jié)果可能并不具備邏輯一致性。對(duì)于每個(gè)已解決問題所生成的 100 個(gè)增強(qiáng)測(cè)試樣例,LLM 僅在 83 個(gè)已解決問題中的 8 個(gè)任務(wù)中實(shí)現(xiàn)了超過 60% 的表現(xiàn)。更進(jìn)一步的是,在 83 個(gè)已解決問題中有 35 個(gè)任務(wù)(近一半),LLM 提供的解題過程是錯(cuò)誤的,無法推導(dǎo)出正確的結(jié)果。
這項(xiàng)分析表明,LLM 尚未達(dá)到人類水平的邏輯一致性。
本研究的結(jié)果與此前關(guān)于 LLM 在邏輯問題求解方面仍面臨挑戰(zhàn)的研究結(jié)論一致。有研究 [60] 發(fā)現(xiàn),即使 LLM 的推理步驟存在問題,它也能在 CoT 提示下生成邏輯上一致的推理。另一項(xiàng)研究 [77] 表明,LLM 在數(shù)學(xué)推理和翻譯等任務(wù)中難以實(shí)現(xiàn)準(zhǔn)確的自我反思。此外,還有研究 [57] 揭示,LLM 常常無法檢測(cè)中間步驟中的錯(cuò)誤,暴露出其推理過程中的缺陷。
盡管這些研究指出,提供更多上下文信息或加強(qiáng)自我反思機(jī)制可能有助于提升邏輯推理能力 [60, 65, 77],但我們的研究結(jié)果表明,這些問題依然存在,說明問題的核心可能并不僅僅是缺乏關(guān)于問題的信息。
3.2 LLMs 的能力之二:組合性 3.2.1 動(dòng)機(jī)
在第 3.2 節(jié)中,我們研究了 LoTH 的第二個(gè)核心概念 ——組合性。
組合性指的是在給定簡(jiǎn)單表達(dá)的前提下,生成復(fù)雜語(yǔ)言表達(dá)的能力 [18]。這一特性使個(gè)體能夠通過將子任務(wù)分解為更簡(jiǎn)單的步驟,來有效應(yīng)對(duì)更復(fù)雜的任務(wù),也體現(xiàn)了人類在面對(duì)復(fù)雜任務(wù)時(shí)的解決能力。強(qiáng)大的組合性不僅有助于解決復(fù)雜任務(wù),還能對(duì)解決過程進(jìn)行清晰透明的描述,這也是 LLMs 的一個(gè)重要方面。
本節(jié)使用 ARC 來測(cè)試 LLMs 的組合性。以往的研究通過在提示中提供可以組合以解決任務(wù)的功能函數(shù),并檢查模型是否能夠利用這些函數(shù)完成任務(wù),從而測(cè)試其組合性 [53]。同樣地,在本研究中,我們也提供了一系列分步驟的功能函數(shù),我們將其稱為DSL(領(lǐng)域特定語(yǔ)言),并開展實(shí)驗(yàn)驗(yàn)證 LLMs 是否能夠利用這些函數(shù)解決 ARC 任務(wù)。
此外,為了理解某些任務(wù)為何未能被解決,我們還進(jìn)一步對(duì)模型對(duì)這些函數(shù)的理解能力進(jìn)行了實(shí)驗(yàn)。因此,我們驗(yàn)證了 LLMs 是否理解為 ARC 任務(wù)所提供的函數(shù)含義,以及它們是否能夠正確地組合這些函數(shù)以產(chǎn)生預(yù)期結(jié)果。
實(shí)驗(yàn)結(jié)果顯示,盡管 LLMs 對(duì)所提供的函數(shù)及其與圖像之間的關(guān)系具有一定的理解能力,但它們?cè)诜纸夂徒M合函數(shù)以實(shí)現(xiàn)預(yù)期目標(biāo)方面的能力仍然較弱。
3.2.2 LLMs 的組合性
在第一個(gè)實(shí)驗(yàn)中,為了測(cè)量組合性,我們向 LLM 提供了關(guān)于 DSL(領(lǐng)域特定語(yǔ)言)的信息,并要求它們解決給定的 ARC 任務(wù)。圖 10 展示了整個(gè)實(shí)驗(yàn)的結(jié)構(gòu)。
如果一個(gè) LLM 具備足夠的組合性,它應(yīng)該能夠?yàn)榻o定的目標(biāo)選擇合適的 DSL 及其參數(shù)。然而,在 LLM 未能選擇正確 DSL 的情況下,我們進(jìn)一步劃分了條件以識(shí)別失敗原因。這些條件包括:LLM 是否理解目標(biāo)(goal)以及是否理解解題過程。
為了根據(jù)每種條件分析結(jié)果,我們進(jìn)行了四種類型的實(shí)驗(yàn): 1)僅提供 DSL; 2)提供正確的輸出結(jié)果以及 DSL; 3)提供 ARC 測(cè)試樣例的人類描述 [51] 以及 DSL; 4)同時(shí)提供正確的輸出網(wǎng)格、人類描述以及 DSL。
提供正確的輸出網(wǎng)格可以用于判斷在已知或未知目標(biāo)的情況下的組合性表現(xiàn);而提供人類描述則可以展示自然語(yǔ)言描述對(duì)組合性的影響。
我們將每個(gè) DSL 作為 Python 函數(shù)提供。在本實(shí)驗(yàn)中,我們使用了 19 種可用于解決 ARC 任務(wù)的 DSL。提示信息通常包括:
對(duì) ARC 的簡(jiǎn)要說明,
帶注釋的 DSL 函數(shù)代碼,
DSL 使用示例,
任務(wù)演示示例,
測(cè)試樣例的輸入,
以及測(cè)試輸入的對(duì)象信息。
對(duì)象信息是解決 ARC 任務(wù)的關(guān)鍵參數(shù)之一,因此我們將其添加到了提示中。我們使用PnP 算法 [46]從 ARC 任務(wù)中提取對(duì)象信息。
LLM 在每一步返回一個(gè) JSON 格式的字符串,表示所選擇的 DSL 和對(duì)應(yīng)的參數(shù)。我們利用這些信息來驗(yàn)證 LLM 是否通過適當(dāng)?shù)?DSL 和參數(shù)組合得出了正確的測(cè)試輸出。
本實(shí)驗(yàn)使用的是最新模型GPT-4o。
最后,為了建立一個(gè)基線(baseline),我們還進(jìn)行了人類實(shí)驗(yàn)。我們開發(fā)了一個(gè)專用工具(圖 11),向參與者提供與 LLM 相同的信息:ARC 任務(wù)的示例演示、初始測(cè)試輸入、當(dāng)前網(wǎng)格狀態(tài)、DSL 函數(shù)以及通過 PnP 提取的對(duì)象信息。
共有七名參與者參與實(shí)驗(yàn),他們被限制只能使用與 LLM 相同的 DSL 來解決任務(wù)。通過這些實(shí)驗(yàn)我們發(fā)現(xiàn),在 800 個(gè)公開可用的 ARC 任務(wù)中,有 158 個(gè)任務(wù)可以在 10 步 DSL 操作內(nèi)使用給定的操作解決。因此,第 3.2 節(jié)中的所有實(shí)驗(yàn)都是基于這個(gè)可解任務(wù)子集進(jìn)行的。
實(shí)驗(yàn)結(jié)果如表 2 所示。在 LLM 實(shí)驗(yàn)中,當(dāng)提供測(cè)試輸出時(shí),平均準(zhǔn)確率為9%;未提供測(cè)試輸出時(shí),準(zhǔn)確率下降至3%。當(dāng)提示中加入人類解釋時(shí),組合性表現(xiàn)有所增強(qiáng),其提升幅度與提供測(cè)試輸出的情況相似。Cronbach’s alpha 測(cè)量結(jié)果顯示了響應(yīng)的一致性,四項(xiàng)實(shí)驗(yàn)的得分均超過 0.7。
在人類實(shí)驗(yàn)中,參與者平均解決了 137 個(gè)任務(wù),在可解任務(wù)上的準(zhǔn)確率約為86%。LLM(3–14%)與人類(86%)之間顯著的性能差距表明,盡管擁有相同的信息和工具,LLM 在 DSL 組合性方面仍面臨根本性的挑戰(zhàn),而這些挑戰(zhàn)是人類可以自然克服的。
3.2.3 因 DSL 誤解導(dǎo)致的組合失敗分析
問題在于,表 2 中描述的平均準(zhǔn)確率并不完全反映組合性。DSL 提供了一種逐步方式來表示 ARC 任務(wù)中的解題步驟。當(dāng)我們使用 DSL 來解決這些任務(wù)時(shí),可以將每一步選擇正確 DSL 的可能性分為兩個(gè)部分來考慮:
1)LLMs 對(duì) DSL 的理解程度:這體現(xiàn)在給定 DSL 指令后,模型預(yù)測(cè)下一步網(wǎng)格狀態(tài)的準(zhǔn)確性; 2)每一步預(yù)測(cè)網(wǎng)格對(duì)最終解決方案的必要性:這與各個(gè)步驟之間是否能夠良好銜接、共同完成任務(wù)有關(guān)。
能否在所有步驟中都選擇正確的 DSL,取決于這兩個(gè)因素的共同作用。要成功解決一個(gè)任務(wù),必須在連續(xù) 10 步中都選擇正確的 DSL。基于我們的初步分析,我們將 DSL 理解能力與組合難度之間的關(guān)系建模為一種乘法交互關(guān)系,如公式(1)所示。
在該公式中:
- 表示 DSL 序列長(zhǎng)度,
- 表示需要 個(gè)步驟才能解決的任務(wù)數(shù)量,
- 表示單步準(zhǔn)確率,
- 表示每個(gè)任務(wù)的組合難度。
我們假設(shè),LLM 的組合能力會(huì)因提供給它的信息內(nèi)容以及任務(wù)本身的不同而有所變化。
為了僅考慮組合難度來確定任務(wù)準(zhǔn)確率,我們必須在= 1(即單步選擇完全準(zhǔn)確)的情況下估算值。因此,我們進(jìn)行了一個(gè)額外的實(shí)驗(yàn),如圖 12 所示,以驗(yàn)證在選擇 DSL 時(shí)由于無法預(yù)測(cè)輸出網(wǎng)格而導(dǎo)致找不到合適 DSL 的概率。
在額外的實(shí)驗(yàn)中,我們從 800 個(gè)公開可用的 ARC 任務(wù)中選取了 158 個(gè)任務(wù),特別選擇了那些可以在 10 步 DSL 操作內(nèi)解決的任務(wù)。我們檢查了在給定 DSL 和 ARC 輸入網(wǎng)格的情況下,LLM 能夠多準(zhǔn)確地生成正確的輸出網(wǎng)格。每個(gè)任務(wù)重復(fù)進(jìn)行了 10 次,以確保結(jié)果的可靠性。
在這些實(shí)驗(yàn)中,我們向 LLM 提供了由人類解題者創(chuàng)建的正確 DSL 操作和參數(shù)鏈。在多個(gè)可能的人類解決方案中,我們優(yōu)先選擇了步驟最少的方案,以盡量降低復(fù)雜度。由于輸入網(wǎng)格和 DSL 指令都已提供,因此假設(shè) LLM 對(duì) DSL 完全理解,無論序列長(zhǎng)度如何,它都應(yīng)該能夠生成正確的輸出網(wǎng)格。
圖 13 顯示了 DSL 序列長(zhǎng)度與 LLM 預(yù)測(cè)準(zhǔn)確率之間的關(guān)系。隨著所需序列長(zhǎng)度的增加,我們觀察到模型預(yù)測(cè)正確輸出網(wǎng)格的能力明顯下降。
基于這些觀察結(jié)果,我們使用公式(2)計(jì)算了一個(gè)加權(quán)平均的單步準(zhǔn)確率,其中:
- 表示序列長(zhǎng)度為 的任務(wù)數(shù)量,
- 表示該長(zhǎng)度下的預(yù)測(cè)準(zhǔn)確率。
通過計(jì)算得出估計(jì)的單步準(zhǔn)確率為81%,這表明隨著序列變長(zhǎng),錯(cuò)誤會(huì)顯著累積。
表 3 展示了在假設(shè) DSL 完全理解( = 1.0,從觀察到的 = 0.8 調(diào)整而來)的情況下,估算出的準(zhǔn)確率。這一調(diào)整單獨(dú)隔離出了組合能力的影響,結(jié)果顯示在提供正確答案和人類描述的理想條件下,近 30% 的任務(wù)可以被解決。
當(dāng)加入正確答案或自然語(yǔ)言描述時(shí),都觀察到了約10 個(gè)百分點(diǎn)的穩(wěn)定提升,這表明每種元素都能降低任務(wù)的組合難度(即公式 1 中的 )。
3.2.4 案例研究:通過人類描述增強(qiáng)組合性
一個(gè)值得注意的觀察結(jié)果是,當(dāng)在提示中加入關(guān)于問題解決方法的人類描述時(shí),LLMs 的組合能力得到了提升。為了探究 LLMs 在有人類描述的情況下是如何解決問題的,我們分析了在提供人類描述后額外解決的 13 個(gè)任務(wù)的解題過程。
結(jié)果表明,人類描述有助于任務(wù)輸入與操作步驟的抽象理解,從而提升了問題解決能力。例如,在沒有描述的情況下,LLMs 無法識(shí)別正確輸出中的模式;但在有了描述之后,它們能夠立即識(shí)別出諸如“X 形狀”之類的模式。這些發(fā)現(xiàn)表明,通過引入抽象化的任務(wù)信息,有可能提升 LLMs 的推理表現(xiàn)。
3.2.5 結(jié)論
在第 3.2 節(jié)中,我們通過使用 ARC 和 DSL 進(jìn)行實(shí)驗(yàn),測(cè)量了 LLMs 的組合性。結(jié)果得出了三個(gè)結(jié)論:
LLMs 在將 DSL 應(yīng)用于輸入時(shí),可以以約 81% 的平均準(zhǔn)確率預(yù)測(cè)輸出網(wǎng)格。然而,隨著序列長(zhǎng)度的增加,準(zhǔn)確率下降,這似乎是由于錯(cuò)誤的累積所致。
在未提供正確答案的情況下,LLMs 僅在 3% 的情況下選擇了正確的 DSL,這表明它既無法推導(dǎo)出規(guī)則來預(yù)測(cè)正確的輸出網(wǎng)格,也無法選擇合適的 DSL 來達(dá)到預(yù)期輸出。
當(dāng)加入人類描述后,DSL 選擇的準(zhǔn)確率提升至與提供正確答案相近的水平。對(duì)該過程的分析表明,這種提升源于對(duì) ARC 任務(wù)和 DSL 組合的語(yǔ)言抽象理解。
已有研究強(qiáng)調(diào)了 LLMs 在將簡(jiǎn)單元素組合為新含義方面的局限性,揭示了其在組合性方面所面臨的挑戰(zhàn)。一項(xiàng)研究表明,Transformer 模型在面對(duì)新的函數(shù)組合時(shí)表現(xiàn)出顯著的性能下降,顯示出在系統(tǒng)性泛化知識(shí)方面存在困難 [25]。另一項(xiàng)研究引入了 SADE 等數(shù)據(jù)集來評(píng)估 LLMs 處理視覺與文本信息的能力,指出它們?cè)谔幚矸穸ɡ斫夂蛷?fù)雜內(nèi)容等方面仍存在困難 [38]。還有一項(xiàng)研究考察了 LLMs 分解復(fù)雜指令或?qū)⒑?jiǎn)單指令組合成復(fù)雜指令的能力。結(jié)果顯示,雖然 LLMs 可以通過學(xué)習(xí)復(fù)雜任務(wù)更好地理解簡(jiǎn)單任務(wù),但當(dāng)從簡(jiǎn)單任務(wù)出發(fā)去應(yīng)對(duì)復(fù)雜任務(wù)時(shí),它們?nèi)悦媾R困難 [73]。
這些研究一致指出,LLMs 在連接簡(jiǎn)單與復(fù)雜元素方面仍存在持續(xù)性的挑戰(zhàn),突顯了其在組合性能力上的局限性。
3.3 LLMs 的能力之三:生成性(Productivity) 3.3.1 動(dòng)機(jī)
在第 3.3 節(jié)中,我們研究了 LoTH 的第三個(gè)核心概念 ——生成性(Productivity)。
生成性指的是基于已觀察到的數(shù)據(jù)生成未曾見過的新表示形式的能力 [18]。這一特性使人類能夠從單一現(xiàn)象中想象出多種情境,從而實(shí)現(xiàn)無需重復(fù)數(shù)據(jù)暴露的高效學(xué)習(xí)。同樣地,當(dāng) LLMs 具備這種能力時(shí),它們應(yīng)能在面對(duì)新任務(wù)時(shí)表現(xiàn)出色,因此生成性是基本推理能力中一個(gè)至關(guān)重要的功能。
在 ARC 任務(wù)中,能夠在有限規(guī)則集內(nèi)生成新的輸入-輸出對(duì)尤其有價(jià)值,這突顯了對(duì)生成性的需求。本節(jié)中,我們將通過評(píng)估 LLM 根據(jù)給定的 ARC 示例對(duì)所生成的新示例的有效性來衡量其生成性。
雖然理想情況下的生成性應(yīng)測(cè)試無限生成能力,但受實(shí)際限制,必須采用替代方法。挑戰(zhàn)在于要證明一個(gè)系統(tǒng)可以從有限的輸入和規(guī)則集中生成無限數(shù)量的新穎且有意義的輸出。以往的研究通過檢查模型是否能在新增約束條件下生成有效的輸出來應(yīng)對(duì)這一挑戰(zhàn) [25, 31, 59]。這些約束條件有助于創(chuàng)建更可控的測(cè)試環(huán)境,同時(shí)仍能評(píng)估其生成能力。
遵循這一方法論,我們的研究考察了在給定一個(gè) ARC 任務(wù)及其底層概念規(guī)則的情況下,LLMs 能多有效地生成有效輸出。這種方法使我們能夠在受控框架下評(píng)估生成性,同時(shí)仍然捕捉到生成能力的本質(zhì)。
為了理解 LLMs 在基于內(nèi)在邏輯概念生成新表達(dá)方面的能力,我們使用 ARC 任務(wù)進(jìn)行了實(shí)驗(yàn)。在此背景下,生成性主要包括兩個(gè)步驟: 1)從示例圖像和自然語(yǔ)言表達(dá)中推斷出用于圖像生成的具體規(guī)則; 2)應(yīng)用這些規(guī)則生成新的、未見過的圖像。
然而,正如前幾節(jié)所探討的那樣,解決 ARC 任務(wù)的標(biāo)準(zhǔn)方法不足以驗(yàn)證這兩個(gè)過程。因此,我們提出了一項(xiàng)新的實(shí)驗(yàn):
在給定一個(gè) ARC 任務(wù)以及與類似 ARC 任務(wù)共享的基本規(guī)則的前提下,LLMs 是否能夠生成該任務(wù)的有效示例?
如果 LLMs 能夠理解給定 ARC 任務(wù)與抽象規(guī)則之間的關(guān)系,那么它應(yīng)該能夠推導(dǎo)出該任務(wù)的具體規(guī)則,并生成新的有效示例。通過這項(xiàng)實(shí)驗(yàn),我們旨在判斷 LLMs 是否能夠模仿人類思維中的生成性,在面對(duì)新問題時(shí)生成新穎的解決方案。
3.3.2 增強(qiáng)示例的有效性
為了評(píng)估 LLMs 是否能夠在給定 ARC 示例的情況下推斷出自己的生成規(guī)則,并通過適當(dāng)應(yīng)用這些規(guī)則創(chuàng)建新的任務(wù),我們對(duì)提示(prompt)進(jìn)行了嚴(yán)格控制。
盡管 ARC 提供了多樣化的任務(wù)集,但它缺乏系統(tǒng)性的分類以及對(duì)每個(gè)任務(wù)的明確規(guī)則說明。因此,我們使用了ConceptARC [43],它保持與 ARC 相同的格式,但為每個(gè)任務(wù)提供了類別標(biāo)簽,使其更適用于我們的實(shí)驗(yàn)設(shè)計(jì)。
我們向 LLMs 提供了兩種類型的提示信息: 1)來自 ConceptARC 任務(wù)的示例對(duì); 2)適用于相似任務(wù)的抽象規(guī)則描述。
在這一步中,一個(gè)示例對(duì)作為生成的基礎(chǔ),其他示例則用于推導(dǎo)特定任務(wù)的規(guī)則。根據(jù) ConceptARC 的框架,所有任務(wù)被劃分為16 個(gè)不同的類別。在每個(gè) ConceptARC 類別中,都有一個(gè)對(duì)應(yīng)的抽象規(guī)則,確保同一類別中的任務(wù)都遵循相同的抽象規(guī)則。
我們提出了逆變換提示法(Inverse Transformation Prompting, ITP),作為本實(shí)驗(yàn)中使用的提示技術(shù)。ITP 指導(dǎo) LLMs 利用 ConceptARC 任務(wù)及其相關(guān)的抽象規(guī)則來生成多個(gè)有效的示例。
圖 14 展示了在給定 ConceptARC 任務(wù)及相應(yīng) ITP 的情況下,LLMs 如何生成新示例。通過這種方法,LLMs 可以生成多個(gè)輸入,這些輸入可以與該任務(wù)某一示例的輸出配對(duì)。用于生成的這個(gè)示例會(huì)被排除在 ITP 之外。
如果 LLMs 理解了通過 ITP 提供的 ConceptARC 任務(wù)規(guī)則,那么它們所生成的新示例對(duì)就應(yīng)當(dāng)適合作為該任務(wù)的示例。
ITP 基于“多對(duì)一”的方法,其具有兩個(gè)優(yōu)勢(shì):
1)僅生成輸入的方法在數(shù)據(jù)利用上更高效,因?yàn)橄啾扔谕瑫r(shí)生成輸入和輸出,現(xiàn)有的任務(wù)輸出無需修改即可重復(fù)使用。由于 ConceptARC 中的所有任務(wù)都包含示例對(duì),因此重復(fù)使用這些示例能夠充分利用已提供的數(shù)據(jù)。ITP 允許單個(gè) ConceptARC 任務(wù)被多次復(fù)用。特別是,通過改變示例順序,ITP 還能進(jìn)一步提升數(shù)據(jù)效率,使一個(gè) ConceptARC 任務(wù)被重復(fù)使用多次。
2)ITP 提高了生成有效響應(yīng)的可能性。通過模擬我們觀察到,從輸出反推輸入比從輸入生成輸出更容易產(chǎn)生有效的結(jié)果。這是因?yàn)閺妮敵錾奢斎胨艿降募s束相對(duì)較少,因此存在更大范圍的可接受結(jié)果。
在構(gòu)建 ITP 的過程中,我們遇到了兩個(gè)挑戰(zhàn)。
首先,根據(jù) ConceptARC 的分類標(biāo)準(zhǔn),同一類別內(nèi)的任務(wù)可能具有不同的具體目標(biāo)。圖 15a 顯示了在同一類別中存在多種類型的任務(wù)。例如,即使屬于同一類別,一個(gè)任務(wù)的核心解法可能是“刪除”,而另一個(gè)任務(wù)則可能是“重新著色”。這種差異表明,為每個(gè)類別提供的相同抽象規(guī)則描述可能不足以涵蓋各種不同類型的任務(wù)。
其次,有一些 ConceptARC 任務(wù)使得無法從單一輸出推斷出多個(gè)有效輸入(見圖 15b)。在這種情況下,只存在唯一一個(gè)有效的輸入。盡管我們?cè)诰帉?ITP 時(shí)嘗試考慮到了這些情況,但這些挑戰(zhàn)仍然對(duì)實(shí)驗(yàn)結(jié)果造成了不利影響。
在分析實(shí)驗(yàn)結(jié)果之前,有必要重新定義評(píng)估指標(biāo),以反映從“解決任務(wù)”到“生成有效示例”的關(guān)注點(diǎn)轉(zhuǎn)變。如前所述,對(duì)于某個(gè)任務(wù)的一個(gè)給定示例,我們生成了可以與相應(yīng)輸出配對(duì)的有效輸入。為了成功生成這些輸入,LLM 必須通過其 ITP 推導(dǎo)出該任務(wù)的具體規(guī)則,并將其應(yīng)用于輸出以創(chuàng)建有效的輸入。
在本實(shí)驗(yàn)中,我們?cè)u(píng)估了每個(gè)任務(wù)所生成的所有輸入是否均為有效輸入。這一指標(biāo)既評(píng)估了 LLM 對(duì)正確規(guī)則的理解能力,也評(píng)估了它基于這些規(guī)則生成有效示例的能力。因此,這項(xiàng)實(shí)驗(yàn)系統(tǒng)地評(píng)估了 LLMs 生成邏輯合理且有效的示例對(duì)的能力,增強(qiáng)了我們對(duì)其創(chuàng)造新表示形式能力的理解。
基于 160 個(gè) ConceptARC 任務(wù),我們?cè)u(píng)估了 2,913 個(gè)生成示例的有效性。平均有效生成比率為約17.1%,其余示例被判定為無效。如前所述,生成示例的有效性由人工判斷決定,主要評(píng)估生成的任務(wù)是否符合用于解決問題的類比規(guī)則。
表 4 中的結(jié)果顯示,LLMs 在生成符合指定規(guī)則的示例方面展現(xiàn)出一定程度的能力。然而,由于確定有效性標(biāo)準(zhǔn)較弱,仍存在局限性:即使可以生成無限多的結(jié)果,在沒有對(duì)數(shù)據(jù)進(jìn)行后處理的情況下,這些結(jié)果也無法可靠地使用。
3.3.3 案例研究:無效生成
我們分析了生成的輸入,以探究 LLMs 在生成 ConceptARC 任務(wù)的有效輸入方面失敗的原因。當(dāng) LLMs 生成新的 ConceptARC 任務(wù)時(shí),觀察到了兩個(gè)主要限制:
1)LLMs 傾向于簡(jiǎn)單復(fù)制已有輸入,而不是從給定的示例對(duì)中推導(dǎo)出有意義的規(guī)則。如圖 16 所示,盡管我們嘗試通過提示防止這種情況發(fā)生,但它仍反復(fù)出現(xiàn)。
2)LLMs未能正確考慮從輸出生成輸入所需的步驟,這經(jīng)常導(dǎo)致生成的示例無法通過任務(wù)的特定規(guī)則求解。例如,在輸入中若一個(gè)正方形的所有頂點(diǎn)都被擦除,則無法判斷這些頂點(diǎn)的顏色,從而使得無法推導(dǎo)出給定的輸出。
這些限制表明,LLMs 缺乏對(duì)適用于 ConceptARC 任務(wù)的語(yǔ)義理解,以及根據(jù)約束條件組合這些語(yǔ)義的能力。
3.3.4 結(jié)論
在第 3.3 節(jié)中,我們進(jìn)行了實(shí)驗(yàn),旨在確認(rèn) LLMs 是否具備生成性,即它們是否能夠理解抽象表示下的任務(wù),并基于抽象規(guī)則生成新的有效示例。
盡管眾所周知 LLMs 在創(chuàng)造性內(nèi)容生成方面具有顯著優(yōu)勢(shì),但我們的實(shí)驗(yàn)結(jié)果顯示,LLMs 在理解規(guī)則并生成符合這些規(guī)則的創(chuàng)作方面表現(xiàn)較弱。此外,所觀察到的局限性突顯了 LLMs 在高階推理和抽象能力方面的關(guān)鍵缺口,而這些能力對(duì)于成功完成那些需要理解底層原理而非表面模式的任務(wù)至關(guān)重要。
這些結(jié)果表明,當(dāng) LLMs 生成輸出時(shí),它們傾向于模仿人類創(chuàng)作的結(jié)果,而不是真正理解并應(yīng)用規(guī)則。這使得 LLMs 難以達(dá)到人類所能實(shí)現(xiàn)的生成水平。
同樣地,以往研究在衡量 AI 模型生成能力時(shí)也得出了類似的結(jié)果。研究人員測(cè)試了前 LLM 時(shí)代模型在面對(duì)新命令組合時(shí)的泛化能力 [31, 59],發(fā)現(xiàn)它們?cè)谟?xùn)練數(shù)據(jù)上表現(xiàn)出色,但在生成未見過的指令響應(yīng)方面存在不足。
一些研究者指出,LLMs 在復(fù)雜約束條件下生成內(nèi)容的能力較弱,并提出了改進(jìn)模型的方法來應(yīng)對(duì)這一問題 [29, 35]。他們提出新的框架,以在引入復(fù)雜約束時(shí)增強(qiáng) LLMs 生成期望輸出的能力,而非僅僅依賴基礎(chǔ)模型。
這些研究與我們的研究具有相似之處,均在基于復(fù)雜規(guī)則擴(kuò)充有效任務(wù)時(shí)遇到了困難。
4 討論
通過第 3 節(jié)中的三項(xiàng)實(shí)驗(yàn),我們觀察到 LLMs 在理解和操作圖像與文本輸入方面展現(xiàn)出一定的優(yōu)勢(shì)。然而,它們?cè)谶壿嬐评怼⒒诶斫獾捻樞蛞?guī)劃,以及根據(jù)預(yù)定義規(guī)則生成未曾見過的圖像方面仍存在明顯不足。
我們將以介紹當(dāng)前旨在進(jìn)一步提升 LLMs 能力的研究方向,并概述解決 ARC 后的目標(biāo)作為本節(jié)的總結(jié)。
4.1 解決 ARC 所需具備的能力是什么?
根據(jù)第 3 節(jié)的實(shí)驗(yàn)結(jié)果可以清楚地看出,LLMs 目前仍無法有效解決 ARC 任務(wù)。這主要?dú)w因于其在邏輯一致性、組合性和生成性方面的不足。
我們?nèi)绾翁嵘?LLMs 的推理能力?在本節(jié)中,我們將從抽象知識(shí)和推理能力兩個(gè)角度探討增強(qiáng) LLMs 的可能方向。
4.1.1 抽象知識(shí)
要解決 ARC 任務(wù),第一個(gè)挑戰(zhàn)在于提取其隱含信息。Xu 等人 [70] 強(qiáng)調(diào)了基于對(duì)象表示的重要性,并提出了 ARGA 方法,該方法將示例網(wǎng)格轉(zhuǎn)化為圖結(jié)構(gòu)。他們?cè)诤罄m(xù)研究 [71] 中利用 ARGA 生成的信息,在基于對(duì)象的 ARC 任務(wù)中取得了顯著表現(xiàn)。然而,這些方法存在一個(gè)關(guān)鍵限制:它們不適用于沒有對(duì)象概念的 ARC 任務(wù)。由于只有大約 40% 的 ARC 任務(wù)涉及對(duì)象概念 [70],因此這種方法無法應(yīng)對(duì)超過一半的任務(wù)。
Wang 等人 [64] 使用了一個(gè)包含 221K 條文本描述的圖結(jié)構(gòu)數(shù)據(jù)集 AbsPyramid,部分提升了 LLM 的抽象能力,并提出了 AbsInstruct 框架。雖然對(duì)句子進(jìn)行結(jié)構(gòu)化可以有效抽象自然語(yǔ)言,但這種方法在不涉及文本數(shù)據(jù)的 ARC 任務(wù)中并不適用。
4.1.2 推理能力
LLMs 在 ARC 中面臨的另一個(gè)挑戰(zhàn)是巨大的搜索空間。一種有前景的方法是讓 LLM 自行生成 DSL(領(lǐng)域特定語(yǔ)言)。Rajani 等人 [48] 提出了 CAGE,引導(dǎo) LLM 在生成答案之前先生成解釋。隨后,Wang 等人 [62] 報(bào)告稱,如果讓 LLM 基于自己設(shè)定的假設(shè)來生成 DSL,可以獲得更好的結(jié)果。
此外,關(guān)于應(yīng)用算法式提示技術(shù)的研究也在積極進(jìn)行中。Zhou 等人 [79] 通過上下文學(xué)習(xí)(in-context learning)顯著提升了 LLM 的推理性能。后續(xù)研究圍繞 CoT 和 ToT 展開。例如,CoT-SC [63] 通過投票機(jī)制從多個(gè) CoT 實(shí)例中選擇最優(yōu)結(jié)果;GoT [3] 通過生成圖狀思維節(jié)點(diǎn)提高靈活性;XoT [14] 則結(jié)合思維樹與蒙特卡洛樹搜索,并使用強(qiáng)化學(xué)習(xí)優(yōu)化樹結(jié)構(gòu)。
然而,這些嘗試更接近于對(duì) LLM 的額外訓(xùn)練,是否能真正實(shí)現(xiàn) LLM 推理能力的根本性提升,仍有待進(jìn)一步研究驗(yàn)證。
4.2 解決 ARC 后的發(fā)展方向
解決 ARC 任務(wù)并不直接意味著實(shí)現(xiàn)了類人水平的人工智能。此外,目前還存在一個(gè)挑戰(zhàn):難以將 AI 的解題方式與人類方式進(jìn)行比較。因此,我們提出三種替代方案,以更準(zhǔn)確地衡量類人水平的推理能力。
4.2.1 使用不同的基準(zhǔn)測(cè)試
ARC 的一個(gè)局限性在于其環(huán)境相對(duì)簡(jiǎn)單。例如,SQA3D [39] 通過擴(kuò)展至問答任務(wù)的方式,在三維領(lǐng)域處理推理任務(wù),使用了如 ScanNet [12] 這樣的模擬器。此外,TGIF-QA [26]、MovieQA [55]、TVQA [32] 和 STAR [69] 等視頻問答基準(zhǔn)也被提出。這類模仿現(xiàn)實(shí)世界推理場(chǎng)景的基準(zhǔn)測(cè)試可作為 ARC 的補(bǔ)充,用于衡量 ARC 未能覆蓋的復(fù)雜抽象能力。
4.2.2 對(duì) ARC 解題過程進(jìn)行量化評(píng)估
ARC 的提出者 Chollet 曾指出,ARC 的設(shè)計(jì)目標(biāo)是在最小化先驗(yàn)知識(shí)和經(jīng)驗(yàn)的前提下最大化通用性 [8],但這些要素尚未被定量評(píng)估。因此,模型在解決 ARC 時(shí)所達(dá)到的“通用性”、“先驗(yàn)知識(shí)水平”及其組成部分等,仍然難以量化。
一種可能的量化評(píng)估方法是對(duì)模型在解決 ARC 任務(wù)過程中所體現(xiàn)的“先驗(yàn)知識(shí)”、“經(jīng)驗(yàn)積累”和“通用性”進(jìn)行量化分析。
4.2.3 增加評(píng)估方法,將解題過程與人類方式進(jìn)行對(duì)比
近年來的 ARC 研究主要集中于尋找 AI 解決任務(wù)的方法。然而,人們對(duì)其解題方式與人類是否相似仍存疑問。Johnson 等人 [27 ] 的原始論文分析了人類解決 ARC 任務(wù)的過程。隨后提出的 LARC [1] 則通過語(yǔ)言解釋人類解題方式來分析任務(wù)解決路徑。同時(shí),也有工具不斷被開發(fā)出來,以促進(jìn)人類數(shù)據(jù)的收集。
例如,Kim 等人 [28] 就通過 O2ARC 分析了任務(wù)的解決方式。基于這些研究,我們建議在評(píng)估中不僅計(jì)算每個(gè) ARC 任務(wù)的正確率,還應(yīng)加入與人類解題方式的相似度作為新的評(píng)估指標(biāo)。
4.3 關(guān)于 LLMs 推理能力的最新研究趨勢(shì)
在本文中,我們利用 ARC 來評(píng)估并增強(qiáng)大語(yǔ)言模型(LLMs)的推理能力。ARC 作為一個(gè)關(guān)鍵基準(zhǔn),用于測(cè)試人工智能模型是否具備類人推理的能力。
除了 ARC,還有一些數(shù)據(jù)集也為提升 LLMs 的多樣化推理能力提供了寶貴資源,例如 DROP [15]、CommonsenseQA [54]、BoolQ [10] 和 GSM8K [11]。
近期研究表明,盡管 LLMs 在基于語(yǔ)言的任務(wù)上表現(xiàn)出色,但在推理能力方面仍存在顯著局限。Carvalho 等人 [13] 發(fā)現(xiàn),LLMs 在超出訓(xùn)練數(shù)據(jù)范圍的任務(wù)中,尤其是在需要策略性思維和空間推理的非語(yǔ)言任務(wù)中,表現(xiàn)不佳。同樣地,Gendron 等人 [21] 也發(fā)現(xiàn),LLMs 在從有限示例中識(shí)別并應(yīng)用通用模式的任務(wù)中表現(xiàn)較差。
這些研究共同表明,當(dāng)前的 LLMs 盡管在語(yǔ)言任務(wù)方面已經(jīng)非常先進(jìn),但在實(shí)現(xiàn)跨領(lǐng)域的穩(wěn)健推理能力方面仍有較大差距。
為了解決這些局限性,研究人員提出了多種先進(jìn)的方法。包括:
- 結(jié)合人類反饋的強(qiáng)化學(xué)習(xí)[9],
- 思維鏈提示(CoT prompting)[65],
- 以推理為中心的微調(diào)[33],
- 預(yù)訓(xùn)練過程中引入知識(shí)圖譜[36],
- 可解釋性人工智能技術(shù)[4]。
這些方法在提升 LLMs 在各個(gè)領(lǐng)域中的推理能力方面發(fā)揮了重要作用。
此外,最近的研究還提出了一些創(chuàng)新性的方法,以進(jìn)一步增強(qiáng) LLMs 的推理能力。包括:
- 多模態(tài)學(xué)習(xí)技術(shù)[52],
- 結(jié)合人類反饋的自適應(yīng)學(xué)習(xí)策略[45],
- 將編程語(yǔ)言與 LLMs 相結(jié)合[19]。
這些前沿研究極大地推動(dòng)了對(duì) LLMs 多維推理能力的系統(tǒng)性增強(qiáng)。
5 結(jié)論
本研究通過采用思維語(yǔ)言假說(Language of Thought Hypothesis, LoTH),解決了當(dāng)前對(duì)大語(yǔ)言模型(LLMs)推理能力評(píng)估中過于注重結(jié)果導(dǎo)向分析的局限性。盡管近年來的 LLMs 在表現(xiàn)上已接近人類水平,但實(shí)驗(yàn)結(jié)果顯示它們?cè)谝?guī)劃與推理方面仍存在顯著差距。
我們基于 LoTH 的三個(gè)核心要素 ——邏輯一致性、組合性和生成性,提出了一種結(jié)構(gòu)化的方法,用于評(píng)估推理過程本身,而不僅僅是最終結(jié)果。
以抽象與推理語(yǔ)料庫(kù)(Abstraction and Reasoning Corpus, ARC)為基準(zhǔn),我們進(jìn)行了三項(xiàng)定量實(shí)驗(yàn):
邏輯一致性:我們的分析揭示了在推理一致性和語(yǔ)義一致性方面存在的顯著不足。雖然 LLMs 偶爾能得出正確答案,但它們常常無法在相似問題中保持邏輯一致性,并且經(jīng)常通過錯(cuò)誤的推理過程得出正確的結(jié)果。
組合性:LLMs 在將簡(jiǎn)單元素組合起來解決復(fù)雜問題時(shí)表現(xiàn)出根本性的局限性。隨著任務(wù)復(fù)雜度的增加,其性能顯著下降;即使在提供更多上下文的情況下,它們?cè)?DSL(領(lǐng)域特定語(yǔ)言)選擇方面也表現(xiàn)不佳,顯示出較弱的組合能力。
生成性:盡管 LLMs 在創(chuàng)造性任務(wù)方面具有較強(qiáng)的能力,但在基于規(guī)則的生成任務(wù)中卻表現(xiàn)出顯著弱點(diǎn)。它們往往只是模仿觀察到的模式,而非真正理解并應(yīng)用抽象規(guī)則來生成有效的新示例。
這些發(fā)現(xiàn)表明,盡管當(dāng)前 LLMs 在性能指標(biāo)上令人印象深刻,但從過程導(dǎo)向的角度來看,它們?cè)诨就评砟芰Ψ矫嫒源嬖诿黠@不足。
為了向?qū)崿F(xiàn)類人水平的人工智能邁進(jìn),未來的研究應(yīng)從以下三個(gè)互補(bǔ)方向展開:
增強(qiáng) LLMs 的抽象知識(shí)和推理能力:這可能包括開發(fā)更優(yōu)的隱含信息提取表示方法,以及探索更高效的提示技術(shù),以應(yīng)對(duì)巨大的搜索空間。
建立更全面的評(píng)估框架,以確保取得有意義的進(jìn)展:
(1)引入更多樣化的基準(zhǔn)測(cè)試,更好地反映現(xiàn)實(shí)世界的推理場(chǎng)景;
(2)不僅要關(guān)注任務(wù)是否完成,還要對(duì)解題過程進(jìn)行量化評(píng)估;
(3)實(shí)現(xiàn)人工智能與人類推理方式之間的系統(tǒng)性對(duì)比。
本研究最終為該領(lǐng)域做出了貢獻(xiàn),提供了一個(gè)結(jié)構(gòu)化的評(píng)估與提升 AI 推理能力的框架,并強(qiáng)調(diào)了將 AI 發(fā)展與人類認(rèn)知過程相結(jié)合的重要性。
A 補(bǔ)充分析 A.1 比較 LLM 與人類對(duì)問題難度的認(rèn)知
在第 3.1.4 節(jié)分析的基礎(chǔ)上,我們進(jìn)一步分析了 LLMs(大語(yǔ)言模型)擅長(zhǎng)解決的問題和難以應(yīng)對(duì)的問題。表 5 展示了根據(jù)人類判斷劃分的問題難度等級(jí)下,LLMs 在各類問題上的準(zhǔn)確率。
該難度分類基于已有任務(wù)分類體系,并依賴于人類對(duì)任務(wù)難度的主觀判斷 [5]。結(jié)果表明,人類認(rèn)為困難的問題,往往也是 LLMs 難以解決的問題。
這些困難問題具有兩個(gè)共同特征: 1)它們需要較長(zhǎng)的推理過程才能解決; 2)它們要求同時(shí)考慮多個(gè)問題,以提取關(guān)于變化的信息。
圖 17 中的一個(gè)例子說明了這一點(diǎn):一個(gè)被歸類為“入門”(Entry)的任務(wù)僅需執(zhí)行一步著色操作,而一個(gè)被歸類為“困難”(Hard)的任務(wù)則需要三個(gè)步驟:
識(shí)別每個(gè)對(duì)象,
確定每個(gè)對(duì)象的優(yōu)先級(jí),
根據(jù)優(yōu)先級(jí)合并各個(gè)對(duì)象。
“簡(jiǎn)單”(Easy)和“中等”(Medium)難度的任務(wù),則是那些比“入門”更復(fù)雜、但又比“困難”少一些步驟的任務(wù)。
結(jié)合這些觀察可以推斷,人工智能目前具備處理簡(jiǎn)單視覺邏輯的能力,但這種能力僅限于 ARC 所包含的四個(gè)先驗(yàn)知識(shí)領(lǐng)域中的一個(gè):
- 對(duì)象性(objectness)、
- 目標(biāo)導(dǎo)向性(goal-directedness)、
- 數(shù)字與計(jì)數(shù)(numbers and counting)、
- 基礎(chǔ)幾何(basic geometry)。
然而,它無法處理將這些先驗(yàn)知識(shí)融合在一起的復(fù)雜邏輯組合。
A.2 不同 GPT 版本在增強(qiáng)示例任務(wù)中的成本效率比較
在我們關(guān)于生成性(productivity)研究的后續(xù)實(shí)驗(yàn)中,我們的目標(biāo)是比較GPT-3.5和GPT-4-32k在增強(qiáng)演示示例任務(wù)時(shí)的成本效率。這項(xiàng)研究對(duì)于理解實(shí)際應(yīng)用中模型性能與相關(guān)成本之間的權(quán)衡至關(guān)重要。
我們的實(shí)驗(yàn)設(shè)置始于創(chuàng)建一個(gè)描述任務(wù)類別的提示(prompt)。利用該提示,我們?cè)O(shè)計(jì)了一個(gè)逆變換提示(Inverse Transformation Prompt, ITP),并使用GPT-3.5-16k和GPT-4-32k兩種模型來增強(qiáng)演示示例。
在整個(gè)過程中,我們仔細(xì)記錄了所有提供給 LLMs 的提示內(nèi)容及其對(duì)應(yīng)的輸出結(jié)果。
為了分析成本影響,我們使用tiktoken 庫(kù)對(duì)記錄的文本進(jìn)行分詞處理。然后,根據(jù) Azure OpenAI API 提供的每 token 成本,我們計(jì)算了生成一個(gè)有效演示示例的成本。這種方法使我們能夠準(zhǔn)確評(píng)估使用不同模型進(jìn)行示例增強(qiáng)所產(chǎn)生的財(cái)務(wù)成本。
對(duì)生成示例的驗(yàn)證是我們實(shí)驗(yàn)中的一個(gè)關(guān)鍵環(huán)節(jié)。我們安排了人工評(píng)審員手動(dòng)檢查輸出的質(zhì)量和適用性。這些評(píng)審員的任務(wù)是確認(rèn)兩個(gè)關(guān)鍵方面:
1)結(jié)果是否可以合法地從給定規(guī)則中生成; 2)生成的結(jié)果是否具有唯一性,避免重復(fù)或簡(jiǎn)單的變體。
這一嚴(yán)格的驗(yàn)證流程確保了我們?cè)趯?shí)際應(yīng)用場(chǎng)景下對(duì)“有效”示例的評(píng)估是全面且有意義的。
對(duì)生成有效演示示例的成本分析如表 6 所示。分析結(jié)果顯示,盡管GPT-4-32k在有效性方面比GPT-3.5-16k高出約1.5 倍,但其成本卻高出近20 倍。
這表明,在生成受復(fù)雜約束的輸出時(shí),生產(chǎn)力的提升可能不會(huì)隨著模型能力和成本的增加而線性增長(zhǎng)。因此,在需要生成符合復(fù)雜約束條件的有效輸出的場(chǎng)景中,若考慮性能提升與成本增加之間的權(quán)衡,GPT-3.5 可能比 GPT-4-32k 更具優(yōu)勢(shì)。
然而,兩個(gè)模型在有效性方面的整體比率均低于 10%,說明當(dāng)前的 LLMs 在此類任務(wù)上的生成能力仍遠(yuǎn)低于人類水平。
這一發(fā)現(xiàn)表明,單純升級(jí)到更先進(jìn)的模型并不能完全彌補(bǔ)生成能力上的差距,也突顯了在提升 LLM 在復(fù)雜、受限任務(wù)中的表現(xiàn)方面,仍需進(jìn)一步的研究與開發(fā)。
A.3 作為類人人工智能基準(zhǔn)的 ARC 的局限性
解決 ARC 是否意味著實(shí)現(xiàn)了類人水平的人工智能?要回答這個(gè)問題,需要恰當(dāng)解決兩個(gè)疑問:1)該 ARC 解題器是否具備類人水平的問題解決能力?2)該解題器在解決 ARC 任務(wù)時(shí)是否會(huì)像人類一樣思考?
如果沒有類人水平的推理能力,我們很難想象這個(gè) ARC 解題器是如何運(yùn)作的。目前我們可以假設(shè)的是,該模型將具備 LoTH(思維語(yǔ)言假說)所提出的三種特性,并且可能具備 ARC 中所包含的多種推理能力。基于這一假設(shè),我們嘗試回答以下問題。
A.3.1 模型是否具備類人水平的問題解決能力?
具備推理能力并不等同于具備類人水平的問題解決能力。換句話說,即使一個(gè)模型能夠達(dá)到足以解決 ARC 的推理水平,它可能仍不具備類人水平的問題解決能力。
人類所面對(duì)的各種任務(wù)通常比 ARC 更加復(fù)雜,并且除了推理之外,還涉及其他多種認(rèn)知因素。因此,即使是能夠解決 ARC 的模型,與類人水平的問題解決能力相比,也可能存在以下限制:
首先,根據(jù)當(dāng)前的 ARC 標(biāo)準(zhǔn),尚不清楚解決 ARC 的模型是否能夠處理更復(fù)雜的任務(wù)類型。這是因?yàn)?ARC 任務(wù)僅聚焦于推理能力,因此其環(huán)境設(shè)計(jì)相對(duì)簡(jiǎn)單。通過 ARC 學(xué)習(xí)到的推理能力是否適用于更復(fù)雜的環(huán)境,尚未得到驗(yàn)證。
其次,解決 ARC 并不意味著具備除推理以外的其他智能組成部分。雖然推理無疑是認(rèn)知過程中的核心部分,但它并不是智能的全部。已有研究表明,解決類人復(fù)雜任務(wù)需要多種認(rèn)知能力的協(xié)同作用 [20]。
A.3.2 模型是否像人類一樣思考?
即使我們假設(shè) ARC 解題器能夠在 LoTH(思維語(yǔ)言假說)的意義上進(jìn)行推理,我們也無法保證其解題過程是類人的,原因如下兩點(diǎn):
第一,當(dāng)前的 ARC 提供的評(píng)估標(biāo)準(zhǔn)只獎(jiǎng)勵(lì)任務(wù)的解決結(jié)果,而不考慮解題過程。需要注意的是,這種衡量方式可能會(huì)引發(fā)錯(cuò)誤的目標(biāo)導(dǎo)向,即所謂的“邁達(dá)斯國(guó)王問題”(King Midas problem)[50]。
該問題強(qiáng)調(diào)了 AI 過于字面化地實(shí)現(xiàn)既定目標(biāo)所帶來的風(fēng)險(xiǎn),可能導(dǎo)致意料之外的負(fù)面后果,這也突顯了將 AI 目標(biāo)與人類價(jià)值觀及更大背景相一致的重要性。
僅以結(jié)果為導(dǎo)向的評(píng)分機(jī)制使得我們難以評(píng)估模型的解題過程是否與人類推理過程相似。因此,基于當(dāng)前 ARC 訓(xùn)練出的模型很可能在任務(wù)解決方式上與人類存在差異。
第二,直接比較人類與語(yǔ)言模型的推理過程本身具有挑戰(zhàn)性。目前對(duì)于人類如何解決 ARC 任務(wù)的研究尚屬空白,因此我們尚不清楚人類與人工智能在解題過程上的具體差異。此外,缺乏用于比較解題過程的度量標(biāo)準(zhǔn),也使直接對(duì)比變得困難。
A.3 作為類人人工智能基準(zhǔn)的 ARC 的局限性
解決 ARC 是否意味著實(shí)現(xiàn)了類人水平的人工智能?要回答這個(gè)問題,需要恰當(dāng)解決兩個(gè)疑問:
1)該 ARC 解題器是否具備類人水平的問題解決能力?
2)該解題器在解決 ARC 任務(wù)時(shí)是否會(huì)像人類一樣思考?
如果沒有類人水平的推理能力,我們很難想象這個(gè) ARC 解題器是如何運(yùn)作的。目前我們可以假設(shè)的是,該模型將具備 LoTH(思維語(yǔ)言假說)所提出的三種特性,并且可能具備 ARC 中所包含的多種推理能力。基于這一假設(shè),我們嘗試回答以下問題。
A.3.1 模型是否具備類人水平的問題解決能力?
具備推理能力并不一定等同于具備類人水平的問題解決能力。換句話說,即使一個(gè)模型能夠達(dá)到足以解決 ARC 的推理水平,它可能仍不具備類人水平的問題解決能力。
人類在日常生活中所面對(duì)的各種任務(wù)通常比 ARC 更加復(fù)雜,并且除了推理之外,還涉及其他多種認(rèn)知因素。因此,即使是能夠解決 ARC 的模型,在與類人水平的問題解決能力相比時(shí),也可能存在以下局限性。
首先,根據(jù)當(dāng)前的 ARC 評(píng)估標(biāo)準(zhǔn),我們尚不清楚一個(gè)能解決 ARC 的模型是否也能應(yīng)對(duì)更復(fù)雜的任務(wù)類型。這是因?yàn)?ARC 任務(wù)主要聚焦于推理能力,其環(huán)境設(shè)定相對(duì)簡(jiǎn)單。通過 ARC 所獲得的推理能力是否適用于更復(fù)雜的現(xiàn)實(shí)世界任務(wù),目前尚未得到驗(yàn)證。
其次,解決 ARC 并不意味著模型具備除推理以外的其他智能組成部分。雖然推理無疑是認(rèn)知過程中的核心部分,但它并不是智能的全部。已有研究表明,要解決類人復(fù)雜任務(wù),需要多種認(rèn)知能力的協(xié)同作用 [20]。
A.3.2 模型是否像人類一樣思考?
即使我們假設(shè) ARC 解題器能夠在 LoTH(思維語(yǔ)言假說)的意義上進(jìn)行推理,我們也無法保證它的解題過程是類人的,原因如下:
第一,當(dāng)前的 ARC 提供的評(píng)估方式只獎(jiǎng)勵(lì)任務(wù)的完成結(jié)果,而不考慮其解題過程。需要注意的是,這種衡量機(jī)制可能會(huì)導(dǎo)致錯(cuò)誤的目標(biāo)導(dǎo)向,引發(fā)所謂的“邁達(dá)斯國(guó)王問題”(King Midas problem)[50]。
這個(gè)問題強(qiáng)調(diào)了 AI 在實(shí)現(xiàn)既定目標(biāo)時(shí)過于字面化所帶來的風(fēng)險(xiǎn),可能導(dǎo)致意想不到的負(fù)面后果,也進(jìn)一步說明了將 AI 的目標(biāo)與人類價(jià)值觀及整體背景保持一致的重要性。
僅以結(jié)果為導(dǎo)向的評(píng)分機(jī)制使得我們難以判斷模型的解題過程是否與人類推理相似。因此,基于當(dāng)前 ARC 訓(xùn)練出的模型很可能在任務(wù)解決方式上與人類存在差異。
第二,直接比較人類和語(yǔ)言模型的推理過程本身具有挑戰(zhàn)性。目前對(duì)人類如何解決 ARC 任務(wù)的研究仍然空白,因此我們尚不清楚人類與人工智能在解題過程上的具體差異。此外,目前缺乏用于對(duì)比解題過程的有效度量指標(biāo),這也使直接比較變得困難。
B 實(shí)驗(yàn)細(xì)節(jié) B.1 邏輯一致性
邏輯一致性研究包括兩個(gè)主要實(shí)驗(yàn): 1)比較不同提示技術(shù)下的語(yǔ)義一致性; 2)評(píng)估 LLMs 的推理一致性。
在第一個(gè)實(shí)驗(yàn)(提示技術(shù)比較)中,我們從 ARC 評(píng)估集中隨機(jī)選取了 100 個(gè)任務(wù)。隨后應(yīng)用了三種不同的提示方法 ——思維鏈(Chain of Thought, CoT)、由簡(jiǎn)至繁(Least to Most, LtM)和思維樹(Tree of Thoughts, ToT),以比較它們?cè)诒3终Z(yǔ)義一致性方面的有效性。
第二個(gè)實(shí)驗(yàn)旨在評(píng)估 LLMs 的推理一致性,即判斷模型是否能夠一致地應(yīng)用相同的邏輯。因此,首先需要確認(rèn)哪些任務(wù)是 LLMs 真正理解了其中的邏輯的。為此,我們使用在提示技術(shù)比較實(shí)驗(yàn)中表現(xiàn)最好的提示方法 ——CoT 提示,來解決 ARC 訓(xùn)練集中的任務(wù),并重復(fù)該實(shí)驗(yàn)五次。
在五次實(shí)驗(yàn)中至少有一次被正確解決的任務(wù)上,我們進(jìn)行了關(guān)于推理一致性的進(jìn)一步實(shí)驗(yàn)。每個(gè)實(shí)驗(yàn)所使用的具體任務(wù) ID 和提示信息分別見于B.1.1和B.1.2部分。
B.1.1 每個(gè)實(shí)驗(yàn)所使用任務(wù)的 ID 列表
用于邏輯一致性比較實(shí)驗(yàn)的任務(wù) ID 列表如下:
第一個(gè)實(shí)驗(yàn)(不同提示技術(shù)之間的比較)基于100 個(gè) ARC 評(píng)估任務(wù)進(jìn)行;
第二個(gè)實(shí)驗(yàn)(LLMs 推理一致性實(shí)驗(yàn))則基于83 個(gè) ARC 訓(xùn)練任務(wù)進(jìn)行。
B.1.2 提示設(shè)置
在不同提示技術(shù)比較和 LLMs 推理一致性實(shí)驗(yàn)中所使用的提示方法包括:CoT(思維鏈)、LtM(由簡(jiǎn)至繁)和ToT(思維樹)。這些提示的具體內(nèi)容詳見B.1.3 節(jié)。
在提示中,用花括號(hào)
{}
括起來的部分表示需要插入相應(yīng)內(nèi)容的位置。例如,如果是CoT 提示,則包含一個(gè) CoT 的單樣本示例(one-shot example)、任務(wù)中的演示示例以及測(cè)試輸入。
無論使用哪種提示方法,所有提示都提供了一個(gè)單樣本示例(one-shot example):
B.1.3 詳細(xì)提示內(nèi)容
邏輯一致性實(shí)驗(yàn)中采用了多種提示技術(shù),包括CoT、LtM和ToT:
- LLMs DSL 理解實(shí)驗(yàn)用于衡量當(dāng)給定任務(wù)答案時(shí),LLMs 能夠多準(zhǔn)確地生成正確的 DSL;
- 組合能力實(shí)驗(yàn)則用于檢驗(yàn) LLMs 是否能夠從所提供的 DSL 中正確選擇并使用解決問題所需的 DSL。
- CoT 使用CoT提示:
- LtM 使用 分解提示和逐步求解提示:
- ToT 則結(jié)合了 分解提示、ToT分解投票提示、逐步求解提示 和 ToT 逐步求解投票提示
B.2 組合性
在關(guān)于組合性的研究中,我們進(jìn)行了兩個(gè)實(shí)驗(yàn): 1)評(píng)估 LLMs 對(duì) DSL(領(lǐng)域特定語(yǔ)言)理解程度的實(shí)驗(yàn); 2)評(píng)估 LLMs組合能力(compositionality ability)的實(shí)驗(yàn)。
這兩個(gè)實(shí)驗(yàn)使用了相同的任務(wù)集合。有關(guān)任務(wù) ID 的詳細(xì)信息見表 B.2.1,具體的提示細(xì)節(jié)詳見表 B.2.4 和表 B.2.6。
B.2.1 任務(wù) ID 列表
組合性實(shí)驗(yàn)所使用的任務(wù) ID 列表共包含158 個(gè)任務(wù)。從總共 800 個(gè) ARC 任務(wù)中,我們僅選取了那些輸入和輸出網(wǎng)格大小相同、并且在使用給定 DSL 的情況下可以通過長(zhǎng)度不超過 10 的 DSL 序列解決的任務(wù)用于實(shí)驗(yàn)。
B.2.2 所使用的DSL類型。
每種DSL都實(shí)現(xiàn)為一個(gè)Python函數(shù)。如表7所示,
共有三種類型的DSL,使用了三種不同的參數(shù)類型。顏色變化(Color Change)DSL接受諸如坐標(biāo)(Coordinate)和對(duì)象(Object)等參數(shù)。基于坐標(biāo)的顏色變化DSL包括:像素顏色(Pixel Color)、X線(X Line)、水平線(Horizontal Line)、垂直線(Vertical Line)和對(duì)角線(Diagonal Line)。對(duì)于對(duì)象參數(shù),僅存在“obj color”這一種DSL。
變換(Transformation)DSL使用對(duì)象(Object)和網(wǎng)格(Grid)參數(shù)。基于對(duì)象的變換包括:向左旋轉(zhuǎn)對(duì)象(Rotate Left Obj)、向右旋轉(zhuǎn)對(duì)象(Rotate Right Obj)、水平翻轉(zhuǎn)對(duì)象(Horizontal Flip Obj)、垂直翻轉(zhuǎn)對(duì)象(Vertical Flip Obj),以及移動(dòng)操作(Move Left、Move Right、Move Up、Move Down)。基于網(wǎng)格的變換包括:向左旋轉(zhuǎn)整個(gè)狀態(tài)(Rotate Left State)、向右旋轉(zhuǎn)整個(gè)狀態(tài)(Rotate Right State)、水平翻轉(zhuǎn)整個(gè)狀態(tài)(Horizontal Flip)和垂直翻轉(zhuǎn)整個(gè)狀態(tài)(Vertical Flip)。
最后,存在一種獨(dú)立于任何參數(shù)的“Complete DSL”,用于表示在達(dá)到DSL序列長(zhǎng)度10之前任務(wù)已經(jīng)完成。對(duì)于恰好使用DSL序列長(zhǎng)度為10的任務(wù)來說,不需要使用Complete DSL。
B.2.3 面向大語(yǔ)言模型(LLMs)的提示內(nèi)容,包含DSL代碼與注釋。
在衡量組合性及LLM對(duì)DSL理解能力的兩項(xiàng)實(shí)驗(yàn)中,我們確定了一組共10個(gè)任務(wù),這些任務(wù)整體上至少需要使用全部15種DSL中每一種一次。該任務(wù)集被用于確定向LLM解釋DSL時(shí)的最佳提示方式。我們嘗試了四種提示變體:不提供DSL信息、僅提供DSL代碼、僅提供DSL注釋、同時(shí)提供DSL代碼和注釋。針對(duì)這10個(gè)任務(wù),在所有四種提示結(jié)構(gòu)下均進(jìn)行了LLM對(duì)DSL理解能力的實(shí)驗(yàn)。結(jié)果表明,同時(shí)提供代碼和注釋可以獲得最佳性能。因此,在后續(xù)關(guān)于LLM對(duì)DSL的理解能力和組合性的實(shí)驗(yàn)中,我們采用的是同時(shí)包含DSL代碼和注釋的提示內(nèi)容。附錄B.2.4節(jié)展示了向LLM同時(shí)提供DSL代碼和注釋的提示內(nèi)容示例。
B.2.4 詳細(xì)的DSL提示內(nèi)容。DSL函數(shù)代碼與注釋的提示方式
B.2.5 組合性實(shí)驗(yàn)的提示內(nèi)容
LLM的DSL理解實(shí)驗(yàn)與LLM組合性實(shí)驗(yàn)均使用了附錄B.2.6節(jié)中所述的提示結(jié)構(gòu)。
“ARC簡(jiǎn)介提示”(Introduction ARC Prompt)提供了關(guān)于ARC任務(wù)的全面概述,而“DSL使用示例提示”(DSL Usage Example Prompt)則展示了DSL的應(yīng)用方式。
DSL提示由B.2.4節(jié)中的DSL函數(shù)代碼與注釋提示以及DSL使用示例提示組成,提供了對(duì)DSL的全面解釋。
任務(wù)提示(Task Prompt)包括演示示例、測(cè)試輸入、對(duì)象信息(通過PnP獲得的以字典格式表示的對(duì)象坐標(biāo)),以及輸出格式的指導(dǎo)原則。
在LLM的DSL理解實(shí)驗(yàn)中使用的提示不同于任務(wù)提示,因?yàn)闀?huì)提供該任務(wù)所用到的DSL路徑(DSLs path)。
CoT提示(推理鏈提示)包含了ARC簡(jiǎn)介提示和DSL提示。
對(duì)于LLM的DSL理解實(shí)驗(yàn),使用的是LLM的DSL理解提示;
而對(duì)于LLM的組合性實(shí)驗(yàn),則使用任務(wù)提示。
在組合性實(shí)驗(yàn)中,采用的是CoT提示。
B.2.6 詳細(xì)的提示內(nèi)容。組合性實(shí)驗(yàn)中所使用的提示內(nèi)容構(gòu)成。
B.3 生產(chǎn)力
在生產(chǎn)力實(shí)驗(yàn)中,我們的目標(biāo)是使用逆變換提示(ITP, Inverse Transformation Prompt)來擴(kuò)充任務(wù)的演示示例對(duì)。ITP 包含一個(gè)類別提示(category prompt),其中描述了該類別的特點(diǎn)、示例對(duì)以及需要被擴(kuò)充的目標(biāo)輸出。類別提示的詳細(xì)結(jié)構(gòu)見附錄 B.3.2 節(jié),而 ITP 的結(jié)構(gòu)則在 B.3.1 節(jié)中進(jìn)行了說明。
B.3.1 ITP:生產(chǎn)力實(shí)驗(yàn)中所使用提示內(nèi)容的構(gòu)成。
ITP 由類別提示、示例對(duì)和目標(biāo)輸出組成。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.