轉自 專知
摘要—終身學習,也稱為持續學習或增量學習,是推進人工通用智能(AGI)的關鍵組成部分,通過使系統在動態環境中持續適應。盡管大規模語言模型(LLM)在自然語言處理領域展現了出色的能力,但現有的LLM智能體通常是為靜態系統設計的,缺乏根據新挑戰隨時間適應的能力。本調查是首個系統總結將終身學習納入基于LLM的智能體的潛在技術的文獻。我們將這些智能體的核心組件分為三個模塊:感知模塊,用于多模態輸入的集成;記憶模塊,用于存儲和檢索不斷發展的知識;以及行動模塊,用于與動態環境的實際互動。我們強調這三個支柱如何共同實現持續適應,緩解災難性遺忘,并提高長期性能。本調查為從事基于LLM智能體的終身學習能力開發的研究人員和從業人員提供了一條發展路線圖,提供了關于新興趨勢、評估指標和應用場景的見解。相關文獻和資源可通過以下鏈接獲取:
https://github.com/qianlima-lab/awesome-lifelong-llm-agent.
關鍵詞—終身學習,持續學習,增量學習,大規模語言模型,智能體,人工通用智能(AGI)
1 引言
“智慧是適應變化的能力。”
——斯蒂芬·霍金
終身學習[1],[2],也稱為持續學習或增量學習[3],[4],已成為智能系統發展的關鍵焦點。如圖1所示,終身學習近年來吸引了越來越多的研究關注,它在使這些系統能夠持續適應并不斷改進方面起著至關重要的作用。正如Legg等人[5]所指出的,人的智能本質上是快速適應廣泛環境的能力,這突顯了人工智能系統展現同樣適應性的需求。終身學習指的是系統在避免遺忘已學知識的同時,獲取、整合和保持新知識的能力。對于那些在動態復雜環境中運行的系統,尤其重要,因為這些環境中常常出現新的任務和挑戰。與傳統的機器學習模型不同,后者通常在固定數據集上進行訓練并優化以執行特定任務,終身學習系統則被設計為能夠不斷演變。它們隨著遇到新情境而積累新知識并持續完善其能力。
盡管終身學習具有潛力,但目前人工智能的進展與終身學習的實際應用之間仍存在顯著的差距。雖然人類能夠自然地整合新知識并保留舊知識,但當前的人工智能系統在終身學習方面面臨兩大挑戰:災難性遺忘[6]和可塑性喪失[7],[8]。這些挑戰形成了穩定性與可塑性困境[9]。一方面,災難性遺忘指的是當系統學習新任務時,會忘記之前學到的信息,特別是在環境發生變化時尤為突出。另一方面,可塑性喪失則指系統無法適應新任務或新環境。這兩者代表了學習譜系的兩個對立端:靜態系統避免遺忘,但缺乏適應能力;而注重適應的系統則面臨遺忘過去知識的風險。克服這一困境是推動人工智能發展的關鍵,也是實現人工通用智能(AGI)[5]的基礎性挑戰。
1.1 構建終身學習LLM智能體的動機
近年來,大規模語言模型(LLM)[11],[12]的進展顯著改變了自然語言處理領域。像GPT-4[12]這樣的模型通過學習海量的文本數據,能夠處理并生成類人文本。它們在文本生成、機器翻譯和問答等任務中表現出色,得益于其理解復雜語言模式的能力。然而,傳統的LLM[11],[12]在訓練完成后是靜態的,這意味著它們無法在部署后適應新任務或環境。它們的知識是固定的,且無法在不重新訓練的情況下整合新信息,這限制了它們在動態現實場景中的應用。與此相比,LLM智能體代表了更高級的人工智能形式。不同于標準的LLM,這些智能體[13],[14]是能夠與環境互動的自治實體。LLM智能體能夠感知多模態數據(例如文本、圖像、傳感數據),將這些信息存儲在記憶中,并采取行動影響或響應其周圍環境[15]–[17]。它們被設計為不斷適應新情境,隨著與環境的互動和經驗的積累,智能體的決策能力得以不斷提高。圖2和圖3提供了相關示意圖。
將終身學習融入LLM智能體的動機源于開發能夠不僅適應新任務,還能在廣泛的動態環境中保留并應用先前知識的智能系統的需求,這與Legg等人[5]將智能定義為快速適應廣泛環境的觀點相契合。目前,現有的LLM智能體通常被開發為靜態系統,限制了它們在面對新挑戰時的演變能力。此外,大多數關于LLM的終身學習研究[1],[4]集中于處理不斷變化的數據分布,而非與環境進行互動。例如,通過持續微調LLM以適應特定領域的指令[1]。然而,這些方法仍將LLM視為靜態黑箱系統,并未解決LLM在真實世界環境中進行互動學習的實際需求。圖2比較了傳統的終身學習范式與本調查中討論的、LLM智能體與動態環境互動的新范式。
在現實世界的應用中,LLM智能體需要適應多樣的環境,如游戲、網頁瀏覽、購物、家庭任務和操作系統,而無需為每個新情境設計單獨的智能體。通過引入終身學習能力,這些智能體可以克服這一局限性。它們能夠持續學習并存儲來自多種模態(如視覺、文本、傳感數據)的知識,使其在環境變化時能夠進行實時適應和決策[18]–[21]。將終身學習融入LLM智能體,可以釋放它們在動態現實應用中的全部潛力[22],[23]。因此,這些智能體能夠不斷演變、獲得新知識,并保持關鍵信息,從而增強其適應性和多功能性。這個持續學習的過程對那些挑戰不斷出現的環境尤為重要,如自主機器人、互動助手和自適應決策支持系統[14]。圖4展示了一個終身學習的LLM智能體示意圖。
1.2 本調查的范圍
本調查提供了關于基于LLM的智能體終身學習系統的關鍵概念、技術和挑戰的全面概述。作為首個系統總結將終身學習納入LLM智能體的潛在技術的文獻,本調查將重點回答以下研究問題(RQ):
RQ1:為終身學習設計的LLM智能體的核心概念、開發流程和基本架構是什么?(第3節)
RQ2:LLM智能體如何持續感知和處理單模態和多模態數據,以適應新環境和任務?(第4、5節)
RQ3:什么策略可以減輕災難性遺忘并保留已學知識?(第6、7、8、9節)
RQ4:LLM智能體如何在動態環境中執行各種動作,如扎根、檢索和推理?(第10、11、12節)
RQ5:評估終身學習在LLM智能體中表現的評估指標和基準是什么?(第13節)
RQ6:終身學習LLM智能體的現實應用和使用案例是什么?它們如何從持續適應中受益?(第14節)
RQ7:開發LLM智能體終身學習面臨的關鍵挑戰、局限性和未解問題是什么?(第15節)
通過回答這些研究問題,本調查作為理解LLM智能體中終身學習的設計、挑戰和應用的逐步指南。它回顧了最前沿的技術,并突出了新興趨勢和未來的研究方向。
1.3 本調查的貢獻
據我們所知,這是首個系統回顧終身學習與LLM智能體交叉領域最新進展的調查。本調查的主要貢獻如下:
基礎概述:提供了實現LLM智能體終身學習的基礎概念和架構的全面概述。
深入的組件分析:分析了感知、記憶和行動模塊等關鍵組件,這些組件使LLM智能體能夠進行適應性行為。
全面討論:討論了現實世界應用、評估指標、基準,以及終身學習LLM智能體領域的關鍵挑戰和未來研究方向。
本調查的結構如下:第2節回顧了關于LLM智能體和終身學習的相關調查和文獻;第3節介紹了為終身學習設計的LLM智能體的基礎概念、開發流程和整體架構;第4和第5節從感知角度討論了終身學習LLM智能體的設計,分別聚焦于單模態和多模態方法;第6、7、8和9節從記憶角度探討了LLM智能體的設計,涉及工作記憶、情節記憶、語義記憶和參數記憶;第10、11和12節從行動角度探討了LLM智能體的設計,包括扎根動作、檢索動作和推理動作;第13節介紹了評估終身學習LLM智能體表現的評估指標和基準;第14節深入討論了終身學習LLM智能體的現實應用和使用案例;第15節提供了實踐洞察并概述了未來的研究方向;最后,第16節總結了本調查。
終身學習,也稱為持續學習或增量學習,基于這樣一個理念:智能系統應該像人類一樣,持續地獲取、完善和保留知識,貫穿整個生命周期。與傳統的機器學習方法不同,傳統方法假設數據集是固定的、靜態的,而終身學習框架則面臨數據和任務隨時間演變的現實,模型必須在不遺忘已掌握技能的前提下進行適應。圖5展示了終身學習發展的示意圖。
終身學習的基于LLM的智能體架構旨在持續適應、整合并優化其在一系列任務和環境中的行為。在本小節中,我們識別了三個關鍵模塊——感知、記憶和行動——它們共同支持終身學習。這個劃分遵循了先前工作中提出的框架[14],但有一個顯著的不同:我們沒有保留“腦”模塊,而是采用了[14]中提出的“記憶”模塊,具有更清晰的功能性和改進的模塊化結構。
每個模塊相互作用,確保智能體能夠處理新信息、保留有價值的知識并選擇適應當前情境的合適行動。這三個模塊的設計理念來源于智能體的需求:(i) 感知和解讀不斷變化的數據,(ii) 存儲和管理來自過去經驗的知識,(iii) 執行適應變化環境的任務。
這三個模塊構成了一個動態反饋回路:感知模塊將新信息傳遞給記憶模塊,在記憶模塊中進行存儲和處理。記憶模塊隨后引導行動模塊,影響環境并為未來的感知提供信息。通過這一持續循環,智能體不斷完善其知識,提升適應性,最終提高其在復雜動態環境中的表現。
接下來,我們將詳細描述每個模塊,分析其設計如何貢獻于智能體的終身學習能力。圖6展示了整體架構的示意圖,圖7總結了后續章節的組織結構。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.