利用大語言模型作為基礎模型構建智能體(LLM-based agents)是當今熱門的研究領域,美國斯坦福大學團隊提出的 Smallville AI 小鎮更是作為智能體社會模擬領域的先驅引起了廣泛關注。
過往智能體研究工作大多使用身份演繹+目標驅動的方式驅動智能體的行為,也就是提供給智能體一份身份檔案(profile)和一些具體的任務指令,使其能在特定環境下提出行動,完成一些具體的任務。
(來源:課題組)
但是這種框架下構建的智能體是缺乏自主性的,有違人類智能形成的本質的,用演繹和目標指令驅動的方式也不是智能最本質的來源。人具有基礎的欲望(餓、困、乏等生理需求),在此基礎上有對于整潔、美觀、安全、社會聯結等各方面的自我價值追求,碳基智能體(人和動物)也正是在這樣的內在欲求驅動下,自主地提出和執行一系列日常行動,而不是被動地接收指令和執行指令。
基于此,北京師范大學鐘方威副教授和所在團隊認為要實現類人智能體,也需要具備賦予智能體這種欲求驅動的自主機制,為此他們開展了一項研究。該研究階段性成果以《用欲求驅動的自主性模擬類人日?;顒印罚⊿IMULATING HUMAN-LIKE DAILY ACTIVITIES WITH DESIRE-DRIVEN AUTONOMY) 為題在人工智能領域頂會國際表征學習大會(ICLR ,International Conference on Learning Representations)2025 發表。
(來源:https://openreview.net/pdf?id=3ms8EQY7f8)
本次研究作為對類人智能體建模的先驅探索與實踐,希望用類人欲求驅動的價值系統來建模智能體的內在動機和自主機制,并用這些價值維度來指引它在環境中提出任務和選擇行為。研究團隊希望通過這樣方式建模的智能體能在交互環境中生成更多樣、自然且類人的活動序列。
(來源:資料圖)
研究中,該團隊構建了欲求驅動智能體 D2A(Desire-driven Autonomous Agent),它主要包含價值系統(Value System)以及欲求驅動規劃器(Desire-driven Planner)兩個部分。
價值系統負責維護預定義的一系列欲求維度的變化,模擬人類多元欲求的動態變化機制(比如隨著時間饑餓感會增加),在行動前將欲求滿足的感官狀態以文本描述的方式呈現給智能體,并在智能體行動得到環境反饋后進行對應更新。
而欲求驅動規劃器用了一種符合人類直覺的動作擴展方法,首先想象了多種可行的活動,之后模擬采取這些行動后各維度欲求價值的變化情況,之后根據以上想象的結果選擇能最好滿足當前欲求的活動作為當前步驟的行動。
(來源:資料圖)
研究團隊發現這種自主智能體框架生成的動作序列,相較于給出明確目標和角色檔案,或者基于顯式思考或優先級排序的智能體范式(LLMob、ReAct 和 BabyAGI),能夠生成更像人類自然的活動序列(更加類人)。
同時,研究團隊通過定量分析發現 D2A 生成的動作序列能有效地降低各欲求維度的不滿足程度(更加理性),表現出和人類驅動模式較高的一致性。研究團隊也將 D2A 擴展到多智能體環境中進行實驗,發現其能生成相比基線方法更豐富自然的活動序列。
審稿人認為,本次研究提出了一種新穎的動態欲求驅動框架,用于模擬人類的日常活動以及人類的動機系統。研究團隊通過將需求理論轉化為可計算模型,使用內在的價值系統代替了傳統大模型 agent 的外在任務系統,使智能體能夠更加靈活地生成類人的活動序列。通過無需預設指令的主動行為生成(Proactive Action),相比 ReAct/BabyAGI/LLMob 等基線方法,研究團隊的智能體在行為擬真度與多樣性上展現優勢。
與此同時,審稿人還認為本次研究提供了靈活的框架,讓用戶能夠自己設計特定的價值維度,從而適應不同領域的研究。
最后,審稿人指出,本次研究也針對不同場景(包括室內和室外場景),人物設定以及 baseline 進行實驗。最終通過清晰的結果展示,論證了框架的有效性。研究團隊通過熱力圖和不滿足度的折線圖,清晰地展示了欲求價值-行為關系以及實驗結果對比基線模型的勝率。
總的來說,本次研究為智能體提供了一種全新的自我驅動方法,基于自己的價值維度進行不同活動。研究團隊認為這個框架在不遠的將來,有望能夠應用于大型社會模擬器(例如構造多個不同欲求和個性的類人智能體,從而模擬一場社會實驗,將有望改變社會科學領域的研究范式)、社交機器人(通過自身的“社會連接感”以及其他價值維度需求主動與用戶互動,或是模擬用戶當前的狀態提供個性化服務)等等。
除此之外,研究團隊也認為這個方向的研究能夠應用在互動游戲的非玩家控制角色(NPC,Non - Player Character)中,幫助 NPC 自我驅動的生成類人交互行為。這種技術可以讓 NPC 表現出更自然、動態和個性化的行為,從而增強游戲的沉浸感和可玩性。
由于本次工作從一個嶄新的角度提出了自主智能體的概念,且研究團隊的實驗設定與以往任務目標導向的實驗不同(主流的工作多在幾個公開數據集上追求更高指標性能以證明所提方法的創新性)。因此,研究團隊的工作一開始受到了評審人的一些質疑,初始分數評價 5553,低于論文被接收的標準線。
后來,研究團隊補充了在更多場景下的實驗數據,并論述了研究團隊的建模思路的巨大潛力和推動人工智能與其他學科交叉應用的廣泛前景,從而說服了四位審稿人達成一致,將分數提升至接受線以上(6666),最終讓領域主席認可了研究團隊概念上的新穎性和貢獻的扎實性。
但是,目前建模還較為簡化,沒有考慮各種價值維度間的層次結構,也并沒有將人類更復雜動態的心理機制納入考慮,這些都是研究團隊未來將考慮深入探索的方向。
此外,研究團隊對將欲望或者價值作為一個更本質的動機充滿興趣。他們計劃在多智能體社會模擬主題下做出更多的工作,為之后將智能體引入人類社會中,或讓智能體與人類價值在交互中對齊做出研究團隊的探索與嘗試。
排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.