網易首頁 > 網易號 > 正文申請入駐

AdaSociety：智能體的“動態社交演練場”

2025-01-08 08:27:36　來源: 將門創投

北京舉報

分享至

復雜動態環境是孕育和檢測智能的關鍵。環境的復雜性可以被劃分為物理復雜性與社會復雜性。在AI世界中物理復雜性已被廣泛研究。智能體在虛擬環境中自由探索和環境中的物體交互，而社會復雜性同樣不可或缺。當智能體融入社會要面對復雜的社交關系與社會規范，只有同時應對好物理復雜性與社會復雜性，AI 才能真正邁向通用場景。

基于此北京通用人工智能研究院推出創新成果AdaSociety，它構建了一個多智能體決策環境，支持開放式物理任務和自適應社交結構，填補AI研究重要空白。AdaSociety 不只有物理任務，更是充滿社會復雜性的智能體決策場。在這里智能體要學會處理開放式任務，還要學會與其他智能體建立關系、協商合作，甚至創建以自己為核心的社會組織。

論文標題： AdaSociety: An Adaptive Environment with Social Structures for Multi-Agent Decision-Making 論文鏈接： https://arxiv.org/abs/2411.03865?????

一、背景????

復雜動態環境孕育、檢測智能。在現有的經典環境中，雖然如我的世界（Minecraft）[1] 和多關節接觸物理引擎（Mujoco）[2] 等平臺能夠模擬復雜的物理場景，卻往往缺乏多智能體之間的互動；而如胡鬧廚房（Overcooked）[3] 和 AI經濟學家（AI Economist） [4] 等環境雖然聚焦于智能體之間的交互行為，但其物理任務的復雜性較為單一。

事實上，環境的復雜性來源于兩個重要維度：物理復雜性與社會復雜性，缺少任意一方面都會導致智能體能力的局限性，使其無法在真實世界中表現出完整的適應能力。然而，目前兼具這兩種復雜性的環境仍然是一個空白。

為了解決這一問題，通研院研究團隊提出了一個全新的多智能體環境——AdaSociety。該環境高度可定制，融合了不斷擴展的物理空間與自適應的社交結構。

在這個環境中，智能體不僅要在復雜的地圖中探索資源、完成任務，還要與其他智能體建立并維護各種社交關系，共同應對挑戰。這種設計使得AdaSociety能夠生成大量且多樣化的任務，為智能體的學習和決策提供無限可能。

二、動態物理環境

在AdaSociety中，智能體在環境中移動，通過采集資源與合成資源獲取收益。有些資源是自然資源，可以從環境中直接采集；另一些資源是人造資源，需要在環境中特定的事件格上消耗手中的資源來制造。

隨著智能體的采集，新的資源和事件會不斷出現，發現/生產出不同的資源就可能看到并生產新的資源，任務空間隨之不斷擴展，為智能體提供持續的學習和探索空間。這就像人類社會在發展中不斷產生前所未見的發明與發現。

在環境中，研究人員默認設置了15種資源與8種事件，他們之間的合成關系構成了一個復雜的“合成樹”。此外，智能體也具有異質性，智能體可能對資源有不同的價值偏好，他們的背包能夠承載的各資源容量也可以不一致。

圖 AdaSociety中包含各種各樣的資源與不同的事件。在事件區域可以進行資源合成形成新的資源，合成關系形成了上圖中的“合成樹”。

三、顯式社會結構

智能體在AdaSociety中可以建立各種社交關系，這些關系會直接影響它們的決策和信息獲取。在人類社會中，人們會分享利益來尋求合作共贏，也會分享所見所聞來開闊視野。在AdaSociety中，智能體也是如此。它們自主選擇合作伙伴，協商利益分配，甚至創建自己的團隊或組織。

AdaSociety的社交結構通過一個多層次有向圖來表示，基底層的節點表示智能體個體，而高層的節點表示組織。每個智能體可以與其他節點建立不同屬性的連接，也可以斷開已有的連接。

不同屬性社會連接可能具有不同效果。比如他們可以形成點對點之間的社交關系以共享視野，也可以通過與共同高層節點連接來形成利益共同體，共享所得收益。智能體之間、智能體與組織之間錯綜的連接形成復雜社交網絡。

圖 AdaSociety的社交結構——多層有向圖。第0層的節點表示智能體個體，更高層的節點表示組織，有向邊表示節點間的關系，每個節點可以與同層或相鄰層的節點建立不同屬性的聯系。

四、任務設置

AdaSociety中內置了三個社交復雜度遞進的任務。在任務Social Structure中，智能體會在給定的社交關系與給定的利益分配函數下進行行動。在任務Contract中，智能體在一開始可以選擇自己的利益共同體組織，在同組織成員共享收益的條件下進行行動。在任務Negotiation中，智能體之間會先進行談判，確定合作對象，并談判利益分配方式，在談判達成共識下進行行動。

圖 AdaSociety內置的三個任務，對于社交關系和利益分配函數的可操作程度不同

AdaSociety提供了豐富的接口和定制選項，允許研究者根據自己的需求調整環境參數，輕松創建各式各樣的任務。除了使用環境提供的內置內容以外，用戶還可以通過JSON配置文件輕松定制自己的資源、事件、社會聯系屬性、智能體的資源偏好、背包容量以及環境初始條件等。研究人員也提供了多個API允許用戶對智能體和環境進行更復雜的更改。

五、基線測試

AdaSociety支持基于神經網絡的、基于語言模型的和基于規則等多類型智能體。研究團隊在代碼中給出了一些應用示例。研究人員測試了多個經典的決策算法，以及基于大語言模型規劃器+啟發式控制器的決策方法，并用多種性能評估指標，如個體獎勵、公平性得分、完成率以及社交網絡的平均度數和最大度數等，全面評估智能體的性能。

結果表明：當前方法均未能十分有效利用AdaSociety提供的可變的社會結構來形成合作，不過先驗知識的引入對于提升算法性能有很大的作用。比如，當研究人員給算法設計由易到難的課程進行學習時，算法能夠更好地學習出形成團體并合作，在給大語言模型配上帶有環境先驗知識的啟發式控制器后，它的效果也會比PPO等不具有先驗知識的算法更好。

總體而言，AdaSociety對于現有的決策方法具有合理的復雜水平。

圖在任務Social Structure中，給定不同的社會結構，PPO算法的單輪收益情況（圖左1）；在社交結構會在固定時間變化的環境Social Structure-Dynamic中，各基線算法的單輪收益情況（圖中）；在Social Structure-Dynamic中，各基線算法的訓練曲線（圖右）。可見社會結構會顯著影響算法收益與訓練。帶有先驗知識的課程學習方法會比純RL方法有更大優勢。

圖在任務Contract（上排）與Negotiation（下排）中，各基線算法的公平性（第一列）、合成資源量（第二列）、形成組織的最大人數（第三列）、形成組織的平均人數（第四列）。課程學習方法有助于合成更多的高級資源并形成規模較大的組織。

圖 LLM規劃器+基于規則的控制器在各任務上的表現。可以合成較多的高級資源，但是在最困難的Negotiation任務上沒有形成大型的組織，沒有達到最優的效果。

六、結語

AdaSociety是一個富有挑戰性的“動態社交演練場”，有助于深入探索智能體在復雜動態環境中的決策機制、合作策略以及社交動態。我們期望通過這一平臺，測試智能體同時應對物理復雜性與社會復雜性的能力。

隨著人工社會智能不斷發展，AdaSociety將會成為更多研究者探索通用智能體的重要平臺，為多智能體系統設計和優化提供了試驗田。

參考文獻

[1] Linxi Fan, Guanzhi Wang, Yunfan Jiang, Ajay Mandlekar, Yuncong Yang, Haoyi Zhu, Andrew Tang, De-An Huang, Yuke Zhu, and Anima Anandkumar. Minedojo: Building open-ended embodied agents with internet-scale knowledge. Advances in Neural Information Processing Systems, 35:18343–18362, 2022.

[2] Emanuel Todorov, Tom Erez, and Yuval Tassa. Mujoco: A physics engine for model-based control. In 2012 IEEE/RSJ international conference on intelligent robots and systems, pages

5026–5033. IEEE, 2012.

[3] Micah Carroll, Rohin Shah, Mark K Ho, Tom Griffiths, Sanjit Seshia, Pieter Abbeel, and Anca Dragan. On the utility of learning about humans for human-ai coordination. Advances in neural information processing systems, 32, 2019.

[4] Stephan Zheng, Alexander Trott, Sunil Srinivasa, David C Parkes, and Richard Socher. The ai economist: Taxation policy design via two-level deep multiagent reinforcement learning. Science advances, 8(18):eabk2607, 2022.

來源：公眾號【北京通用人工智能研究院】

llustration From IconScout By IconScout Store

-The End-

掃碼觀看！

本周上新！

“AI技術流”原創投稿計劃

TechBeat是由將門創投建立的AI學習社區（

www.techbeat.net

）。社區上線500+期talk視頻，3000+篇技術干貨文章，方向覆蓋CV/NLP/ML/Robotis等；每月定期舉辦頂會及其他線上交流活動，不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平臺，希望為AI人才打造更專業的服務和體驗，加速并陪伴其成長。

投稿內容

// 最新技術解讀/系統性知識分享 //

// 前沿資訊解說/心得經歷講述 //

投稿須知

稿件需要為原創文章，并標明作者信息。

我們會選擇部分在深度技術解析及科研心得方向，對用戶啟發更大的文章，做原創性內容獎勵

投稿方式

發送郵件到

melodybai@thejiangmen.com

或添加工作人員微信（yellowsubbj）投稿，溝通投稿詳情；還可以關注“將門創投”公眾號，后臺回復“投稿”二字，獲得投稿說明。

關于我“門”

將門是一家以專注于數智核心科技領域的新型創投機構，也是北京市標桿型孵化器。公司致力于通過連接技術與商業，發掘和培育具有全球影響力的科技創新企業，推動企業創新發展與產業升級。

將門成立于2015年底，創始團隊由微軟創投在中國的創始團隊原班人馬構建而成，曾為微軟優選和深度孵化了126家創新的技術型創業公司。

如果您是技術領域的初創企業，不僅想獲得投資，還希望獲得一系列持續性、有價值的投后服務，歡迎發送或者推薦項目給我“門”:

bp@thejiangmen.com

點擊右上角，把文章分享到朋友圈

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.