復雜動態環境是孕育和檢測智能的關鍵。環境的復雜性可以被劃分為物理復雜性與社會復雜性。在AI世界中物理復雜性已被廣泛研究。智能體在虛擬環境中自由探索和環境中的物體交互,而社會復雜性同樣不可或缺。當智能體融入社會要面對復雜的社交關系與社會規范,只有同時應對好物理復雜性與社會復雜性,AI 才能真正邁向通用場景。
基于此北京通用人工智能研究院推出創新成果AdaSociety,它構建了一個多智能體決策環境,支持開放式物理任務和自適應社交結構,填補AI研究重要空白。AdaSociety 不只有物理任務,更是充滿社會復雜性的智能體決策場。在這里智能體要學會處理開放式任務,還要學會與其他智能體建立關系、協商合作,甚至創建以自己為核心的社會組織。
論文標題: AdaSociety: An Adaptive Environment with Social Structures for Multi-Agent Decision-Making 論文鏈接: https://arxiv.org/abs/2411.03865?????一、背景????
復雜動態環境孕育、檢測智能。在現有的經典環境中,雖然如我的世界(Minecraft)[1] 和多關節接觸物理引擎(Mujoco)[2] 等平臺能夠模擬復雜的物理場景,卻往往缺乏多智能體之間的互動;而如胡鬧廚房(Overcooked)[3] 和 AI經濟學家(AI Economist) [4] 等環境雖然聚焦于智能體之間的交互行為,但其物理任務的復雜性較為單一。
事實上,環境的復雜性來源于兩個重要維度:物理復雜性與社會復雜性,缺少任意一方面都會導致智能體能力的局限性,使其無法在真實世界中表現出完整的適應能力。然而,目前兼具這兩種復雜性的環境仍然是一個空白。
為了解決這一問題,通研院研究團隊提出了一個全新的多智能體環境——AdaSociety。該環境高度可定制,融合了不斷擴展的物理空間與自適應的社交結構。
在這個環境中,智能體不僅要在復雜的地圖中探索資源、完成任務,還要與其他智能體建立并維護各種社交關系,共同應對挑戰。這種設計使得AdaSociety能夠生成大量且多樣化的任務,為智能體的學習和決策提供無限可能。
二、動態物理環境
在AdaSociety中,智能體在環境中移動,通過采集資源與合成資源獲取收益。有些資源是自然資源,可以從環境中直接采集;另一些資源是人造資源,需要在環境中特定的事件格上消耗手中的資源來制造。
隨著智能體的采集,新的資源和事件會不斷出現,發現/生產出不同的資源就可能看到并生產新的資源,任務空間隨之不斷擴展,為智能體提供持續的學習和探索空間。這就像人類社會在發展中不斷產生前所未見的發明與發現。
在環境中,研究人員默認設置了15種資源與8種事件,他們之間的合成關系構成了一個復雜的“合成樹”。此外,智能體也具有異質性,智能體可能對資源有不同的價值偏好,他們的背包能夠承載的各資源容量也可以不一致。
圖 AdaSociety中包含各種各樣的資源與不同的事件。在事件區域可以進行資源合成形成新的資源,合成關系形成了上圖中的“合成樹”。
三、顯式社會結構
智能體在AdaSociety中可以建立各種社交關系,這些關系會直接影響它們的決策和信息獲取。在人類社會中,人們會分享利益來尋求合作共贏,也會分享所見所聞來開闊視野。在AdaSociety中,智能體也是如此。它們自主選擇合作伙伴,協商利益分配,甚至創建自己的團隊或組織。
AdaSociety的社交結構通過一個多層次有向圖來表示,基底層的節點表示智能體個體,而高層的節點表示組織。每個智能體可以與其他節點建立不同屬性的連接,也可以斷開已有的連接。
不同屬性社會連接可能具有不同效果。比如他們可以形成點對點之間的社交關系以共享視野,也可以通過與共同高層節點連接來形成利益共同體,共享所得收益。智能體之間、智能體與組織之間錯綜的連接形成復雜社交網絡。
圖 AdaSociety的社交結構——多層有向圖。第0層的節點表示智能體個體,更高層的節點表示組織,有向邊表示節點間的關系,每個節點可以與同層或相鄰層的節點建立不同屬性的聯系。
四、任務設置
AdaSociety中內置了三個社交復雜度遞進的任務。在任務Social Structure中,智能體會在給定的社交關系與給定的利益分配函數下進行行動。在任務Contract中,智能體在一開始可以選擇自己的利益共同體組織,在同組織成員共享收益的條件下進行行動。在任務Negotiation中,智能體之間會先進行談判,確定合作對象,并談判利益分配方式,在談判達成共識下進行行動。
圖 AdaSociety內置的三個任務,對于社交關系和利益分配函數的可操作程度不同
AdaSociety提供了豐富的接口和定制選項,允許研究者根據自己的需求調整環境參數,輕松創建各式各樣的任務。除了使用環境提供的內置內容以外,用戶還可以通過JSON配置文件輕松定制自己的資源、事件、社會聯系屬性、智能體的資源偏好、背包容量以及環境初始條件等。研究人員也提供了多個API允許用戶對智能體和環境進行更復雜的更改。
五、基線測試
AdaSociety支持基于神經網絡的、基于語言模型的和基于規則等多類型智能體。研究團隊在代碼中給出了一些應用示例。研究人員測試了多個經典的決策算法,以及基于大語言模型規劃器+啟發式控制器的決策方法,并用多種性能評估指標,如個體獎勵、公平性得分、完成率以及社交網絡的平均度數和最大度數等,全面評估智能體的性能。
結果表明:當前方法均未能十分有效利用AdaSociety提供的可變的社會結構來形成合作,不過先驗知識的引入對于提升算法性能有很大的作用。比如,當研究人員給算法設計由易到難的課程進行學習時,算法能夠更好地學習出形成團體并合作,在給大語言模型配上帶有環境先驗知識的啟發式控制器后,它的效果也會比PPO等不具有先驗知識的算法更好。
總體而言,AdaSociety對于現有的決策方法具有合理的復雜水平。
圖 在任務Social Structure中,給定不同的社會結構,PPO算法的單輪收益情況(圖左1);在社交結構會在固定時間變化的環境Social Structure-Dynamic中,各基線算法的單輪收益情況(圖中);在Social Structure-Dynamic中,各基線算法的訓練曲線(圖右)。可見社會結構會顯著影響算法收益與訓練。帶有先驗知識的課程學習方法會比純RL方法有更大優勢。
圖 在任務Contract(上排)與Negotiation(下排)中,各基線算法的公平性(第一列)、合成資源量(第二列)、形成組織的最大人數(第三列)、形成組織的平均人數(第四列)。課程學習方法有助于合成更多的高級資源并形成規模較大的組織。
圖 LLM規劃器+基于規則的控制器在各任務上的表現。可以合成較多的高級資源,但是在最困難的Negotiation任務上沒有形成大型的組織,沒有達到最優的效果。
六、結語
AdaSociety是一個富有挑戰性的“動態社交演練場”,有助于深入探索智能體在復雜動態環境中的決策機制、合作策略以及社交動態。我們期望通過這一平臺,測試智能體同時應對物理復雜性與社會復雜性的能力。
隨著人工社會智能不斷發展,AdaSociety將會成為更多研究者探索通用智能體的重要平臺,為多智能體系統設計和優化提供了試驗田。
參考文獻
[1] Linxi Fan, Guanzhi Wang, Yunfan Jiang, Ajay Mandlekar, Yuncong Yang, Haoyi Zhu, Andrew Tang, De-An Huang, Yuke Zhu, and Anima Anandkumar. Minedojo: Building open-ended embodied agents with internet-scale knowledge. Advances in Neural Information Processing Systems, 35:18343–18362, 2022.
[2] Emanuel Todorov, Tom Erez, and Yuval Tassa. Mujoco: A physics engine for model-based control. In 2012 IEEE/RSJ international conference on intelligent robots and systems, pages
5026–5033. IEEE, 2012.
[3] Micah Carroll, Rohin Shah, Mark K Ho, Tom Griffiths, Sanjit Seshia, Pieter Abbeel, and Anca Dragan. On the utility of learning about humans for human-ai coordination. Advances in neural information processing systems, 32, 2019.
[4] Stephan Zheng, Alexander Trott, Sunil Srinivasa, David C Parkes, and Richard Socher. The ai economist: Taxation policy design via two-level deep multiagent reinforcement learning. Science advances, 8(18):eabk2607, 2022.
來源:公眾號【北京通用人工智能研究院】
llustration From IconScout By IconScout Store
-The End-
掃碼觀看!
本周上新!
“AI技術流”原創投稿計劃
TechBeat是由將門創投建立的AI學習社區(
www.techbeat.net) 。 社區上線500+期talk視頻,3000+篇技術干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平臺,希望為AI人才打造更專業的服務和體驗,加速并陪伴其成長。
投稿內容
// 最新技術解讀/系統性知識分享 //
// 前沿資訊解說/心得經歷講述 //
投稿須知
稿件需要為原創文章,并標明作者信息。
我們會選擇部分在深度技術解析及科研心得方向,對用戶啟發更大的文章,做原創性內容獎勵
投稿方式
發送郵件到
melodybai@thejiangmen.com
或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關注“將門創投”公眾號,后臺回復“投稿”二字,獲得投稿說明。
關于我“門”
將門是一家以專注于數智核心科技領域的新型創投機構,也是北京市標桿型孵化器。 公司致力于通過連接技術與商業,發掘和培育具有全球影響力的科技創新企業,推動企業創新發展與產業升級。
將門成立于2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。
如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投后服務,歡迎發送或者推薦項目給我“門”:
bp@thejiangmen.com
點擊右上角,把文章分享到朋友圈
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.