新智元報道
編輯:LRST
【新智元導讀】中科院自動化所提出DipLLM,這是首個在復雜策略游戲Diplomacy中基于大語言模型微調的智能體框架,僅用Cicero 1.5%的訓練數據就實現超越,展現出卓越的策略能力和樣本效率。該框架通過自回歸分解將復雜決策任務轉化為序列化子任務,結合理論支持的均衡策略目標對LLM 進行高效微調,為構建更通用、高效的博弈智能體提供了新范式。
圍棋、德州撲克曾是AI崛起的試煉場,從AlphaGo到Libratus,人工智能不斷刷新策略上限。
但接下來的戰場更難——Diplomacy:一款融合協作與競爭的七人博弈游戲,單輪動作空間高達10的64次方,其策略建模復雜度前所未有!
為此,Meta曾推出智能體Cicero[Meta, Science 2022],結合人類數據與策略搜索,在該領域實現突破,但其方法高度依賴超大規模均衡搜索與重資源訓練,難以擴展與遷移。
現在,中科院自動化所的一項研究成果入選ICML 2025,提出了全新范式的博弈智能體框架——DipLLM,首次在Diplomacy中探索基于大語言模型微調的策略學習方法,顯著降低資源需求,展現出卓越的策略能力與樣本效率。
DipLLM構建在自回歸分解框架之上,將高維聯合動作建模任務轉化為序列化子任務,并結合理論支持的均衡策略目標對LLM進行高效微調。
在僅使用Cicero 1.5%訓練數據的情況下,便實現性能超越,展現出強大的策略能力與驚人的樣本效率。
論文地址:https://arxiv.org/pdf/2506.09655
開源代碼:https://github.com/KaiXIIM/dipllm
論文第一作者為徐凱旋,中科院自動化所直博二年級;共同第一作者為柴嘉駿,中科院自動化所直博五年級;通訊作者為朱圓恒,中科院自動化所副研;研究方向為大模型強化學習后訓練和智能體、多智能體強化學習、多具身智能。
研究背景
盡管圍棋、國際象棋等經典博弈任務已被廣泛研究,其動作空間一般僅在千級以內。 而在Diplomacy中,玩家需同時為多個單位做出決策,每回合聯合動作組合高達10的64次方,導致策略學習與建模難度激增。
目前主流方法多依賴通過均衡搜索(equilibrium search)產生大規模博弈數據進行策略擬合。
例如,Cicero在訓練階段使用448張GPU并行生成數據,成本高昂且難以擴展。
近年來,大語言模型(LLM)展現出強大的泛化與推理能力,為復雜決策任務帶來新可能。雖然基于prompt的方法可在部分任務可快速適配,但在Diplomacy等復雜博弈中,其策略生成能力仍受限于基礎模型性能。
已有研究表明,對LLM進行微調(fine-tuning)能顯著提升策略表現[Zhai et al., NeurIPS 2024]。
然而,在復雜博弈中,如何構建合理的訓練框架與優化目標仍面臨諸多挑戰,尤其是:超大規模動作空間導致的決策障礙,以及復雜多智能體博弈下均衡策略的缺乏。
DipLLM
用于復雜博弈的自回歸策略分解智能體
為了解決上述難題,研究人員提出一種適用于復雜博弈環境的 LLM 智能體,構建過程包括了三個關鍵步驟。
步驟1:基于大語言模型的自回歸分解框架
在Diplomacy游戲中,玩家需要為最多34個單位同時選擇動作,每個單位約有26種選擇,導致聯合動作空間呈指數級增長。
為此,研究人員提出一種基于大語言模型的自回歸因式分解框架,將復雜的聯合決策任務拆解為一系列有序的單位動作選擇(unit-action selection)子任務。
具體來說,將玩家的整體策略表示為:
每一個子策略依賴于當前游戲狀態
s和前-1個單位的動作,從而按順序生成當前單位的動作
這一形式與 LLM 擅長的「下一個 token 預測」(next-token prediction)機制天然契合,使得模型能夠逐步輸出每個單位的行動決策。
在推理階段,LLM 首先將原始游戲狀態轉化為文本格式
s,然后針對每個單位,結合其編號與前序單位動作

步驟2:自回歸分解框架下的策略學習目標
為了有效引導微調過程,研究人員在自回歸分解框架下重新定義了策略學習目標,以學習近似納什均衡策略。
在傳統方法,如piKL-Hedge[Jacob et al., ICML 2022],玩家的策略通常建模為集中式決策,玩家
i的策略受到聯合動作價值函數 以及錨定策略 共同引導:
其中錨定策略是基于人類數據模仿學習得到的類人策略,避免搜索過程中過度偏離人類能理解的范圍。
為了定義分解下的策略學習目標,研究人員將聯合動作值分解為一系列單位級的子動作值,表示第
個單位的分解動作價值:基于這一分解,進而定義了如下單位級策略學習目標:
理論保證
研究人員進一步從理論角度分析了該策略學習目標在博弈環境中的性質,并提出了兩個關鍵定理加以支撐:
定理1(策略等價性)通過自回歸分解策略學習目標推導出的聯合策略
其與原始策略分布π保持等價性,即在不損失策略表達能力的前提下,實現了更高效的建模。
定理2(近似納什均衡收斂)在兩人零和博弈中,若雙方均使用自回歸分解策略學習目標迭代更新策略T輪,其平均策略將收斂到一個近似納什均衡。
步驟3:微調大語言模型以逼近均衡策略目標
為引導模型策略逼近均衡目標,研究人員構建了一套結合博弈交互與價值分解的數據生成與微調流程。
數據收集
通過讓特定模型DipNet[Paquette et al., NeurIPS 2019]與Diplomacy環境交互,收集原始對局數據,并借助均衡搜索算法piKL-Hedge計算聯合動作價值函數
為適應自回歸分解策略結構,研究人員將聯合動作價值進一步拆解為單位級的動作價值
接下來,將每個聯合動作轉化為文本格式,并進行拆解,提取出:
當前單位的輸入任務提示(由前d-1個單位的動作構成):
當前單位的真值動作:
任務提示
與來自玩家視角的文本狀態s一同構成大語言模型的輸入,當前單位的真值動作則作為訓練的標簽。
最終,所有數據被整理為自回歸分解格式的訓練樣本:
其中:
s
為玩家i視角下的文本游戲狀態;
:前d-1個單位動作組成的任務提示;
:第d個單位的真值動作的文本表示;
:該動作對應的單位級Q值。
損失函數
在上述構造的數據基礎上,進而對大語言模型進行微調,以引導智能體策略對齊至前文定義的均衡策略學習目標。
該過程通過最小化大語言模型生成策略與目標策略之間的KL散度(Kullback-Leibler Divergence)來實現,形式化地,該優化目標可寫作:
進一步推導可得,該目標等價于最大化帶權對數似然函數:
實驗結果與分析
為評估DipLLM在Diplomacy環境中的策略能力,研究人員構建了一個由四個強基線模型組成的對手池,在每輪對局中隨機選取兩名智能體進行博弈。
通過大量對局實驗,系統統計了包括SoS得分、勝率、生存率等在內的多個關鍵指標,以全面衡量智能體的策略表現。
實驗結果顯示,DipLLM 在所有五項測試指標上均優于當前最先進方法(SOTA)
盡管僅使用了約Cicero訓練數據的1.5%,DipLLM依然展現出更強的策略能力與博弈表現,充分體現了其在復雜博弈環境下的高樣本效率與策略優化潛力。
與Cicero對戰實例
執掌英國:暗度陳倉
DipLLM執掌英國。
面對西線久攻不下與德俄雙線壓力,DipLLM果斷發動佯攻以牽制法軍主力,同時突襲MAO并奪取西班牙,成功繞后包抄法國展現。數回合內,英軍節節推進,最終全面占領法國,完成對法國陣營(Cicero控制)的決定性勝利。
執掌德國:合縱連橫
DipLLM執掌德國。
面對來自俄羅斯的強勢進攻,DipLLM聯合英國 (Cicero),在NWY與SWE地區協同防守,成功遏制俄軍前線推進。待時機成熟,DipLLM果斷出擊,突襲俄國腹地,占領關鍵據點,并逐步蠶食其全境,最終完成對俄羅斯(Cicero)的全面壓制。
總結與展望
研究人員提出了DipLLM,一種面向復雜博弈場景的大語言模型微調智能體。
通過引入自回歸分解機制,將高維聯合決策任務轉化為一系列可控的順序子任務,從根本上緩解了傳統策略建模在動作空間維度上的瓶頸。
在此基礎上,構建了具備理論保障的均衡策略優化目標,并通過微調引導模型策略逐步逼近納什均衡。
盡管僅使用了Cicero訓練數據的1.5%,DipLLM便實現超越,充分展現了大語言模型在多智能體博弈中的策略能力與樣本效率。
這項工作為構建更通用、更高效、更可遷移的博弈智能體提供了新范式,也預示著基于LLM的策略學習將在更多復雜決策環境中釋放潛力。
參考資料:
https://arxiv.org/pdf/2506.09655
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.