99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

策略改寫「一戰歷史」!中科院開源全新博弈智能體框架DipLLM

0
分享至


新智元報道

編輯:LRST

【新智元導讀】中科院自動化所提出DipLLM,這是首個在復雜策略游戲Diplomacy中基于大語言模型微調的智能體框架,僅用Cicero 1.5%的訓練數據就實現超越,展現出卓越的策略能力和樣本效率。該框架通過自回歸分解將復雜決策任務轉化為序列化子任務,結合理論支持的均衡策略目標對LLM 進行高效微調,為構建更通用、高效的博弈智能體提供了新范式。

圍棋、德州撲克曾是AI崛起的試煉場,從AlphaGo到Libratus,人工智能不斷刷新策略上限。

但接下來的戰場更難——Diplomacy:一款融合協作與競爭的七人博弈游戲,單輪動作空間高達10的64次方,其策略建模復雜度前所未有!

為此,Meta曾推出智能體Cicero[Meta, Science 2022],結合人類數據與策略搜索,在該領域實現突破,但其方法高度依賴超大規模均衡搜索與重資源訓練,難以擴展與遷移。

現在,中科院自動化所的一項研究成果入選ICML 2025,提出了全新范式的博弈智能體框架——DipLLM,首次在Diplomacy中探索基于大語言模型微調的策略學習方法,顯著降低資源需求,展現出卓越的策略能力與樣本效率。

DipLLM構建在自回歸分解框架之上,將高維聯合動作建模任務轉化為序列化子任務,并結合理論支持的均衡策略目標對LLM進行高效微調。

在僅使用Cicero 1.5%訓練數據的情況下,便實現性能超越,展現出強大的策略能力與驚人的樣本效率。


論文地址:https://arxiv.org/pdf/2506.09655

開源代碼:https://github.com/KaiXIIM/dipllm

論文第一作者為徐凱旋,中科院自動化所直博二年級;共同第一作者為柴嘉駿,中科院自動化所直博五年級;通訊作者為朱圓恒,中科院自動化所副研;研究方向為大模型強化學習后訓練和智能體、多智能體強化學習、多具身智能。

研究背景

盡管圍棋、國際象棋等經典博弈任務已被廣泛研究,其動作空間一般僅在千級以內。 而在Diplomacy中,玩家需同時為多個單位做出決策,每回合聯合動作組合高達10的64次方,導致策略學習與建模難度激增。

目前主流方法多依賴通過均衡搜索(equilibrium search)產生大規模博弈數據進行策略擬合。

例如,Cicero在訓練階段使用448張GPU并行生成數據,成本高昂且難以擴展。

近年來,大語言模型(LLM)展現出強大的泛化與推理能力,為復雜決策任務帶來新可能。雖然基于prompt的方法可在部分任務可快速適配,但在Diplomacy等復雜博弈中,其策略生成能力仍受限于基礎模型性能。

已有研究表明,對LLM進行微調(fine-tuning)能顯著提升策略表現[Zhai et al., NeurIPS 2024]。

然而,在復雜博弈中,如何構建合理的訓練框架與優化目標仍面臨諸多挑戰,尤其是:超大規模動作空間導致的決策障礙,以及復雜多智能體博弈下均衡策略的缺乏。

DipLLM

用于復雜博弈的自回歸策略分解智能體

為了解決上述難題,研究人員提出一種適用于復雜博弈環境的 LLM 智能體,構建過程包括了三個關鍵步驟。

步驟1:基于大語言模型的自回歸分解框架

在Diplomacy游戲中,玩家需要為最多34個單位同時選擇動作,每個單位約有26種選擇,導致聯合動作空間呈指數級增長。


為此,研究人員提出一種基于大語言模型的自回歸因式分解框架,將復雜的聯合決策任務拆解為一系列有序的單位動作選擇(unit-action selection)子任務。

具體來說,將玩家的整體策略表示為:


每一個子策略依賴于當前游戲狀態

s
和前
-1個單位的動作,從而按順序生成當前單位的動作

這一形式與 LLM 擅長的「下一個 token 預測」(next-token prediction)機制天然契合,使得模型能夠逐步輸出每個單位的行動決策。

在推理階段,LLM 首先將原始游戲狀態轉化為文本格式

s
,然后針對每個單位,結合其編號與前序單位動作,構造提示(prompt)并生成動作 ,最終拼接為完整聯合動作。

步驟2:自回歸分解框架下的策略學習目標

為了有效引導微調過程,研究人員在自回歸分解框架下重新定義了策略學習目標,以學習近似納什均衡策略。

在傳統方法,如piKL-Hedge[Jacob et al., ICML 2022],玩家的策略通常建模為集中式決策,玩家

i
的策略受到聯合動作價值函數 以及錨定策略 共同引導:


其中錨定策略是基于人類數據模仿學習得到的類人策略,避免搜索過程中過度偏離人類能理解的范圍。

為了定義分解下的策略學習目標,研究人員將聯合動作值分解為一系列單位級的子動作值,表示第

個單位的分解動作價值:


基于這一分解,進而定義了如下單位級策略學習目標


理論保證

研究人員進一步從理論角度分析了該策略學習目標在博弈環境中的性質,并提出了兩個關鍵定理加以支撐:

  • 定理1(策略等價性)通過自回歸分解策略學習目標推導出的聯合策略


其與原始策略分布π保持等價性,即在不損失策略表達能力的前提下,實現了更高效的建模。

  • 定理2(近似納什均衡收斂)在兩人零和博弈中,若雙方均使用自回歸分解策略學習目標迭代更新策略T輪,其平均策略將收斂到一個近似納什均衡。


步驟3:微調大語言模型以逼近均衡策略目標


為引導模型策略逼近均衡目標,研究人員構建了一套結合博弈交互與價值分解的數據生成與微調流程。

數據收集

通過讓特定模型DipNet[Paquette et al., NeurIPS 2019]與Diplomacy環境交互,收集原始對局數據,并借助均衡搜索算法piKL-Hedge計算聯合動作價值函數

為適應自回歸分解策略結構,研究人員將聯合動作價值進一步拆解為單位級的動作價值

接下來,將每個聯合動作轉化為文本格式,并進行拆解,提取出:

  • 當前單位的輸入任務提示(由前d-1個單位的動作構成):

  • 當前單位的真值動作:

任務提示

與來自玩家視角的文本狀態s一同構成大語言模型的輸入,當前單位的真值動作則作為訓練的標簽。

最終,所有數據被整理為自回歸分解格式的訓練樣本:


其中:

  • s
    為玩家i視角下的文本游戲狀態;
  • :前d-1個單位動作組成的任務提示;

  • :第d個單位的真值動作的文本表示;

  • :該動作對應的單位級Q值。

損失函數

在上述構造的數據基礎上,進而對大語言模型進行微調,以引導智能體策略對齊至前文定義的均衡策略學習目標。

該過程通過最小化大語言模型生成策略與目標策略之間的KL散度(Kullback-Leibler Divergence)來實現,形式化地,該優化目標可寫作:

進一步推導可得,該目標等價于最大化帶權對數似然函數

實驗結果與分析

為評估DipLLM在Diplomacy環境中的策略能力,研究人員構建了一個由四個強基線模型組成的對手池,在每輪對局中隨機選取兩名智能體進行博弈。

通過大量對局實驗,系統統計了包括SoS得分、勝率、生存率等在內的多個關鍵指標,以全面衡量智能體的策略表現。

實驗結果顯示,DipLLM 在所有五項測試指標上均優于當前最先進方法(SOTA


盡管僅使用了約Cicero訓練數據的1.5%,DipLLM依然展現出更強的策略能力與博弈表現,充分體現了其在復雜博弈環境下的高樣本效率與策略優化潛力。

與Cicero對戰實例

執掌英國:暗度陳倉

DipLLM執掌英國。


面對西線久攻不下與德俄雙線壓力,DipLLM果斷發動佯攻以牽制法軍主力,同時突襲MAO并奪取西班牙,成功繞后包抄法國展現。數回合內,英軍節節推進,最終全面占領法國,完成對法國陣營(Cicero控制)的決定性勝利。

執掌德國:合縱連橫

DipLLM執掌德國。


面對來自俄羅斯的強勢進攻,DipLLM聯合英國 (Cicero),在NWY與SWE地區協同防守,成功遏制俄軍前線推進。待時機成熟,DipLLM果斷出擊,突襲俄國腹地,占領關鍵據點,并逐步蠶食其全境,最終完成對俄羅斯(Cicero)的全面壓制。

總結與展望

研究人員提出了DipLLM,一種面向復雜博弈場景的大語言模型微調智能體。

通過引入自回歸分解機制,將高維聯合決策任務轉化為一系列可控的順序子任務,從根本上緩解了傳統策略建模在動作空間維度上的瓶頸。

在此基礎上,構建了具備理論保障的均衡策略優化目標,并通過微調引導模型策略逐步逼近納什均衡。

盡管僅使用了Cicero訓練數據的1.5%,DipLLM便實現超越,充分展現了大語言模型在多智能體博弈中的策略能力與樣本效率。

這項工作為構建更通用、更高效、更可遷移的博弈智能體提供了新范式,也預示著基于LLM的策略學習將在更多復雜決策環境中釋放潛力。

參考資料:

https://arxiv.org/pdf/2506.09655


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
全票通過,泰國一夜變天,新總理讓人放心,中方一句話意味深長

全票通過,泰國一夜變天,新總理讓人放心,中方一句話意味深長

掌青說歷史
2025-07-02 22:32:10
一父親稱一共轉32萬給兒子買小米yu7!只留10萬養老,引發爭議…

一父親稱一共轉32萬給兒子買小米yu7!只留10萬養老,引發爭議…

明月雜談
2025-07-03 09:15:19
吃相難看?韓紅向貴州捐款930萬,惡心一幕發生,刀郎被網友逼捐

吃相難看?韓紅向貴州捐款930萬,惡心一幕發生,刀郎被網友逼捐

法老不說教
2025-07-02 18:15:08
從清純到S貨只差一雙白長襪:七組致命瞬間

從清純到S貨只差一雙白長襪:七組致命瞬間

北冥說事
2025-07-01 18:54:04
西門子稱美國已取消對中國芯片設計軟件的出口限制

西門子稱美國已取消對中國芯片設計軟件的出口限制

財聯社
2025-07-03 09:43:27
壺口瀑布公驢露JJ遭游客投訴,景區整改給驢戴罩子,結果更顯眼了

壺口瀑布公驢露JJ遭游客投訴,景區整改給驢戴罩子,結果更顯眼了

小蘿卜絲
2025-06-28 10:03:26
視頻讓人不適!牛約堡后廚蟑螂橫行,店員:繁衍太快!今年已開200家店,創始人曾稱以外賣為主

視頻讓人不適!牛約堡后廚蟑螂橫行,店員:繁衍太快!今年已開200家店,創始人曾稱以外賣為主

每日經濟新聞
2025-07-03 11:50:05
山東艦航母編隊,到香港了

山東艦航母編隊,到香港了

環球時報新聞
2025-07-03 09:52:20
葉一茜曬女兒網球照,森碟擁有直角肩,下巴后縮成功矯正,很漂亮

葉一茜曬女兒網球照,森碟擁有直角肩,下巴后縮成功矯正,很漂亮

鄭丁嘉話
2025-07-03 10:12:20
南航機長傷人跳樓身亡后續:妻子發聲,稱丈夫工作受刺激,有遺言

南航機長傷人跳樓身亡后續:妻子發聲,稱丈夫工作受刺激,有遺言

娜烏和西卡
2025-07-03 07:41:43
數百名伊朗婦女獻出孩子捍衛頭巾法

數百名伊朗婦女獻出孩子捍衛頭巾法

通往遠方的路
2025-07-03 08:50:11
在去了一趟廣東,說句不中聽的話,一般人來廣東還真受不了!

在去了一趟廣東,說句不中聽的話,一般人來廣東還真受不了!

i書與房
2025-07-02 17:35:12
曝南航機長刀捅領導后跳樓身亡,年僅32歲長得帥氣,原因疑曝光

曝南航機長刀捅領導后跳樓身亡,年僅32歲長得帥氣,原因疑曝光

180視角
2025-07-02 19:12:02
重磅 !特朗普將訪華!

重磅 !特朗普將訪華!

犀利辣椒
2025-07-02 18:01:01
王毅外長發出警告:臺灣不是你們的地中海,中國不會給第二次提醒

王毅外長發出警告:臺灣不是你們的地中海,中國不會給第二次提醒

大道無形我有型
2025-07-02 15:41:03
泰國總理被停職、泰柬邊境緊張,到底發生了什么?

泰國總理被停職、泰柬邊境緊張,到底發生了什么?

大象新聞
2025-07-03 08:29:19
南航機長行兇傷人墜亡后續;愛妻發聲鳴不平,親弟爆料,信息量大

南航機長行兇傷人墜亡后續;愛妻發聲鳴不平,親弟爆料,信息量大

娜烏和西卡
2025-07-03 09:15:28
五臺山管委會發布關于五臺山中臺演教寺相關網絡視頻核查和處置情況說明

五臺山管委會發布關于五臺山中臺演教寺相關網絡視頻核查和處置情況說明

環球網資訊
2025-07-02 08:59:06
全班48人,46人過600分,班主任被教育局約談,結局令人意外

全班48人,46人過600分,班主任被教育局約談,結局令人意外

五元講堂
2025-07-02 10:36:58
?廣州一餐廳收取“白開水費”被質疑不合理,回復:明碼標價11元/位

?廣州一餐廳收取“白開水費”被質疑不合理,回復:明碼標價11元/位

上游新聞
2025-07-02 19:34:20
2025-07-03 13:31:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12980文章數 66080關注度
往期回顧 全部

科技要聞

再不改飯碗都快沒了?百度搜索終于放大招

頭條要聞

玉淵譚天:中方首次制裁菲政客 禁止其入境香港有深意

頭條要聞

玉淵譚天:中方首次制裁菲政客 禁止其入境香港有深意

體育要聞

這位機場工作人員,5個月前還是英冠主帥

娛樂要聞

劉端端:我愿意在角色嘗試上繼續冒險

財經要聞

浙江中涌連環案:詐騙集團狡兔三窟

汽車要聞

強化安全標簽,沃爾沃轉型的守與破

態度原創

親子
藝術
健康
游戲
教育

親子要聞

家長必看:孩子是“過敏性體質”,還能接種疫苗嗎?專家解答→

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

呼吸科專家破解呼吸道九大謠言!

外媒盛贊《暗黑4》新賽季:地下城終于變好玩了!

教育要聞

7月4日,湖北經濟學院會計學院2026年研究生招生直播宣講來啦!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 永靖县| 万年县| 怀集县| 桦川县| 马边| 苍南县| 平原县| 江永县| 贵阳市| 察雅县| 台东县| 棋牌| 井冈山市| 丰台区| 新平| 获嘉县| 安阳市| 南木林县| 灵台县| 临夏县| 安西县| 宣恩县| 黎川县| 梨树县| 垣曲县| 石河子市| 安远县| 昌平区| 云阳县| 乐陵市| 嘉定区| 丰原市| 贵州省| 克什克腾旗| 镇江市| 满洲里市| 集安市| 崇左市| 勃利县| 叙永县| 呼伦贝尔市|