網易首頁 > 網易號 > 正文申請入駐

大模型玩游戲，Deepseek-R1-0528 太強了

2025-06-05 11:36:55　來源: 機器學習與Python社區

北京舉報

分享至

大家好，我是 Ai 學習的老章

看到一個很有意思的測試

讓不同的大模型玩俄羅斯方塊、推箱子、糖果粉碎傳奇，對戰結果有點出乎預料

https://x.com/haoailab/status/1929997363407708646

Deepseek-R1-0528 在多個游戲中智勝 o4-mini 等強推理模型，在俄羅斯方塊上幾乎達到 SOTA 水平，與 o3 打得難分高下。 ?

Deepseek-R1-0528 在非視覺類游戲中帶來顯著提升，包括推箱子和俄羅斯方塊等長線游戲中的分數都翻倍了！

Qwen3-235B-A22B 作為極具競爭力的開源模型嶄露頭角，在《糖果粉碎傳奇》等空間推理游戲中超越了 Gemini-2.5-flash-preview-0417

Deepseek-R1-0528 不僅在俄羅斯方塊所向披靡，在需要強大空間推理能力的糖果粉碎傳奇中也正逼近 SOTA 水平。

它以三輪平均 491.7 分的成績（對比 o3 模型的 647.0 分），成為目前最接近頂級水平的開源競爭者。

Qwen3-235B-A22B 以穩健的 363.3 分緊隨其后。

Obsidian 2025-06-04 22.06.30.png

很好奇

這個測試是怎么實現的呢？

其實是基于這個項目：https://github.com/lmgame-org/GamingAgent

這是一個在標準化交互式游戲環境中啟用和測試基于大型語言模型（LLM）和視覺語言模型（VLM）的智能體。

主要功能：

模型評估（基礎模式）：在一系列多樣化的視頻游戲中評估當前最先進的模型（LLM/VLM），這種評估在沒有特定游戲控制框架（gaming harness）的“單一模型 VLM 設置”下進行。
智能體部署與評估（定制化流程）：使用項目定制的 GamingAgent 工作流程（即游戲控制框架）來部署和評估模型，目的是提升模型在游戲中的表現。
PC 端游戲智能體：用于部署可以在個人電腦和筆記本上運行的計算機使用智能體（Computer-Use Agents, CUAs）。

項目還推出了 Lmgame Bench，這是一個用于游戲智能體的基準測試平臺，可以查看各個模型在游戲任務上的表現。

該項目支持多種主流 AI 模型的 API，包括：

OpenAI (gpt-4o, gpt-4o-mini 等)
Anthropic (claude-3.5-sonnet, claude-4-opus 等)
Gemini (gemini-2.5-pro, gemini-1.5-pro 等)
xAI (grok-3-mini)
Deepseek (reasoner R1, chat V3)
Qwen (Qwen3)

安裝方法：

git clone https://github.com/lmgame-org/GamingAgent.git cd GamingAgent conda create -n lmgame python==3.10 -y conda activate lmgame pip install -e .

在credentials.sh中設置 API keys:

export OPENAI_API_KEY={YOUR_OPENAI_API_KEY} export ANTHROPIC_API_KEY={YOUR_ANTHROPIC_API_KEY} export GEMINI_API_KEY={YOUR_GEMINI_API_KEY} export XAI_API_KEY={YOUR_XAI_API_KEY} export DEEPSEEK_API_KEY={YOUR_DEEPSEEK_API_KEY}

省事點可以在線體驗（需要網絡暢通）

在線體驗：https://huggingface.co/spaces/lmgame/lmgame_bench

可以玩的游戲有推箱子、2048、俄羅斯方塊、超級馬里奧等

deepseek-r1 在糖果粉碎傳奇上表現不錯，在 2048 和俄羅斯方塊上表現中等，在推箱子和逆轉裁判上表現較弱

總體看，最強的還是 o3/o4 mini、Gemini 2.5 Pro、Claude 3.7

更多細節，大家可以看下這篇論文：https://arxiv.org/pdf/2505.15146

這篇論文我大致看了一下，其中有一些提示詞蠻有意思的

比如：如何用純文字指導大模型玩游戲？

比如：推箱子

提示： 你正在解決推箱子謎題。你是玩家，需要將所有箱子推到目標位置。當你緊挨著箱子時，你可以通過向相同方向移動來推動它。你不能將箱子推過墻壁，也不能拉動箱子。答案應該是一個動作序列，例如 

 向右 || 向右 || 向上 answer>。 狀態中每個符號的含義是： #: 墻壁，_: 空地，O: 目標，√: 箱子在目標上，X: 箱子，P: 玩家，S: 玩家在目標上 你的可用動作是： 上，下，左，右 你最多可以執行 10 個動作，動作之間用“ || ”分隔。 回合 1: 狀態： ###### ###### #O#### #XP### #__### ###### 你還剩 10 次動作機會。始終輸出： 

 [你的思考過程] div> 

  [你的答案]  answer>，不要帶有多余的文本。嚴格遵守此格式。最大響應長度：100 詞（標記）。 下一回合的提示： 獎勵： -0.1 回合 2: 狀態： {當前狀態} 你還剩 9 次動作機會。始終輸出： 

 [你的思考過程] div> 

  [你的答案]  answer>，不要帶有多余的文本。嚴格遵守此格式。最大響應長度：100 詞（標記）。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.