大家好,我是 Ai 學習的老章
看到一個很有意思的測試
讓不同的大模型玩俄羅斯方塊、推箱子、糖果粉碎傳奇,對戰結果有點出乎預料
https://x.com/haoailab/status/1929997363407708646
Deepseek-R1-0528 在多個游戲中智勝 o4-mini 等強推理模型,在俄羅斯方塊上幾乎達到 SOTA 水平,與 o3 打得難分高下。 ?
Deepseek-R1-0528 在非視覺類游戲中帶來顯著提升,包括推箱子和俄羅斯方塊等長線游戲中的分數都翻倍了!
Qwen3-235B-A22B 作為極具競爭力的開源模型嶄露頭角,在《糖果粉碎傳奇》等空間推理游戲中超越了 Gemini-2.5-flash-preview-0417
Deepseek-R1-0528 不僅在俄羅斯方塊所向披靡,在需要強大空間推理能力的糖果粉碎傳奇中也正逼近 SOTA 水平。
它以三輪平均 491.7 分的成績(對比 o3 模型的 647.0 分),成為目前最接近頂級水平的開源競爭者。
Qwen3-235B-A22B 以穩健的 363.3 分緊隨其后。
Obsidian 2025-06-04 22.06.30.png
很好奇
這個測試是怎么實現的呢?
其實是基于這個項目:https://github.com/lmgame-org/GamingAgent
這是一個在標準化交互式游戲環境中啟用和測試基于大型語言模型(LLM)和視覺語言模型(VLM)的智能體。
主要功能:
模型評估(基礎模式):在一系列多樣化的視頻游戲中評估當前最先進的模型(LLM/VLM),這種評估在沒有特定游戲控制框架(gaming harness)的“單一模型 VLM 設置”下進行。
智能體部署與評估(定制化流程):使用項目定制的 GamingAgent 工作流程(即游戲控制框架)來部署和評估模型,目的是提升模型在游戲中的表現。
PC 端游戲智能體:用于部署可以在個人電腦和筆記本上運行的計算機使用智能體(Computer-Use Agents, CUAs)。
項目還推出了 Lmgame Bench,這是一個用于游戲智能體的基準測試平臺,可以查看各個模型在游戲任務上的表現。
該項目支持多種主流 AI 模型的 API,包括:
OpenAI (gpt-4o, gpt-4o-mini 等)
Anthropic (claude-3.5-sonnet, claude-4-opus 等)
Gemini (gemini-2.5-pro, gemini-1.5-pro 等)
xAI (grok-3-mini)
Deepseek (reasoner R1, chat V3)
Qwen (Qwen3)
安裝方法:
git clone https://github.com/lmgame-org/GamingAgent.git cd GamingAgent conda create -n lmgame python==3.10 -y conda activate lmgame pip install -e .
在credentials.sh
中設置 API keys:
export OPENAI_API_KEY={YOUR_OPENAI_API_KEY} export ANTHROPIC_API_KEY={YOUR_ANTHROPIC_API_KEY} export GEMINI_API_KEY={YOUR_GEMINI_API_KEY} export XAI_API_KEY={YOUR_XAI_API_KEY} export DEEPSEEK_API_KEY={YOUR_DEEPSEEK_API_KEY}
省事點可以在線體驗(需要網絡暢通)
在線體驗:https://huggingface.co/spaces/lmgame/lmgame_bench
可以玩的游戲有推箱子、2048、俄羅斯方塊、超級馬里奧等
deepseek-r1 在糖果粉碎傳奇上表現不錯,在 2048 和 俄羅斯方塊上表現中等,在推箱子和逆轉裁判上表現較弱
總體看,最強的還是 o3/o4 mini、Gemini 2.5 Pro、Claude 3.7
更多細節,大家可以看下這篇論文:https://arxiv.org/pdf/2505.15146
這篇論文我大致看了一下,其中有一些提示詞蠻有意思的
比如:如何用純文字指導大模型玩游戲?
比如:推箱子
提示: 你正在解決推箱子謎題。你是玩家,需要將所有箱子推到目標位置。當你緊挨著箱子時,你可以通過向相同方向移動來推動它。你不能將箱子推過墻壁,也不能拉動箱子。答案應該是一個動作序列,例如
向右 || 向右 || 向上 answer>。 狀態中每個符號的含義是: #: 墻壁,_: 空地,O: 目標,√: 箱子在目標上,X: 箱子,P: 玩家,S: 玩家在目標上 你的可用動作是: 上,下,左,右 你最多可以執行 10 個動作,動作之間用“ || ”分隔。 回合 1: 狀態: ###### ###### #O#### #XP### #__### ###### 你還剩 10 次動作機會。始終輸出:
[你的思考過程] div>
[你的答案] answer>,不要帶有多余的文本。嚴格遵守此格式。最大響應長度:100 詞(標記)。 下一回合的提示: 獎勵: -0.1 回合 2: 狀態: {當前狀態} 你還剩 9 次動作機會。始終輸出:
[你的思考過程] div>
[你的答案] answer>,不要帶有多余的文本。嚴格遵守此格式。最大響應長度:100 詞(標記)。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.