99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

大模型玩游戲,Deepseek-R1-0528 太強了

0
分享至


大家好,我是 Ai 學習的老章

看到一個很有意思的測試

讓不同的大模型玩俄羅斯方塊、推箱子、糖果粉碎傳奇,對戰結果有點出乎預料


https://x.com/haoailab/status/1929997363407708646

Deepseek-R1-0528 在多個游戲中智勝 o4-mini 等強推理模型,在俄羅斯方塊上幾乎達到 SOTA 水平,與 o3 打得難分高下。 ?


Deepseek-R1-0528 在非視覺類游戲中帶來顯著提升,包括推箱子和俄羅斯方塊等長線游戲中的分數都翻倍了!

Qwen3-235B-A22B 作為極具競爭力的開源模型嶄露頭角,在《糖果粉碎傳奇》等空間推理游戲中超越了 Gemini-2.5-flash-preview-0417


Deepseek-R1-0528 不僅在俄羅斯方塊所向披靡,在需要強大空間推理能力的糖果粉碎傳奇中也正逼近 SOTA 水平。

它以三輪平均 491.7 分的成績(對比 o3 模型的 647.0 分),成為目前最接近頂級水平的開源競爭者。

Qwen3-235B-A22B 以穩健的 363.3 分緊隨其后。


Obsidian 2025-06-04 22.06.30.png

很好奇

這個測試是怎么實現的呢?

其實是基于這個項目:https://github.com/lmgame-org/GamingAgent

這是一個在標準化交互式游戲環境中啟用和測試基于大型語言模型(LLM)和視覺語言模型(VLM)的智能體。


主要功能:

  1. 模型評估(基礎模式):在一系列多樣化的視頻游戲中評估當前最先進的模型(LLM/VLM),這種評估在沒有特定游戲控制框架(gaming harness)的“單一模型 VLM 設置”下進行。

  2. 智能體部署與評估(定制化流程):使用項目定制的 GamingAgent 工作流程(即游戲控制框架)來部署和評估模型,目的是提升模型在游戲中的表現。

  3. PC 端游戲智能體:用于部署可以在個人電腦和筆記本上運行的計算機使用智能體(Computer-Use Agents, CUAs)。

項目還推出了 Lmgame Bench,這是一個用于游戲智能體的基準測試平臺,可以查看各個模型在游戲任務上的表現。

該項目支持多種主流 AI 模型的 API,包括:

  • OpenAI (gpt-4o, gpt-4o-mini 等)

  • Anthropic (claude-3.5-sonnet, claude-4-opus 等)

  • Gemini (gemini-2.5-pro, gemini-1.5-pro 等)

  • xAI (grok-3-mini)

  • Deepseek (reasoner R1, chat V3)

  • Qwen (Qwen3)

安裝方法:

git clone https://github.com/lmgame-org/GamingAgent.git cd GamingAgent conda create -n lmgame python==3.10 -y conda activate lmgame pip install -e .

credentials.sh中設置 API keys:

export OPENAI_API_KEY={YOUR_OPENAI_API_KEY} export ANTHROPIC_API_KEY={YOUR_ANTHROPIC_API_KEY} export GEMINI_API_KEY={YOUR_GEMINI_API_KEY} export XAI_API_KEY={YOUR_XAI_API_KEY} export DEEPSEEK_API_KEY={YOUR_DEEPSEEK_API_KEY}

省事點可以在線體驗(需要網絡暢通)


在線體驗:https://huggingface.co/spaces/lmgame/lmgame_bench

可以玩的游戲有推箱子、2048、俄羅斯方塊、超級馬里奧等


deepseek-r1 在糖果粉碎傳奇上表現不錯,在 2048 和 俄羅斯方塊上表現中等,在推箱子和逆轉裁判上表現較弱


總體看,最強的還是 o3/o4 mini、Gemini 2.5 Pro、Claude 3.7

更多細節,大家可以看下這篇論文:https://arxiv.org/pdf/2505.15146


這篇論文我大致看了一下,其中有一些提示詞蠻有意思的

比如:如何用純文字指導大模型玩游戲?

比如:推箱子


提示: 你正在解決推箱子謎題。你是玩家,需要將所有箱子推到目標位置。當你緊挨著箱子時,你可以通過向相同方向移動來推動它。你不能將箱子推過墻壁,也不能拉動箱子。答案應該是一個動作序列,例如 

 向右 || 向右 || 向上 answer>。 狀態中每個符號的含義是: #: 墻壁,_: 空地,O: 目標,√: 箱子在目標上,X: 箱子,P: 玩家,S: 玩家在目標上 你的可用動作是: 上,下,左,右 你最多可以執行 10 個動作,動作之間用“ || ”分隔。 回合 1: 狀態: ###### ###### #O#### #XP### #__### ###### 你還剩 10 次動作機會。始終輸出: 

 [你的思考過程] div> 

  [你的答案]  answer>,不要帶有多余的文本。嚴格遵守此格式。最大響應長度:100 詞(標記)。 下一回合的提示: 獎勵: -0.1 回合 2: 狀態: {當前狀態} 你還剩 9 次動作機會。始終輸出: 

 [你的思考過程] div> 

  [你的答案]  answer>,不要帶有多余的文本。嚴格遵守此格式。最大響應長度:100 詞(標記)。




特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
你上下行速度多少!工信部:1000Mbps及以上接入速率的固網寬帶接入達2.23億戶

你上下行速度多少!工信部:1000Mbps及以上接入速率的固網寬帶接入達2.23億戶

快科技
2025-06-25 16:18:11
63歲吳鎮宇新造型太棒了,沒有老人味還越來越年輕,至少年輕20歲

63歲吳鎮宇新造型太棒了,沒有老人味還越來越年輕,至少年輕20歲

TVB的四小花
2025-06-16 02:57:47
杜蘭特攜手威少加盟火箭,掘金甩約基奇,火箭重組沖冠局

杜蘭特攜手威少加盟火箭,掘金甩約基奇,火箭重組沖冠局

秘密清風
2025-06-27 14:01:20
李湘和16歲女兒回國,直奔商場買鞋買衣服,王詩齡不化妝很清純

李湘和16歲女兒回國,直奔商場買鞋買衣服,王詩齡不化妝很清純

檸檬有娛樂
2025-06-27 10:13:46
追求標準答案危害無窮

追求標準答案危害無窮

水寒說語文
2025-06-26 17:30:16
黃一鳴自曝:王思聰每次約她,車費都給10萬,來給5萬,回再給5萬

黃一鳴自曝:王思聰每次約她,車費都給10萬,來給5萬,回再給5萬

漢史趣聞
2025-06-24 10:07:59
楊瀚森自評現役模板:同為16順位申京 吃煎餅調侃和周琦夢幻聯動

楊瀚森自評現役模板:同為16順位申京 吃煎餅調侃和周琦夢幻聯動

醉臥浮生
2025-06-27 15:48:22
財政部:截至5月末全國地方政府債務余額512475億元

財政部:截至5月末全國地方政府債務余額512475億元

澎湃新聞
2025-06-27 10:36:06
艱難抉擇!湖北一高二考生被屏蔽,走還是不走?家長和學校犯難了

艱難抉擇!湖北一高二考生被屏蔽,走還是不走?家長和學校犯難了

火山詩話
2025-06-26 06:42:34
當年為什么查辦褚時健?

當年為什么查辦褚時健?

顧史
2025-06-09 20:26:22
又一個經濟奇跡——孟加拉國

又一個經濟奇跡——孟加拉國

古老板的老巢
2025-06-24 23:41:45
博伊爾斯女友社媒曬照慶祝男友被猛龍選中:哦嘿呀

博伊爾斯女友社媒曬照慶祝男友被猛龍選中:哦嘿呀

懂球帝
2025-06-27 08:40:19
洪森惱羞成怒,竟曝光英拉秘事,佩通坦絕地反擊,泰專機直飛中國

洪森惱羞成怒,竟曝光英拉秘事,佩通坦絕地反擊,泰專機直飛中國

嘆知
2025-06-23 10:34:33
中國游戲超越日本!來自日本玩家の認可!IGN日本高度評價《歸唐》!甘肅文旅廳宣布支持開發組古跡掃描

中國游戲超越日本!來自日本玩家の認可!IGN日本高度評價《歸唐》!甘肅文旅廳宣布支持開發組古跡掃描

Steam社區
2025-06-26 11:57:21
絕了!碘伏才是隱藏的省錢刺客!我居然白白燒了五年冤枉錢!

絕了!碘伏才是隱藏的省錢刺客!我居然白白燒了五年冤枉錢!

墻頭草
2025-04-01 12:00:11
昔日女神成方圓老了!兩段婚姻失敗無子女,對愛失望選擇單身

昔日女神成方圓老了!兩段婚姻失敗無子女,對愛失望選擇單身

一盅情懷
2025-06-27 15:54:59
1小時賣了578億!小米YU7大定28.9萬輛遠超SU7,小米ADR暴漲12%,雷軍連喊三個“安全”

1小時賣了578億!小米YU7大定28.9萬輛遠超SU7,小米ADR暴漲12%,雷軍連喊三個“安全”

金融界
2025-06-26 23:50:34
塵埃落定,重返巴薩?內馬爾官宣,1年合同,年薪1500萬

塵埃落定,重返巴薩?內馬爾官宣,1年合同,年薪1500萬

東球弟
2025-06-27 12:34:08
笑暈!江蘇衛視又逮著常州一個勁嚯嚯!這回“遭殃”的你卻想不到

笑暈!江蘇衛視又逮著常州一個勁嚯嚯!這回“遭殃”的你卻想不到

深析古今
2025-06-27 17:14:39
萬萬沒想到!拒給馬筱梅做婚紗,緬懷大S的蘭玉,竟是他的前女友

萬萬沒想到!拒給馬筱梅做婚紗,緬懷大S的蘭玉,竟是他的前女友

史行途
2025-06-27 15:07:11
2025-06-27 21:44:49
機器學習與Python社區 incentive-icons
機器學習與Python社區
機器學習算法與Python
3014文章數 11024關注度
往期回顧 全部

游戲要聞

夢幻西游F哥合成全服首顆20級太陽石,并鑲嵌于第一無級別法杖

頭條要聞

美國打擊伊朗核設施后 美軍一將領進入特朗普核心圈

頭條要聞

美國打擊伊朗核設施后 美軍一將領進入特朗普核心圈

體育要聞

曼城“庫里”連線,送尤文晚安好夢

娛樂要聞

炸裂!榜一大姐深夜怒錘頂流

財經要聞

合新鐵路建設材料以次充好 多家單位被罰

科技要聞

雷軍:小米汽車成功沒靠營銷,靠的是能力

汽車要聞

配置升級/貴賓座椅 全新GL8陸上公務艙售22.99萬

態度原創

本地
時尚
教育
數碼
公開課

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

到了夏天,中年女人穿過膝裙不配運動鞋,才能美得優雅又得體

教育要聞

昌平感知覺統合培訓班結業式暨鞏華中心小學一體化生態課間研討會

數碼要聞

極摩客 EVO-X2 AI 桌面主機圖賞:輕巧緊湊,銳龍AI Max+ 395加持

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 平武县| 玛纳斯县| 丰原市| 丰城市| 桦川县| 江安县| 蛟河市| 河西区| 翁牛特旗| 拉孜县| 岱山县| 中方县| 新民市| 长武县| 新乡市| 廊坊市| 板桥市| 宜黄县| 慈溪市| 黄冈市| 肥乡县| 甘洛县| 达尔| 砀山县| 鄢陵县| 高唐县| 卢湾区| 双鸭山市| 彭州市| 尉氏县| 蒙山县| 台山市| 鄱阳县| 昌黎县| 理塘县| 启东市| 武安市| 阳信县| 循化| 溧水县| 五台县|