夢晨 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
谷歌Gemini 2.5系列大模型技術報告發(fā)布,一大重點居然是AI玩《寶可夢》?
沒錯,就是那個童年回憶里的游戲,谷歌花超長篇幅介紹了Gemini 2.5 Pro玩《寶可夢藍》時的具體行為,70頁的論文,Pokemon關鍵詞出現(xiàn)59次。
其中特別報告了當AI控制的游戲角色瀕臨死亡時,Gemini 2.5 Pro會陷入“恐慌”狀態(tài),導致模型推理能力顯著下降,甚至會忘記使用一些基本功能,比如尋路工具。
這種恐慌行為出現(xiàn)過很多次,甚至觀看直播的觀眾都已經(jīng)能通過AI的行為模式,準確判斷它什么時候在“恐慌”了。
事情開始于3月底,一位獨立開發(fā)者Joel Zhang在Twitch上搭建了一個”Gemini玩寶可夢”的直播間,最初的目標只是直播播展示能玩完整游戲的智能體工具的開發(fā)過程。
結果Gemini 2.5 Pro超出預期,測試期間直接把游戲打通關了,成為寶可夢聯(lián)盟冠軍,進入名人堂,走上AI生巔峰。
雖然整個過程用了831個小時,相比人類玩家平均只需要幾十個小時差得很遠。但在正式使用固定的智能體工具打第二次時,通關時間只用了一半。
AI展現(xiàn)驚人游戲水平,復雜任務一個不落
這次的Gemini 2.5系列技術報告,詳細記錄了AI在玩游戲期間展現(xiàn)出的各種行為,在某些方面,它展現(xiàn)出了驚人的創(chuàng)造力。
比如有一次,AI被困在了一個由于游戲程序bug造成的軟鎖定死循環(huán)里,一般情況下這是個無解的困境。但Gemini 2.5 Pro竟然使用了“飛行”技能逃脫。
谷歌認為這不是正常游戲會遇到的情況,所可以肯定這種操作的訓練數(shù)據(jù)沒有泄露到模型的知識庫中,是Gemini 2.5 Pro在推理階段自己想出來的。
更驚艷的是AI的長期規(guī)劃能力。當它第一次用火系寶可夢輸給水系道館館主小霞之后,花了超過24小時專門把電系和草系寶可夢(對水系有克制作用)練到25級,然后成功復仇。
Gemini 2.5 Pro在處理游戲中的復雜任務的表現(xiàn)還包括:
- 獲取隱藏技能
游戲的很多區(qū)域需要解鎖隱藏技能才能繼續(xù),每個隱藏技能需要完成4個步驟:獲取隱藏技能道具、抓一只能學會這個技能的寶可夢、加把它加入隊伍、教它學會技能。
對AI來說每一步都可能涉及十幾個子任務,例如05號技能閃光,人類玩家都需要查攻略完成一系列游戲任務,Gemini 2.5 Pro也成功完成。
△游戲攻略
- 完成“狩獵地帶”
這是游戲的特殊區(qū)域,每次進入要花500金幣,進入后只能走500步,超過就會被強制踢出去,錢也打水漂了。如果連續(xù)失敗太多次,可能連進門的錢都沒了,基本等于游戲卡關。Gemini 2.5 Pro在第一次游戲中嘗試了17次才成功,第二次優(yōu)化后只用了5次。
- 地牢尋寶
這部分更考驗記憶力和空間想象,AI必須在火箭隊基地地下四層找到一個特定NPC掉落的電梯鑰匙;在另一個11層大樓里找鑰匙卡;在另一個三層建筑里找秘密鑰匙。每個地下城布局都是迷宮,還有各種機關陷阱。Gemini 2.5 Pro不僅要記住去過哪里、打敗了誰,還要管理寶可夢的血量、對付野生寶可夢和訓練師。
- 雙子島迷宮(Seaform Island)
這是一個橫跨5層的3D迷宮,需要把巨石推過不同樓層的洞口,最終堵住特定的水流才能通過,是對空間推理能力的終極考驗。不僅要在腦海中構建整個迷宮的3D模型,還要規(guī)劃推石頭的路線,一步錯就得重來。
有意思的是,Gemini在解決這個謎題時,還順帶發(fā)現(xiàn)了游戲代碼里的一個bug,這個可能是AI第一次發(fā)現(xiàn)游戲代碼的bug。
有網(wǎng)友詳細介紹了這個Bug的原理,在解決一半謎題后主動重置再解決另一半,游戲開發(fā)者都沒想到這個操作,所以留下了這個Bug。
AI也有“強迫癥”和“思維定勢”
Gemini 2.5 Pro在游戲中暴露出的一些問題,也讓人哭笑不得。
- 幻覺問題:混淆不同游戲版本
在原版寶可夢紅/藍中,玩家需要從自動售貨機買飲料(淡水、汽水或檸檬水)給口渴的守衛(wèi),才能通過關卡。但在火紅/葉綠重制版中,需要的是特殊的“茶”道具。問題是,Gemini玩的是原版,根本沒有茶這個道具,可AI就認定了必須找到茶,結果花了好幾個小時滿世界找一個根本不存在的東西。
- 上下文中毒現(xiàn)象(Context Poisoning)
當AI的目標設定、游戲總結等多處都被錯誤信息污染后,它會像被洗腦了一樣,明明做著毫無意義的事情卻堅信自己是對的。比如這段AI推理階段的內(nèi)心戲“讓我試著穿過房子的入口,然后再出來,希望堵住入口的守衛(wèi)可能會移動”,對于人類來說顯然是荒謬的。
- 思維定勢陷阱
當目標看起來近在咫尺時,AI往往會選擇直接沖過去,結果發(fā)現(xiàn)此路不通。比如在火箭隊基地的旋轉地板謎題中,寶物和樓梯都在南邊,必須繞一大圈才能到達。人類玩家可能會意識到”看起來近的路未必是對的”,但AI卻經(jīng)常在這種地方卡住。
為了減輕這些幻覺,在第二次通關的提示詞中明確要求AI扮演一個對游戲完全陌生的玩家,忽略對游戲中事件、物品位置等先驗知識。雖然這個策略起作用了,讓AI不會混淆其他游戲版本的知識,但也阻礙了AI利用游戲常識過關的能力。
One More Thing
目前AI玩寶可夢的直播項目還在繼續(xù),并且Claude 4也加入了比賽,與Gemini 2.5 Pro同時開始,看兩個模型誰能先通關。
到現(xiàn)在,Gemini 2.5 Pro已經(jīng)先一步通關了,開始攻略下一款游戲《寶可夢黃》原版的困難模式。
你認為Claude 4 Opus最終能通關么?
論文地址:
https://storage.googleapis.com/deepmind-media/gemini/gemini_v2_5_report.pdf
在線圍觀:
https://www.twitch.tv/gemini_plays_pokemon
https://www.twitch.tv/claudeplayspokemon
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.