人工智能公司正在爭奪行業主導地位,但有時他們也會在 Pokémon 道館中展開戰斗。Google和Anthropic都在研究各自最新的 AI 模型如何應對早期的寶可夢游戲,其研究結果既有趣又發人深省——而這一次,Google DeepMind在一份報告中指出,Gemini 2.5 Pro 在其寶可夢瀕臨死亡時會陷入恐慌。
報告指出,這可能導致 AI 的性能出現“模型推理能力的顯著下降”。
人工智能基準測試——或者說,比較不同人工智能模型性能的過程——是一門頗具爭議的藝術,它通常無法為特定模型的實際能力提供足夠的信息。但一些研究人員認為,研究人工智能模型如何玩電子游戲可能會有所幫助(或者至少會很有趣)。
在過去的幾個月里,兩家與Google和 Anthropic 無關的開發商分別建立了 Twitch 直播,名為“ Gemini Plays Pokémon”和“Claude Plays Pokémon”,任何人都可以實時觀看人工智能嘗試操作一款 25 年前的兒童電子游戲。
每個流都顯示了人工智能的“推理”過程 - 或者說,人工智能如何評估問題并得出答案的自然語言翻譯 - 讓我們深入了解這些模型的工作方式。
雖然這些人工智能模型的進步令人矚目,但它們在玩寶可夢方面仍然不夠出色。Gemini 需要花費數百小時才能理解一款兒童可以在極短時間內完成的游戲。
觀察人工智能玩《神奇寶貝》游戲的有趣之處并不在于它完成的時間,而在于它在游戲過程中的行為方式。
報告稱:“在游戲過程中,Gemini 2.5 Pro 會遇到各種情況,導致模型模擬‘恐慌’。”
這種“恐慌”狀態可能會導致模型性能下降,因為AI可能會在一段時間內突然停止使用某些可用的工具。雖然AI不會思考或體驗情感,但它的行為卻模仿了人類在壓力下做出糟糕、草率決定的方式——這是一種令人著迷卻又令人不安的反應。
報告稱:“這種行為已經發生過很多次,Twitch 聊天室的成員已經注意到了它的發生。”
Claude在關都地區的旅程中也表現出了一些奇怪的行為。有一次,AI 發現了一個規律:當所有寶可夢的生命值耗盡時,玩家角色就會“臉色蒼白”,然后返回寶可夢中心。
當Claude被困在月山洞穴時,它錯誤地假設,如果它故意讓所有的神奇寶貝都昏倒,那么它將被傳送穿過洞穴到下一個城鎮的神奇寶貝中心。
然而,游戲并非如此。當玩家的所有寶可夢都死亡后,就會回到你最近使用的寶可夢中心,而不是地理位置最近的。觀眾們驚恐地看著游戲中的AI試圖自殺。
盡管存在一些缺陷,但AI仍有一些方面可以超越人類玩家。自Gemini 2.5 Pro發布以來,AI已經能夠以令人印象深刻的準確率解開謎題。
在一些人工的幫助下,人工智能創建了代理工具——針對特定任務的 Gemini 2.5 Pro 實例——來解決游戲中的巨石謎題并找到到達目的地的有效路線。
報告稱:“僅需一個描述巨石物理的提示和一個如何驗證有效路徑的描述,Gemini 2.5 Pro 就能一次性解決一些復雜的巨石謎題,這些謎題是通向勝利之路所必需的。”
由于 Gemini 2.5 Pro 自行完成了大量創建這些工具的工作,Google推測當前模型可能能夠在無需人工干預的情況下創建這些工具。誰知道呢,也許 Gemini 會自我療愈,創建一個“無需恐慌”的模塊。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.