各種AI模型在剛問世時(shí),總有一個(gè)屢試不爽的“秀肌肉”手段,那就是讓自家AI獨(dú)立游玩某款游戲,用以檢驗(yàn)?zāi)P偷闹悄艹潭取?/p>
圍棋選手李世石與AlphaGo的五番棋對(duì)決已經(jīng)過去近十年。而后,不論是谷歌的DeepMind在《DOTA2》《星際爭霸2》這些項(xiàng)目上擊敗人類職業(yè)選手,還是2023年英偉達(dá)宣布開發(fā)出能玩《我的世界》的VOYAGER,都在不斷證明“游戲”似乎就是AI的天然試驗(yàn)場。
大家體感上應(yīng)該也能體會(huì)到,這十年間AI技術(shù)發(fā)展迅速,如今的大語言模型,其訓(xùn)練方式、決策過程都與當(dāng)初的AlphaGo有較大差異,但十年過去,不管是科技公司想展示研究成果,還是吸引不懂技術(shù)細(xì)節(jié)的普通人關(guān)注,“讓AI玩游戲”依舊是個(gè)很常見的手段。
最近,谷歌的AI模型Gemini 2.5 Pro又因?yàn)樽龅搅?strong>“獨(dú)立通關(guān)初代《寶可夢(mèng)》”,再次成了AI領(lǐng)域的熱門話題,谷歌的現(xiàn)任CEO Sundar Pichai和DeepMind負(fù)責(zé)人Demis Hassabis甚至同時(shí)發(fā)表推文慶祝了這一時(shí)刻。
但就像前面提到的,都到了2025年,讓AI玩游戲、通關(guān)游戲早就不是什么新鮮話題,更何況于1995年發(fā)售的初代寶可夢(mèng),本來也不以高難度、復(fù)雜程度著稱,向來以休閑輕松為主的寶可夢(mèng)系列,哪怕是游戲新手,都能在很短的時(shí)間內(nèi)迅速上手,通關(guān)更不是難事。
那為什么讓AI通關(guān)《寶可夢(mèng)》就成了件大事?
上世紀(jì)80年代被提出的“莫拉維克悖論” (Moravec's paradox)曾提到一個(gè)反直覺觀點(diǎn):人類覺得容易的任務(wù)對(duì)人工智能來說其實(shí)更困難,反之亦然。
提出這一悖論的學(xué)者莫拉維克,曾為其寫下一段直觀解釋:“要讓電腦如成人般下棋相對(duì)容易,但讓它擁有像一歲孩童般的感知和行動(dòng)能力,卻相當(dāng)困難、乃至是不可能的。”
對(duì)于這次AI Gemini通關(guān)《寶可夢(mèng)》,就更近似于讓AI擁有自己的感知和行動(dòng)力。
1
對(duì)AI來說,“獨(dú)立通關(guān)初代《寶可夢(mèng)》” 是一個(gè)比人類的想象要復(fù)雜得多的挑戰(zhàn)。
早在今年2月,美國另一家AI科技公司Anthropic就對(duì)外公布了名為“Claude Plays Pokémon”的技術(shù)實(shí)驗(yàn),實(shí)驗(yàn)內(nèi)容就和它的名稱一樣,試圖讓該公司旗下的最新版本AI Claude 3.7 Sonnet體驗(yàn)初代寶可夢(mèng)游戲,并以“通關(guān)游戲”作為實(shí)驗(yàn)的最終目標(biāo)。
這項(xiàng)實(shí)驗(yàn)最后以失敗告終,Claude 3.7的最終進(jìn)度是挑戰(zhàn)三個(gè)道館、獲得三枚徽章,但哪怕是這個(gè)對(duì)人類玩家來說微不足道的成就,也是Claude反復(fù)迭代了一年的成果。
根據(jù)Anthropic公司釋出的信息,一年前的3.0版Claude,甚至連游戲最初的“真新鎮(zhèn)”都無法走出,之后的3.5版本略有進(jìn)步,行程來到了“常磐森林”,但依舊無法獲得第一個(gè)徽章。
進(jìn)度緩慢的原因不外乎:Claude的每一步?jīng)Q策都會(huì)經(jīng)過漫長思考、毫無意義地重復(fù)探索走過的城鎮(zhèn)、長時(shí)間卡在地圖死角,或者反復(fù)與一個(gè)毫無幫助的路人NPC對(duì)話。
Claude的通關(guān)過程也面向大眾進(jìn)行了直播
這些行為看似是“人工”,遠(yuǎn)不如在圍棋或《星際爭霸》這些策略游戲上戰(zhàn)勝人類選手的AlphaGo,但這其實(shí)是二者訓(xùn)練方式的差異。
前幾年那些能在圍棋、《DOTA2》等項(xiàng)目中表現(xiàn)出色的AI,開發(fā)者通常會(huì)為算法提供游戲規(guī)則和策略的基礎(chǔ)信息,并設(shè)置給AI正確行動(dòng)提供正面回報(bào)的獎(jiǎng)勵(lì)函數(shù),這便是經(jīng)常提到的 “強(qiáng)化學(xué)習(xí)”。
但對(duì)于像Claude、Gemini這種基于大語言模型的AI,針對(duì)的不是某款特定的游戲,研究人員并未提供《寶可夢(mèng)》專屬的游戲規(guī)則或目標(biāo)指令,也不會(huì)對(duì)其進(jìn)行特定的訓(xùn)練,而是直接讓通用的Claude模型操作游戲。
這更近似于讓一個(gè)對(duì)寶可夢(mèng)游戲完全沒有感念的純新手,通過自己的感知和學(xué)習(xí),逐步掌握游戲的過程。
再者,Claude在游玩游戲時(shí),獲得信息的渠道并非是內(nèi)部代碼,而是和人類一樣,所有內(nèi)容都只能從游戲畫面上獲取,早期版本的Claude經(jīng)常撞墻,原因就在于相較于現(xiàn)代游戲更逼真的“墻”,AI很難識(shí)別這些由像素組成的抽象畫面,而這對(duì)人類玩家來說卻是一件很輕松的事。
AI需要為畫面中的每一個(gè)坐標(biāo)點(diǎn)標(biāo)注信息,紅色被視為無法通過的區(qū)域
反倒是寶可夢(mèng)更復(fù)雜的屬性克制系統(tǒng),Claude理解起來非常容易。比如,當(dāng)游戲提示電屬性技能對(duì)巖石系寶可夢(mèng)的“效果一般”時(shí),Claude迅速捕捉到了這個(gè)關(guān)鍵信息,并將其應(yīng)用到后續(xù)配隊(duì)和寶可夢(mèng)對(duì)戰(zhàn)策略上。
2
為什么研究人員能肯定AI確實(shí)理解了“屬性克制”?因?yàn)槟壳暗拇笳Z言模型,已經(jīng)可以將完整的思考過程同步呈現(xiàn)給外界。
Claude玩寶可夢(mèng)時(shí),左側(cè)會(huì)同步顯示每一步操作的決策過程
這同樣也是這一項(xiàng)目試圖探索的效果,就像上圖展示的那樣,Claude在使用比比鳥對(duì)戰(zhàn)電系的小磁怪時(shí),對(duì)自己掌握的四個(gè)技能進(jìn)行了全面分析:
“翅膀攻擊這樣的飛行系招式對(duì)電系寶可夢(mèng)不是很奏效。”
“起風(fēng)和電光一閃這樣的招式只能造成中等傷害。”
“潑沙只是降低命中率,不造成直接傷害。”
最后Claude做出了總結(jié):
“由于比比鳥在屬性上處于劣勢(shì),我應(yīng)該盡快擊敗小磁怪。我最好的選擇可能是翅膀攻擊,這是我擁有的最強(qiáng)的招式,盡管它效果一般。讓我按三次“下”再按一次“確定”來選擇翅膀攻擊。”
雖然現(xiàn)在展示的仍是相對(duì)淺層的思考,但相比于AlphaGo這種純“黑箱式”的決策過程,Claude和其他以大語言模型為核心的AI,在實(shí)用性上無疑前進(jìn)了一大步。
要知道早年AlphaGo在圍棋領(lǐng)域最令人印象深刻的,便是總能下出讓人類難以理解、但最后又能取得勝利的“妙手”,可惜當(dāng)時(shí)經(jīng)由“強(qiáng)化學(xué)習(xí)”訓(xùn)練的AlphaGo,決策過程難以用自然語言向人類清晰呈現(xiàn),否則,人類棋手或許也會(huì)從AI的邏輯得到進(jìn)一步啟發(fā)。
而對(duì)于玩寶可夢(mèng)的Claude來說,雖然在策略層面沒有什么讓人類眼前一亮的操作,但在顯示了思考過程后,反倒展示了一些“意料之外”的思維邏輯。
比如下面這一幕,當(dāng)Claude在游戲的“月見山”地圖中迷路,認(rèn)為無法通過正常手段走出洞穴時(shí),AI做了一個(gè)非常“人類化”的思考:
“我現(xiàn)在最好的選擇是故意輸?shù)粢粓鰬?zhàn)斗,這樣我就會(huì)被傳送回上一次訪問的寶可夢(mèng)中心,也就是4號(hào)道路上的月見山寶可夢(mèng)中心,從那里我就可以按之前驗(yàn)證的路徑前往華藍(lán)市了。”
再比如,AI也會(huì)有“認(rèn)錯(cuò)NPC”的現(xiàn)象。游戲初期時(shí),Claude被要求尋找NPC“大木博士”,但游戲沒有提供明確的指引,也沒有說明NPC的具體位置和外形特征,實(shí)現(xiàn)這種“模糊目標(biāo)”對(duì)于AI來說其實(shí)難度更大。
在接到這個(gè)任務(wù)后,Claude也進(jìn)行了一段非常擬人的思考:“我注意到下方出現(xiàn)了一個(gè)新角色——一個(gè)黑發(fā)、身穿白色外套的角色,位于坐標(biāo) (2, 10),這可能是大木博士!讓我下去和他談?wù)劇!?/p>
隨后它便和一個(gè)跟主線毫無關(guān)系的NPC對(duì)話了數(shù)次,最終才意識(shí)到這并非是自己想找的大木博士。
3
而前幾天通關(guān)同一版本游戲的AI Gemini之所以受到關(guān)注,不僅是因?yàn)樗茉谌祟惒惶峁┤魏我?guī)則信息的條件下完成游戲,而且據(jù)官方統(tǒng)計(jì),Gemini總操作步數(shù)約為10.6萬次,甚至比Claude獲得第三個(gè)徽章時(shí)達(dá)成的21.5萬步要少一半。
Gemini通關(guān)初代寶可夢(mèng)
這看似說明Gemini的智能水平要優(yōu)于Claude,但負(fù)責(zé)Gemini項(xiàng)目的研究人員JoelZ自己也表示:無法直接比較這兩個(gè)AI,因?yàn)檫@不是在完全相同的條件下進(jìn)行的測試。
區(qū)別在于Agent Harness,即“代理執(zhí)行框架”,它的作用是連接AI模型與游戲,負(fù)責(zé)處理輸入的信息,如游戲畫面、文字?jǐn)?shù)據(jù)等,并將模型的決策轉(zhuǎn)化為按鍵指令等操作。
從官方公布的信息看,Gemini的代理執(zhí)行框架在某些程度的確優(yōu)于Claude,比如在對(duì)地圖的分析上,它不僅為每個(gè)區(qū)域標(biāo)注了坐標(biāo),而且還注明了坐標(biāo)的可通行狀態(tài),這對(duì)于不擅長直接解析像素畫面的大語言模型來說,提供了巨大的幫助:
但就像開發(fā)者自己說的,讓AI玩寶可夢(mèng),意義并不在于對(duì)比不同AI的水平高低。
像《寶可夢(mèng)》這類游戲,更需要AI感知環(huán)境、理解模糊目標(biāo)、長線規(guī)劃行動(dòng)的能力,它必須不斷接收游戲畫面、理解不同階段的規(guī)則,并將決策轉(zhuǎn)換為游戲操作。之所以執(zhí)著于讓AI操作這類游戲,也因?yàn)槿绻鸄I能夠在人類沒有干預(yù)的情況下通關(guān),也說明了它擁有能獨(dú)立學(xué)習(xí),解決現(xiàn)實(shí)中某些復(fù)雜問題的潛力。
從早年的圍棋到現(xiàn)在的《寶可夢(mèng)》,AI在實(shí)驗(yàn)和“秀肌肉”環(huán)節(jié)的逐年演變,并不單是個(gè)吸引大眾關(guān)注的噱頭,其實(shí)一定程度上也代表了這項(xiàng)技術(shù)的發(fā)展方向:從處理單一問題的專才,到能夠自我學(xué)習(xí),解決不同領(lǐng)域問題的通用人工智能。
或許這正是眾多AI科技公司選擇《寶可夢(mèng)》來用作訓(xùn)練的原因:這款游戲本身便是關(guān)于成長、選擇與冒險(xiǎn)的旅程。過去,我們?cè)谟螒蛑畜w驗(yàn)進(jìn)化與策略,而現(xiàn)在,AI正在游戲中嘗試?yán)斫馐澜绲囊?guī)則本身。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.