文章轉載于新智元
當談到AI為何能從「預測下一個詞」中誕生智慧時,Ilya Sutskever曾用一個生動的比喻來解釋。
想象你在讀一本懸疑小說,如果僅憑前面的線索就能在最后一頁推斷出罪犯是誰,那么你對這個故事的理解無疑是深刻的。
同樣,AI通過學習海量文本,掌握了從字面到語義的「線索」,展現出驚人的智能。
受此啟發,UCSD的華人研究者用游戲《逆轉裁判》(Ace Attorney)測試AI的推理能力。
《逆轉裁判》以錯綜復雜的故事情節和扣人心弦的法庭對決著稱。
這款游戲堪稱測試模型的完美舞臺:AI化身偵探,收集線索、揭露矛盾,最終挖掘真相。
研究者讓當前最頂尖的AI模型(GPT-4.1、Gemini 2.5 Pro、Llama-4 Maverick等)在《逆轉裁判》中接受考驗,看它們能否喊出「反對!」,扭轉案情,揭開謊言背后的真相。
和偵小說一樣,模型玩家得把線索、證據串起來,揭露證詞中的矛盾,抓住真兇。
測試中,AI模型要參與緊張的法庭盤問環節。它要敏銳地找出證詞中的漏洞,拿出正確的證據進行反駁。每個關卡有5次機會,犯錯空間有限。
團隊測試了多款頂尖的AI多模態模型,包括o1、Gemini 2.5 Pro、Claude 3.7-thinking和Llama-4 Maverick。
結果顯示,o1和Gemini 2.5 Pro表現最佳,均晉級第4關。雖然未能通關,但o1在應對最復雜案件時,略勝Gemini 2.5 Pro一籌。
GPT-4.1與Claude 3.5表現相當。盡管GPT-4.1據稱比GPT-4o有所提升,但這次測試中的表現與其持平。
Llama-4 Maverick一次沒對,零分墊底!
1
為什么它很難?
《逆轉裁判》游戲對AI模型十分困難,主要是因為模型需要有以下能力:
長文本推理:需要比對之前的對話和證據,發現證詞中的矛盾點。
視覺理解:準確識別能反駁虛假陳述的圖片。
策略決策(游戲設計):動態變化的案件中,決定何時追問、出示證據或暫不行動。不僅要給出答案,還要在正確時機采取行動。
游戲設計要求AI把理解轉化為有情境依據的行動,讓它不只局限于處理文本或視覺任務。
因為AI需要推理情境化的行動空間,而非簡單死記硬背,所以更不容易出現過擬合。
1
性價比哪家強
Gemini 2.5 Pro重新定義了性價比。
在性能相當的情況下,Gemini 2.5 Pro比o1-2024-12-17便宜6-15倍,甚至比GPT-4.1還便宜一點。
通過第1關的模型成本對比中,o1的API調用次數最少,總成本卻是最高的。
調用次數體現的是策略,而非推理能力。因為深入挖掘證詞,自然會觸發更多請求。
進入更高關卡后,隨著對話篇幅增加,o1的成本激增。
在第2關(一個很長的案例)中,o1的成本超過$45.75,而Gemini 2.5 Pro僅需$7.89,差距驚人!
注意:
Gemini 2.5 Pro使用內置token計數方法,將所有圖片都按258個token計算,因此實際成本可能略高。
o1隱藏推理內容存在不確定性,其輸出成本也可能被低估了。
目前團隊已將項目開源,可以在里面查看如何設置游戲和LLM。
項目地址:https://github.com/lmgame-org/GamingAgent
除此之外,項目中還有更多經典游戲能測試AI模型的性能。
推箱子游戲
推箱子(Sokoban)是一款經典的單人游戲,以深邃的策略性著稱。
推箱子的玩法簡單直觀,但挑戰性極高。
玩家在一個由方格組成的迷宮中操作角色,通過邏輯思考和規劃,將箱子推到目標位置。
2048游戲
這是一款數字益智游戲,玩家通過滑動方塊合并相同數字,最終目標是合成2048方塊。
策略上,應該優先保持最大數字在角落,規劃滑動方向以避免方塊堆積,靈活調整以應對隨機出現的數字。
下圖可以看出,Claude 3.7 玩起2048來還是挺絲滑的,能持續玩很多步。相比之下,GPT 4o不知道為什么,玩上幾步就開始卡上了。
俄羅斯方塊
俄羅斯方塊是一款風靡全球的經典游戲。
玩家需通過移動和旋轉方塊,拼湊完整橫行以消除得分,盡可能延長游戲時間或獲得高分。
此外,還有超級馬里奧、糖果粉碎傳奇等多款游戲。
參考資料:
https://x.com/haoailab/status/1912231343372812508
https://huggingface.co/spaces/lmgame/game_arena_bench
https://lmgame.org/
點個 “愛心”,再走吧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.