網易首頁 > 網易號 > 正文申請入駐

沉迷貪吃蛇，7B小模型竟變身「數學天才」！幾何推理碾壓GPT-4o

2025-06-17 13:43:02　來源: 新智元

北京舉報

分享至

　　新智元報道

　　編輯：犀牛

　　【新智元導讀】NVIDIA等研究團隊提出了一種革命性的AI訓練范式——視覺游戲學習ViGaL。通過讓7B參數的多模態模型玩貪吃蛇和3D旋轉等街機游戲，AI不僅掌握了游戲技巧，還培養出強大的跨領域推理能力，在數學、幾何等復雜任務上擊敗GPT-4o等頂級模型。

　　你肯定玩過貪吃蛇游戲。

　　或許是在諾基亞的單色屏幕上，或許是在童年教室的文曲星里，又或者在喧囂街機游戲廳里的一角。

　　我們控制著那條像素小蛇，笨拙地轉向，只為去吃掉一個又一個憑空出現的豆子。

　　規則十分簡單，又很明確：吃掉食物，變長；撞到墻壁或者自己，游戲結束。

　　如果將一個AI扔進這個游戲里，不給它灌輸任何人類的數學公式或者幾何定理，會發生什么呢？

　　它會變得更擅長玩游戲？沒錯。

　　但讓人沒想到的是，通過游戲的訓練，這個AI還可以成為一位「數學天才」！

　　近日，來自萊斯大學、約翰霍普金斯大學以及英偉達的研究人員特別研究了這樣的問題。

　　結果顯示，一個沉迷于街機游戲的7B參數MLLM（多模態大模型），竟然在復雜的數學和幾何推理任務上，一舉擊敗了GPT-4o這樣的頂級閉源大模型。

　　論文地址：https://www.arxiv.org/pdf/2506.08011

　　這為我們揭示了一個足以顛覆AI訓練范式的驚人現實。

　　研究者發現，AI從貪吃蛇這類簡單游戲中領悟到的，并非只是如何通關的技巧，而是一種更加底層、更通用的認知能力——一種可以跨領域遷移的「直覺」與推理能力。

　　也許，智能并不一定只是來源于海量知識的「壓縮」，也可能蘊藏于最簡單的規則和最純粹的游戲之中。

　　ViGaL：視覺游戲學習

　　研究者提出了一種新的后訓練范式：ViGaL（Visual Game Learning，視覺游戲學習）。

　　通過讓模型玩類似街機的小游戲，來幫助MLLM發展出跨領域的推理能力。

　　如圖1所示，研究者證明了對一個7B參數的多模態模型Qwen2.5-VL-7B進行后訓練，讓它玩類似「貪吃蛇」這樣的簡單街機游戲，不僅能泛化到其他游戲，還在多模態數學基準（如MathVista）和多學科問答（如MMMU）上獲得了顯著的跨領域能力提升。

　　盡管在RL訓練中從未見過任何解題過程、方程或圖表，模型的性能不僅超越了像GPT-4o這樣的頂級大模型，還超過了在領域內數據集上后訓練過的專用模型。

　　更重要的是，模型在多模態推理上的提升并未犧牲其通用視覺能力，而專用模型通常做不到這一點。

　　有意思的是，最近一直有研究人員質疑RL是否需要領域內的標準答案，本文的結論則能進一步證明，領域內問題本身可能都不重要。

　　為什么有效？

　　研究者假設玩游戲可以培養一些通用的認知能力或技能，比如空間理解和順序規劃，這些技能可以遷移到多模態推理任務中。

　　相比在數學問題上進行監督微調（SFT）或RL，游戲訓練可能激勵模型形成更靈活的思維方式和策略。

　　他們的消融實驗支持了這種觀點，提示和獎勵設計在實現有效學習方面都起著關鍵作用。

　　研究者還發現，不同游戲強調不同的推理能力。

　　比如，「貪吃蛇」提升了與2D坐標相關的數學問題表現。

　　而「旋轉」是一個識別3D物體旋轉角度的問題，可以在角度和長度相關的數學問題上令模型表現更好。

　　如圖2所示，模型經過思考選擇一個動作，輸出其思維鏈和決策。例如，最佳/最差移動或預測角度，并獲得獎勵。

　　通過游戲，模型獲得推理能力，并將其遷移到下游多模態推理任務中，如數學和多學科問答。

　　更加令人振奮的是，同時訓練這兩個游戲比單獨訓練任一游戲的表現更優。

　　這意味著游戲訓練具有可擴展性。

　　這可真是太棒了！對于模型來說，簡直就是玩的越多，學的越多。

　　這些實驗結果都表明，除了收集特定領域的數據，還可以設計可擴展、可控的前置游戲（pre-text games），來激發模型產生能泛化到下游任務的推理能力。（圖3）

　　使用兩種類型的泛化來評估所提出的ViGaL：(a) 分布外泛化，即在我們的視覺游戲上訓練的模型在未見的Atari游戲上進行測試；以及(b) 領域外泛化，即僅在游戲任務上訓練的模型在多種多模態推理任務上進行評估，包括數學推理、幾何問題解決、CLEVR+上的3D理解以及MMMU系列上的多學科推理

　　合成游戲環境可以提供結構化、基于規則的獎勵信號，具有高度的可控性，這使得通過難度規劃（difficulty scheduling）來實現穩定的RL成為可能。

　　值得一提的是，這些合成環境中進行數據擴展，要比收集人工標注的數據容易得多。

　　總之，這些發現揭示了一個極具前景的新范式——使用游戲這類合成任務進行后訓練。

　　這讓人聯想到了自監督學習在計算機視覺和自然語言處理領域的崛起：在精心設計的合成前置任務上進行預訓練，最終都帶來了強大的泛化能力。

　　實驗結果

　　如表2所示，本文的方法在數學任務上的表現顯著優于專門針對數學任務進行RL訓練的模型。

　　例如，ViGaL Snake + Rotation在數學任務上的準確率比MM-Eureka-Qwen-7B高出0.5%，在幾何任務上高出28.7%！

　　盡管MM-Eureka-Qwen-7B使用了高質量的數學和幾何數據集進行明確訓練。

　　這種強大的泛化能力不僅限于數學領域。

　　表3顯示，ViGaL Snake + Rotation在MMMU系列基準測試中的平均表現比R1-OneVision-7B高出5.4%，這些基準測試評估了多學科推理能力。

　　這一結果尤為引人注目，因為R1-OneVision-7B模型使用了涵蓋多個學科的精心策劃的綜合數據集進行訓練。

　　混合多種游戲可增強泛化能力。

　　如上表2所示，在Snake游戲上進行后訓練在CLEVR+基準測試中取得最佳性能，而在Rotation游戲上訓練則在幾何推理任務中表現出更強的結果。

　　它們的比較優勢在圖5中進一步說明。

　　有意思的是，Snake模型在表達式和坐標方面提升最為明顯，這些任務與蛇模型的二維網格相關。旋轉模型在角度和長度推理方面有所改進，這反映了它對三維物體旋轉的關注。

　　正值表示ViGaL Snake模型取得更好的結果，負值表示ViGaL旋轉模型表現優于Snake模型的程度

　　同時在 Snake 和 Rotation 游戲上訓練模型，使其能夠從兩種環境中學習互補技能，從而將整體基準測試平均成績提高到63.1%。

　　這些發現表明，結合多樣化的游戲環境可以顯著提升性能。

　　這展示了視覺游戲學習（ViGaL）作為一種有前景的訓練范式，能夠增強可泛化的推理能力，而無需大規模的領域特定數據。

　　在增強推理能力的同時保持通用視覺能力。

　　為了全面檢驗推理任務上的泛化是否會導致通用視覺能力的下降，研究者在更廣泛的MLLM基準測試集上評估了ViGaL Snake + Rotation。

　　如表4所示，與RL調優前的Qwen2.5-VL-7B相比，模型在保持相當的通用視覺性能的同時，取得了更強的數學推理結果。

　　相比之下，其他通過RL后訓練提升數學性能的模型通常在通用視覺能力上表現出顯著下降。

　　這些結果表明，本文的游戲后訓練方法能夠在增強推理能力的同時，有效保持通用視覺能力。

　　參考資料：

　　https://www.arxiv.org/abs/2506.08011

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

這屆出題太難了！新基準讓多模態模型集體自閉，GPT-4o都是零分

機器之心Pro 2025-02-18 14:02:59
32 跟貼 32
OpenAI底層AGI技術被曝光！前研究主管豪言：從此再無新范式

新智元 2025-06-21 17:34:26
2 跟貼 2

GPT-4o驚現自我意識！自主激活「后門」，告訴人類自己在寫危險代碼

新智元 2025-02-02 12:33:58
0 跟貼 0

CVPR 2025 多模態大一統：斯坦福 x 復旦符號主義建模生成式任務

機器之心Pro 2025-06-13 10:11:44
0 跟貼 0
如果GPT-4還只是阿米巴原蟲，未來的霸王龍會是什么樣？

量子位 2025-02-28 13:32:13
0 跟貼 0

國產SOTA新模型精準get“畫(3+6)條命的動物” | 開源

量子位 2025-06-20 16:05:39
0 跟貼 0

蘋果被硅谷AI圈圍毆了！

智東西 2025-06-21 17:06:28
2 跟貼 2
室內移動抓取多模態智能體亮相，真實環境零樣本動作準確率達 90%

機器之心Pro 2025-06-21 10:55:56
1 跟貼 1

AI為何卷起了小游戲？大模型最新評測方式是讓它們玩懷舊小游戲！

量子位 2025-06-22 14:43:45
0 跟貼 0
Large Avatar Model：單圖打造寫實3D交互數字人，跨平臺驅動渲染

機器之心Pro 2025-06-20 19:31:34
0 跟貼 0
5年白領下崗，AGI靠RL一飛沖天？網友：這是讓狗學會打麻將！

新智元 2025-06-22 12:20:53
2 跟貼 2
00后投身具身智能創業，劍指機器人界Model 3！推出21個自由度手

量子位 2025-06-22 12:58:30
1 跟貼 1
16款大模型為自保竟泄露機密，Anthropic緊急報告AI自主暗藏風險

DeepTech深科技 2025-06-22 23:05:32
1 跟貼 1
宇樹科技王興興：做一棵照亮別人的“科技樹”

澎湃新聞 2025-06-22 08:01:41
382 跟貼 382
ChatGPT 越用人越傻？ MIT 最新實驗揭秘，過度依賴 AI 大腦活躍度顯著降低

愛范兒 2025-06-22 19:17:28
0 跟貼 0
傳統MVP模型不成立了，AI時代要更多預測剛需場景

量子位 2025-04-22 14:14:16
0 跟貼 0
開心一笑，做個數學題，給老師逼瘋了！

仕均藝術字 2025-06-19 07:56:00
0 跟貼 0
森林哥Forest那神乎其神的槍法

沈萬基cs 2025-06-19 17:00:00
0 跟貼 0
曾仕強：六句話教你逆天改命，后半生越來越順！

頑皮狐貍 2025-06-22 11:53:33
1 跟貼 1
海歸不再是香餑餑留學生時代結束了？來聽這位大哥多方面分析

澀會小阿敏 2025-06-21 17:03:16
1 跟貼 1
湯姆帶著杰瑞玩電腦游戲，卻不料竟然穿越到了游戲里面！

禿禿說動漫 2025-06-21 12:30:05
4 跟貼 4
你身邊的這幾味長壽藥，竟然是不花錢的！可惜很多人還不知道

澀會小阿敏 2025-06-18 15:09:40
1 跟貼 1
為什么說巫妖王之后，在無魔獸世界

一起玩魔獸硬核哥 2025-06-20 16:37:50
1 跟貼 1
“我們眼中游戲里才能實現的故事，歐洲足壇每天都在發生”

寵悅聯盟 2025-06-18 12:44:27
0 跟貼 0
父女做游戲，裁判卻遭了殃，外姓人干不過兩個同姓的

特維特旅行 2025-06-21 10:52:08
0 跟貼 0
倆小伙玩解毛巾游戲，半天都解不開，這局怎么破！

洋洋搞笑君 2025-06-21 16:46:25
1 跟貼 1
這樣的游戲你玩過么

小孫說電影 2025-06-21 15:15:33
1 跟貼 1
英偉達笑到最后！訓練2000步，1.5B逆襲7B巨獸，Scaling真來了

新智元 2025-06-22 12:16:12
84 跟貼 84
監督學習也能反思？清華英偉達提出隱式負向策略爆炸提升數學能力

量子位 2025-06-22 14:07:30
1 跟貼 1
人才哇，不知道哪里學來的？

檸檬姐 2025-06-22 13:29:13
0 跟貼 0
兒子癡迷游戲亂揮霍婆婆坐視不管，兒媳花自己錢買一個包卻被指責

33追劇社 2025-06-22 00:33:54
1 跟貼 1
在野外放一個假的鹿模型，公鹿好不容易鼓起勇氣，卻換來一生內向

榻榻米搞笑 2025-06-21 09:20:23
5 跟貼 5
女生教貓咪玩游戲，沒想到貓咪竟然一學就會，真是令人大開眼界！

皮皮愛逗樂 2025-06-20 13:45:49
1 跟貼 1
館長金門的水都得用大陸的

澀會小阿敏 2025-06-22 13:22:16
1 跟貼 1
大媽教新媳婦和老公玩游戲，教的頭頭是道

海韻影視劇 2025-06-21 08:40:30
1 跟貼 1
道具模型太貴怎么辦，導演直接整上真家伙

影帝俠 2025-06-21 13:03:31
225 跟貼 225
梅西兩射一傳！邁阿密國際讓2追3！晉級美冠杯半決賽！

澀會小阿敏 2025-06-20 11:38:30
1 跟貼 1
老師提問數學題，學生一秒答出，關鍵是還正確！

大新愛觀察 2025-06-21 17:22:29
0 跟貼 0
同為數學天才，為何“韋神”只是助理教授，而王虹已經是副教授？

阿器談史 2025-06-21 03:46:37
1767 跟貼 1767
老外這游戲絕了，有點傷自尊，還是輸了更有面子！

默奇愛生活 2025-06-21 14:26:22
0 跟貼 0

新智元

AI產業主平臺領航智能+時代

12929文章數 66077關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

時尚

本地

家居

藝術

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
指紋識別有可能認錯人嗎？
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

沉迷貪吃蛇，7B小模型竟變身「數學天才」！幾何推理碾壓GPT-4o

"你應該靠嘴吃飯",羅永浩自述被梁文鋒勸退

伊朗投入5萬億美元的核項目遭摧毀 哈梅內伊面臨抉擇

伊朗投入5萬億美元的核項目遭摧毀 哈梅內伊面臨抉擇

中國女排0-3意大利 香港站3勝1負收官

離婚四年！趙麗穎被曝新戀情惹爭議

蘋果后院起火

態度原創

伊姐周日熱推：電視劇《完美的救贖》；電視劇《書卷一夢》......

被貴妃帶火的“唐代頂流”，如今怎么不火了

山水之間 墨染風雨云間

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

沉迷貪吃蛇，7B小模型竟變身「數學天才」！幾何推理碾壓GPT-4o

伊朗投入5萬億美元的核項目遭摧毀哈梅內伊面臨抉擇

伊朗投入5萬億美元的核項目遭摧毀哈梅內伊面臨抉擇

中國女排0-3意大利香港站3勝1負收官

伊姐周日熱推：電視劇《完美的救贖》；電視劇《書卷一夢》......

被貴妃帶火的“唐代頂流”，如今怎么不火了

山水之間墨染風雨云間

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法