網易首頁 > 網易號 > 正文申請入駐

強化學習新發現：無需數學樣本，僅游戲訓練AI推理大增

2025-06-24 16:46:40　來源: 機器之心Pro

天津舉報

分享至

第一作者謝云飛是萊斯大學博士生，導師為通訊作者魏晨教授，研究方向包括多模態生成與理解。

Project Leader肖俊飛是約翰斯?霍普金斯大學博士生，導師為 Bloomberg Distinguished Professor Alan Yuille。

第二作者馬崟淞是約翰斯?霍普金斯大學博士生。

第三作者蘭石懿是英偉達 Research Scientist。

最近，強化學習領域出現了一個顛覆性發現：研究人員不再需要大量數學訓練樣本，僅僅讓 AI 玩簡單游戲，就能顯著提升其數學推理能力。

此前已有研究發現，即使不提供標準答案，僅用數學問題進行強化學習也能提高模型性能，這讓人們開始重新思考強化學習的訓練方式。而來自萊斯大學、約翰斯?霍普金斯大學和英偉達的研究團隊更進一步：他們讓多模態大語言模型 (MLLM) 玩貪吃蛇等簡單游戲，無需任何數學或多學科訓練數據，就顯著提升了模型的多模態推理能力。研究團隊提出了 ViGaL (Visual Game Learning) 方法，在多個主流視覺數學基準測試和MMMU系列基準測試中，超越此前在數學等領域內數據上訓練的強化學習模型。

論文標題：Play to Generalize: Learning to Reason Through Game Play
論文鏈接：https://arxiv.org/abs/2506.08011
項目主頁：https://yunfeixie233.github.io/ViGaL/

不用數學樣本，游戲訓練在數學基準取得突破

近期研究表明，相比監督微調（SFT），強化學習（RL）往往能實現更強的 “舉一反三” 的跨領域泛化能力。以往的工作已經證明，在數學問題訓練的模型能夠擴展推理到物理問題，經過導航訓練的智能體能夠成功適應全新環境。然而，這些成功的泛化案例通常仍局限在單一領域內，源任務與泛化的目標任務依然屬于同一類型。

圖 1: 我們發現，只在例如貪吃蛇這種游戲上進行強化學習訓練，模型就能涌現出領域外的泛化能力，在數學、多學科等多個任務上提高性能。

這篇工作的突破在于實現了更強形式的跨域泛化：從游戲領域完全遷移到數學推理、空間推理和多學科推理等領域。研究團隊用 7B 參數的 Qwen2.5-VL 模型進行訓練，發現僅通過強化學習訓練模型玩貪吃蛇和旋轉游戲，就能在多個基準測試中實現了顯著提升：

數學推理提升：不用數學樣本，僅通過游戲訓練，ViGaL 在 MathVista 等數學推理基準上平均提升 2.9%，相比之下，在高質量數學數據集上進行強化學習的方法僅提升 2.4%。
多學科推理突破：在 MMMU 系列多學科推理任務上，ViGaL 超越在多學科數據上進行 RL 訓練的 R1-OneVision-7B 模型 5.4 個百分點。
通用能力保持：經過測試，之前的強化學習推理模型在提升特定領域性能時，大部分都損害通用視覺能力，但 ViGaL 在保持原有通用性能的同時實現了推理能力的躍升。

圖 2: 不使用數學或者多學科樣本，僅通過游戲訓練，模型在數學推理基準上平均提升 2.9%（左圖），在多學科推理基準上平均提升 2.0%（右圖），超過此前專門在數學或者多學科數據上訓練的強化學習方法。

為什么游戲訓練如此有效？

圖 3: 我們在貪吃蛇游戲和旋轉游戲上利用強化學習進行訓練。在每個游戲里面，模型會接收圖片和文本形式的游戲環境作為輸入，遵循游戲指令進行推理，抉擇一個動作在游戲環境里執行。執行后會從環境獲得獎勵，用于進行強化學習。通過在游戲中訓練，模型獲得了推理能力，并且能遷移至下游的數學和多學科等任務。

為什么玩游戲能提升數學能力？這個發現其實并不違背認知科學的基本規律。

回想一下我們自己的成長過程：小時候通過搭積木學會了空間概念，通過躲貓貓理解了位置關系，通過各種益智游戲培養了邏輯思維。兒童正是通過這些看似 "玩耍" 的活動，逐步構建起抽象思維的基礎 —— 模式識別、空間推理、因果推斷。

認知科學研究也證實了這一點：游戲常被用作探索人類心智的實驗平臺。研究人員通過 "四子連珠" 游戲研究規劃能力，通過 "虛擬工具" 游戲探索問題解決的認知機制。

基于這樣的理論啟發，研究團隊巧妙地設計了兩款互補的訓練游戲：

貪吃蛇游戲：這是一個經典的策略決策游戲。在 10×10 的網格上，模型需要控制蛇的移動，避免撞墻、撞到自己或對手，同時盡可能多地收集蘋果。游戲培養的核心能力包括路徑規劃、避障決策和空間導航，這些技能直接對應數學中的坐標幾何和函數圖像理解。

旋轉游戲：這是研究團隊自主設計的 3D 空間推理游戲。模型需要觀察同一 3D 物體的兩個視角 —— 初始視角和旋轉后視角，判斷物體旋轉了 90 度還是 180 度。這個游戲專門訓練空間幾何理解能力，直接對應角度和長度相關的數學推理問題。

兩款游戲的設計哲學互補：貪吃蛇主要提升 2D 坐標相關的數學表現，旋轉游戲則更適合角度和長度推理。實驗證實，聯合訓練兩款游戲比單獨訓練效果更佳，展現了游戲多樣性的可擴展潛力。

結語：合成任務的新時代

ViGaL 的成功揭示了一個潛在的新趨勢：當高質量人類數據枯竭，簡單任務性能飽和的時候，精心設計的游戲，作為一種合成任務，可能為多模態推理能力的發展開辟新道路。

與傳統的直接訓練方法相比，這種游戲化的訓練范式展現出獨特的優勢：

成本極低：無需人工標注，可無限擴展
效果顯著：零數學樣本超越數學專訓模型
拓展性強：可以組合多個任務進一步提升性能
通用性好：不會造成 "偏科" 問題，保持模型的全面能力

更重要的是，ViGaL 可能揭示了一個樸素但深刻的道理：在直接學習目標任務之外，培養底層的通用推理能力，也許同樣有助于模型性能的提升。就像我們不只是通過死記硬背數學公式來培養數學思維，而是通過各種思維訓練來發展抽象推理能力一樣。

在 Scaling Law 可能逐漸面臨困境的今天，ViGaL 用一個簡單而優雅的想法提醒我們：有時候，讓 AI"玩游戲" 可能比讓它 "刷題" 更有效。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.