如果告訴你,AI在推箱子等游戲場景上訓練,能讓它在幾何推理與圖表推理上表現更好,你會相信嗎?
復旦NLP實驗室聯合字節跳動智能服務團隊的最新研究給出了一個令人意外的發現:游戲不僅是娛樂工具,更是訓練AI推理能力的寶貴資源。
- 標題:
- Code2Logic: Game-Code-Driven Data Synthesis for Enhancing VLMs General Reasoning
- 論文鏈接:
- https://arxiv.org/abs/2505.13886
- 代碼倉庫:
- https://github.com/tongjingqi/Code2Logic
- 數據和模型:
- https://huggingface.co/Code2Logic
引言
高質量多模態推理數據的極度稀缺,制約了視覺語言模型(VLMs)復雜推理能力的提升。那么,有沒有一種低成本又可靠的方法來大規模生成這些數據呢?
復旦與字節的研究團隊創新性地提出了一個巧妙的思路:利用游戲代碼自動合成視覺推理數據。
圖1:GameQA數據集中各游戲類別的代表性游戲:3D重建、七巧板(變體)、數獨和推箱子。各游戲展示兩個視覺問答示例,包含當前游戲狀態圖片,相應的問題,以及逐步推理過程和答案。
從游戲代碼到推理數據:
Code2Logic的奇思妙想
為什么選擇游戲代碼?研究團隊發現,游戲具有三個獨特優勢:首先,游戲天然具有明確定義的規則且結果易于驗證,確保生成數據的準確性;其次,游戲代碼編碼了狀態轉換邏輯,天然包含因果推理鏈;最后,游戲代碼可通過大語言模型(LLM)輕松生成,成本極低。
基于這一洞察,團隊提出了Code2Logic方法,借助LLM通過三個核心步驟將游戲代碼中的隱式推理轉化為顯式的多模態推理數據,如圖2所示:
第一步:游戲代碼構建。通過LLM(如Claude 3.5、GPT 4o)自動生成游戲代碼,如僅需一行提示詞即可構建完整的“推箱子(Sokoban)”游戲邏輯。
第二步:QA模板設計。從游戲代碼中提取各種推理模式,設計相應的任務及其問答模板。
第三步:數據引擎構建。構建自動化程序,重用游戲核心代碼(如“move”函數邏輯),批量生成符合模板的問答實例。數據生成過程完全自動化,且推理過程與答案正確性由代碼執行保證。
圖2:Code2Logic方法流程示意
GameQA:可擴展的多模態推理數據集
利用Code2Logic方法,研究團隊構建了GameQA數據集,具有以下核心優勢:
大規模且多樣。涵蓋4大認知能力類別,30個游戲,158個推理任務,14萬個問答對,如圖1和圖3所示。
可擴展和成本極低。數據引擎可用Code2Logic方法低成本構建,代碼構建完成后便能無限生成新樣本,源源不斷地產生數據。
難度設置合理。通過設置代碼參數,游戲任務難度可控制為Easy、Medium和Hard三級,同時視覺輸入即游戲狀態復雜性也有三級的設置。這種細粒度的難度設置便于系統評估模型能力。
圖3:GameQA的30個游戲,分為4個認知能力類別。域外游戲不參與模型訓練。
表1:GameQA域內和域外游戲的評測結果。在GameQA域內游戲測試集上,理工科本科生的準確率有84.75%,而先進的Claude-3.5-Sonnet只有47.69%,僅為人類準確率的一半,Gemini-2.5-Pro的58.95%也與人類有較大差距。在GameQA上訓練可顯著提升模型在域內外測試集上的表現。
核心發現:游戲數據驅動的通用能力提升
在游戲數據上訓練后的能力提升泛化效果如何?研究中最令人驚喜的發現是:僅使用GameQA進行強化學習訓練,在域內測試集上取得顯著提升的同時,模型不但在域外游戲上展現出強大泛化能力(表1),而且還在通用視覺語言推理基準上獲得了明顯提升。
從表2的從評測結果可見,在GameQA上進行GRPO訓練后,四個開源多模態模型均在7個通用視覺語言推理基準上獲得性能提升,特別是Qwen2.5-VL-7B,取得了最顯著的2.33%平均提升。
表2:通用視覺語言推理基準上的評測結果。模型在GameQA上GRPO訓練后可泛化到通用視覺語言推理基準。
訓練效果:GameQA擊敗幾何數據集
為進一步探究GameQA的價值,研究團隊設計了對照實驗:用5K GameQA樣本與8K樣本的幾何推理數據集進行對比訓練,如表3所示。結果出人意料:盡管數據量更少且領域不匹配,GameQA訓練的模型在通用視覺語言推理基準上表現更優。
在數學相關測試(MathVista: 68.70% vs 67.63%)中,游戲數據竟然超過了“對口”的幾何數據。這一結果表明,游戲中的認知多樣性和推理復雜性,具有強通用性和遷移能力。
表3:GameQA(5K)與幾何推理數據集Multimodal-Open-R1(8K)對比訓練評測結果
深度剖析:GRPO如何提升模型能力?
為理解強化學習如何改善模型性能,研究團隊隨機采樣了案例進行了細致的人工分析。結果顯示,GRPO訓練后,模型在視覺感知和文本推理兩個方面都有顯著提升。
如圖4,從GameQA測試集和通用視覺語言推理基準中隨機采樣共790個測試樣本,人工比較模型在訓練前后的回答,最終得出:在GameQA數據上,10.94%的案例視覺感知得到提升,14.95%的案例文本推理得到提升。在通用視覺語言推理基準上,這兩個數據分別為13.57%和8.57%。
圖4:GRPO對視覺感知和文本推理的影響。從GameQA與通用視覺語言推理基準分別隨機選取650例與140例進行人工分析。左右兩邊分別為游戲任務和通用視覺語言推理基準上的表現變化。
Scaling effect:
游戲多樣性與樣本多樣性的影響
通過系統性實驗,研究團隊還揭示了兩個重要的Scaling effect,即游戲多樣性與樣本多樣性的影響,如圖5所示:
隨著游戲種類變多,域外泛化效果變強:使用20種游戲訓練的模型在未見游戲上提升1.80%,在通用基準上提升1.20%,均優于使用4種或10種游戲的配置。
樣本多樣性與域外泛化效果正相關:對比三種訓練配置(5K樣本×1輪 vs 1K樣本×5輪 vs 0.5K樣本×10輪),結果顯示接觸更多不同樣本比重復學習少量樣本更有效。
這兩個Scaling effect表明,GameQA的多樣性與可擴展性優勢,能夠直接帶來模型在通用推理任務上更強的泛化性能。
圖5:Qwen2.5-VL-3B在GameQA上訓練,游戲種類數與樣本多樣性的Scaling effect
案例分析:VLMs的推理瓶頸在哪里?
通過對模型錯誤的細致分析,研究團隊也發現了VLMs推理能力的關鍵缺陷,包括:
3D空間感知是最大短板。在3D迷宮等游戲中,模型經常混淆高度關系,將圖像中位置較上的物體誤判為具有更高的Z坐標。這反映出當前模型在3D空間理解上的根本性缺陷,如圖6所示。
在識別模式與定位物體上存在顯著困難。在游戲視覺場景不是標準的網格化結構(如“祖瑪”、紙牌類游戲)時這一困難還會加劇。
多次看圖時容易出錯。在需多次識圖的任務中,模型起初識別正確,但隨后易受已有文本干擾,導致圖文不符。
策略規劃能力欠缺。面對一些需要尋找最優解的任務(如求解“推箱子”最優策略),模型既缺乏人類的直覺洞察來剪枝無用分支,也無法進行大規模搜索遍歷,導致表現不佳。
圖6:3D迷宮中GPT 4o混淆物體高度
結論
本研究提出了一種新穎的方法(Code2Logic),首次利用游戲代碼合成多模態推理數據。
基于此方法,構建了GameQA數據集,該數據集具有低成本與可擴展、難度設置合理、規模大且多樣性高的特點,為多模態大模型的訓練與評估提供了理想的數據來源。
同時,研究團隊首次驗證了僅通過游戲問答任務進行強化學習,便能顯著提升多模態大模型在域外任務的通用推理能力,這不僅驗證了GameQA的泛化性,也進一步證實了游戲作為可驗證環境,用于提升模型通用智能的潛力。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.