99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

以玩促學?游戲代碼驅動數據合成,提升多模態大模型通用推理

0
分享至



如果告訴你,AI在推箱子等游戲場景上訓練,能讓它在幾何推理與圖表推理上表現更好,你會相信嗎?

復旦NLP實驗室聯合字節跳動智能服務團隊的最新研究給出了一個令人意外的發現:游戲不僅是娛樂工具,更是訓練AI推理能力的寶貴資源。



  • 標題:
  • Code2Logic: Game-Code-Driven Data Synthesis for Enhancing VLMs General Reasoning
  • 論文鏈接:
  • https://arxiv.org/abs/2505.13886
  • 代碼倉庫:
  • https://github.com/tongjingqi/Code2Logic
  • 數據和模型:
  • https://huggingface.co/Code2Logic

引言

高質量多模態推理數據的極度稀缺,制約了視覺語言模型(VLMs)復雜推理能力的提升。那么,有沒有一種低成本又可靠的方法來大規模生成這些數據呢?

復旦與字節的研究團隊創新性地提出了一個巧妙的思路:利用游戲代碼自動合成視覺推理數據。



圖1:GameQA數據集中各游戲類別的代表性游戲:3D重建、七巧板(變體)、數獨和推箱子。各游戲展示兩個視覺問答示例,包含當前游戲狀態圖片,相應的問題,以及逐步推理過程和答案。

從游戲代碼到推理數據:

Code2Logic的奇思妙想

為什么選擇游戲代碼?研究團隊發現,游戲具有三個獨特優勢:首先,游戲天然具有明確定義的規則且結果易于驗證,確保生成數據的準確性;其次,游戲代碼編碼了狀態轉換邏輯,天然包含因果推理鏈;最后,游戲代碼可通過大語言模型(LLM)輕松生成,成本極低。

基于這一洞察,團隊提出了Code2Logic方法,借助LLM通過三個核心步驟將游戲代碼中的隱式推理轉化為顯式的多模態推理數據,如圖2所示:

第一步:游戲代碼構建。通過LLM(如Claude 3.5、GPT 4o)自動生成游戲代碼,如僅需一行提示詞即可構建完整的“推箱子(Sokoban)”游戲邏輯。

第二步:QA模板設計。從游戲代碼中提取各種推理模式,設計相應的任務及其問答模板。

第三步:數據引擎構建。構建自動化程序,重用游戲核心代碼(如“move”函數邏輯),批量生成符合模板的問答實例。數據生成過程完全自動化,且推理過程與答案正確性由代碼執行保證。



圖2:Code2Logic方法流程示意

GameQA:可擴展的多模態推理數據集

利用Code2Logic方法,研究團隊構建了GameQA數據集,具有以下核心優勢:

大規模且多樣。涵蓋4大認知能力類別,30個游戲,158個推理任務,14萬個問答對,如圖1和圖3所示。

可擴展和成本極低。數據引擎可用Code2Logic方法低成本構建,代碼構建完成后便能無限生成新樣本,源源不斷地產生數據。

難度設置合理。通過設置代碼參數,游戲任務難度可控制為Easy、Medium和Hard三級,同時視覺輸入即游戲狀態復雜性也有三級的設置。這種細粒度的難度設置便于系統評估模型能力。



圖3:GameQA的30個游戲,分為4個認知能力類別。域外游戲不參與模型訓練。



表1:GameQA域內和域外游戲的評測結果。在GameQA域內游戲測試集上,理工科本科生的準確率有84.75%,而先進的Claude-3.5-Sonnet只有47.69%,僅為人類準確率的一半,Gemini-2.5-Pro的58.95%也與人類有較大差距。在GameQA上訓練可顯著提升模型在域內外測試集上的表現。

核心發現:游戲數據驅動的通用能力提升

在游戲數據上訓練后的能力提升泛化效果如何?研究中最令人驚喜的發現是:僅使用GameQA進行強化學習訓練,在域內測試集上取得顯著提升的同時,模型不但在域外游戲上展現出強大泛化能力(表1),而且還在通用視覺語言推理基準上獲得了明顯提升。

從表2的從評測結果可見,在GameQA上進行GRPO訓練后,四個開源多模態模型均在7個通用視覺語言推理基準上獲得性能提升,特別是Qwen2.5-VL-7B,取得了最顯著的2.33%平均提升。



表2:通用視覺語言推理基準上的評測結果。模型在GameQA上GRPO訓練后可泛化到通用視覺語言推理基準。

訓練效果:GameQA擊敗幾何數據集

為進一步探究GameQA的價值,研究團隊設計了對照實驗:用5K GameQA樣本與8K樣本的幾何推理數據集進行對比訓練,如表3所示。結果出人意料:盡管數據量更少且領域不匹配,GameQA訓練的模型在通用視覺語言推理基準上表現更優。

在數學相關測試(MathVista: 68.70% vs 67.63%)中,游戲數據竟然超過了“對口”的幾何數據。這一結果表明,游戲中的認知多樣性和推理復雜性,具有強通用性和遷移能力。



表3:GameQA(5K)與幾何推理數據集Multimodal-Open-R1(8K)對比訓練評測結果

深度剖析:GRPO如何提升模型能力?

為理解強化學習如何改善模型性能,研究團隊隨機采樣了案例進行了細致的人工分析。結果顯示,GRPO訓練后,模型在視覺感知和文本推理兩個方面都有顯著提升。

如圖4,從GameQA測試集和通用視覺語言推理基準中隨機采樣共790個測試樣本,人工比較模型在訓練前后的回答,最終得出:在GameQA數據上,10.94%的案例視覺感知得到提升,14.95%的案例文本推理得到提升。在通用視覺語言推理基準上,這兩個數據分別為13.57%和8.57%。



圖4:GRPO對視覺感知和文本推理的影響。從GameQA與通用視覺語言推理基準分別隨機選取650例與140例進行人工分析。左右兩邊分別為游戲任務和通用視覺語言推理基準上的表現變化。

Scaling effect:

游戲多樣性與樣本多樣性的影響

通過系統性實驗,研究團隊還揭示了兩個重要的Scaling effect,即游戲多樣性與樣本多樣性的影響,如圖5所示:

隨著游戲種類變多,域外泛化效果變強:使用20種游戲訓練的模型在未見游戲上提升1.80%,在通用基準上提升1.20%,均優于使用4種或10種游戲的配置。

樣本多樣性與域外泛化效果正相關:對比三種訓練配置(5K樣本×1輪 vs 1K樣本×5輪 vs 0.5K樣本×10輪),結果顯示接觸更多不同樣本比重復學習少量樣本更有效。

這兩個Scaling effect表明,GameQA的多樣性與可擴展性優勢,能夠直接帶來模型在通用推理任務上更強的泛化性能。



圖5:Qwen2.5-VL-3B在GameQA上訓練,游戲種類數與樣本多樣性的Scaling effect

案例分析:VLMs的推理瓶頸在哪里?

通過對模型錯誤的細致分析,研究團隊也發現了VLMs推理能力的關鍵缺陷,包括:

3D空間感知是最大短板。在3D迷宮等游戲中,模型經常混淆高度關系,將圖像中位置較上的物體誤判為具有更高的Z坐標。這反映出當前模型在3D空間理解上的根本性缺陷,如圖6所示。

在識別模式與定位物體上存在顯著困難。在游戲視覺場景不是標準的網格化結構(如“祖瑪”、紙牌類游戲)時這一困難還會加劇。

多次看圖時容易出錯。在需多次識圖的任務中,模型起初識別正確,但隨后易受已有文本干擾,導致圖文不符。

策略規劃能力欠缺。面對一些需要尋找最優解的任務(如求解“推箱子”最優策略),模型既缺乏人類的直覺洞察來剪枝無用分支,也無法進行大規模搜索遍歷,導致表現不佳。



圖6:3D迷宮中GPT 4o混淆物體高度

結論

本研究提出了一種新穎的方法(Code2Logic),首次利用游戲代碼合成多模態推理數據。

基于此方法,構建了GameQA數據集,該數據集具有低成本與可擴展、難度設置合理、規模大且多樣性高的特點,為多模態大模型的訓練與評估提供了理想的數據來源。

同時,研究團隊首次驗證了僅通過游戲問答任務進行強化學習,便能顯著提升多模態大模型在域外任務的通用推理能力,這不僅驗證了GameQA的泛化性,也進一步證實了游戲作為可驗證環境,用于提升模型通用智能的潛力。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
帕金斯:詹姆斯哪兒也不會去,布朗尼在湖人,布萊斯也在附近上學

帕金斯:詹姆斯哪兒也不會去,布朗尼在湖人,布萊斯也在附近上學

雷速體育
2025-07-04 18:20:12
魯媒:泰山俱樂部已連維持都做不到,球隊想年輕化要先分流老將

魯媒:泰山俱樂部已連維持都做不到,球隊想年輕化要先分流老將

雷速體育
2025-07-04 15:42:25
以色列首都被炸,第三國開始上場,伊朗布設水雷?中方說了公道話

以色列首都被炸,第三國開始上場,伊朗布設水雷?中方說了公道話

博覽歷史
2025-07-04 09:07:36
知名相聲演員在18時30分逝世!享年68歲

知名相聲演員在18時30分逝世!享年68歲

魯中晨報
2025-07-03 08:24:10
盧琦政女友再回應:和隊友發生關系是謠言 醫院報告只有一人的DNA

盧琦政女友再回應:和隊友發生關系是謠言 醫院報告只有一人的DNA

直播吧
2025-07-04 13:10:08
蘋果被甩開!Q2中國手機市場:華為遙遙領先坐穩第一 iPhone銷量兩年來首次增長

蘋果被甩開!Q2中國手機市場:華為遙遙領先坐穩第一 iPhone銷量兩年來首次增長

快科技
2025-07-04 09:15:04
幼兒園鉛中毒,孩子到底吃了什么?

幼兒園鉛中毒,孩子到底吃了什么?

中國新聞周刊
2025-07-04 19:45:41
曾經炒到上千萬,如今一文不值!這個全民“騙局”,終于崩了!

曾經炒到上千萬,如今一文不值!這個全民“騙局”,終于崩了!

小白鴿財經
2025-07-03 13:56:32
上海口水面事件升級!老板是慣犯,店鋪黑料曝光,比想象中還惡心

上海口水面事件升級!老板是慣犯,店鋪黑料曝光,比想象中還惡心

娛樂看阿敞
2025-07-04 14:59:34
葡媒:利物浦全隊將前往葡萄牙出席若塔及其弟弟的葬禮

葡媒:利物浦全隊將前往葡萄牙出席若塔及其弟弟的葬禮

懂球帝
2025-07-04 23:38:13
堆積如山的庫存 多地汽車經銷商公開求救

堆積如山的庫存 多地汽車經銷商公開求救

中車網評
2025-07-04 17:22:51
3個房間,租下波特蘭豪宅,楊瀚森一年需要支付多少房租?

3個房間,租下波特蘭豪宅,楊瀚森一年需要支付多少房租?

樂聊球
2025-07-04 12:48:49
北大校長丁石孫:拒收毛新宇讀北大

北大校長丁石孫:拒收毛新宇讀北大

深度報
2025-06-29 23:36:38
日本最美女星遭渣夫背叛5年后首發聲!對方在公廁與多名女子糾纏,她為兒子強忍不離還生了2胎…

日本最美女星遭渣夫背叛5年后首發聲!對方在公廁與多名女子糾纏,她為兒子強忍不離還生了2胎…

英國報姐
2025-07-03 21:25:42
延安艦抵港未開放,背后有深意

延安艦抵港未開放,背后有深意

荊楚寰宇文樞
2025-07-03 22:12:33
男女一夜情,“男子尺寸過大導致女子死亡”事件,真相曝光~

男女一夜情,“男子尺寸過大導致女子死亡”事件,真相曝光~

書畫藝術收藏
2025-07-04 19:30:03
《家有兒女》夏雨扮演者近照曝光,網友:小雨變暴雨了

《家有兒女》夏雨扮演者近照曝光,網友:小雨變暴雨了

紅星新聞
2025-07-02 17:21:18
四川雅安市委書記夏鳳儉跨省調任山東,曾長期在公安系統工作

四川雅安市委書記夏鳳儉跨省調任山東,曾長期在公安系統工作

澎湃新聞
2025-07-04 21:32:26
小米169元紙巾盒被指“刺客”,但售價僅為問界一半、低于蔚來

小米169元紙巾盒被指“刺客”,但售價僅為問界一半、低于蔚來

金融界
2025-07-04 13:40:21
亞布塞萊:76人開出的報價非常低,感覺不想讓我留下

亞布塞萊:76人開出的報價非常低,感覺不想讓我留下

懂球帝
2025-07-05 06:08:11
2025-07-05 07:56:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10788文章數 142353關注度
往期回顧 全部

科技要聞

被雷軍"震驚"后,何小鵬"藏起"G7的戰報

頭條要聞

特朗普支持者強烈不滿"大而美"法案:"背叛"工人階級

頭條要聞

特朗普支持者強烈不滿"大而美"法案:"背叛"工人階級

體育要聞

體壇最爽打工人:37歲被裁,工資領到72歲

娛樂要聞

李宇春身上的標簽哪個才是真的?

財經要聞

茅臺從3300跌到1700 泡沫破了酒才真香

汽車要聞

重生之拿回銷量 領克10 EM-P搶鮮實拍

態度原創

數碼
手機
親子
教育
公開課

數碼要聞

999 元,JBL 首款開放式運動耳機 Endurance Zone 上市

手機要聞

三星Galaxy Z Fold7真機曝光:機身僅比SIM卡托厚一點

親子要聞

卡西米爾正姿筆破價了

教育要聞

高考志愿背后的現實考量:放棄福耀,選擇安穩,走公費師范生

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 稻城县| 朔州市| 旬阳县| 潜山县| 游戏| 鞍山市| 阿城市| 綦江县| 孟连| 乐清市| 沂水县| 威信县| 盐池县| 赤城县| 梅河口市| 商水县| 柘城县| 柳州市| 胶州市| 云和县| 饶阳县| 吉木萨尔县| 襄城县| 泰和县| 灌南县| 林西县| 门头沟区| 石泉县| 古田县| 嘉黎县| 宾阳县| 香河县| 涟源市| 新巴尔虎左旗| 永宁县| 阿克苏市| 昂仁县| 利津县| 德令哈市| 仪征市| 萨嘎县|