99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

強化學習新發現:無需數學樣本,僅游戲訓練AI推理大增

0
分享至



第一作者謝云飛是萊斯大學博士生,導師為通訊作者魏晨教授,研究方向包括多模態生成與理解。

Project Leader肖俊飛是約翰斯?霍普金斯大學博士生,導師為 Bloomberg Distinguished Professor Alan Yuille。

第二作者馬崟淞是約翰斯?霍普金斯大學博士生。

第三作者蘭石懿是英偉達 Research Scientist。

最近,強化學習領域出現了一個顛覆性發現:研究人員不再需要大量數學訓練樣本,僅僅讓 AI 玩簡單游戲,就能顯著提升其數學推理能力。

此前已有研究發現,即使不提供標準答案,僅用數學問題進行強化學習也能提高模型性能,這讓人們開始重新思考強化學習的訓練方式。而來自萊斯大學、約翰斯?霍普金斯大學和英偉達的研究團隊更進一步:他們讓多模態大語言模型 (MLLM) 玩貪吃蛇等簡單游戲,無需任何數學或多學科訓練數據,就顯著提升了模型的多模態推理能力。研究團隊提出了 ViGaL (Visual Game Learning) 方法,在多個主流視覺數學基準測試和MMMU系列基準測試中,超越此前在數學等領域內數據上訓練的強化學習模型。



  • 論文標題:Play to Generalize: Learning to Reason Through Game Play
  • 論文鏈接:https://arxiv.org/abs/2506.08011
  • 項目主頁:https://yunfeixie233.github.io/ViGaL/

不用數學樣本,游戲訓練在數學基準取得突破

近期研究表明,相比監督微調(SFT),強化學習(RL)往往能實現更強的 “舉一反三” 的跨領域泛化能力。以往的工作已經證明,在數學問題訓練的模型能夠擴展推理到物理問題,經過導航訓練的智能體能夠成功適應全新環境。然而,這些成功的泛化案例通常仍局限在單一領域內,源任務與泛化的目標任務依然屬于同一類型。



圖 1: 我們發現,只在例如貪吃蛇這種游戲上進行強化學習訓練,模型就能涌現出領域外的泛化能力,在數學、多學科等多個任務上提高性能。

這篇工作的突破在于實現了更強形式的跨域泛化:從游戲領域完全遷移到數學推理、空間推理和多學科推理等領域。研究團隊用 7B 參數的 Qwen2.5-VL 模型進行訓練,發現僅通過強化學習訓練模型玩貪吃蛇和旋轉游戲,就能在多個基準測試中實現了顯著提升:

  • 數學推理提升:不用數學樣本,僅通過游戲訓練,ViGaL 在 MathVista 等數學推理基準上平均提升 2.9%,相比之下,在高質量數學數據集上進行強化學習的方法僅提升 2.4%。
  • 多學科推理突破:在 MMMU 系列多學科推理任務上,ViGaL 超越在多學科數據上進行 RL 訓練的 R1-OneVision-7B 模型 5.4 個百分點。
  • 通用能力保持:經過測試,之前的強化學習推理模型在提升特定領域性能時,大部分都損害通用視覺能力,但 ViGaL 在保持原有通用性能的同時實現了推理能力的躍升。



圖 2: 不使用數學或者多學科樣本,僅通過游戲訓練,模型在數學推理基準上平均提升 2.9%(左圖),在多學科推理基準上平均提升 2.0%(右圖),超過此前專門在數學或者多學科數據上訓練的強化學習方法。

為什么游戲訓練如此有效?



圖 3: 我們在貪吃蛇游戲和旋轉游戲上利用強化學習進行訓練。在每個游戲里面,模型會接收圖片和文本形式的游戲環境作為輸入,遵循游戲指令進行推理,抉擇一個動作在游戲環境里執行。執行后會從環境獲得獎勵,用于進行強化學習。通過在游戲中訓練,模型獲得了推理能力,并且能遷移至下游的數學和多學科等任務。

為什么玩游戲能提升數學能力?這個發現其實并不違背認知科學的基本規律。

回想一下我們自己的成長過程:小時候通過搭積木學會了空間概念,通過躲貓貓理解了位置關系,通過各種益智游戲培養了邏輯思維。兒童正是通過這些看似 "玩耍" 的活動,逐步構建起抽象思維的基礎 —— 模式識別、空間推理、因果推斷。

認知科學研究也證實了這一點:游戲常被用作探索人類心智的實驗平臺。研究人員通過 "四子連珠" 游戲研究規劃能力,通過 "虛擬工具" 游戲探索問題解決的認知機制。

基于這樣的理論啟發,研究團隊巧妙地設計了兩款互補的訓練游戲:

貪吃蛇游戲:這是一個經典的策略決策游戲。在 10×10 的網格上,模型需要控制蛇的移動,避免撞墻、撞到自己或對手,同時盡可能多地收集蘋果。游戲培養的核心能力包括路徑規劃、避障決策和空間導航,這些技能直接對應數學中的坐標幾何和函數圖像理解。

旋轉游戲:這是研究團隊自主設計的 3D 空間推理游戲。模型需要觀察同一 3D 物體的兩個視角 —— 初始視角和旋轉后視角,判斷物體旋轉了 90 度還是 180 度。這個游戲專門訓練空間幾何理解能力,直接對應角度和長度相關的數學推理問題。

兩款游戲的設計哲學互補:貪吃蛇主要提升 2D 坐標相關的數學表現,旋轉游戲則更適合角度和長度推理。實驗證實,聯合訓練兩款游戲比單獨訓練效果更佳,展現了游戲多樣性的可擴展潛力。

結語:合成任務的新時代

ViGaL 的成功揭示了一個潛在的新趨勢:當高質量人類數據枯竭,簡單任務性能飽和的時候,精心設計的游戲,作為一種合成任務,可能為多模態推理能力的發展開辟新道路。

與傳統的直接訓練方法相比,這種游戲化的訓練范式展現出獨特的優勢:

  • 成本極低:無需人工標注,可無限擴展
  • 效果顯著:零數學樣本超越數學專訓模型
  • 拓展性強:可以組合多個任務進一步提升性能
  • 通用性好:不會造成 "偏科" 問題,保持模型的全面能力

更重要的是,ViGaL 可能揭示了一個樸素但深刻的道理:在直接學習目標任務之外,培養底層的通用推理能力,也許同樣有助于模型性能的提升。就像我們不只是通過死記硬背數學公式來培養數學思維,而是通過各種思維訓練來發展抽象推理能力一樣。

在 Scaling Law 可能逐漸面臨困境的今天,ViGaL 用一個簡單而優雅的想法提醒我們:有時候,讓 AI"玩游戲" 可能比讓它 "刷題" 更有效。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
恭喜!胡兵官宣戀情!為瞿穎慶生,兩人十指相扣,稱余生一起走

恭喜!胡兵官宣戀情!為瞿穎慶生,兩人十指相扣,稱余生一起走

扒星人
2025-06-23 10:17:30
以色列展示擊沉054A后,展臺被法國封了!法國為何要幫中國出頭?

以色列展示擊沉054A后,展臺被法國封了!法國為何要幫中國出頭?

書中自有顏如玉
2025-06-23 14:39:30
臺風圣帕后天直撲海南 12級狂風或掀翻漁船

臺風圣帕后天直撲海南 12級狂風或掀翻漁船

萬俟九辭
2025-06-24 08:25:53
退休已兩年!千億保險原總經理,被曝失聯

退休已兩年!千億保險原總經理,被曝失聯

新浪財經
2025-06-24 16:15:16
伊拉克經濟 20年增長了12倍

伊拉克經濟 20年增長了12倍

跟著老李看世界
2025-06-22 09:12:57
宣一洲任上海虹口區副區長

宣一洲任上海虹口區副區長

澎湃新聞
2025-06-24 18:44:27
為了這名“蘇超”隊員,蘇州大學辦了場“一個人”的畢業典禮

為了這名“蘇超”隊員,蘇州大學辦了場“一個人”的畢業典禮

澎湃新聞
2025-06-24 13:12:29
歷史438分、物理425分!重慶市2025年普通高校招生錄取最低控制分數線公布

歷史438分、物理425分!重慶市2025年普通高校招生錄取最低控制分數線公布

魯中晨報
2025-06-24 12:27:02
廣東3消息!官宣回應興奮劑事件,恐難逃CBA重罰,張明池暴瘦十斤

廣東3消息!官宣回應興奮劑事件,恐難逃CBA重罰,張明池暴瘦十斤

多特體育說
2025-06-24 20:20:34
A股突然拉升大漲,原因是什么?明天還會大漲嗎?

A股突然拉升大漲,原因是什么?明天還會大漲嗎?

一擔金
2025-06-24 15:12:35
八路軍撤退時,發現士兵路邊撒尿,楊成武立刻反應過來:前方有埋伏

八路軍撤退時,發現士兵路邊撒尿,楊成武立刻反應過來:前方有埋伏

黃家湖的憂傷
2025-06-20 17:38:02
天津高考分數線出爐:4.7萬余人過本科線,600分以上近1.3萬人

天津高考分數線出爐:4.7萬余人過本科線,600分以上近1.3萬人

深析古今
2025-06-23 20:40:49
吹過頭了!盤點現役當初嚴重被高估的5大球星,特雷楊領銜

吹過頭了!盤點現役當初嚴重被高估的5大球星,特雷楊領銜

大衛的籃球故事
2025-06-24 20:29:56
以軍稱23日對伊朗實施5次大規模空襲 投下約200枚彈藥

以軍稱23日對伊朗實施5次大規模空襲 投下約200枚彈藥

財聯社
2025-06-24 04:08:13
鬧大了!四川小學給學生吃臭豬肉,校長回應被群嘲,警方已介入

鬧大了!四川小學給學生吃臭豬肉,校長回應被群嘲,警方已介入

鋭娛之樂
2025-06-23 20:51:22
六部門:鼓勵金融機構加大對符合條件的消費行業經營主體首貸、續貸等貸款支持力度

六部門:鼓勵金融機構加大對符合條件的消費行業經營主體首貸、續貸等貸款支持力度

北京商報
2025-06-24 17:45:30
張一鳴首次問鼎首富,梁文鋒躋身前十!最新榜單來了

張一鳴首次問鼎首富,梁文鋒躋身前十!最新榜單來了

極目新聞
2025-06-24 10:59:55
中紀委再劃紅線!公務員下班后吃飯,這4種行為將被嚴肅追責!

中紀委再劃紅線!公務員下班后吃飯,這4種行為將被嚴肅追責!

鬼菜生活
2025-06-17 12:39:27
新郎接親被堵門外1小時后續:淡定的看女方家屬鬧,直言不著急

新郎接親被堵門外1小時后續:淡定的看女方家屬鬧,直言不著急

不寫散文詩
2025-06-24 01:05:01
后續!3歲男孩捧鮮花在手術室門口等媽媽,母親已去世,評論淚目

后續!3歲男孩捧鮮花在手術室門口等媽媽,母親已去世,評論淚目

素衣讀史
2025-06-24 14:26:19
2025-06-24 21:11:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10706文章數 142343關注度
往期回顧 全部

科技要聞

從十輛到幾百萬輛,中間隔著什么?

頭條要聞

特朗普與內塔尼亞胡通話 要求以色列停止攻擊伊朗

頭條要聞

特朗普與內塔尼亞胡通話 要求以色列停止攻擊伊朗

體育要聞

如果你喜歡籃球,你沒理由不喜歡步行者

娛樂要聞

范瑋琪淘汰!全網熱議她的演唱失誤

財經要聞

6部門:支持居民就業增收 增強消費信心

汽車要聞

7.98萬起 firefly螢火蟲推出電池租用購車方案

態度原創

游戲
健康
家居
藝術
軍事航空

女玩家被迫“變性”?《大鏢客OL》性別暴力觸目驚心

呼吸科專家破解呼吸道九大謠言!

家居要聞

龍湖滟瀾 現代歐式混搭

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

軍事要聞

特朗普:以伊完全同意全面停火

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 阳春市| 门源| 正宁县| 台湾省| 遂宁市| 星座| 平原县| 桐乡市| 米林县| 长岛县| 鄱阳县| 惠东县| 台东县| 肃宁县| 南投市| 凤翔县| 莱州市| 绥滨县| 徐水县| 邯郸市| 怀仁县| 沧源| 永昌县| 北流市| 淮阳县| 明光市| 章丘市| 鞍山市| 溧水县| 勃利县| 读书| 巴南区| 五指山市| 安丘市| 基隆市| 曲阜市| 额尔古纳市| 肃宁县| 东明县| 沧源| 武夷山市|