99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

沉迷貪吃蛇,7B小模型竟變身「數學天才」!幾何推理碾壓GPT-4o

0
分享至

  

  新智元報道

  編輯:犀牛

  【新智元導讀】NVIDIA等研究團隊提出了一種革命性的AI訓練范式——視覺游戲學習ViGaL。通過讓7B參數的多模態模型玩貪吃蛇和3D旋轉等街機游戲,AI不僅掌握了游戲技巧,還培養出強大的跨領域推理能力,在數學、幾何等復雜任務上擊敗GPT-4o等頂級模型。

  你肯定玩過貪吃蛇游戲。

  或許是在諾基亞的單色屏幕上,或許是在童年教室的文曲星里,又或者在喧囂街機游戲廳里的一角。

  我們控制著那條像素小蛇,笨拙地轉向,只為去吃掉一個又一個憑空出現的豆子。

  規則十分簡單,又很明確:吃掉食物,變長;撞到墻壁或者自己,游戲結束。

  如果將一個AI扔進這個游戲里,不給它灌輸任何人類的數學公式或者幾何定理,會發生什么呢?

  它會變得更擅長玩游戲?沒錯。

  但讓人沒想到的是,通過游戲的訓練,這個AI還可以成為一位「數學天才」!

  近日,來自萊斯大學、約翰霍普金斯大學以及英偉達的研究人員特別研究了這樣的問題。

  結果顯示,一個沉迷于街機游戲的7B參數MLLM(多模態大模型),竟然在復雜的數學和幾何推理任務上,一舉擊敗了GPT-4o這樣的頂級閉源大模型。

  

  論文地址:https://www.arxiv.org/pdf/2506.08011

  這為我們揭示了一個足以顛覆AI訓練范式的驚人現實。

  研究者發現,AI從貪吃蛇這類簡單游戲中領悟到的,并非只是如何通關的技巧,而是一種更加底層、更通用的認知能力——一種可以跨領域遷移的「直覺」與推理能力。

  也許,智能并不一定只是來源于海量知識的「壓縮」,也可能蘊藏于最簡單的規則和最純粹的游戲之中。

  ViGaL:視覺游戲學習

  研究者提出了一種新的后訓練范式:ViGaL(Visual Game Learning,視覺游戲學習 )。

  通過讓模型玩類似街機的小游戲,來幫助MLLM發展出跨領域的推理能力。

  如圖1所示,研究者證明了對一個7B參數的多模態模型Qwen2.5-VL-7B進行后訓練,讓它玩類似「貪吃蛇」這樣的簡單街機游戲,不僅能泛化到其他游戲,還在多模態數學基準(如MathVista)和多學科問答(如MMMU)上獲得了顯著的跨領域能力提升。

  盡管在RL訓練中從未見過任何解題過程、方程或圖表,模型的性能不僅超越了像GPT-4o這樣的頂級大模型,還超過了在領域內數據集上后訓練過的專用模型。

  

  更重要的是,模型在多模態推理上的提升并未犧牲其通用視覺能力,而專用模型通常做不到這一點。

  有意思的是,最近一直有研究人員質疑RL是否需要領域內的標準答案,本文的結論則能進一步證明,領域內問題本身可能都不重要。

  為什么有效?

  研究者假設玩游戲可以培養一些通用的認知能力或技能,比如空間理解和順序規劃,這些技能可以遷移到多模態推理任務中。

  相比在數學問題上進行監督微調(SFT)或RL,游戲訓練可能激勵模型形成更靈活的思維方式和策略。

  他們的消融實驗支持了這種觀點,提示和獎勵設計在實現有效學習方面都起著關鍵作用。

  研究者還發現,不同游戲強調不同的推理能力。

  比如,「貪吃蛇」提升了與2D坐標相關的數學問題表現。

  而「旋轉」是一個識別3D物體旋轉角度的問題,可以在角度和長度相關的數學問題上令模型表現更好。

  如圖2所示,模型經過思考選擇一個動作,輸出其思維鏈和決策。例如,最佳/最差移動或預測角度,并獲得獎勵。

  通過游戲,模型獲得推理能力,并將其遷移到下游多模態推理任務中,如數學和多學科問答。

  

  更加令人振奮的是,同時訓練這兩個游戲比單獨訓練任一游戲的表現更優。

  這意味著游戲訓練具有可擴展性。

  這可真是太棒了!對于模型來說,簡直就是玩的越多,學的越多。

  這些實驗結果都表明,除了收集特定領域的數據,還可以設計可擴展、可控的前置游戲(pre-text games),來激發模型產生能泛化到下游任務的推理能力。(圖3)

  

  使用兩種類型的泛化來評估所提出的ViGaL:(a) 分布外泛化,即在我們的視覺游戲上訓練的模型在未見的Atari游戲上進行測試;以及(b) 領域外泛化,即僅在游戲任務上訓練的模型在多種多模態推理任務上進行評估,包括數學推理、幾何問題解決、CLEVR+上的3D理解以及MMMU系列上的多學科推理

  合成游戲環境可以提供結構化、基于規則的獎勵信號,具有高度的可控性,這使得通過難度規劃(difficulty scheduling)來實現穩定的RL成為可能。

  值得一提的是,這些合成環境中進行數據擴展,要比收集人工標注的數據容易得多。

  總之,這些發現揭示了一個極具前景的新范式——使用游戲這類合成任務進行后訓練。

  這讓人聯想到了自監督學習在計算機視覺和自然語言處理領域的崛起:在精心設計的合成前置任務上進行預訓練,最終都帶來了強大的泛化能力。

  實驗結果

  如表2所示,本文的方法在數學任務上的表現顯著優于專門針對數學任務進行RL訓練的模型。

  例如,ViGaL Snake + Rotation在數學任務上的準確率比MM-Eureka-Qwen-7B高出0.5%,在幾何任務上高出28.7%!

  盡管MM-Eureka-Qwen-7B使用了高質量的數學和幾何數據集進行明確訓練。

  

  這種強大的泛化能力不僅限于數學領域。

  表3顯示,ViGaL Snake + Rotation在MMMU系列基準測試中的平均表現比R1-OneVision-7B高出5.4%,這些基準測試評估了多學科推理能力。

  這一結果尤為引人注目,因為R1-OneVision-7B模型使用了涵蓋多個學科的精心策劃的綜合數據集進行訓練。

  

  混合多種游戲可增強泛化能力。

  如上表2所示,在Snake游戲上進行后訓練在CLEVR+基準測試中取得最佳性能,而在Rotation游戲上訓練則在幾何推理任務中表現出更強的結果。

  它們的比較優勢在圖5中進一步說明。

  有意思的是,Snake模型在表達式和坐標方面提升最為明顯,這些任務與蛇模型的二維網格相關。旋轉模型在角度和長度推理方面有所改進,這反映了它對三維物體旋轉的關注。

  正值表示ViGaL Snake模型取得更好的結果,負值表示ViGaL旋轉模型表現優于Snake模型的程度

  同時在 Snake 和 Rotation 游戲上訓練模型,使其能夠從兩種環境中學習互補技能,從而將整體基準測試平均成績提高到63.1%。

  這些發現表明,結合多樣化的游戲環境可以顯著提升性能。

  

  這展示了視覺游戲學習(ViGaL)作為一種有前景的訓練范式,能夠增強可泛化的推理能力,而無需大規模的領域特定數據。

  在增強推理能力的同時保持通用視覺能力。

  為了全面檢驗推理任務上的泛化是否會導致通用視覺能力的下降,研究者在更廣泛的MLLM基準測試集上評估了ViGaL Snake + Rotation。

  如表4所示,與RL調優前的Qwen2.5-VL-7B相比,模型在保持相當的通用視覺性能的同時,取得了更強的數學推理結果。

  相比之下,其他通過RL后訓練提升數學性能的模型通常在通用視覺能力上表現出顯著下降。

  

  這些結果表明,本文的游戲后訓練方法能夠在增強推理能力的同時,有效保持通用視覺能力。

  參考資料:

  https://www.arxiv.org/abs/2506.08011

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
伊朗為何不主動倒向中國?

伊朗為何不主動倒向中國?

華山穹劍
2025-06-20 21:02:05
重大逆轉!伊朗, 援兵到了!

重大逆轉!伊朗, 援兵到了!

大嘴說天下
2025-06-21 22:05:04
恐怖的10-0!王欣瑜2-0爆冷奪冠?獎金高達102萬元

恐怖的10-0!王欣瑜2-0爆冷奪冠?獎金高達102萬元

體育就你秀
2025-06-22 18:05:03
那爾那茜恐涼涼!官方通報不到48小時,傳來3大重磅消息

那爾那茜恐涼涼!官方通報不到48小時,傳來3大重磅消息

叨嘮
2025-06-23 02:10:06
罕見!25年來第一次,中國跌至世界第三,釋放不尋常信號

罕見!25年來第一次,中國跌至世界第三,釋放不尋常信號

張嘴說財經
2025-06-03 14:02:16
秘密外交失敗,整個西方都想讓哈梅內伊垮臺!

秘密外交失敗,整個西方都想讓哈梅內伊垮臺!

漢唐光輝
2025-06-22 16:55:34
2813枚核彈24小時待命,張召忠發出警告:一旦開戰無處可逃

2813枚核彈24小時待命,張召忠發出警告:一旦開戰無處可逃

青途歷史
2025-06-20 20:34:06
大慶鐵鍋燉坑人后續!商家“死亡威脅”,已報案!官方也出手整治

大慶鐵鍋燉坑人后續!商家“死亡威脅”,已報案!官方也出手整治

鋭娛之樂
2025-06-21 18:57:06
河南3-2浙江晉級將戰申花,王上源、鐘義浩互相傳射,卡多索絕殺

河南3-2浙江晉級將戰申花,王上源、鐘義浩互相傳射,卡多索絕殺

懂球帝
2025-06-22 21:38:54
去了趟陜西西安,真心建議:不要隨便去陜西西安,除非你知道這些

去了趟陜西西安,真心建議:不要隨便去陜西西安,除非你知道這些

小嵩
2025-06-21 09:47:30
蔚來 ZERO 碳纖維智能折疊電單車預訂:支持車機互聯,7999 元

蔚來 ZERO 碳纖維智能折疊電單車預訂:支持車機互聯,7999 元

IT之家
2025-06-21 13:59:18
僅次于核武器的最強炸彈!美國一口氣投下10多枚…最新:伊朗發起第19輪打擊,“不會停止發展核工業”

僅次于核武器的最強炸彈!美國一口氣投下10多枚…最新:伊朗發起第19輪打擊,“不會停止發展核工業”

上觀新聞
2025-06-22 14:22:07
真男人!汪峰凌晨首曬森林北合照,我們好著呢,親自辟謠寧靜緋聞

真男人!汪峰凌晨首曬森林北合照,我們好著呢,親自辟謠寧靜緋聞

魚樂大使
2025-06-22 10:25:57
老祖宗常告誡“勿近白虎”,“白虎”究竟是什么?真有這么可怕嗎

老祖宗常告誡“勿近白虎”,“白虎”究竟是什么?真有這么可怕嗎

大千世界觀
2025-05-22 16:57:05
這下伊朗麻煩了,大批F-22緊急支援以色列,下手不狠的惡果凸顯

這下伊朗麻煩了,大批F-22緊急支援以色列,下手不狠的惡果凸顯

李春光
2025-06-22 11:55:02
感知力偏差有多嚴重?網友:買了3斤棉花填充抱枕,結果做成被了!

感知力偏差有多嚴重?網友:買了3斤棉花填充抱枕,結果做成被了!

特約前排觀眾
2025-06-22 00:05:08
罷免通過即解職,臺選委會確認;柯建銘欲取代韓國瑜,賴清德配合

罷免通過即解職,臺選委會確認;柯建銘欲取代韓國瑜,賴清德配合

獵火照狼山
2025-06-22 21:01:45
美襲擊伊朗后,伊朗外長最新表態:特朗普欺騙了自己的選民,他曾承諾不再卷入“永久戰爭”

美襲擊伊朗后,伊朗外長最新表態:特朗普欺騙了自己的選民,他曾承諾不再卷入“永久戰爭”

環球網資訊
2025-06-22 18:05:59
周杰倫還能活多久?近照曝光表情痛苦臉色發黑,曾仕強的話說對了

周杰倫還能活多久?近照曝光表情痛苦臉色發黑,曾仕強的話說對了

娛樂看阿敞
2025-06-21 15:45:31
過分19歲董禹含攔網得分激動慶祝,遭意大利黑人選手招手挑釁

過分19歲董禹含攔網得分激動慶祝,遭意大利黑人選手招手挑釁

直播吧
2025-06-22 21:59:14
2025-06-23 02:56:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12929文章數 66077關注度
往期回顧 全部

科技要聞

"你應該靠嘴吃飯",羅永浩自述被梁文鋒勸退

頭條要聞

伊朗投入5萬億美元的核項目遭摧毀 哈梅內伊面臨抉擇

頭條要聞

伊朗投入5萬億美元的核項目遭摧毀 哈梅內伊面臨抉擇

體育要聞

中國女排0-3意大利 香港站3勝1負收官

娛樂要聞

離婚四年!趙麗穎被曝新戀情惹爭議

財經要聞

蘋果后院起火

汽車要聞

首搭華為雙王牌/6月24日預售 嵐圖FREE+正式下線

態度原創

時尚
本地
家居
藝術
公開課

伊姐周日熱推:電視劇《完美的救贖》;電視劇《書卷一夢》......

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

家居要聞

山水之間 墨染風雨云間

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 保定市| 靖州| 马尔康县| 公安县| 定日县| 井陉县| 三原县| 长乐市| 古田县| 菏泽市| 陆河县| 重庆市| 盈江县| 自治县| 郑州市| 吕梁市| 永清县| 呼图壁县| 伊吾县| 永宁县| 道孚县| 合川市| 耒阳市| 芜湖市| 绥中县| 台南县| 正宁县| 四川省| 乌拉特后旗| 宝应县| 宁河县| 梁河县| 牡丹江市| 手游| 安顺市| 南安市| 唐山市| 博罗县| 林甸县| 南木林县| 巩义市|