99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

高考數學斬獲139分!小米7B模型比肩Qwen3-235B、OpenAI o3

0
分享至



機器之心報道

機器之心編輯部

上上周的 2025 高考已經落下了帷幕!在人工智能領域,各家大模型向數學卷發(fā)起了挑戰(zhàn)。

在機器之心的測試中,七個大模型在「2025 年數學新課標 I 卷」中的成績是這樣的:Gemini 2.5 Pro 考了 145 分,位列第一;Doubao 和 DeepSeek R1 以 144 分緊隨其后,并列第二;o3 和 Qwen3 也僅有一分之差,分別排在第三和第四。受解答題的「拖累」,hunyuan-t1-latest 和文心 X1 Turbo 的總成績排到了最后兩名。

其實,向今年數學卷發(fā)起挑戰(zhàn)的大模型還有其他家,比如Xiaomi MiMo-VL,一個只有 7B 參數的小模型

該模型同樣挑戰(zhàn)了 2025 年數學新課標 I 卷,結果顯示,總分 139 分,與 Qwen3-235B 分數相同,并只比 OpenAI o3 低一分

并且,相較于同樣 7B 參數的多模態(tài)大模型 Qwen2.5-VL-7B,MiMo-VL 整整高出了 56 分



MiMo-VL-7B 和 Qwen2.5-VL-7B 是通過上傳題目截圖的形式針對多模態(tài)大模型進行評測,其余均是輸入文本 latex 進行的評測;不做 System Prompt 引導,不開啟聯網搜索,直接輸出結果。

我們接下來一一看 14 道客觀題(總計 73 分)、5 道解答題(總計 77 分)的具體答題結果。

其中,MiMo-VL 在單選題中得到35 分(總分 40)。



MiMo-VL 在多選題中得到滿分(18 分)



MiMo-VL 在填空題中同樣得到滿分(15 分)



MiMo-VL 在解答題中得到了71 分,位列第 5,超越了 hunyuan-t1-latest、文心 X1 Turbo。



查看詳細測評截圖以及答題情況,請移步:https://rwgi1pvz1gm.feishu.cn/docx/Z8dNdScFdopPwnxMJxfcnVpnnwh

比肩 Qwen3-235B、o3

7B 小模型如何做到?

今年 4 月 30 日,小米宣布開源了首個專注于推理的大模型「Xiaomi MiMo」,推理能力全面提升。

在數學推理(AIME 24-25)和代碼競賽(LiveCodeBench v5)公開測評集上,MiMo 僅用 7B 的參數規(guī)模,超越了 OpenAI 的閉源推理模型 o1-mini 和阿里 Qwen 更大規(guī)模的開源推理模型 QwQ-32B-Preview。

一個月后,該模型經過持續(xù)的 RL 訓練,推理與通用能力再次大幅提升。在多個數學代碼競賽中,新版本模型 MiMo-7B-RL-0530 已經與最強開源推理模型 DeepSeek R1 和 OpenAI 閉源推理模型 o1、o3-mini 相差無幾。



同一時間,MiMo-VL 作為 MiMo-7B 的后續(xù)版本推出,不僅在圖片、視頻、語言的通用問答和理解推理等多個任務上大幅領先同尺寸標桿多模態(tài)模型 Qwen2.5-VL-7B,還在 GUI Grounding 任務上比肩專用模型。



MiMo-VL 保持了 MiMo-7B 的純文本推理能力,并在多模態(tài)推理任務上,僅用 7B 參數,在 OlympiadBench 以及 MathVision、MathVerse 等多個數學競賽中大幅領先 10 倍參數大的阿里 Qwen-2.5-VL-72B 和 QVQ-72B-Preview,也超越閉源模型 GPT-4o。



在評估真實用戶體驗的內部大模型競技場中,MiMo-VL-7B 同樣超越了 GPT-4o,成為開源模型第一。



視覺理解能力展示。

從技術層面來看,MiMo-VL-7B 全面的視覺感知能力得益于高質量的預訓練數據以及創(chuàng)新的混合在線強化學習算法(Mixed On-policy Reinforcement Learning,MORL)

一方面收集、清洗、合成了高質量的預訓練多模態(tài)數據,涵蓋圖片 - 文本對、視頻 - 文本對、GUI 操作序列等數據類型,總計 2.4T tokens。通過分階段調整不同類型數據的比例,強化長程多模態(tài)推理的能力。

另一方面,混合文本推理、多模態(tài)感知 + 推理、RLHF 等反饋信號,并通過在線強化學習算法穩(wěn)定加速訓練,全方位提升模型推理、感知性能和用戶體驗。



框架概覽。

目前,MiMo-VL-7B 的技術報告、模型權重和評估框架均已開源。



  • 已開源的 RL 前后兩個模型:https://huggingface.co/XiaomiMiMo
  • 技術報告地址:https://github.com/XiaomiMiMo/MiMo-VL/blob/main/MiMo-VL-Technical-Report.pdf

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
邵佳一:趙發(fā)慶是老前輩,相信他能把大連鯤城帶到很高的水平

邵佳一:趙發(fā)慶是老前輩,相信他能把大連鯤城帶到很高的水平

懂球帝
2025-06-21 22:01:18
我繳10萬,可一查才發(fā)現,個人賬戶僅4萬,剩下的6萬元被“吞噬”

我繳10萬,可一查才發(fā)現,個人賬戶僅4萬,剩下的6萬元被“吞噬”

社保精算師
2025-03-25 20:47:03
美記:如果步行者贏下搶七,將成為NBA歷史以最大黑馬身份奪冠的球隊

美記:如果步行者贏下搶七,將成為NBA歷史以最大黑馬身份奪冠的球隊

雷速體育
2025-06-21 07:37:31
俗語“過了夏至節(jié),夫妻各自歇”,是什么意思?聽聽老祖宗的忠告

俗語“過了夏至節(jié),夫妻各自歇”,是什么意思?聽聽老祖宗的忠告

金沛的國學筆記
2025-06-21 17:44:44
不愿相信!凱特缺席賽馬會是因病情危急,此前已有化療面具征兆

不愿相信!凱特缺席賽馬會是因病情危急,此前已有化療面具征兆

李橑在北漂
2025-06-21 09:01:46
美航母去中東后,解放軍上強度50架軍機四面圍島,島內亂成一鍋粥

美航母去中東后,解放軍上強度50架軍機四面圍島,島內亂成一鍋粥

大道無形我有型
2025-06-20 14:51:10
重磅!湖人已瞄準灰熊DPOY猛將?美記爆驚天交易方案!

重磅!湖人已瞄準灰熊DPOY猛將?美記爆驚天交易方案!

田先生籃球
2025-06-21 12:21:17
事件大反轉?趙一鳴被搶后續(xù),知情人爆更多信息,稱店員指使

事件大反轉?趙一鳴被搶后續(xù),知情人爆更多信息,稱店員指使

歸史
2025-06-21 14:38:39
一天5個瓜,被曝懷孕、人設崩塌,娛樂圈的瓜一個比一個勁爆

一天5個瓜,被曝懷孕、人設崩塌,娛樂圈的瓜一個比一個勁爆

觀察鑒娛
2025-06-21 15:02:50
這個畢設,尺度真大!

這個畢設,尺度真大!

MICU設計
2025-06-18 11:23:49
海外最強華裔!土媒:費內巴切將報價1000萬歐,求購華裔中場天樂

海外最強華裔!土媒:費內巴切將報價1000萬歐,求購華裔中場天樂

直播吧
2025-06-20 17:00:17
發(fā)廊一店員跪著給顧客洗頭,男顧客很享受,網友:感覺有些擦邊

發(fā)廊一店員跪著給顧客洗頭,男顧客很享受,網友:感覺有些擦邊

唐小糖說情感
2025-06-17 09:40:21
死傷數倍于鄰國也要咬下人家一塊土地這場戰(zhàn)爭與俄烏戰(zhàn)爭何其相似

死傷數倍于鄰國也要咬下人家一塊土地這場戰(zhàn)爭與俄烏戰(zhàn)爭何其相似

通往遠方的路
2025-05-12 09:50:32
底層百姓越來越感覺到社保已經變成他們買不起的奢侈品!

底層百姓越來越感覺到社保已經變成他們買不起的奢侈品!

逍遙論經
2025-06-15 10:25:36
中甲門將微博爆雷!李平康再曝猛料:現役國腳級球員已被帶走

中甲門將微博爆雷!李平康再曝猛料:現役國腳級球員已被帶走

銜春信
2025-06-21 07:53:42
步行者3-3雷霆,搶七大戰(zhàn)誰奪冠?名嘴蘇群7字回應,NBA掌控不了

步行者3-3雷霆,搶七大戰(zhàn)誰奪冠?名嘴蘇群7字回應,NBA掌控不了

河山銳新聞
2025-06-21 11:44:16
2813枚核彈24小時待命,張召忠發(fā)出警告:一旦開戰(zhàn)無處可逃

2813枚核彈24小時待命,張召忠發(fā)出警告:一旦開戰(zhàn)無處可逃

青途歷史
2025-06-20 20:34:06
申請離隊,李月汝官宣,原因找到,女籃計劃或打亂,李夢祝福

申請離隊,李月汝官宣,原因找到,女籃計劃或打亂,李夢祝福

樂聊球
2025-06-05 10:11:21
原來那兒納茜同學沒說謊!清北近半學生,不是直接高考考進去的

原來那兒納茜同學沒說謊!清北近半學生,不是直接高考考進去的

深析古今
2025-06-21 22:47:43
王石再預測中國未來房地產走向:若無意外,大概率又是對的!

王石再預測中國未來房地產走向:若無意外,大概率又是對的!

巢客HOME
2025-03-21 09:10:03
2025-06-21 23:55:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
10687文章數 142343關注度
往期回顧 全部

科技要聞

Siri有救了?蘋果被曝正討論史上最大收購

頭條要聞

官方通報那爾那茜有關情況:涉嫌高考報名材料造假

頭條要聞

官方通報那爾那茜有關情況:涉嫌高考報名材料造假

體育要聞

王欣瑜:資格賽差點要退賽 夢幻般的一周

娛樂要聞

離婚7年,楊冪逆襲碾壓劉愷威

財經要聞

租金大撤退!房東正在批量跑路!

汽車要聞

扔掉"舊地圖”一汽-大眾大眾品牌要找"新大陸"

態(tài)度原創(chuàng)

教育
藝術
手機
健康
軍事航空

教育要聞

2025北京高招變數大!這些志愿填報的坑,千萬別踩!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

手機要聞

曝REDMI K90系列影像新升級:評估豪威OV50Q主攝

呼吸科專家破解呼吸道九大謠言!

軍事要聞

伊朗展示破壞力最強導彈

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 沂水县| 金溪县| 蓬安县| 前郭尔| 四川省| 梨树县| 崇信县| 龙泉市| 丹东市| 黄梅县| 富川| 花莲市| 肥乡县| 池州市| 湖北省| 盖州市| 沙湾县| 泸水县| 改则县| 城口县| 买车| 嘉善县| 宜良县| 康平县| 交城县| 东莞市| 临夏县| 三河市| 甘泉县| 孟州市| 江西省| 玉山县| 布尔津县| 剑阁县| 岳阳市| 张北县| 瑞昌市| 宁海县| 杭锦旗| 新竹县| 阿克苏市|