99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

高考數學斬獲139分!小米7B模型比肩Qwen3-235B、OpenAI o3

0
分享至



機器之心報道

機器之心編輯部

上上周的 2025 高考已經落下了帷幕!在人工智能領域,各家大模型向數學卷發起了挑戰。

在機器之心的測試中,七個大模型在「2025 年數學新課標 I 卷」中的成績是這樣的:Gemini 2.5 Pro 考了 145 分,位列第一;Doubao 和 DeepSeek R1 以 144 分緊隨其后,并列第二;o3 和 Qwen3 也僅有一分之差,分別排在第三和第四。受解答題的「拖累」,hunyuan-t1-latest 和文心 X1 Turbo 的總成績排到了最后兩名。

其實,向今年數學卷發起挑戰的大模型還有其他家,比如Xiaomi MiMo-VL,一個只有 7B 參數的小模型

該模型同樣挑戰了 2025 年數學新課標 I 卷,結果顯示,總分 139 分,與 Qwen3-235B 分數相同,并只比 OpenAI o3 低一分

并且,相較于同樣 7B 參數的多模態大模型 Qwen2.5-VL-7B,MiMo-VL 整整高出了 56 分



MiMo-VL-7B 和 Qwen2.5-VL-7B 是通過上傳題目截圖的形式針對多模態大模型進行評測,其余均是輸入文本 latex 進行的評測;不做 System Prompt 引導,不開啟聯網搜索,直接輸出結果。

我們接下來一一看 14 道客觀題(總計 73 分)、5 道解答題(總計 77 分)的具體答題結果。

其中,MiMo-VL 在單選題中得到35 分(總分 40)。



MiMo-VL 在多選題中得到滿分(18 分)



MiMo-VL 在填空題中同樣得到滿分(15 分)



MiMo-VL 在解答題中得到了71 分,位列第 5,超越了 hunyuan-t1-latest、文心 X1 Turbo。



查看詳細測評截圖以及答題情況,請移步:https://rwgi1pvz1gm.feishu.cn/docx/Z8dNdScFdopPwnxMJxfcnVpnnwh

比肩 Qwen3-235B、o3

7B 小模型如何做到?

今年 4 月 30 日,小米宣布開源了首個專注于推理的大模型「Xiaomi MiMo」,推理能力全面提升。

在數學推理(AIME 24-25)和代碼競賽(LiveCodeBench v5)公開測評集上,MiMo 僅用 7B 的參數規模,超越了 OpenAI 的閉源推理模型 o1-mini 和阿里 Qwen 更大規模的開源推理模型 QwQ-32B-Preview。

一個月后,該模型經過持續的 RL 訓練,推理與通用能力再次大幅提升。在多個數學代碼競賽中,新版本模型 MiMo-7B-RL-0530 已經與最強開源推理模型 DeepSeek R1 和 OpenAI 閉源推理模型 o1、o3-mini 相差無幾。



同一時間,MiMo-VL 作為 MiMo-7B 的后續版本推出,不僅在圖片、視頻、語言的通用問答和理解推理等多個任務上大幅領先同尺寸標桿多模態模型 Qwen2.5-VL-7B,還在 GUI Grounding 任務上比肩專用模型。



MiMo-VL 保持了 MiMo-7B 的純文本推理能力,并在多模態推理任務上,僅用 7B 參數,在 OlympiadBench 以及 MathVision、MathVerse 等多個數學競賽中大幅領先 10 倍參數大的阿里 Qwen-2.5-VL-72B 和 QVQ-72B-Preview,也超越閉源模型 GPT-4o。



在評估真實用戶體驗的內部大模型競技場中,MiMo-VL-7B 同樣超越了 GPT-4o,成為開源模型第一。



視覺理解能力展示。

從技術層面來看,MiMo-VL-7B 全面的視覺感知能力得益于高質量的預訓練數據以及創新的混合在線強化學習算法(Mixed On-policy Reinforcement Learning,MORL)

一方面收集、清洗、合成了高質量的預訓練多模態數據,涵蓋圖片 - 文本對、視頻 - 文本對、GUI 操作序列等數據類型,總計 2.4T tokens。通過分階段調整不同類型數據的比例,強化長程多模態推理的能力。

另一方面,混合文本推理、多模態感知 + 推理、RLHF 等反饋信號,并通過在線強化學習算法穩定加速訓練,全方位提升模型推理、感知性能和用戶體驗。



框架概覽。

目前,MiMo-VL-7B 的技術報告、模型權重和評估框架均已開源。



  • 已開源的 RL 前后兩個模型:https://huggingface.co/XiaomiMiMo
  • 技術報告地址:https://github.com/XiaomiMiMo/MiMo-VL/blob/main/MiMo-VL-Technical-Report.pdf

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
2-0!2萬球迷昏昏欲睡!梅西無可奈何的球隊轟然倒下,恩佐嗨翻天

2-0!2萬球迷昏昏欲睡!梅西無可奈何的球隊轟然倒下,恩佐嗨翻天

bwb足球算個球
2025-06-17 06:07:28
一場2-0爆冷,鄭欽文虧大了!澳網冠軍轟然出局,中國一姐后悔嗎

一場2-0爆冷,鄭欽文虧大了!澳網冠軍轟然出局,中國一姐后悔嗎

大秦壁虎白話體育
2025-06-18 00:22:10
比房價下跌更讓人操心的事情,2025年退休人員,可能要過苦日子了

比房價下跌更讓人操心的事情,2025年退休人員,可能要過苦日子了

小談食刻美食
2025-06-16 16:32:23
升學傳聞沸沸揚揚,一言不發的那爾那茜,終于不再顧及所謂的體面

升學傳聞沸沸揚揚,一言不發的那爾那茜,終于不再顧及所謂的體面

廣西阿妹香香
2025-06-17 15:17:03
不愧是李夢最好的朋友!武桐桐公開發聲,李夢5字暗示不公待遇

不愧是李夢最好的朋友!武桐桐公開發聲,李夢5字暗示不公待遇

史行途
2025-06-17 14:06:13
中國六代機正面曝光,雙座艙內掛霹靂17,美媒:美本土不再安全

中國六代機正面曝光,雙座艙內掛霹靂17,美媒:美本土不再安全

胖福的小木屋
2025-06-16 23:53:21
以色列暫停飛往其他國家航班

以色列暫停飛往其他國家航班

財聯社
2025-06-17 21:51:07
巴黎本可能成為LV首個官方合作俱樂部,但皇馬聲望和球星效應更強

巴黎本可能成為LV首個官方合作俱樂部,但皇馬聲望和球星效應更強

直播吧
2025-06-17 23:50:22
云南三地發布人事任免職通知

云南三地發布人事任免職通知

云南新聞廣播
2025-06-17 17:32:49
國鐵 12306 上線汽車托運小程序,北京運至深圳 2289 元等

國鐵 12306 上線汽車托運小程序,北京運至深圳 2289 元等

IT之家
2025-06-17 18:58:30
宋暉同志逝世

宋暉同志逝世

新京報
2025-06-17 17:46:07
如果中國強行拖船,菲律賓將視為宣戰,話音剛落,解放軍直接攤牌

如果中國強行拖船,菲律賓將視為宣戰,話音剛落,解放軍直接攤牌

小lu侃侃而談
2025-06-16 20:31:01
普京給伊以打電話,態度明確:將為伊方提供實質性支援外一切幫助

普京給伊以打電話,態度明確:將為伊方提供實質性支援外一切幫助

力波看世界
2025-06-18 00:27:55
G7峰會特朗普提前離場,臨走前當著他國首腦,突然說想讓東大加入

G7峰會特朗普提前離場,臨走前當著他國首腦,突然說想讓東大加入

阿龍聊軍事
2025-06-17 15:44:06
霍思燕被偶遇,看著并不胖也就110斤,發縫好大鼻子上多了顆痣

霍思燕被偶遇,看著并不胖也就110斤,發縫好大鼻子上多了顆痣

八怪娛
2025-06-17 09:32:51
有人在馬筱梅視頻下留言:大S最美,馬筱梅的回應堪比教科書!

有人在馬筱梅視頻下留言:大S最美,馬筱梅的回應堪比教科書!

鑫鑫說說
2025-06-17 13:52:45
這個月數據,真特么難看?

這個月數據,真特么難看?

混知房產
2025-06-17 09:12:35
凌晨5點!李夢發文,回擊宮魯鳴,徹底撕破臉,最后一句意味深長

凌晨5點!李夢發文,回擊宮魯鳴,徹底撕破臉,最后一句意味深長

三哥搞笑侃球
2025-06-17 08:55:10
炸裂!有望簽下5年3億美元!雷霆選秀眼光逆天

炸裂!有望簽下5年3億美元!雷霆選秀眼光逆天

籃球實戰寶典
2025-06-17 19:37:45
理想MEGA上市50天大定超7000單 10%的人對比問界M9

理想MEGA上市50天大定超7000單 10%的人對比問界M9

手機中國
2025-06-16 18:13:04
2025-06-18 01:44:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10663文章數 142339關注度
往期回顧 全部

科技要聞

51歲劉強東談幾年前"退休":當時太理想主義

頭條要聞

救護車轉運重癥患兒800公里收費28000元 衛健委回應

頭條要聞

救護車轉運重癥患兒800公里收費28000元 衛健委回應

體育要聞

杰威40+6雷霆3-2步行者 SGA31+10

娛樂要聞

重男輕女還雌競?朱丹行為引爭議

財經要聞

白酒股崩了,誰在“拋棄”茅臺?

汽車要聞

高級感拉滿 極氪9X全新配色“極晝白”亮相

態度原創

親子
旅游
時尚
房產
手機

親子要聞

女兒把所有的積蓄給我買了一個榴蓮

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

作品全下架+嚴重車禍:陳學冬的逆襲何時到來?

房產要聞

又一城購房補貼!買房就發錢,正在海南樓市瘋狂擴散!

手機要聞

三星折疊屏新機預熱開啟,預計為 Galaxy Z Fold7

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 合江县| 明溪县| 长泰县| 英德市| 禹城市| 永和县| 日土县| 崇义县| 讷河市| 灵宝市| 桂东县| 启东市| 凌云县| 旌德县| 高台县| 韶关市| 永德县| 奉节县| 什邡市| 济宁市| 遂溪县| 青田县| 九江县| 扬中市| 屏东县| 汨罗市| 白玉县| 淮安市| 建瓯市| 玉溪市| 乃东县| 阿拉善左旗| 江津市| 霍山县| 昭觉县| 柏乡县| 阿勒泰市| 钟祥市| 祁阳县| 金门县| 招远市|