來源:機器之心
大家好,我是老章,之前推薦過小米開源的兩個7B的小模型
上上周的 2025 高考已經(jīng)落下了帷幕!在人工智能領(lǐng)域,各家大模型向數(shù)學卷發(fā)起了挑戰(zhàn)。
在機器之心的測試中,七個大模型在「2025 年數(shù)學新課標 I 卷」中的成績是這樣的:Gemini 2.5 Pro 考了 145 分,位列第一;Doubao 和 DeepSeek R1 以 144 分緊隨其后,并列第二;o3 和 Qwen3 也僅有一分之差,分別排在第三和第四。受解答題的「拖累」,hunyuan-t1-latest 和文心 X1 Turbo 的總成績排到了最后兩名。
其實,向今年數(shù)學卷發(fā)起挑戰(zhàn)的大模型還有其他家,比如Xiaomi MiMo-VL,一個只有 7B 參數(shù)的小模型。
該模型同樣挑戰(zhàn)了 2025 年數(shù)學新課標 I 卷,結(jié)果顯示,總分 139 分,與 Qwen3-235B 分數(shù)相同,并只比 OpenAI o3 低一分。
并且,相較于同樣 7B 參數(shù)的多模態(tài)大模型 Qwen2.5-VL-7B,MiMo-VL 整整高出了 56 分。
MiMo-VL-7B 和 Qwen2.5-VL-7B 是通過上傳題目截圖的形式針對多模態(tài)大模型進行評測,其余均是輸入文本 latex 進行的評測;不做 System Prompt 引導(dǎo),不開啟聯(lián)網(wǎng)搜索,直接輸出結(jié)果。
我們接下來一一看 14 道客觀題(總計 73 分)、5 道解答題(總計 77 分)的具體答題結(jié)果。
其中,MiMo-VL 在單選題中得到35 分(總分 40)。
MiMo-VL 在多選題中得到滿分(18 分)。
MiMo-VL 在填空題中同樣得到滿分(15 分)。
MiMo-VL 在解答題中得到了71 分,位列第 5,超越了 hunyuan-t1-latest、文心 X1 Turbo。
查看詳細測評截圖以及答題情況,請移步:https://rwgi1pvz1gm.feishu.cn/docx/Z8dNdScFdopPwnxMJxfcnVpnnwh
比肩 Qwen3-235B、o3
7B 小模型如何做到?
今年 4 月 30 日,小米宣布開源了首個專注于推理的大模型「Xiaomi MiMo」,推理能力全面提升。
在數(shù)學推理(AIME 24-25)和代碼競賽(LiveCodeBench v5)公開測評集上,MiMo 僅用 7B 的參數(shù)規(guī)模,超越了 OpenAI 的閉源推理模型 o1-mini 和阿里 Qwen 更大規(guī)模的開源推理模型 QwQ-32B-Preview。
一個月后,該模型經(jīng)過持續(xù)的 RL 訓(xùn)練,推理與通用能力再次大幅提升。在多個數(shù)學代碼競賽中,新版本模型 MiMo-7B-RL-0530 已經(jīng)與最強開源推理模型 DeepSeek R1 和 OpenAI 閉源推理模型 o1、o3-mini 相差無幾。
同一時間,MiMo-VL 作為 MiMo-7B 的后續(xù)版本推出,不僅在圖片、視頻、語言的通用問答和理解推理等多個任務(wù)上大幅領(lǐng)先同尺寸標桿多模態(tài)模型 Qwen2.5-VL-7B,還在 GUI Grounding 任務(wù)上比肩專用模型。
MiMo-VL 保持了 MiMo-7B 的純文本推理能力,并在多模態(tài)推理任務(wù)上,僅用 7B 參數(shù),在 OlympiadBench 以及 MathVision、MathVerse 等多個數(shù)學競賽中大幅領(lǐng)先 10 倍參數(shù)大的阿里 Qwen-2.5-VL-72B 和 QVQ-72B-Preview,也超越閉源模型 GPT-4o。
在評估真實用戶體驗的內(nèi)部大模型競技場中,MiMo-VL-7B 同樣超越了 GPT-4o,成為開源模型第一。
視覺理解能力展示。
從技術(shù)層面來看,MiMo-VL-7B 全面的視覺感知能力得益于高質(zhì)量的預(yù)訓(xùn)練數(shù)據(jù)以及創(chuàng)新的混合在線強化學習算法(Mixed On-policy Reinforcement Learning,MORL)。
一方面收集、清洗、合成了高質(zhì)量的預(yù)訓(xùn)練多模態(tài)數(shù)據(jù),涵蓋圖片 - 文本對、視頻 - 文本對、GUI 操作序列等數(shù)據(jù)類型,總計 2.4T tokens。通過分階段調(diào)整不同類型數(shù)據(jù)的比例,強化長程多模態(tài)推理的能力。
另一方面,混合文本推理、多模態(tài)感知 + 推理、RLHF 等反饋信號,并通過在線強化學習算法穩(wěn)定加速訓(xùn)練,全方位提升模型推理、感知性能和用戶體驗。
框架概覽。
目前,MiMo-VL-7B 的技術(shù)報告、模型權(quán)重和評估框架均已開源。
已開源的 RL 前后兩個模型:https://huggingface.co/XiaomiMiMo
技術(shù)報告地址:https://github.com/XiaomiMiMo/MiMo-VL/blob/main/MiMo-VL-Technical-Report.pdf
最后推薦一個我最近在學習的課程
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.