作者|沐風
來源|AI先鋒官
既造手機又造車,既布局IoT生活家電又搞機器人的小米,堪稱科技公司中的“跨界王”。
日前,小米正式發布并宣布開源其首個“為推理而生”的大模型 Xiaomi MiMo,聯動預訓練到后訓練,全面提升推理能力。
MiMo系列共開源了4個模型,分別為MiMo-7B、MiMo-7B-RL-Zero、MiMo-7B-RL以及一個MiMo-7B監督微調(SFT)模型。
據小米官方介紹,MiMo是來自成立不久的“小米大模型 Core 團隊”的初步嘗試。
雖然是初步嘗試,但MiMo僅以7B(70億)的參數規模,就在數學推理(AIME 24-25)和代碼競賽(LiveCodeBench v5)公開測評中,超越了OpenAI的閉源推理模型o1-mini,及阿里Qwen更大規模的開源推理模型QwQ-32B-Preview。
小米技術團隊表示,MiMo推理能力的核心突破在于,預訓練與后訓練階段的協同優化。
據MiMo-7B論文介紹,小米技術團隊認為,強化學習訓練的推理模型有效性,依賴于基礎模型的內在推理潛力。
為了充分釋放語言模型的推理潛力,不僅要專注于后訓練階段,還必須致力于為推理量身定制的預訓練策略。
在預訓練階段,其模型通過挖掘高質量推理語料并合成約2000億tokens專項數據。
并且,MiMo采用了三階段數據混合策略,以增強基礎模型的推理潛力,累計訓練量達25萬億tokens。
后訓練階段,則引入創新強化學習技術,包括自研的"Test Difficulty Driven Reward"算法和"Easy Data Re-Sampling"策略,有效提升模型在復雜任務中的穩定性。
技術團隊還設計了"Seamless Rollout"系統,整合了連續采樣、異步獎勵計算以及提前終止機制,從而將GPU的閑置時間降至最低,使RL(強化學習)訓練效率提升2.29倍,驗證速度加快1.96倍。
另外,據小米團隊稱,MiMo-7B在相同RL訓練數據下,數學與代碼領域的表現,顯著優于當前業界廣泛使用的DeepSeek-R1-Distill-7B和Qwen2.5-32B模型。
但就目前推出的MiMo-7B來看,僅僅只是超越了 OpenAI的o1-mini,其距離最先進的水平還是有一段路要走。
不過,小米并非是半路入局大模型。
早在2023年,小米創始人雷軍就表示,自2016年組建AI團隊以來,到2023年4月第一時間成立專職大模型團隊,經過多次擴展,小米AI團隊相關人員規模已達3000多人。
去年11月,小米被傳出內部成立了AI平臺部發力AI大模型,由張鐸擔任負責人。
張鐸曾在2016年至2021年期間在小米負責開源工作的規劃與推進,2021年離開小米后曾入職神策數據擔任研發負責人和首席架構師,2024年9月再度回歸小米。
去年12月,小米又被曝出正著手搭建了自己的GPU萬卡集群,將對AI大模型進行大力投入。
值得一提的是,在2024年小米集團營收3659億元創歷史新高,選擇當下進軍AGI、發力AI大模型可謂“糧草”充足。
隨著小米的加入,2025年AI開源大模型下半場的競爭或許將變得更加激烈。
掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。
往期文章回顧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.