網易首頁 > 網易號 > 正文申請入駐

剛剛，小米開源了一個大模型

2025-04-30 12:54:25　來源: 機器學習與Python社區

北京舉報

分享至

大家好，我是Ai學習的老章

剛剛小米開源了一個專為推理而生的開源大語言模型MiMo-7B

猜測是為手機端部署鋪路

下面是簡介由大模型生成，老章做了刪減和編輯

在當前大語言模型（LLM）的發展中，大多數成功的強化學習（RL）工作，包括開源研究，都依賴于相對較大的基礎模型（如 32B 參數量的模型），特別是在增強代碼推理能力方面。業界普遍認為，在小型模型中同時均衡提升數學和代碼能力是一項挑戰。

"我們相信，RL 訓練的推理模型的有效性依賴于基礎模型的內在推理潛力。要充分釋放語言模型的推理潛力，努力不僅要集中在后訓練上，還要集中在針對推理定制的預訓練策略上。"

小米 AI 實驗室推出的 MiMo-7B 系列模型正是為解決這一挑戰而生，它是一個從零開始訓練并專為推理任務設計的模型系列。通過優化的預訓練和后訓練策略，MiMo-7B 展現出了超越許多更大模型的推理潛力。

模型文件：https://huggingface.co/XiaomiMiMo/MiMo-7B-SFT
預訓練：為推理而生的基礎模型

小米團隊在預訓練階段采用了多項創新策略，使 MiMo-7B-Base 成為一個天生具備強大推理能力的基礎模型：

數據處理優化：增強文本提取工具包并應用多維數據過濾，以增加預訓練數據中的推理模式密度。同時，團隊采用多種策略生成大量多樣化的合成推理數據
三階段數據混合策略：MiMo-7B-Base 在約 25 萬億個 token 上進行預訓練，采用精心設計的三階段數據混合策略
多 token 預測（MTP）：引入多 token 預測作為額外的訓練目標，這不僅增強了模型性能，還加速了推理過程

后訓練：開創性的推理模型

在基礎模型訓練完成后，團隊進一步優化了模型的推理能力：

高質量 RL 訓練數據：精心策劃了 13 萬個數學和代碼問題作為 RL 訓練數據，這些問題可以通過基于規則的驗證器進行驗證。每個問題都經過仔細清理和難度評估，以確保質量。團隊僅使用基于規則的準確性獎勵，避免潛在的獎勵黑客行為。
測試難度驅動的代碼獎勵：為了緩解具有挑戰性的代碼問題的稀疏獎勵問題，團隊引入了測試難度驅動的代碼獎勵。通過為不同難度級別的測試用例分配精細的分數，策略可以通過密集的獎勵信號更有效地優化。
數據重采樣策略：實施了簡單問題的數據重采樣策略，以提高 rollout 采樣效率并穩定策略更新，特別是在 RL 訓練的后期階段。

RL 基礎設施

為了支持高效的 RL 訓練，團隊開發了：

無縫 Rollout 引擎：加速 RL 訓練和驗證。設計集成了連續 rollout、異步獎勵計算和提前終止，以最小化 GPU 空閑時間，實現 2.29 倍更快的訓練和 1.96 倍更快的驗證。
vLLM 中的 MTP 支持：在 RL 系統中支持多 token 預測并增強推理引擎的魯棒性。

實驗與結果

MiMo-7B 系列模型在多個基準測試上展現出了卓越的性能。評估是在溫度為 0.6 的條件下進行的：

數學推理能力：在 AIME24、AIME25、MATH500 和 SuperGPQA 等數學推理基準測試上表現優異。
代碼能力：在 LiveCodeBench v5（20240801-20250201）和 LiveCodeBench v6（20250201-20250501）上展示了強大的代碼生成和理解能力。
通用推理：在 GPQA-Diamond 和 IF-Eval 等通用推理任務上也取得了良好的成績。

特別值得注意的是，MiMo-7B-RL 模型在數學和代碼推理任務上的表現與 OpenAI 的 o1-mini 相當，這對于一個僅有 7B 參數的模型來說是一個顯著的成就。

部署

MiMo-7B 系列模型提供了多種部署選項，使其易于集成到各種應用場景中：

vLLM 推理（推薦）：

官方支持使用小米團隊的 vLLM 分支進行 MiMo-MTP 推理
提供了詳細的示例腳本，便于開發者快速上手

HuggingFace 推理：

提供了標準的 HuggingFace 接口，方便與現有生態系統集成
簡單幾行代碼即可加載和使用模型

from transformers import AutoModel, AutoModelForCausalLM, AutoTokenizer model_path = "/path/to/MiMo" model = AutoModelForCausalLM.from_pretrained(model_path, trust_remote_code=True) tokenizer = AutoTokenizer.from_pretrained(model_path) inputs = tokenizer(["Today is"], return_tensors='pt') output = model.generate(**inputs, max_new_tokens = 100) print(tokenizer.decode(output.tolist()[0]))

推薦環境和提示

推薦使用基于 vLLM 0.7.3 開發的小米 vLLM 分支https://github.com/XiaomiMiMo/vllm/tree/feat_mimo_mtp
建議使用空系統提示（empty system prompt）以獲得最佳性能

潛在應用場景

MiMo-7B 系列模型由于其強大的推理能力，特別適合以下應用場景：

教育輔助：解決數學問題、提供編程指導
代碼開發：代碼生成、調試和優化
科學研究：輔助復雜推理和問題求解
智能助手：需要強邏輯推理能力的對話系統

結論

小米 MiMo-7B 系列模型代表了大語言模型領域的一項重要進展，特別是在小型模型中實現強大推理能力方面。通過創新的預訓練策略、精心設計的 RL 訓練方法和高效的基礎設施，MiMo-7B 模型在數學和代碼推理任務上展現出了與更大模型相媲美的性能。

這一開源模型系列為開發強大的推理 LLM 提供了寶貴的見解，將使更廣泛的社區受益。隨著模型的開源發布，我們可以期待看到更多基于 MiMo-7B 的創新應用和進一步的改進。

對于研究人員和開發者來說，MiMo-7B 系列提供了一個寶貴的資源，用于探索如何在相對較小的模型中實現強大的推理能力，這對于資源受限的環境和邊緣設備上的 AI 應用具有重要意義。

制作不易，如果這篇文章覺得對你有用，可否點個關注。給我個三連擊：點贊、轉發和在看。若可以再給我加個，謝謝你看我的文章，我們下篇再見！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.