大家好,我是Ai學習的老章
剛剛小米開源了一個專為推理而生的開源大語言模型MiMo-7B
猜測是為手機端部署鋪路
下面是簡介由大模型生成,老章做了刪減和編輯
在當前大語言模型(LLM)的發展中,大多數成功的強化學習(RL)工作,包括開源研究,都依賴于相對較大的基礎模型(如 32B 參數量的模型),特別是在增強代碼推理能力方面。業界普遍認為,在小型模型中同時均衡提升數學和代碼能力是一項挑戰。
"我們相信,RL 訓練的推理模型的有效性依賴于基礎模型的內在推理潛力。要充分釋放語言模型的推理潛力,努力不僅要集中在后訓練上,還要集中在針對推理定制的預訓練策略上。"
小米 AI 實驗室推出的 MiMo-7B 系列模型正是為解決這一挑戰而生,它是一個從零開始訓練并專為推理任務設計的模型系列。通過優化的預訓練和后訓練策略,MiMo-7B 展現出了超越許多更大模型的推理潛力。
模型文件:https://huggingface.co/XiaomiMiMo/MiMo-7B-SFT
預訓練:為推理而生的基礎模型
小米團隊在預訓練階段采用了多項創新策略,使 MiMo-7B-Base 成為一個天生具備強大推理能力的基礎模型:
數據處理優化:增強文本提取工具包并應用多維數據過濾,以增加預訓練數據中的推理模式密度。同時,團隊采用多種策略生成大量多樣化的合成推理數據
三階段數據混合策略:MiMo-7B-Base 在約 25 萬億個 token 上進行預訓練,采用精心設計的三階段數據混合策略
多 token 預測(MTP):引入多 token 預測作為額外的訓練目標,這不僅增強了模型性能,還加速了推理過程
在基礎模型訓練完成后,團隊進一步優化了模型的推理能力:
高質量 RL 訓練數據:精心策劃了 13 萬個數學和代碼問題作為 RL 訓練數據,這些問題可以通過基于規則的驗證器進行驗證。每個問題都經過仔細清理和難度評估,以確保質量。團隊僅使用基于規則的準確性獎勵,避免潛在的獎勵黑客行為。
測試難度驅動的代碼獎勵:為了緩解具有挑戰性的代碼問題的稀疏獎勵問題,團隊引入了測試難度驅動的代碼獎勵。通過為不同難度級別的測試用例分配精細的分數,策略可以通過密集的獎勵信號更有效地優化。
數據重采樣策略:實施了簡單問題的數據重采樣策略,以提高 rollout 采樣效率并穩定策略更新,特別是在 RL 訓練的后期階段。
為了支持高效的 RL 訓練,團隊開發了:
無縫 Rollout 引擎:加速 RL 訓練和驗證。設計集成了連續 rollout、異步獎勵計算和提前終止,以最小化 GPU 空閑時間,實現 2.29 倍更快的訓練和 1.96 倍更快的驗證。
vLLM 中的 MTP 支持:在 RL 系統中支持多 token 預測并增強推理引擎的魯棒性。
MiMo-7B 系列模型在多個基準測試上展現出了卓越的性能。評估是在溫度為 0.6 的條件下進行的:
數學推理能力:在 AIME24、AIME25、MATH500 和 SuperGPQA 等數學推理基準測試上表現優異。
代碼能力:在 LiveCodeBench v5(20240801-20250201)和 LiveCodeBench v6(20250201-20250501)上展示了強大的代碼生成和理解能力。
通用推理:在 GPQA-Diamond 和 IF-Eval 等通用推理任務上也取得了良好的成績。
特別值得注意的是,MiMo-7B-RL 模型在數學和代碼推理任務上的表現與 OpenAI 的 o1-mini 相當,這對于一個僅有 7B 參數的模型來說是一個顯著的成就。
部署
MiMo-7B 系列模型提供了多種部署選項,使其易于集成到各種應用場景中:
vLLM 推理(推薦):
官方支持使用小米團隊的 vLLM 分支進行 MiMo-MTP 推理
提供了詳細的示例腳本,便于開發者快速上手
HuggingFace 推理:
提供了標準的 HuggingFace 接口,方便與現有生態系統集成
簡單幾行代碼即可加載和使用模型
from transformers import AutoModel, AutoModelForCausalLM, AutoTokenizer model_path = "/path/to/MiMo" model = AutoModelForCausalLM.from_pretrained(model_path, trust_remote_code=True) tokenizer = AutoTokenizer.from_pretrained(model_path) inputs = tokenizer(["Today is"], return_tensors='pt') output = model.generate(**inputs, max_new_tokens = 100) print(tokenizer.decode(output.tolist()[0]))
推薦環境和提示推薦使用基于 vLLM 0.7.3 開發的小米 vLLM 分支https://github.com/XiaomiMiMo/vllm/tree/feat_mimo_mtp
建議使用空系統提示(empty system prompt)以獲得最佳性能
MiMo-7B 系列模型由于其強大的推理能力,特別適合以下應用場景:
教育輔助:解決數學問題、提供編程指導
代碼開發:代碼生成、調試和優化
科學研究:輔助復雜推理和問題求解
智能助手:需要強邏輯推理能力的對話系統
小米 MiMo-7B 系列模型代表了大語言模型領域的一項重要進展,特別是在小型模型中實現強大推理能力方面。通過創新的預訓練策略、精心設計的 RL 訓練方法和高效的基礎設施,MiMo-7B 模型在數學和代碼推理任務上展現出了與更大模型相媲美的性能。
這一開源模型系列為開發強大的推理 LLM 提供了寶貴的見解,將使更廣泛的社區受益。隨著模型的開源發布,我們可以期待看到更多基于 MiMo-7B 的創新應用和進一步的改進。
對于研究人員和開發者來說,MiMo-7B 系列提供了一個寶貴的資源,用于探索如何在相對較小的模型中實現強大的推理能力,這對于資源受限的環境和邊緣設備上的 AI 應用具有重要意義。
制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.