99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

剛剛,小米開源了一個大模型

0
分享至


大家好,我是Ai學習的老章

剛剛小米開源了一個專為推理而生的開源大語言模型MiMo-7B

猜測是為手機端部署鋪路

下面是簡介由大模型生成,老章做了刪減和編輯

在當前大語言模型(LLM)的發展中,大多數成功的強化學習(RL)工作,包括開源研究,都依賴于相對較大的基礎模型(如 32B 參數量的模型),特別是在增強代碼推理能力方面。業界普遍認為,在小型模型中同時均衡提升數學和代碼能力是一項挑戰。

"我們相信,RL 訓練的推理模型的有效性依賴于基礎模型的內在推理潛力。要充分釋放語言模型的推理潛力,努力不僅要集中在后訓練上,還要集中在針對推理定制的預訓練策略上。"

小米 AI 實驗室推出的 MiMo-7B 系列模型正是為解決這一挑戰而生,它是一個從零開始訓練并專為推理任務設計的模型系列。通過優化的預訓練和后訓練策略,MiMo-7B 展現出了超越許多更大模型的推理潛力。

模型文件:https://huggingface.co/XiaomiMiMo/MiMo-7B-SFT
預訓練:為推理而生的基礎模型

小米團隊在預訓練階段采用了多項創新策略,使 MiMo-7B-Base 成為一個天生具備強大推理能力的基礎模型:

  1. 數據處理優化:增強文本提取工具包并應用多維數據過濾,以增加預訓練數據中的推理模式密度。同時,團隊采用多種策略生成大量多樣化的合成推理數據

  2. 三階段數據混合策略:MiMo-7B-Base 在約 25 萬億個 token 上進行預訓練,采用精心設計的三階段數據混合策略

  3. 多 token 預測(MTP):引入多 token 預測作為額外的訓練目標,這不僅增強了模型性能,還加速了推理過程

后訓練:開創性的推理模型

在基礎模型訓練完成后,團隊進一步優化了模型的推理能力:

  1. 高質量 RL 訓練數據:精心策劃了 13 萬個數學和代碼問題作為 RL 訓練數據,這些問題可以通過基于規則的驗證器進行驗證。每個問題都經過仔細清理和難度評估,以確保質量。團隊僅使用基于規則的準確性獎勵,避免潛在的獎勵黑客行為。

  2. 測試難度驅動的代碼獎勵:為了緩解具有挑戰性的代碼問題的稀疏獎勵問題,團隊引入了測試難度驅動的代碼獎勵。通過為不同難度級別的測試用例分配精細的分數,策略可以通過密集的獎勵信號更有效地優化。

  3. 數據重采樣策略:實施了簡單問題的數據重采樣策略,以提高 rollout 采樣效率并穩定策略更新,特別是在 RL 訓練的后期階段。

RL 基礎設施

為了支持高效的 RL 訓練,團隊開發了:

  1. 無縫 Rollout 引擎:加速 RL 訓練和驗證。設計集成了連續 rollout、異步獎勵計算和提前終止,以最小化 GPU 空閑時間,實現 2.29 倍更快的訓練和 1.96 倍更快的驗證。

  2. vLLM 中的 MTP 支持:在 RL 系統中支持多 token 預測并增強推理引擎的魯棒性。

實驗與結果

MiMo-7B 系列模型在多個基準測試上展現出了卓越的性能。評估是在溫度為 0.6 的條件下進行的:

  • 數學推理能力:在 AIME24、AIME25、MATH500 和 SuperGPQA 等數學推理基準測試上表現優異。

  • 代碼能力:在 LiveCodeBench v5(20240801-20250201)和 LiveCodeBench v6(20250201-20250501)上展示了強大的代碼生成和理解能力。

  • 通用推理:在 GPQA-Diamond 和 IF-Eval 等通用推理任務上也取得了良好的成績。

特別值得注意的是,MiMo-7B-RL 模型在數學和代碼推理任務上的表現與 OpenAI 的 o1-mini 相當,這對于一個僅有 7B 參數的模型來說是一個顯著的成就。


部署

MiMo-7B 系列模型提供了多種部署選項,使其易于集成到各種應用場景中:

  1. vLLM 推理(推薦):

  • 官方支持使用小米團隊的 vLLM 分支進行 MiMo-MTP 推理

  • 提供了詳細的示例腳本,便于開發者快速上手

  1. HuggingFace 推理

  • 提供了標準的 HuggingFace 接口,方便與現有生態系統集成

  • 簡單幾行代碼即可加載和使用模型

from transformers import AutoModel, AutoModelForCausalLM, AutoTokenizer model_path = "/path/to/MiMo" model = AutoModelForCausalLM.from_pretrained(model_path, trust_remote_code=True) tokenizer = AutoTokenizer.from_pretrained(model_path) inputs = tokenizer(["Today is"], return_tensors='pt') output = model.generate(**inputs, max_new_tokens = 100) print(tokenizer.decode(output.tolist()[0]))
推薦環境和提示
  • 推薦使用基于 vLLM 0.7.3 開發的小米 vLLM 分支https://github.com/XiaomiMiMo/vllm/tree/feat_mimo_mtp

  • 建議使用空系統提示(empty system prompt)以獲得最佳性能

潛在應用場景

MiMo-7B 系列模型由于其強大的推理能力,特別適合以下應用場景:

  1. 教育輔助:解決數學問題、提供編程指導

  2. 代碼開發:代碼生成、調試和優化

  3. 科學研究:輔助復雜推理和問題求解

  4. 智能助手:需要強邏輯推理能力的對話系統

結論

小米 MiMo-7B 系列模型代表了大語言模型領域的一項重要進展,特別是在小型模型中實現強大推理能力方面。通過創新的預訓練策略、精心設計的 RL 訓練方法和高效的基礎設施,MiMo-7B 模型在數學和代碼推理任務上展現出了與更大模型相媲美的性能。

這一開源模型系列為開發強大的推理 LLM 提供了寶貴的見解,將使更廣泛的社區受益。隨著模型的開源發布,我們可以期待看到更多基于 MiMo-7B 的創新應用和進一步的改進。

對于研究人員和開發者來說,MiMo-7B 系列提供了一個寶貴的資源,用于探索如何在相對較小的模型中實現強大的推理能力,這對于資源受限的環境和邊緣設備上的 AI 應用具有重要意義。

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
600415,“大牛股”盤中跌停!發生了什么

600415,“大牛股”盤中跌停!發生了什么

新浪財經
2025-06-27 16:49:07
里夫斯拒四年8920萬續約:明夏可追五年2.46億 湖媒直言該交易他

里夫斯拒四年8920萬續約:明夏可追五年2.46億 湖媒直言該交易他

顏小白的籃球夢
2025-06-27 00:54:08
2025溫網女單簽表公布!鄭欽文首輪遇苦主,王欣瑜首輪穆霍娃

2025溫網女單簽表公布!鄭欽文首輪遇苦主,王欣瑜首輪穆霍娃

女網連連看
2025-06-27 20:30:13
“假球”都解釋不了,中國三人男籃闖進世界杯8強,劇情太狗血

“假球”都解釋不了,中國三人男籃闖進世界杯8強,劇情太狗血

真理是我親戚
2025-06-27 15:27:29
二道販子太可惡!小米yu7閑魚訂單鋪天蓋地,雷總管管吧

二道販子太可惡!小米yu7閑魚訂單鋪天蓋地,雷總管管吧

牛斯克
2025-06-27 09:31:18
張學良兒子張閭琳辭世:9歲赴美,娶陳濟棠侄女,所生兩子皆成才

張學良兒子張閭琳辭世:9歲赴美,娶陳濟棠侄女,所生兩子皆成才

柳絮憶史
2025-06-17 08:35:03
追求標準答案危害無窮

追求標準答案危害無窮

水寒說語文
2025-06-26 17:30:16
緊急避雷!“毒兒童牙膏”相繼曝光,絕非危言聳聽,家長速自查!

緊急避雷!“毒兒童牙膏”相繼曝光,絕非危言聳聽,家長速自查!

阿傖說事
2025-06-26 08:02:00
你上下行速度多少!工信部:1000Mbps及以上接入速率的固網寬帶接入達2.23億戶

你上下行速度多少!工信部:1000Mbps及以上接入速率的固網寬帶接入達2.23億戶

快科技
2025-06-25 16:18:11
這是阿嬌你敢相信嗎?看著也不胖啊!而且非常平板該有的都沒看到

這是阿嬌你敢相信嗎?看著也不胖啊!而且非常平板該有的都沒看到

素衣讀史
2025-06-21 14:13:38
硅谷殺妻案背后:于軒一從沒有被愛過,對方一直與前女友藕斷絲連

硅谷殺妻案背后:于軒一從沒有被愛過,對方一直與前女友藕斷絲連

史行途
2025-06-27 18:32:58
貝佐斯夫婦威尼斯婚禮歡迎晚宴賓客們, 小李子,卡戴珊家族等人

貝佐斯夫婦威尼斯婚禮歡迎晚宴賓客們, 小李子,卡戴珊家族等人

老吳教育課堂
2025-06-27 15:55:43
中國游戲超越日本!來自日本玩家の認可!IGN日本高度評價《歸唐》!甘肅文旅廳宣布支持開發組古跡掃描

中國游戲超越日本!來自日本玩家の認可!IGN日本高度評價《歸唐》!甘肅文旅廳宣布支持開發組古跡掃描

Steam社區
2025-06-26 11:57:21
月薪3萬offer,進去半年就廢了?高薪陷阱,正在毀掉一批年輕人…

月薪3萬offer,進去半年就廢了?高薪陷阱,正在毀掉一批年輕人…

火山詩話
2025-06-26 16:49:29
黃一鳴自曝:王思聰每次約她,車費都給10萬,來給5萬,回再給5萬

黃一鳴自曝:王思聰每次約她,車費都給10萬,來給5萬,回再給5萬

漢史趣聞
2025-06-24 10:07:59
今年養老金調整有點“小意外”,通知要7月公布嗎?誰能漲的多?

今年養老金調整有點“小意外”,通知要7月公布嗎?誰能漲的多?

小舟談歷史
2025-06-26 08:44:01
李湘和16歲女兒回國,直奔商場買鞋買衣服,王詩齡不化妝很清純

李湘和16歲女兒回國,直奔商場買鞋買衣服,王詩齡不化妝很清純

檸檬有娛樂
2025-06-27 10:13:46
補助標準99元/人,今年全國老年人免費健康體檢項目再擴容

補助標準99元/人,今年全國老年人免費健康體檢項目再擴容

每日經濟新聞
2025-06-26 21:32:42
我媽和二嬸不對付,鄰居蓋房占地二嬸吵不贏,我媽擼起袖子沖上去

我媽和二嬸不對付,鄰居蓋房占地二嬸吵不贏,我媽擼起袖子沖上去

多多故事薈
2025-06-10 09:10:03
李月汝首發狂砍15+10,主帥稱贊表現出色

李月汝首發狂砍15+10,主帥稱贊表現出色

發財西瓜
2025-06-27 12:25:38
2025-06-27 21:40:49
機器學習與Python社區 incentive-icons
機器學習與Python社區
機器學習算法與Python
3014文章數 11024關注度
往期回顧 全部

科技要聞

雷軍:小米汽車成功沒靠營銷,靠的是能力

頭條要聞

美國打擊伊朗核設施后 美軍一將領進入特朗普核心圈

頭條要聞

美國打擊伊朗核設施后 美軍一將領進入特朗普核心圈

體育要聞

曼城“庫里”連線,送尤文晚安好夢

娛樂要聞

炸裂!榜一大姐深夜怒錘頂流

財經要聞

合新鐵路建設材料以次充好 多家單位被罰

汽車要聞

配置升級/貴賓座椅 全新GL8陸上公務艙售22.99萬

態度原創

數碼
藝術
本地
房產
公開課

數碼要聞

極摩客 EVO-X2 AI 桌面主機圖賞:輕巧緊湊,銳龍AI Max+ 395加持

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

房產要聞

最強黑馬殺出!海南這些區域,教育正悄悄崛起!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 宾阳县| 张家港市| 长春市| 金沙县| 贡觉县| 徐水县| 美姑县| 张家港市| 金平| 哈巴河县| 乐安县| 吉木乃县| 南木林县| 潼关县| 阿鲁科尔沁旗| 甘南县| 蚌埠市| 盘山县| 区。| 金乡县| 永兴县| 岢岚县| 邢台市| 板桥市| 扶风县| 泉州市| 阜平县| 中方县| 乐清市| 出国| 永平县| 伊金霍洛旗| 通榆县| 白银市| 确山县| 巴东县| 双城市| 阳江市| 固镇县| 田阳县| 靖宇县|