99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

剛剛,小米開源了一個大模型

0
分享至


大家好,我是Ai學習的老章

剛剛小米開源了一個專為推理而生的開源大語言模型MiMo-7B

猜測是為手機端部署鋪路

下面是簡介由大模型生成,老章做了刪減和編輯

在當前大語言模型(LLM)的發展中,大多數成功的強化學習(RL)工作,包括開源研究,都依賴于相對較大的基礎模型(如 32B 參數量的模型),特別是在增強代碼推理能力方面。業界普遍認為,在小型模型中同時均衡提升數學和代碼能力是一項挑戰。

"我們相信,RL 訓練的推理模型的有效性依賴于基礎模型的內在推理潛力。要充分釋放語言模型的推理潛力,努力不僅要集中在后訓練上,還要集中在針對推理定制的預訓練策略上。"

小米 AI 實驗室推出的 MiMo-7B 系列模型正是為解決這一挑戰而生,它是一個從零開始訓練并專為推理任務設計的模型系列。通過優化的預訓練和后訓練策略,MiMo-7B 展現出了超越許多更大模型的推理潛力。

模型文件:https://huggingface.co/XiaomiMiMo/MiMo-7B-SFT
預訓練:為推理而生的基礎模型

小米團隊在預訓練階段采用了多項創新策略,使 MiMo-7B-Base 成為一個天生具備強大推理能力的基礎模型:

  1. 數據處理優化:增強文本提取工具包并應用多維數據過濾,以增加預訓練數據中的推理模式密度。同時,團隊采用多種策略生成大量多樣化的合成推理數據

  2. 三階段數據混合策略:MiMo-7B-Base 在約 25 萬億個 token 上進行預訓練,采用精心設計的三階段數據混合策略

  3. 多 token 預測(MTP):引入多 token 預測作為額外的訓練目標,這不僅增強了模型性能,還加速了推理過程

后訓練:開創性的推理模型

在基礎模型訓練完成后,團隊進一步優化了模型的推理能力:

  1. 高質量 RL 訓練數據:精心策劃了 13 萬個數學和代碼問題作為 RL 訓練數據,這些問題可以通過基于規則的驗證器進行驗證。每個問題都經過仔細清理和難度評估,以確保質量。團隊僅使用基于規則的準確性獎勵,避免潛在的獎勵黑客行為。

  2. 測試難度驅動的代碼獎勵:為了緩解具有挑戰性的代碼問題的稀疏獎勵問題,團隊引入了測試難度驅動的代碼獎勵。通過為不同難度級別的測試用例分配精細的分數,策略可以通過密集的獎勵信號更有效地優化。

  3. 數據重采樣策略:實施了簡單問題的數據重采樣策略,以提高 rollout 采樣效率并穩定策略更新,特別是在 RL 訓練的后期階段。

RL 基礎設施

為了支持高效的 RL 訓練,團隊開發了:

  1. 無縫 Rollout 引擎:加速 RL 訓練和驗證。設計集成了連續 rollout、異步獎勵計算和提前終止,以最小化 GPU 空閑時間,實現 2.29 倍更快的訓練和 1.96 倍更快的驗證。

  2. vLLM 中的 MTP 支持:在 RL 系統中支持多 token 預測并增強推理引擎的魯棒性。

實驗與結果

MiMo-7B 系列模型在多個基準測試上展現出了卓越的性能。評估是在溫度為 0.6 的條件下進行的:

  • 數學推理能力:在 AIME24、AIME25、MATH500 和 SuperGPQA 等數學推理基準測試上表現優異。

  • 代碼能力:在 LiveCodeBench v5(20240801-20250201)和 LiveCodeBench v6(20250201-20250501)上展示了強大的代碼生成和理解能力。

  • 通用推理:在 GPQA-Diamond 和 IF-Eval 等通用推理任務上也取得了良好的成績。

特別值得注意的是,MiMo-7B-RL 模型在數學和代碼推理任務上的表現與 OpenAI 的 o1-mini 相當,這對于一個僅有 7B 參數的模型來說是一個顯著的成就。


部署

MiMo-7B 系列模型提供了多種部署選項,使其易于集成到各種應用場景中:

  1. vLLM 推理(推薦):

  • 官方支持使用小米團隊的 vLLM 分支進行 MiMo-MTP 推理

  • 提供了詳細的示例腳本,便于開發者快速上手

  1. HuggingFace 推理

  • 提供了標準的 HuggingFace 接口,方便與現有生態系統集成

  • 簡單幾行代碼即可加載和使用模型

from transformers import AutoModel, AutoModelForCausalLM, AutoTokenizer model_path = "/path/to/MiMo" model = AutoModelForCausalLM.from_pretrained(model_path, trust_remote_code=True) tokenizer = AutoTokenizer.from_pretrained(model_path) inputs = tokenizer(["Today is"], return_tensors='pt') output = model.generate(**inputs, max_new_tokens = 100) print(tokenizer.decode(output.tolist()[0]))
推薦環境和提示
  • 推薦使用基于 vLLM 0.7.3 開發的小米 vLLM 分支https://github.com/XiaomiMiMo/vllm/tree/feat_mimo_mtp

  • 建議使用空系統提示(empty system prompt)以獲得最佳性能

潛在應用場景

MiMo-7B 系列模型由于其強大的推理能力,特別適合以下應用場景:

  1. 教育輔助:解決數學問題、提供編程指導

  2. 代碼開發:代碼生成、調試和優化

  3. 科學研究:輔助復雜推理和問題求解

  4. 智能助手:需要強邏輯推理能力的對話系統

結論

小米 MiMo-7B 系列模型代表了大語言模型領域的一項重要進展,特別是在小型模型中實現強大推理能力方面。通過創新的預訓練策略、精心設計的 RL 訓練方法和高效的基礎設施,MiMo-7B 模型在數學和代碼推理任務上展現出了與更大模型相媲美的性能。

這一開源模型系列為開發強大的推理 LLM 提供了寶貴的見解,將使更廣泛的社區受益。隨著模型的開源發布,我們可以期待看到更多基于 MiMo-7B 的創新應用和進一步的改進。

對于研究人員和開發者來說,MiMo-7B 系列提供了一個寶貴的資源,用于探索如何在相對較小的模型中實現強大的推理能力,這對于資源受限的環境和邊緣設備上的 AI 應用具有重要意義。

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
歐冠決賽對陣出爐:國米VS大巴黎!總身價16億歐 近21年奇景誕生

歐冠決賽對陣出爐:國米VS大巴黎!總身價16億歐 近21年奇景誕生

我愛英超
2025-05-08 05:57:09
庫里受傷!巴特勒:我可能達不到庫里的牽制力 但得盡力帶動全隊

庫里受傷!巴特勒:我可能達不到庫里的牽制力 但得盡力帶動全隊

直播吧
2025-05-07 15:22:05
央視《刑警的日子》被觀眾要求下架,理由出奇一致:毀了警察形象

央視《刑警的日子》被觀眾要求下架,理由出奇一致:毀了警察形象

她時尚丫
2025-05-07 18:13:16
莫迪政府咽不下這口氣,印軍再次突襲巴基斯坦,大量無人機闖入

莫迪政府咽不下這口氣,印軍再次突襲巴基斯坦,大量無人機闖入

大道無形我有型
2025-05-08 15:25:28
巴軍實戰給俄烏上課,印度連夜保衛新德里,臺島徹底傻眼急求對策

巴軍實戰給俄烏上課,印度連夜保衛新德里,臺島徹底傻眼急求對策

老鼜尾聲電影解說
2025-05-08 16:03:03
1-2出局!阿森納揪出1罪人:4強最差,執教5年英超+歐冠0冠

1-2出局!阿森納揪出1罪人:4強最差,執教5年英超+歐冠0冠

體育知多少
2025-05-08 06:13:05
一人燒水,全家得癌?提醒:燒水時的幾個壞習慣,你占了幾個?

一人燒水,全家得癌?提醒:燒水時的幾個壞習慣,你占了幾個?

新時代的兩性情感
2025-05-08 10:57:09
國乒教練組大調整!王曼昱新教練人選爆冷,馬龍陳夢亮相品牌活動

國乒教練組大調整!王曼昱新教練人選爆冷,馬龍陳夢亮相品牌活動

二月侃事
2025-05-07 16:00:05
Lisa內褲印「人臉圖案」掀爭議! 網放大近看…疑是民權運動之母

Lisa內褲印「人臉圖案」掀爭議! 網放大近看…疑是民權運動之母

ETtoday星光云
2025-05-07 12:55:11
70歲大爺與賣淫女山上野戰,且只與一人發生關系,大爺:她花樣多

70歲大爺與賣淫女山上野戰,且只與一人發生關系,大爺:她花樣多

胖胖侃咖
2025-04-11 08:00:10
社保養老金,太嚴峻了!

社保養老金,太嚴峻了!

保瓶兒
2025-05-07 21:10:02
正午陽光新劇《諜報上不封頂》,正式官宣肖戰,女主人選卻有四人

正午陽光新劇《諜報上不封頂》,正式官宣肖戰,女主人選卻有四人

可樂談情感
2025-05-08 14:47:14
江蘇一市兩家事業單位,擬注銷

江蘇一市兩家事業單位,擬注銷

魯中晨報
2025-05-07 18:24:01
回擊馬??!楊鳴:遼寧沒錢沒地理優勢,優秀球員不愿意來我們這

回擊馬健!楊鳴:遼寧沒錢沒地理優勢,優秀球員不愿意來我們這

雷速體育
2025-05-07 22:59:17
大雨暴雨!預警升級!河南大范圍降雨來了

大雨暴雨!預警升級!河南大范圍降雨來了

河南交通廣播1041
2025-05-08 11:57:21
常年吃海鮮,老伯身上長滿痛風石!手腳扭曲變形成“老姜” !

常年吃海鮮,老伯身上長滿痛風石!手腳扭曲變形成“老姜” !

佛山電視臺小強熱線
2025-04-20 18:05:15
佛說:當你感覺到不順時,就去做這五件事,生活會變成坦途

佛說:當你感覺到不順時,就去做這五件事,生活會變成坦途

阿珂讀書
2025-01-21 13:42:06
又能得分又能扛約老師!雷霆內線大將的作用被大家嚴重低估了?

又能得分又能扛約老師!雷霆內線大將的作用被大家嚴重低估了?

稻谷與小麥
2025-05-08 15:16:12
社保斷繳、沒繳滿15年或20年,2025年新規下,全都這樣處理

社保斷繳、沒繳滿15年或20年,2025年新規下,全都這樣處理

山丘樓評
2025-02-13 11:16:34
美上將親口承認:全球戰力最強的國家只有3個,中國排名令人意外

美上將親口承認:全球戰力最強的國家只有3個,中國排名令人意外

聽風者說
2025-01-08 20:51:49
2025-05-08 17:24:49
機器學習與Python社區 incentive-icons
機器學習與Python社區
機器學習算法與Python
2949文章數 11008關注度
往期回顧 全部

科技要聞

OpenAI任命"應用CEO" 奧特曼聚焦研究/安全

頭條要聞

國防部:做美國的朋友可能是致命的

頭條要聞

國防部:做美國的朋友可能是致命的

體育要聞

面對一群天賦怪,阿森納只能接受失敗

娛樂要聞

災難性公關 毀掉曾黎二十年人緣積累

財經要聞

57政策解讀:力度空前的系統性穩增長舉措

汽車要聞

23.68萬元起 新款途觀L Pro限時優惠5.8萬

態度原創

房產
游戲
健康
教育
軍事航空

房產要聞

廣州樓市全線飄紅!二手增長20%,一手暴漲244.7%!

游民采訪《死亡擱淺2》主創:小島的創作風格令人興奮

唇皰疹和口腔潰瘍是"同伙"嗎?

教育要聞

教育部大量撤銷的10個專業,今年高考千萬別亂報!

軍事要聞

菲35號護衛艇企圖侵闖中國黃巖島領海 南部戰區發聲

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 南郑县| 漳州市| 任丘市| 新蔡县| 色达县| 大名县| 怀安县| 巨鹿县| 香港 | 丹棱县| 石景山区| 磐石市| 出国| 康保县| 福贡县| 蓬安县| 洱源县| 罗甸县| 南川市| 团风县| 厦门市| 顺平县| 雅安市| 敦化市| 泰州市| 津南区| 潜江市| 河东区| 会同县| 庆安县| 清涧县| 桐乡市| 清水县| 庆云县| 甘孜| 铜梁县| 柏乡县| 佛山市| 肥东县| 青海省| 莒南县|