網易首頁 > 網易號 > 正文申請入駐

小米大模型升級第二代：云邊端結合模型矩陣賦能「人車家全生態」

2024-11-12 18:36:01　來源: 科技先生

山東舉報

分享至

2023年作為AI大模型的發展“元年”，見證了人工智能技術在全球范圍內的跨越式發展。這一年，AI浪潮以前所未有的勢頭進行著革命性的突破，重塑了產業格局。在這場技術變革中，小米憑借獨特的技術洞察，開創性地提出了將"輕量化、本地部署"作為突破點，業界第一個在手機芯片NPU上跑通十億參數規模大語言模型，驗證了端側小模型在部分目標場景可以取得媲美云端大模型的效果。

2023年8月小米首次發布小米自研大模型并跑通端側

而過去的這一年多時間里，國內自主研發的大模型生態系統日趨完善，在激烈的市場競爭中，技術迭代周期不斷壓縮，大模型的產業落地進程明顯加速，與此同時，多模態技術與智能體等前沿領域正在開啟技術創新的新篇章，成為引領行業發展的新動能。

在模型規模方面，我們見證了一個極具特色的發展趨勢：

· 向下突破：面向端側部署的輕量級模型蓬勃發展（如Phi-mini-3.8B、Gemma-2B等），為邊緣計算提供了更多可能

· 向上拓展：大規模云端模型持續進化（如Llama3.1-405B、Mistral-105B等），以滿足高性能計算需求

這種"雙向突破"的技術路線，不僅展現了AI技術的極致追求，更彰顯了其在實際應用中的靈活適配能力。

在此行業背景下，小米大模型團隊亦專注于提升自研大模型的模型能力和「端」「云」協同的落地效果，力求以行業領先的AI能力全面賦能「人車家全生態」戰略，實現多個場景下的無縫銜接，為用戶提供全方位的智能服務，打造更加智慧和便捷的生活體驗。而小米第二代自研大模型的推出無疑是這一戰略的重要支撐點。

目前小米大模型已經實現了從一代到二代（MiLM2）的升級迭代。此次迭代不僅擴充了訓練數據的規模、提升了數據的品質，更在訓練策略與微調機制上進行了深入打磨，增強了技術實力并全面升級了配套的部署技術。小米第二代大語言模型的幾個主要升級是：

· 第二代大語言模型豐富了模型的參數矩陣，參數規模同時向下和向上擴充，實現了云邊端結合，參數尺寸最小為0.3B，最大為30B；

· 第二代大語言模型在10大能力維度上，相比于第一代模型平均提升超過45%，其中指令跟隨、翻譯、閑聊等對于智能助手而言比較關鍵的能力上，效果處于業界前列；

· 第二代大語言模型在端側部署上支持3種推理加速方案，包括大小模型投機、BiTA、Medusa，并且自研量化方案相比于業界標準高通方案，量化損失降低78%；

· 第二代大語言模型支持的最長窗口為200k（第一代為4k），在長文本評測中，效果處于業界前列。

01 小米自研大模型技術探索與創新

小米大模型團隊在預訓練、后訓練、量化、推理加速等方向做了大量的技術探索和創新，并將部分成果以論文的形式發布出來，推動大模型技術的發展。

在2024年，小米大模型團隊發表了11篇論文（5篇ACL、3篇EMNLP、1篇NeurIPS、1篇ECAI、1篇COLING），申請了30+項發明專利，其中部分代表性的工作如下：

· SUBLLM（https://github.com/XiaoMi/subllm）：基于transformer結構，創新性地提出了一種新的模型結構，設計了Subsampling、Upsampling和Bypass等新模塊，使得模型能夠區分重要token和不重要token，針對重要tokens花更多的算力學習，保持few shot能力不變的同時，訓練和推理速度分別提升34%和52%，對標Google Deepmind的mixture of depths工作，兼容現有attention based大模型生態。

· TransAct 大模型結構化剪枝方法（https://arxiv.org/abs/2407.05690）：為了在大模型上同時實現高度壓縮和較小損失，小米大模型團隊設計了 TransAct 剪枝方法。本方法以減小 Transformer 模塊內隱藏表征維度為目標，以各神經元的激活值大小為依據，剪除激活值較小的神經元，形成類低秩表示的模塊結構，同時保留 LayerNorm 等對擾動敏感的模塊間隱藏表征維度。對比之前業界最佳的剪枝方法，TransAct方法剪枝模型的KV Cache下降了50%，推理速度提升了20%（小米14手機測試）。

· INTRADoc注意力機制（https://arxiv.org/abs/2402.13991）：通過屏蔽無關文檔，讓每個token的概率僅取決于同一文檔中的上文信息，進而消除了來自之前無關文檔的潛在干擾信息，并顯著地提高了模型上下文學習、知識記憶、上下文利用能力。

· Mixture of Diverse Size Experts (https://arxiv.org/abs/2409.12210)：一種新的MoE結構，名字叫MoDSE，在每一層中設計大小不同的專家結構，并同時引入了一種專家對分配策略，以在多個 GPU 之間均勻分配工作負載。在多個基準測試中，MoDSE 通過自適應地將參數預算分配給專家，在保持總參數量和專家個數相同的情況下，表現優于傳統 MoE 結構。

02 MiLM2實力進階，二代效果全方位提升

二代模型MiLM2系列融合多項前沿技術，實現技術能力升級的同時模型效果全面超越前代，其中，MiLM2-6B模型與MiLM2-1.3B模型經過進一步升級打磨，實力更上一層樓

小米大模型團隊采用自主構建的通用能力評測集Mi-LLMBM2.0，對最新一代的MiLM2模型進行了全方位評估。該評測集涵蓋了廣泛的應用場景，包括生成、腦暴、對話、問答、改寫、摘要、分類、提取、代碼處理以及安全回復等10個大類，共計170個細分測試項。以MiLM2-1.3B模型和MiLM2-6B模型為例，對比去年發布的一代模型，在十大能力上的效果均有大幅提升，平均提升幅度超過45%。

小米的「人車家全生態」戰略，旨在構建一個涵蓋人、車、家等多元化生活場景的超級智能生態系統。在這個系統內，實時交互成為常態，每時每刻都需要精確對接用戶千差萬別的個性化需求，這對于大模型的生成、閑聊、翻譯等能力提出了更高的要求。在這些關鍵能力上，MiLM2-6B模型的評測成績十分優異，對比業內同參數規模模型也有較優的效果。

03 MiLM2模型矩陣，云邊端結合賦能「人車家全生態」

MiLM2模型矩陣主要在參數規模和模型結構兩個方面打造縱深，目的是為了適應多元化的業務場景并在小米生態中挖掘更多的落地場景

大模型的迭代，也是一個重點突破、打磨模型矩陣的動態過程。在堅持輕量化部署的大原則下，小米自研大模型團隊充分考慮了集團內部多元化的業務場景及不同落地場景的資源限制，構建并不斷擴充了自研大模型的模型矩陣，將大模型的參數規模靈活擴展至0.3B、0.7B、1.3B、2.4B、4B、6B、13B、30B等多個量級，以適應不同場景下的需求。

· 0.3B~6B：終端（on-device）場景，應用時通常是一項非常具體的、低成本的任務，提供不同參數規模的模型以適配不同芯片及存儲空間的終端設備，微調后可以達到百億參數內開源模型效果。

· 6B、13B：在任務明確、且需要比6B以下參數模型提供更多的零樣本zero-shot/上下文學習時，6B和13B是一個可能有LLM涌現能力的起點，支持多任務微調，微調后可以達到幾百億開源模型的效果。

· 30B：云端場景，具備相當堅實的zero-shot/上下文學習或一些泛化能力，模型推理能力較好，能夠完成復雜的多任務，基本達到通用大模型水平。

小米自研大模型矩陣不僅包含多樣的參數量級，同時也納入了各種不同的模型結構。在二代模型系列中，大模型團隊特別加入了兩個MoE（Mixture of Experts，即混合專家模型）結構的模型：

· MiLM2-0.7B×8

· MiLM2-2B×8

兩個模型的差異主要體現在訓練總參數量、詞表大小等方面。MoE模型的工作原理是將多個承擔特定功能的“專家”模型進行并行處理，進而綜合各模型的輸出來提高整體預測的準確度和效率。以MiLM2-2B×8為例，根據評測結果，該模型在整體性能上與MiLM2-6B不相上下、表現出色，而解碼速度實現了50%的提升，在保證模型性能不打折扣的同時，提升了其運行效率。

04 「端」「云」并重：4B模型端側落地，30B模型云端部署

端側新增4B模型

小米是全球最大的 IoT 設備制造商，不僅需要解決 AI 大模型在終端設備上如何高效部署的問題，攻克存儲空間和內存帶寬等方面的難題，還需在各類場景中確保用戶的隱私和數據安全。去年，小米的大模型團隊在端側部署方面取得了顯著進展，使小米成為業界首個在移動設備上成功運行1.3B和6B大模型的公司。隨著二代大模型的迭代更新，端側部署技術也有了新的突破，新的 4B 模型將在端側發揮更重要的作用。

小米大模型團隊創新性地提出了“TransAct 大模型結構化剪枝方法”，僅用8%的訓練計算量即從6B模型剪枝了4B模型，訓練效率大大提升；同時小米大模型團隊自研了“基于權重轉移的端側量化方法”和“基于Outliers分離的端側量化方法”，大幅降低了端側量化的精度損失，對比業界標準高通方案，量化損失下降78%。MiLM2-4B模型總共40 層，實際總參數量為3.5B，目前已經實現在端側部署落地。

· Qwen2.5-3B：Qwen2.5-LLM: Extending the boundary of LLMs (GPQA, BBH, Winogrande, GSM8K, MATH, MBPP-Plus) and OpenCompass (DROP, MULTI-NLI, WorldSense)

· Llama3.2-3B：Evaluate with OpenCompass and Llama-3.2-3B model weight

· Qwen2.5-3B-Instruct結果采用FollowBench和IFEval官方代碼測試

云端新增30B模型

MiLM2-30B 模型是小米二代大模型系列中參數量級最大的模型，專為云端場景設計。在云端環境中，大模型面臨著多樣化和高難度的挑戰，需要更高效地遵從并執行用戶的復雜指令，深入分析多維度任務，并在長上下文中精準定位信息。針對這些重點目標，大模型團隊選擇了一系列開源的評測集，對 MiLM2-30B 模型的專項能力進行評估。結果表明，MiLM2-30B 模型在指令遵循、常識推理和閱讀理解能力方面均有超越主流競品的出色表現，具體的評測集和評測結果如下：

· GPT-3.5和GPT-4：FollowBench，IFEval (Zhou et al., 2023)

· Qwen2.5-32B-Instruct結果采用FollowBench和IFEval官方代碼測試

· Llama3.1-70B：The Llama3 Herd of Models

· Qwen2.5-32B：Qwen2.5-LLM: Extending the boundary of LLMs (GSM8K, MATH, winogrande) and OpenCompass (Drop)

· Qwen2.5-32B-Instruct結果采用https://github.com/THUDM/LongBench代碼測試得到，包含所有中文和代碼測試集

目前，小米第二代自研大模型取得的進步和成果，已經開始滲透到真實的業務場景與用戶需求中，不僅幫助集團內部解決了多樣化的業務需求、實現工作提效，也已經在澎湃OS、小愛同學、智能座艙、智能客服中開始應用落地。

未來，小米大模型團隊將持續探索前沿技術，不斷突破自我，以期在云邊端結合的框架下，實現自研大模型的全面升級與應用，為用戶提供更加智能、便捷、個性化的服務。同時，團隊還將緊密圍繞「人車家全生態」場景，深入挖掘用戶需求，不斷優化產品功能，致力于打造一個更加智能、安全、舒適的生活環境，讓科技更好地服務于人類生活。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.