網易首頁 > 網易號 > 正文申請入駐

大模型推理的"左右腦"革命!華為盤古Embedded讓快慢思考合二為一

2025-05-31 18:16:01　來源: 機器之心Pro

河北舉報

分享至

機器之心發布

機器之心編輯部

孫子兵法有云：“故其疾如風，其徐如林”，意指在行進迅速時，如狂風飛旋；而在行進從容時，如森林徐徐展開。同樣，對于大模型，我們也希望其面對簡單問題時能減少思考內容，快速輸出答案。而當面對困難問題，其可以進行詳盡的思考分析，保證輸出的準確性。

傳統大模型面臨二者不可兼得的困境 —— 快思考面對復雜任務顯得力不從心，而深度思考面對簡單問題經常輸出冗余 token。為此，華為盤古團隊創新性地提出盤古 Embedded模型，在多個領域實現了高效精準推理。

基于昇騰 NPU，盤古 Embedded 采用雙系統認知架構，在一個模型中集成 “快思考” 與 “慢思考” 雙推理模式，并通過兩階段訓練及多源動態獎勵系統，實現了推理效率與精度的協同提升。

論文標題：Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition
報告地址：https://arxiv.org/abs/2505.22375

序言

大模型推理長期受制于兩大矛盾：長鏈條深度思考與低時延反饋。

為了解決這個問題，基于昇騰 NPU（Ascend Neural Processing Unit）算力，華為盤古團隊提出具備靈活切換快慢思考能力的盤古 Embedded 模型。

該模型由兩階段訓練框架得到：

在階段 1 中，模型通過迭代式蒸餾，結合訓練過程中的模型合并，以高效地聚合互補知識。RL 過程由多源指導自適應獎勵系統（MARS）指導，該系統使用確定性指標和輕量級 LLM 評估器為數學任務、編碼任務和通用任務生成動態的、特定于任務的獎勵信號。

在階段 2 中，通過雙系統框架賦予模型用于簡單任務的 “快” 模式和用于困難任務的的 “慢” 模式。該框架提供了用戶控制的手動切換以及問題難度感知的自動切換，以取得推理效率和推理深度的動態平衡。盤古 Embedded 實現了在統一的模型架構中融合快慢思考能力，為開發強大而實用的語言模型指明了方向。

昇騰親和的快慢思考融合架構：從單推理進化到雙推理

問題背景

當前主流的語言模型基于強化學習等策略實現了復雜推理，在數學和代碼基準上取得了驚人的成績。但是通常存在過度思考的問題，龐大的計算開銷限制了其更廣泛的部署應用，尤其是在資源受限的端側設備上。

基模型構建

為了系統性地解決上述問題，華為團隊在這項工作中提出了 7B 參數量的盤古 Embedded，該模型同時具備快慢思考能力。對于預訓練數據與分詞器，與該團隊之前發布的盤古 Ultra 保持一致。對于后訓練數據，引入了推理和非推理多種任務，并通過先驗過濾和多樣性檢驗，確保了訓練數據的質量和多樣性。

在訓練策略上，團隊提出了基于模型感知型迭代蒸餾（Model-aware Iterative Distillation）的 SFT 方案。這種方法不僅能夠動態選擇與模型當前能力相匹配的數據樣本進行訓練，還能通過訓練過程中的模型合并策略保留訓練早期的知識，從而實現性能的持續提升。具體細節如下：

數據合成與驗證：教師模型先為初始數據池中的問題生成答案，構建初始蒸餾數據集，并對其進行雙重數據驗證，包括規則驗證和模型驗證，以確保數據質量。
模型感知型數據難度評估：對于每個數據樣本，基于學生模型對輸入的 k 次響應與真實答案的匹配情況，計算出數據復雜度分數，以此衡量數據樣本的難易程度。
迭代訓練與動態數據選擇：在每次迭代中，根據學生模型的當前能力，選擇具有適當復雜度的數據進行訓練，以確保訓練過程的數據難度適當。
訓練迭代中的模型合并：通過計算當前迭代得到的 N 個檢查點的平均參數差異，并將其應用到前一次迭代的合并模型參數上，實現跨迭代的知識整合，避免知識遺忘，提升模型的穩定性和泛化能力。

模型感知型迭代蒸餾整體架構

重復輸出自修正

為了實現重復輸出自修正，團隊引入了局部 n-gram 重復檢測顯式 prompt 注入。其中，前者是在限定窗口內進行 n-gram 比較，以低計算量有效檢測重復 token。后者則是通過顯式注入特定的 prompt，引導模型自主脫離重復輸出。

該方案可有效避免生成長篇連貫文本時的內容重復問題，確保輸出結果的高質量。

多源自適應獎勵系統與課程數據混合策略

多源自適應獎勵系統流程

在強化學習階段，盤古 Embedded 采用了多源自適應獎勵系統（MARS），該系統融合了正確獎勵、偏好獎勵和其他獎勵三部分，保證了模型輸出的穩定性和結構完整性。

課程數據混合策略

同時，在強化學習階段，團隊還采用了課程學習策略，通過評估每個數據樣本對于當前策略的復雜性，將不同難度的樣本組合逐步反饋給模型訓練，有助于實現高效且穩定的策略更新。

基于昇騰集群的 RL 基礎架構

基于昇騰集群的 RL 基礎架構

為了實現基于昇騰的大規模 RL 訓練，團隊還設計了針對昇騰優化的高效可擴展框架。

首先，通過結合延時同步并行（Stale Synchronous Parallel）調度器分布式優先級數據隊列，該團隊解決了大規模 RL 中的協調瓶頸問題，實現了系統吞吐量的顯著提升。在 128 個節點的昇騰集群上，相較于完全同步的基線，該框架可減少 30% 的設備空閑時間，同時保持訓練的穩定性。

其次，通過主機和設備之間的自適應權重調整，實現了在訓練和推理管道之間的模型參數無縫共享。相比于孤立的訓練和推理部署，該方法可將吞吐量提升近 2 倍。

最后，通過面向昇騰的 vLLM 推理優化，降低批處理序列之間的延遲方差，從而保證在大規模批處理解碼期間的高吞吐量。

快慢思考雙系統認知結構

受認知心理學中雙過程理論的啟發，盤古 Embedded 提出雙系統認知架構，使得模型同時具備快思考（System 1）與慢思考（System 2）兩種思維能力。

三種不同的思考模式：(a) 傳統的推理模型，默認慢思考。(b) 手動切換，允許用戶手動調整快思考（System 1）與慢思考（System 2）模式。(c) 自適應切換，模型將基于任務復雜度自動切換快慢思考。

首先，團隊實現了手動切換功能，允許用戶通過給定的 meta prompt 來指定模型的認知模式，例如 META_PROMPT: system 1 和 META_PROMPT: system 2，分別指代模型采用快思考模式與慢思考模式。這種特殊的 meta prompt 獨立于 system prompt，可在避免干擾預期功能的情況下顯式指定模型的快慢思考模式。

為了將快慢思考兩種不同的能力灌輸給模型，團隊采用了融合訓練的方式：基于已經訓練好的一階段慢思考模型，輔以快慢思考混合數據進行訓練。

慢思考數據：繼續訓練部分已經掌握的慢思考數據，避免可能出現的遺忘；
快思考數據：引入新的快思考數據（直接輸出答案，或者非常短的 CoT）。

在此基礎上，分別添加 “System 2” 和 “System 1” 指令，這種訓練方式使得模型保留了深度推理能力的同時，能夠學習到快速思考的能力，并可以基于用戶的指令熟練地切換兩種模式。

此外，團隊還提出新穎的自適應切換功能，能讓模型根據任務的難度自動選擇快慢思考。

模型能力

通用評測榜單

盤古 Embedded-7B 與 Qwen3-8B、GLM-4-9B 和 Nemotron-Nano-8B 的主要對比詳見下表。

不同模型在通用領域基準測試的能力對比。盤古 Embedded 的模型參數量級為 7B。“Nothinking (system1)” 和 “Thinking (system2)” 分別對應其快思考和慢思考模式。? 表示結果來自模型官方的報告。每個數據集的最佳結果以粗體顯示。

可以看到，在慢思考和快思考模型式下，盤古 Embedded 在多項基準測試中均表現出一流的水準。

在使用 “慢思考” 模式時，盤古 Embedded 在多個推理密集型基準測試中表現出領先能力。在使用可提高推理效率的 “快思考” 模式時，盤古 Embedded 仍具有很強的競爭力。

行業垂域能力拓展性

在通用的推理能力增強之外，團隊也探索了在垂域任務的表現。以法律行業為例，團隊基于行業語料，通過合成思維過程數據、多種類型數據配比、拒絕采樣、蒸餾等技術提升模型的法律專業能力。

不同推理模型在 LawBench 基準上的能力比較

在 LawBench 為代表的法律任務中，在使用了法律領域的長思考數據繼續訓練之后，盤古 Embedded 在 17 項子任務上的表現有了進一步提高，平均準確率達到 54.59%。這些結果表明，在強大的通用推理模型基礎上，通過有針對性的繼續后訓練，還有很大的空間可以提升在專業任務上的能力水平。

自適應快慢思考模式切換

盤古 Embedded（自適應）在 MATH-500 基準測試中自主激活慢思考模式的比例分析（問題按難度分類）。說明該模型能夠根據任務復雜程度自動調整推理深度。

團隊在數學測試基準上分析了模型自動采用慢思考的問題比例。結果表明，這一比例隨任務復雜程度的不同而變化：對于相對簡單的 GSM8K 數據集，慢思考模式的使用率低至 14.56%。而在 MATH500 基準測試中，如上圖所示，使用慢思考模式的趨勢隨著問題難度的增加而單調增加。這表明，盤古 Embedded 能夠有效地自動分配推理資源，以取得計算效率和推理準確性的平衡。

總結

華為盤古團隊推出基于昇騰 NPU 開發的高效語言模型盤古 Embedded，其在同規格模型中實現了精度和速度的平衡。

該研究的核心創新在于提出的兩階段訓練框架：第一階段通過迭代蒸餾構建魯棒的基礎推理器，關鍵技術包括模型型感知數據復雜度篩選、訓練迭代間檢查點融合實現知識鞏固，以及采用延遲容忍調度器與多源自適應獎勵系統優化的大規模強化學習。第二階段創新性地賦予盤古 Embedded 雙系統快慢思考能力，兼具用戶手動切換與自適應模式選擇功能，動態平衡推理深度與計算效率，并配合重復自修正機制提升生成質量。

本研究為開發效率更高、性能更強的語言模型提供了新的路徑探索。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.