網易首頁 > 網易號 > 正文申請入駐

剛剛，華為盤古大模型5.5問世！推理、智能體能力大爆發

2025-06-20 22:42:45　來源: 機器之心Pro

河北舉報

分享至

機器之心報道

編輯：杜偉、Panda

在國產大模型領域，華為盤古大模型一直是比較獨特的存在。

該系列模型強調「不作詩，只做事」，深耕行業，賦能千行百業，推動產業智能化升級。從盤古 1.0 到盤古 5.0，華為專注于用大模型解決實際產業問題，并獲得了市場的廣泛認可。

就在剛剛，在華為開發者大會 2025（HDC 2025）上，華為重磅發布了盤古大模型 5.5，其中自然語言處理（NLP）能力比肩國際一流模型，并在多模態世界模型方面做到全國首創。

此次，全新升級的盤古大模型 5.5 包含了五大基礎模型，分別面向NLP多模態預測科學計算CV領域，進一步推動大模型成為行業數智化轉型的核心動力。

華為常務董事、華為云 CEO 張平安正式發布盤古大模型 5.5

會上，華為諾亞方舟實驗室主任王云鶴對該系列模型的核心技術進行了大揭秘。

王云鶴

此次，盤古 5.5 在 NLP 領域主要有三大模型組成，即盤古 Ultra MoE盤古 Pro MoE盤古 Embedding；以及快慢思考合一的高效推理策略、盤古深度研究產品DeepDiver

我們接下來一一來看。

盤古 Ultra MoE

準萬億級別模型

盤古 Ultra MoE是 7180 億參數的 MoE 深度思考模型。作為一個準萬億參數級別的大模型，該模型基于昇騰全棧軟硬件協同打造，做到了國內領先、比肩世界一流水平。

訓練超大規模和極高稀疏性的 MoE 模型極具挑戰，訓練過程中的穩定性往往難以保障。針對這一難題，華為盤古團隊在模型架構和訓練方法上進行了創新性設計，成功地在基于昇騰 NPU 打造的「下一代 AI 數據中心架構」CloudMatrix384 集群上實現了準萬億 MoE 模型的全流程訓練。

具體來講，盤古團隊提出了 Depth-Scaled Sandwich-Norm（DSSN）穩定架構和 TinyInit 小初始化的方法，在昇騰 NPU 上實現了 10+T token 數據的長期穩定訓練。此外，華為還提出了 EP group loss 負載優化方法，這一設計不僅保證各個專家之間能保持較好的負載均衡，也提升專家的領域特化能力。同時，Pangu Ultra MoE 使用了業界先進的 MLA 和 MTP 架構，在訓練時使用了 Dropless 訓練策略。

得益于此，該模型具備了高效長序列、高效思考、DeepDiver、低幻覺等核心能力，并在知識推理、自然科學、數學等領域的大模型榜單上位列前沿。

更多技術細節可訪問盤古 Ultra MoE 的技術報告或我們之前的報道《還得是華為！Pangu Ultra MoE 架構：不用 GPU，你也可以這樣訓練準萬億 MoE 大模型》：

報告地址：https://arxiv.org/pdf/2505.04519

盤古 Pro MoE 大模型

比肩 DeepSeek-R1

盤古 Pro MoE是一個 72B A16B 的模型，即每次工作時會激活其中 160 億參數。

王云鶴透露，該模型也代表盤古系列模型首次參與了外部打榜。在剛剛發布的五月底 SuperCLUE 榜單上，盤古 Pro MoE 在千億參數量以內的模型中，排行并列國內第一。

https://www.superclueai.com

可以看到，其在智能體任務上打榜成績甚至比肩 6710 億參數的 DeepSeek-R1，在文本理解和創作領域也達到開源模型的第一名。

據介紹，該模型是針對昇騰硬件特性進行了大量仿真建模之后得到的最優架構，尤其適配 300I Duo 推理芯片的寬度、深度、專家數等。

此外，華為還針對不同芯片上專家負載不均衡的問題，提出了分組混合專家 MoGE 算法。該算法可實現跨芯片計算的負載均衡，從而顯著提升盤古訓推系統的吞吐效率。

MoGE 架構設計示意圖。N 個專家被均勻劃分為 M 個不重疊的組并且每一個組內激活相同數量的專家。

最終，這些創新讓盤古 Pro MoE 可在 300I Duo 上實現每秒 321 token 的吞吐量，而在性能更強大的 800I A2 上，吞吐速度更是可達每秒 1529 token，領先同規模業界模型 15% 以上。

華為已經在 5 月底發布了盤古 Pro MoE 的技術報告，感興趣的讀者可通過以下鏈接擴展閱讀。另外，我們之前也已經報道過該模型：《華為盤古首次露出，昇騰原生 72B MoE 架構，SuperCLUE 千億內模型并列國內第一》。

項目地址：https://gitcode.com/ascend-tribe/pangu-pro-moe

盤古 Embedding（7B）

小身手、大能量

華為也推出了一個相當能打的 7B 級小模型盤古 Embedding。該模型在學科知識、編碼、數學和對話能力方面均優于同期同規模模型。

華為是如何做到這一點的呢？王云鶴介紹了一些重點：

在后訓練階段使用漸進式 SFT 和多維度獎勵的強化學習，這提高了模型的推理能力。
針對長序列進行了重點優化，為此華為提出了 Adaptive SWA 和 ESA 兩項關鍵技術來降低在長序列的場景中的計算量和 KV Cache；也由此，盤古 Embedding 可以相當輕松地應對 100 萬 token 長度的上下文。
針對幻覺問題，華為提出了知識邊界判定、結構化思考驗證等創新方案，從而實現了模型推理準確度的提升。

同樣地，該模型的技術報告也已經在 5 月底發布。

報告地址：https://arxiv.org/pdf/2505.22375

高效推理方案

自適應快慢思考合一

如今，以 DeepSeek-R1 為代表的思考模型受到了業界的廣泛關注。思考模型又可以分為慢思考模型與快思考模型，其中慢思考模型普遍存在的過度思考問題受到了業界的廣泛關注。

對于簡單的問題（比如 1+1 等于幾），快思考模型平均只需要十幾個 token 就能解決，而慢思考卻需要幾百甚至上千個 token。這就導致用戶體驗不佳，對于行業應用部署也有不利影響。目前業界已有的一些方案通過 prompt 隔離進行切換，但這樣做并不能真正地自動感知問題的難易程度。

為解決該問題，華為提出了自適應快慢思考合一技術，構建難度感知的快慢思考數據并提出兩階段漸進訓練策略，讓盤古模型可以根據問題難易程度自適應地切換快慢思考。這就達成了這樣一種效果：簡單問題快速回復，復雜問題深度思考，整體推理效率可以提升高達 8 倍。

不僅如此，華為還針對慢思考模式提出了反思投機和反思壓縮等策略，在精度無損的情況下減少 50% 的慢思考時間，讓盤古大模型不僅推理得準，速度還快。

盤古 DeepDiver

華為的 Deep Research 來了

進入到 2025 年，大模型的基礎能力不再是廠商關注的唯一，模型應用同樣受到高度重視。

其中，以深度研究（Deep Research）為代表的新一代 Agent 在科學助手、個性化教育以及復雜的行業報告調研等場景展現出了比傳統大模型更強的能力。

不過，這類 Agent 在實際應用中面臨著很多技術挑戰，比如規劃步數多、策略空間大、序列超長、信息噪聲大等，這些不可避免地影響到執行效率和準確率。

針對這一挑戰，華為發布了開放域信息獲取 Agent——盤古 DeepDiver，在網頁搜索、常識性問答等應用中，它可以讓盤古 7B 大模型實現接近 DeepSeek-R1 這種超大模型的效果。

如何做到的呢？據王云鶴介紹，首先根據實際場景構建大量的合成交互數據，并通過漸進式獎勵策略等優化方法，在開放環境進行強化學習訓練。

效果不俗之外，執行效率也非常高，盤古 DeepDiver 可以在 5 分鐘內完成超過 10 跳的復雜問答，并生成萬字以上的專業調研報告。

得益于 DeepDiver，盤古大模型的自主規劃、探索、反思等高階能力得到了前所未有地加強。

更多技術細節請訪問相應技術報告或我們之前的報道《真實聯網搜索 Agent，7B 媲美滿血 R1，華為盤古 DeepDiver 給出開域信息獲取新解法》。

報告地址：https://arxiv.org/pdf/2505.24332

除了以上幾大 NLP 大模型之外，盤古 5.5 還覆蓋了以下幾個領域的大模型：

盤古預測大模型：采用業界首創的 triplet transformer 統一預訓練架構，將不同行業的數據進行統一的三元組編碼，并在同一框架內高效處理和預訓練，極大地提升預測大模型的精度，并大幅提升跨行業、跨場景的泛化性。
盤古科學計算大模型：華為云持續拓展盤古科學計算大模型與更多科學應用領域的結合。比如深圳氣象局基于盤古進一步升級「智霽」大模型，首次實現 AI 集合預報，能更直觀地反映天氣系統的演變可能性，減少單一預報模型的誤差。
盤古計算機視覺 CV 大模型：華為云發布全新 MoE 架構的 300 億參數視覺大模型，這是目前業界最大的視覺模型，并全面支持圖像、紅外、激光點云、光譜、雷達等多維度、泛視覺的感知、分析與決策。另外盤古 CV 大模型通過跨維度生成模型，構建油氣、交通、煤礦等工業場景稀缺的泛視覺故障樣本庫，極大地提升了業務場景的可識別種類與精度。
盤古多模態大模型：全新發布基于盤古多模態大模型的世界模型，可以為智能駕駛、具身智能機器人的訓練，構建所需要的數字物理空間，實現持續優化迭代。例如，在智能駕駛領域，輸入首幀的行車場景、行車控制信息和路網數據，盤古世界模型就可以生成每路攝像頭的行車視頻和激光雷達的點云，能夠為智能駕駛生成大量的訓練數據，而無需依賴高成本的路采。

至此，盤古大模型 5.5 通過多樣化的架構與算法創新（如 MoE、深度思考、Triplet Transformer、自適應快慢思考），不僅在核心技術能力上達到領先水平，更在科學計算、工業預測、氣象預報、能源優化、智能駕駛等關鍵應用領域展現出強大的落地價值和變革潛力。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.