99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

剛剛,華為盤古大模型5.5問世!推理、智能體能力大爆發

0
分享至

機器之心報道

編輯:杜偉、Panda

在國產大模型領域,華為盤古大模型一直是比較獨特的存在。

該系列模型強調「不作詩,只做事」,深耕行業,賦能千行百業,推動產業智能化升級。從盤古 1.0 到盤古 5.0,華為專注于用大模型解決實際產業問題,并獲得了市場的廣泛認可。

就在剛剛,在華為開發者大會 2025(HDC 2025)上,華為重磅發布了盤古大模型 5.5,其中自然語言處理(NLP)能力比肩國際一流模型,并在多模態世界模型方面做到全國首創。

此次,全新升級的盤古大模型 5.5 包含了五大基礎模型,分別面向NLP多模態預測科學計算CV領域,進一步推動大模型成為行業數智化轉型的核心動力。



華為常務董事、華為云 CEO 張平安正式發布盤古大模型 5.5

會上,華為諾亞方舟實驗室主任王云鶴對該系列模型的核心技術進行了大揭秘。



王云鶴

此次,盤古 5.5 在 NLP 領域主要有三大模型組成,即盤古 Ultra MoE盤古 Pro MoE盤古 Embedding;以及快慢思考合一的高效推理策略、盤古深度研究產品DeepDiver

我們接下來一一來看。

盤古 Ultra MoE

準萬億級別模型

盤古 Ultra MoE是 7180 億參數的 MoE 深度思考模型。作為一個準萬億參數級別的大模型,該模型基于昇騰全棧軟硬件協同打造,做到了國內領先、比肩世界一流水平。

訓練超大規模和極高稀疏性的 MoE 模型極具挑戰,訓練過程中的穩定性往往難以保障。針對這一難題,華為盤古團隊在模型架構和訓練方法上進行了創新性設計,成功地在基于昇騰 NPU 打造的「下一代 AI 數據中心架構」CloudMatrix384 集群上實現了準萬億 MoE 模型的全流程訓練。

具體來講,盤古團隊提出了 Depth-Scaled Sandwich-Norm(DSSN)穩定架構和 TinyInit 小初始化的方法,在昇騰 NPU 上實現了 10+T token 數據的長期穩定訓練。此外,華為還提出了 EP group loss 負載優化方法,這一設計不僅保證各個專家之間能保持較好的負載均衡,也提升專家的領域特化能力。同時,Pangu Ultra MoE 使用了業界先進的 MLA 和 MTP 架構,在訓練時使用了 Dropless 訓練策略。

得益于此,該模型具備了高效長序列、高效思考、DeepDiver、低幻覺等核心能力,并在知識推理、自然科學、數學等領域的大模型榜單上位列前沿。

更多技術細節可訪問盤古 Ultra MoE 的技術報告或我們之前的報道《還得是華為!Pangu Ultra MoE 架構:不用 GPU,你也可以這樣訓練準萬億 MoE 大模型》:



報告地址:https://arxiv.org/pdf/2505.04519

盤古 Pro MoE 大模型

比肩 DeepSeek-R1

盤古 Pro MoE是一個 72B A16B 的模型,即每次工作時會激活其中 160 億參數。



王云鶴透露,該模型也代表盤古系列模型首次參與了外部打榜。在剛剛發布的五月底 SuperCLUE 榜單上,盤古 Pro MoE 在千億參數量以內的模型中,排行并列國內第一。



https://www.superclueai.com

可以看到,其在智能體任務上打榜成績甚至比肩 6710 億參數的 DeepSeek-R1,在文本理解和創作領域也達到開源模型的第一名。

據介紹,該模型是針對昇騰硬件特性進行了大量仿真建模之后得到的最優架構,尤其適配 300I Duo 推理芯片的寬度、深度、專家數等。

此外,華為還針對不同芯片上專家負載不均衡的問題,提出了分組混合專家 MoGE 算法。該算法可實現跨芯片計算的負載均衡,從而顯著提升盤古訓推系統的吞吐效率。



MoGE 架構設計示意圖。N 個專家被均勻劃分為 M 個不重疊的組并且每一個組內激活相同數量的專家。

最終,這些創新讓盤古 Pro MoE 可在 300I Duo 上實現每秒 321 token 的吞吐量,而在性能更強大的 800I A2 上,吞吐速度更是可達每秒 1529 token,領先同規模業界模型 15% 以上。

華為已經在 5 月底發布了盤古 Pro MoE 的技術報告,感興趣的讀者可通過以下鏈接擴展閱讀。另外,我們之前也已經報道過該模型:《華為盤古首次露出,昇騰原生 72B MoE 架構,SuperCLUE 千億內模型并列國內第一》。



項目地址:https://gitcode.com/ascend-tribe/pangu-pro-moe

盤古 Embedding(7B)

小身手、大能量

華為也推出了一個相當能打的 7B 級小模型盤古 Embedding。該模型在學科知識、編碼、數學和對話能力方面均優于同期同規模模型。



華為是如何做到這一點的呢?王云鶴介紹了一些重點:

  1. 在后訓練階段使用漸進式 SFT 和多維度獎勵的強化學習,這提高了模型的推理能力。
  2. 針對長序列進行了重點優化,為此華為提出了 Adaptive SWA 和 ESA 兩項關鍵技術來降低在長序列的場景中的計算量和 KV Cache;也由此,盤古 Embedding 可以相當輕松地應對 100 萬 token 長度的上下文。
  3. 針對幻覺問題,華為提出了知識邊界判定、結構化思考驗證等創新方案,從而實現了模型推理準確度的提升。

同樣地,該模型的技術報告也已經在 5 月底發布。



報告地址:https://arxiv.org/pdf/2505.22375

高效推理方案

自適應快慢思考合一

如今,以 DeepSeek-R1 為代表的思考模型受到了業界的廣泛關注。思考模型又可以分為慢思考模型與快思考模型,其中慢思考模型普遍存在的過度思考問題受到了業界的廣泛關注。

對于簡單的問題(比如 1+1 等于幾),快思考模型平均只需要十幾個 token 就能解決,而慢思考卻需要幾百甚至上千個 token。這就導致用戶體驗不佳,對于行業應用部署也有不利影響。目前業界已有的一些方案通過 prompt 隔離進行切換,但這樣做并不能真正地自動感知問題的難易程度。

為解決該問題,華為提出了自適應快慢思考合一技術,構建難度感知的快慢思考數據并提出兩階段漸進訓練策略,讓盤古模型可以根據問題難易程度自適應地切換快慢思考。這就達成了這樣一種效果:簡單問題快速回復,復雜問題深度思考,整體推理效率可以提升高達 8 倍。



不僅如此,華為還針對慢思考模式提出了反思投機和反思壓縮等策略,在精度無損的情況下減少 50% 的慢思考時間,讓盤古大模型不僅推理得準,速度還快。

盤古 DeepDiver

華為的 Deep Research 來了

進入到 2025 年,大模型的基礎能力不再是廠商關注的唯一,模型應用同樣受到高度重視。

其中,以深度研究(Deep Research)為代表的新一代 Agent 在科學助手、個性化教育以及復雜的行業報告調研等場景展現出了比傳統大模型更強的能力。

不過,這類 Agent 在實際應用中面臨著很多技術挑戰,比如規劃步數多、策略空間大、序列超長、信息噪聲大等,這些不可避免地影響到執行效率和準確率。

針對這一挑戰,華為發布了開放域信息獲取 Agent——盤古 DeepDiver,在網頁搜索、常識性問答等應用中,它可以讓盤古 7B 大模型實現接近 DeepSeek-R1 這種超大模型的效果。



如何做到的呢?據王云鶴介紹,首先根據實際場景構建大量的合成交互數據,并通過漸進式獎勵策略等優化方法,在開放環境進行強化學習訓練。

效果不俗之外,執行效率也非常高,盤古 DeepDiver 可以在 5 分鐘內完成超過 10 跳的復雜問答,并生成萬字以上的專業調研報告。

得益于 DeepDiver,盤古大模型的自主規劃、探索、反思等高階能力得到了前所未有地加強。

更多技術細節請訪問相應技術報告或我們之前的報道《真實聯網搜索 Agent,7B 媲美滿血 R1,華為盤古 DeepDiver 給出開域信息獲取新解法》。



報告地址:https://arxiv.org/pdf/2505.24332

除了以上幾大 NLP 大模型之外,盤古 5.5 還覆蓋了以下幾個領域的大模型:

  • 盤古預測大模型:采用業界首創的 triplet transformer 統一預訓練架構,將不同行業的數據進行統一的三元組編碼,并在同一框架內高效處理和預訓練,極大地提升預測大模型的精度,并大幅提升跨行業、跨場景的泛化性。
  • 盤古科學計算大模型:華為云持續拓展盤古科學計算大模型與更多科學應用領域的結合。比如深圳氣象局基于盤古進一步升級「智霽」大模型,首次實現 AI 集合預報,能更直觀地反映天氣系統的演變可能性,減少單一預報模型的誤差。
  • 盤古計算機視覺 CV 大模型:華為云發布全新 MoE 架構的 300 億參數視覺大模型,這是目前業界最大的視覺模型,并全面支持圖像、紅外、激光點云、光譜、雷達等多維度、泛視覺的感知、分析與決策。另外盤古 CV 大模型通過跨維度生成模型,構建油氣、交通、煤礦等工業場景稀缺的泛視覺故障樣本庫,極大地提升了業務場景的可識別種類與精度。
  • 盤古多模態大模型:全新發布基于盤古多模態大模型的世界模型,可以為智能駕駛、具身智能機器人的訓練,構建所需要的數字物理空間,實現持續優化迭代。例如,在智能駕駛領域,輸入首幀的行車場景、行車控制信息和路網數據,盤古世界模型就可以生成每路攝像頭的行車視頻和激光雷達的點云,能夠為智能駕駛生成大量的訓練數據,而無需依賴高成本的路采。

至此,盤古大模型 5.5 通過多樣化的架構與算法創新(如 MoE、深度思考、Triplet Transformer、自適應快慢思考),不僅在核心技術能力上達到領先水平,更在科學計算、工業預測、氣象預報、能源優化、智能駕駛等關鍵應用領域展現出強大的落地價值和變革潛力。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
伊朗被打了,為何盟友們沒一個出來幫忙?

伊朗被打了,為何盟友們沒一個出來幫忙?

黑噪音
2025-06-20 10:57:41
跌至第三!首個季度GDP對比:美國7.32萬億,歐盟4.85萬億,中國呢

跌至第三!首個季度GDP對比:美國7.32萬億,歐盟4.85萬億,中國呢

張嘴說財經
2025-06-21 11:41:26
內賈德及其家人突傳死訊

內賈德及其家人突傳死訊

高博新視野
2025-06-19 16:30:07
美媒:美軍出動6架B-2轟炸機 或帶巨型鉆地彈打擊伊朗

美媒:美軍出動6架B-2轟炸機 或帶巨型鉆地彈打擊伊朗

新京報
2025-06-21 23:15:21
森林是不是越多越好?3.06億年前的地球,早就交了一次昂貴的學費

森林是不是越多越好?3.06億年前的地球,早就交了一次昂貴的學費

半解智士
2025-06-20 19:12:01
反擊不隔夜!英戰艦過航臺海當天,中國發聲支持阿根廷對馬島主權

反擊不隔夜!英戰艦過航臺海當天,中國發聲支持阿根廷對馬島主權

南宗歷史
2025-06-21 13:14:11
奧尼爾:有次我懟恩比德叫他打球殺到內線去,結果他說“現在球員不這么打了”

奧尼爾:有次我懟恩比德叫他打球殺到內線去,結果他說“現在球員不這么打了”

雷速體育
2025-06-21 18:04:45
汪峰寧靜牽手風波升級!女友森林北評論區淪陷,兩人疑似已經分手

汪峰寧靜牽手風波升級!女友森林北評論區淪陷,兩人疑似已經分手

小seven的囧囧啊
2025-06-20 16:16:59
什么叫人走茶涼?看看小楊哥倆兄弟和他徒弟們現狀就明白了

什么叫人走茶涼?看看小楊哥倆兄弟和他徒弟們現狀就明白了

玫瑰講娛
2025-06-20 14:39:10
安克充電寶的信任雪崩:中美雙線大面積召回,質檢漏洞長達十年

安克充電寶的信任雪崩:中美雙線大面積召回,質檢漏洞長達十年

全球財說
2025-06-21 11:04:21
局勢仍在惡化!6月18日,美英艦艇已堵在東海,中俄都躲不過?

局勢仍在惡化!6月18日,美英艦艇已堵在東海,中俄都躲不過?

阿芒娛樂說
2025-06-21 13:28:07
普京:俄羅斯愿與中國開展全面合作

普京:俄羅斯愿與中國開展全面合作

澎湃新聞
2025-06-21 00:08:04
75歲老太擺攤賣菜被罰1萬,她交錢果斷離去,次日城管接到100個電話

75歲老太擺攤賣菜被罰1萬,她交錢果斷離去,次日城管接到100個電話

嘮叨情感屋
2025-06-17 10:56:01
37歲王思聰在日本和女友吃咖喱,下頜后縮嚴重,像動畫片里的樹懶

37歲王思聰在日本和女友吃咖喱,下頜后縮嚴重,像動畫片里的樹懶

大笑江湖史
2025-06-21 18:02:40
去了趟敦煌莫高窟,真心建議:不要隨便去莫高窟,除非你知道這些

去了趟敦煌莫高窟,真心建議:不要隨便去莫高窟,除非你知道這些

i書與房
2025-05-27 10:07:36
官方通報:區政府辦主任王華倫,違規出入娛樂場所

官方通報:區政府辦主任王華倫,違規出入娛樂場所

新京報政事兒
2025-06-21 17:49:36
阿里納斯:克萊有四冠 但分衛排名中總有兩個無冠球員排他前面

阿里納斯:克萊有四冠 但分衛排名中總有兩個無冠球員排他前面

直播吧
2025-06-21 20:37:23
爆料稱iPhone 18 Pro將迎屏幕變革,靈動島或成歷史

爆料稱iPhone 18 Pro將迎屏幕變革,靈動島或成歷史

環球網資訊
2025-06-20 11:05:17
從嚴查“違規吃喝”到嚴查“混日子”:為什么年輕干部成了新焦點

從嚴查“違規吃喝”到嚴查“混日子”:為什么年輕干部成了新焦點

李昕言溫度空間
2025-06-21 15:37:16
郭德綱率德云社在荷蘭海牙商演,再次遭到了由來已久的諷刺聲

郭德綱率德云社在荷蘭海牙商演,再次遭到了由來已久的諷刺聲

快樂的小青瓦
2025-06-20 13:57:26
2025-06-21 23:56:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10687文章數 142343關注度
往期回顧 全部

科技要聞

Siri有救了?蘋果被曝正討論史上最大收購

頭條要聞

官方通報那爾那茜有關情況:涉嫌高考報名材料造假

頭條要聞

官方通報那爾那茜有關情況:涉嫌高考報名材料造假

體育要聞

王欣瑜:資格賽差點要退賽 夢幻般的一周

娛樂要聞

離婚7年,楊冪逆襲碾壓劉愷威

財經要聞

租金大撤退!房東正在批量跑路!

汽車要聞

扔掉"舊地圖”一汽-大眾大眾品牌要找"新大陸"

態度原創

教育
房產
時尚
手機
軍事航空

教育要聞

2025北京高招變數大!這些志愿填報的坑,千萬別踩!

房產要聞

坑慘2000多人!恒大財富海南高管被曝非吸12.6億元!

天啊,凱特王妃都在準備葬禮了?

手機要聞

曝REDMI K90系列影像新升級:評估豪威OV50Q主攝

軍事要聞

伊朗展示破壞力最強導彈

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 博白县| 望奎县| 高淳县| 石泉县| 延边| 大宁县| 尚志市| 中山市| 疏勒县| 徐汇区| 平远县| 探索| 都昌县| 鄂托克前旗| 重庆市| 建昌县| 丹凤县| 石柱| 公安县| 尉氏县| 吉水县| 龙门县| 肇庆市| 从化市| 咸丰县| 沈丘县| 颍上县| 遂溪县| 顺昌县| 句容市| 兴安盟| 海门市| 扶风县| 嘉祥县| 太康县| 延吉市| 钟山县| 蓬莱市| 洪雅县| 普格县| 龙川县|