99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

剛剛,華為盤古大模型5.5問世!推理、智能體能力大爆發

0
分享至

機器之心報道

編輯:杜偉、Panda

在國產大模型領域,華為盤古大模型一直是比較獨特的存在。

該系列模型強調「不作詩,只做事」,深耕行業,賦能千行百業,推動產業智能化升級。從盤古 1.0 到盤古 5.0,華為專注于用大模型解決實際產業問題,并獲得了市場的廣泛認可。

就在剛剛,在華為開發者大會 2025(HDC 2025)上,華為重磅發布了盤古大模型 5.5,其中自然語言處理(NLP)能力比肩國際一流模型,并在多模態世界模型方面做到全國首創。

此次,全新升級的盤古大模型 5.5 包含了五大基礎模型,分別面向NLP多模態預測科學計算CV領域,進一步推動大模型成為行業數智化轉型的核心動力。



華為常務董事、華為云 CEO 張平安正式發布盤古大模型 5.5

會上,華為諾亞方舟實驗室主任王云鶴對該系列模型的核心技術進行了大揭秘。



王云鶴

此次,盤古 5.5 在 NLP 領域主要有三大模型組成,即盤古 Ultra MoE盤古 Pro MoE盤古 Embedding;以及快慢思考合一的高效推理策略、盤古深度研究產品DeepDiver

我們接下來一一來看。

盤古 Ultra MoE

準萬億級別模型

盤古 Ultra MoE是 7180 億參數的 MoE 深度思考模型。作為一個準萬億參數級別的大模型,該模型基于昇騰全棧軟硬件協同打造,做到了國內領先、比肩世界一流水平。

訓練超大規模和極高稀疏性的 MoE 模型極具挑戰,訓練過程中的穩定性往往難以保障。針對這一難題,華為盤古團隊在模型架構和訓練方法上進行了創新性設計,成功地在基于昇騰 NPU 打造的「下一代 AI 數據中心架構」CloudMatrix384 集群上實現了準萬億 MoE 模型的全流程訓練。

具體來講,盤古團隊提出了 Depth-Scaled Sandwich-Norm(DSSN)穩定架構和 TinyInit 小初始化的方法,在昇騰 NPU 上實現了 10+T token 數據的長期穩定訓練。此外,華為還提出了 EP group loss 負載優化方法,這一設計不僅保證各個專家之間能保持較好的負載均衡,也提升專家的領域特化能力。同時,Pangu Ultra MoE 使用了業界先進的 MLA 和 MTP 架構,在訓練時使用了 Dropless 訓練策略。

得益于此,該模型具備了高效長序列、高效思考、DeepDiver、低幻覺等核心能力,并在知識推理、自然科學、數學等領域的大模型榜單上位列前沿。

更多技術細節可訪問盤古 Ultra MoE 的技術報告或我們之前的報道《還得是華為!Pangu Ultra MoE 架構:不用 GPU,你也可以這樣訓練準萬億 MoE 大模型》:



報告地址:https://arxiv.org/pdf/2505.04519

盤古 Pro MoE 大模型

比肩 DeepSeek-R1

盤古 Pro MoE是一個 72B A16B 的模型,即每次工作時會激活其中 160 億參數。



王云鶴透露,該模型也代表盤古系列模型首次參與了外部打榜。在剛剛發布的五月底 SuperCLUE 榜單上,盤古 Pro MoE 在千億參數量以內的模型中,排行并列國內第一。



https://www.superclueai.com

可以看到,其在智能體任務上打榜成績甚至比肩 6710 億參數的 DeepSeek-R1,在文本理解和創作領域也達到開源模型的第一名。

據介紹,該模型是針對昇騰硬件特性進行了大量仿真建模之后得到的最優架構,尤其適配 300I Duo 推理芯片的寬度、深度、專家數等。

此外,華為還針對不同芯片上專家負載不均衡的問題,提出了分組混合專家 MoGE 算法。該算法可實現跨芯片計算的負載均衡,從而顯著提升盤古訓推系統的吞吐效率。



MoGE 架構設計示意圖。N 個專家被均勻劃分為 M 個不重疊的組并且每一個組內激活相同數量的專家。

最終,這些創新讓盤古 Pro MoE 可在 300I Duo 上實現每秒 321 token 的吞吐量,而在性能更強大的 800I A2 上,吞吐速度更是可達每秒 1529 token,領先同規模業界模型 15% 以上。

華為已經在 5 月底發布了盤古 Pro MoE 的技術報告,感興趣的讀者可通過以下鏈接擴展閱讀。另外,我們之前也已經報道過該模型:《華為盤古首次露出,昇騰原生 72B MoE 架構,SuperCLUE 千億內模型并列國內第一》。



項目地址:https://gitcode.com/ascend-tribe/pangu-pro-moe

盤古 Embedding(7B)

小身手、大能量

華為也推出了一個相當能打的 7B 級小模型盤古 Embedding。該模型在學科知識、編碼、數學和對話能力方面均優于同期同規模模型。



華為是如何做到這一點的呢?王云鶴介紹了一些重點:

  1. 在后訓練階段使用漸進式 SFT 和多維度獎勵的強化學習,這提高了模型的推理能力。
  2. 針對長序列進行了重點優化,為此華為提出了 Adaptive SWA 和 ESA 兩項關鍵技術來降低在長序列的場景中的計算量和 KV Cache;也由此,盤古 Embedding 可以相當輕松地應對 100 萬 token 長度的上下文。
  3. 針對幻覺問題,華為提出了知識邊界判定、結構化思考驗證等創新方案,從而實現了模型推理準確度的提升。

同樣地,該模型的技術報告也已經在 5 月底發布。



報告地址:https://arxiv.org/pdf/2505.22375

高效推理方案

自適應快慢思考合一

如今,以 DeepSeek-R1 為代表的思考模型受到了業界的廣泛關注。思考模型又可以分為慢思考模型與快思考模型,其中慢思考模型普遍存在的過度思考問題受到了業界的廣泛關注。

對于簡單的問題(比如 1+1 等于幾),快思考模型平均只需要十幾個 token 就能解決,而慢思考卻需要幾百甚至上千個 token。這就導致用戶體驗不佳,對于行業應用部署也有不利影響。目前業界已有的一些方案通過 prompt 隔離進行切換,但這樣做并不能真正地自動感知問題的難易程度。

為解決該問題,華為提出了自適應快慢思考合一技術,構建難度感知的快慢思考數據并提出兩階段漸進訓練策略,讓盤古模型可以根據問題難易程度自適應地切換快慢思考。這就達成了這樣一種效果:簡單問題快速回復,復雜問題深度思考,整體推理效率可以提升高達 8 倍。



不僅如此,華為還針對慢思考模式提出了反思投機和反思壓縮等策略,在精度無損的情況下減少 50% 的慢思考時間,讓盤古大模型不僅推理得準,速度還快。

盤古 DeepDiver

華為的 Deep Research 來了

進入到 2025 年,大模型的基礎能力不再是廠商關注的唯一,模型應用同樣受到高度重視。

其中,以深度研究(Deep Research)為代表的新一代 Agent 在科學助手、個性化教育以及復雜的行業報告調研等場景展現出了比傳統大模型更強的能力。

不過,這類 Agent 在實際應用中面臨著很多技術挑戰,比如規劃步數多、策略空間大、序列超長、信息噪聲大等,這些不可避免地影響到執行效率和準確率。

針對這一挑戰,華為發布了開放域信息獲取 Agent——盤古 DeepDiver,在網頁搜索、常識性問答等應用中,它可以讓盤古 7B 大模型實現接近 DeepSeek-R1 這種超大模型的效果。



如何做到的呢?據王云鶴介紹,首先根據實際場景構建大量的合成交互數據,并通過漸進式獎勵策略等優化方法,在開放環境進行強化學習訓練。

效果不俗之外,執行效率也非常高,盤古 DeepDiver 可以在 5 分鐘內完成超過 10 跳的復雜問答,并生成萬字以上的專業調研報告。

得益于 DeepDiver,盤古大模型的自主規劃、探索、反思等高階能力得到了前所未有地加強。

更多技術細節請訪問相應技術報告或我們之前的報道《真實聯網搜索 Agent,7B 媲美滿血 R1,華為盤古 DeepDiver 給出開域信息獲取新解法》。



報告地址:https://arxiv.org/pdf/2505.24332

除了以上幾大 NLP 大模型之外,盤古 5.5 還覆蓋了以下幾個領域的大模型:

  • 盤古預測大模型:采用業界首創的 triplet transformer 統一預訓練架構,將不同行業的數據進行統一的三元組編碼,并在同一框架內高效處理和預訓練,極大地提升預測大模型的精度,并大幅提升跨行業、跨場景的泛化性。
  • 盤古科學計算大模型:華為云持續拓展盤古科學計算大模型與更多科學應用領域的結合。比如深圳氣象局基于盤古進一步升級「智霽」大模型,首次實現 AI 集合預報,能更直觀地反映天氣系統的演變可能性,減少單一預報模型的誤差。
  • 盤古計算機視覺 CV 大模型:華為云發布全新 MoE 架構的 300 億參數視覺大模型,這是目前業界最大的視覺模型,并全面支持圖像、紅外、激光點云、光譜、雷達等多維度、泛視覺的感知、分析與決策。另外盤古 CV 大模型通過跨維度生成模型,構建油氣、交通、煤礦等工業場景稀缺的泛視覺故障樣本庫,極大地提升了業務場景的可識別種類與精度。
  • 盤古多模態大模型:全新發布基于盤古多模態大模型的世界模型,可以為智能駕駛、具身智能機器人的訓練,構建所需要的數字物理空間,實現持續優化迭代。例如,在智能駕駛領域,輸入首幀的行車場景、行車控制信息和路網數據,盤古世界模型就可以生成每路攝像頭的行車視頻和激光雷達的點云,能夠為智能駕駛生成大量的訓練數據,而無需依賴高成本的路采。

至此,盤古大模型 5.5 通過多樣化的架構與算法創新(如 MoE、深度思考、Triplet Transformer、自適應快慢思考),不僅在核心技術能力上達到領先水平,更在科學計算、工業預測、氣象預報、能源優化、智能駕駛等關鍵應用領域展現出強大的落地價值和變革潛力。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
人到中年看老公越來越不順眼,怎么辦?看完分享,把我笑劈叉了!

人到中年看老公越來越不順眼,怎么辦?看完分享,把我笑劈叉了!

墻頭草
2025-05-20 09:19:44
起初,大家都以為你是開玩笑的!盤點維爾茨轉會傳聞全時間線

起初,大家都以為你是開玩笑的!盤點維爾茨轉會傳聞全時間線

懂球帝
2025-06-21 02:31:13
6月19日,2025養老金調整方案公布前,人社部發布養老金最新數據

6月19日,2025養老金調整方案公布前,人社部發布養老金最新數據

深析古今
2025-06-19 17:36:48
《長安的荔枝》大結局:李善德被貶,鄭平安被殺,讓人感動的是他

《長安的荔枝》大結局:李善德被貶,鄭平安被殺,讓人感動的是他

煙花五月下蘇州
2025-06-21 00:07:42
為什么“阿拉伯兄弟”不幫伊朗?——披著穆斯林羊皮的波斯獨狼

為什么“阿拉伯兄弟”不幫伊朗?——披著穆斯林羊皮的波斯獨狼

Wilsonhe8
2025-06-19 02:11:33
梅婷北京豪宅內景曝光,十個人住一棟別墅,屋里有些雜亂!

梅婷北京豪宅內景曝光,十個人住一棟別墅,屋里有些雜亂!

檸檬有娛樂
2025-06-20 10:27:54
比房價下跌更讓人操心的事情,2025年退休人員,可能要過苦日子了

比房價下跌更讓人操心的事情,2025年退休人員,可能要過苦日子了

小談食刻美食
2025-06-16 16:32:23
男子坐了25年牢,出獄后去派出所辦身份證,所長看到他名字竟哭了

男子坐了25年牢,出獄后去派出所辦身份證,所長看到他名字竟哭了

歷史八卦社
2025-06-03 23:05:49
蔚來第三代 ES8 產品亮點公布,第三季度亮相

蔚來第三代 ES8 產品亮點公布,第三季度亮相

IT之家
2025-06-20 21:11:31
特朗普太害怕中國得到好處,特別擔憂中國成為美國卷入沖突的贏家

特朗普太害怕中國得到好處,特別擔憂中國成為美國卷入沖突的贏家

雜談天下式
2025-06-21 01:10:30
Shams:多支球隊為杰倫-布朗和德里克-懷特開出了瘋狂的報價

Shams:多支球隊為杰倫-布朗和德里克-懷特開出了瘋狂的報價

懂球帝
2025-06-20 08:52:10
佩通坦回應電話錄音!穿皇家黃polo衫致敬泰王,皮塔卡是她支持者

佩通坦回應電話錄音!穿皇家黃polo衫致敬泰王,皮塔卡是她支持者

嘆知
2025-06-20 10:52:31
梅西生涯已打進68個任意球列歷史第三,僅比第一少9個

梅西生涯已打進68個任意球列歷史第三,僅比第一少9個

雷速體育
2025-06-20 06:17:52
以總理:可自行襲擊福爾多核設施 消息人士:特朗普已討論使用鉆地炸彈的后勤保障

以總理:可自行襲擊福爾多核設施 消息人士:特朗普已討論使用鉆地炸彈的后勤保障

紅星新聞
2025-06-20 14:37:28
四川國企一哥換屆,去年人均創利127萬

四川國企一哥換屆,去年人均創利127萬

華美財經
2025-06-20 23:45:16
脫北者揭秘張成澤被捕真相:死前曾給金正恩戴綠帽,9名愛人殉葬

脫北者揭秘張成澤被捕真相:死前曾給金正恩戴綠帽,9名愛人殉葬

神秘歷史故事
2023-12-18 13:57:42
日方:中國航母的訓練水平和美國比,已無太大差別

日方:中國航母的訓練水平和美國比,已無太大差別

觀察者網
2025-06-20 22:13:18
中國留學生被指向澳男嬰潑熱咖啡,受害者連做4場手術!警方公布案件最新進展

中國留學生被指向澳男嬰潑熱咖啡,受害者連做4場手術!警方公布案件最新進展

澳洲紅領巾
2025-06-20 11:43:05
曝阿莫林剝奪曼聯4人集訓資格,不轉會就去2隊!拉什福德仍拒紐卡

曝阿莫林剝奪曼聯4人集訓資格,不轉會就去2隊!拉什福德仍拒紐卡

羅米的曼聯博客
2025-06-20 07:53:38
中國長江瞞了全世界上千年,長江的前世今緣終于露出 “真面目”

中國長江瞞了全世界上千年,長江的前世今緣終于露出 “真面目”

地理研究所
2024-12-19 20:08:47
2025-06-21 03:28:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10686文章數 142341關注度
往期回顧 全部

科技要聞

余承東:鴻蒙6主打"毫秒級"時延與全面AI

頭條要聞

媒體:佩通坦錄音泄密 一聲"叔叔"恐致其聯合政府瓦解

頭條要聞

媒體:佩通坦錄音泄密 一聲"叔叔"恐致其聯合政府瓦解

體育要聞

周通:2年前想過退役,沒想到能踢世俱杯

娛樂要聞

黃曉明落榜原因曝光!葉珂曾秀幸福

財經要聞

58同城一邊裁員一邊跨界投資

汽車要聞

五項訂車禮/四款車型 一汽奧迪A5L正式開啟預售

態度原創

旅游
游戲
房產
時尚
本地

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

《無主之地4》聽勸修改:新增功能平替小地圖

房產要聞

坑慘2000多人!恒大財富海南高管被曝非吸12.6億元!

推廣中獎名單-更新至2025年6月5日推廣

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 望城县| 宁河县| 高尔夫| 玛纳斯县| 深圳市| 镇坪县| 石楼县| 扎赉特旗| 龙岩市| 美姑县| 宁国市| 福州市| 岳西县| 新安县| 古丈县| 临桂县| 施秉县| 咸丰县| 涪陵区| 东兴市| 江门市| 芦溪县| 太仓市| 克山县| 保德县| 康保县| 西乌| 天水市| 汉川市| 佳木斯市| 太谷县| 车致| 永善县| 临清市| 珲春市| 故城县| 峨眉山市| 分宜县| 措勤县| 衡东县| 宜兴市|