99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

華為首個開源大模型來了!Pro MoE 720億參數,4000顆昇騰訓練

0
分享至

國產大模型開源競爭進入新階段,華為首次開源盤古大模型核心能力。

6月30日,華為宣布開源盤古70億參數稠密模型和盤古Pro MoE 720億參數混合專家模型,同時開放基于昇騰的模型推理技術。這是華為首次將盤古大模型的核心能力對外開源。


華為表示,720億參數的盤古Pro MoE模型在昇騰800I A2上實現單卡1148 tokens/s的推理吞吐性能,通過投機加速技術可進一步提升至1528 tokens/s,顯著優于同等規模的稠密模型。

此次開源正值國產大模型開源浪潮興起之際。繼DeepSeek-R1成功后,MiniMax、阿里巴巴、月之暗面等頭部廠商陸續升級開源模型,推動大模型價格下探60%-80%,加速應用普及。

模型引入“快思考”和“慢思考”雙系統

華為此次開源包括三個主要組件:盤古Pro MoE 72B模型權重和基礎推理代碼已正式上線開源平臺,基于昇騰的超大規模MoE模型推理代碼同步發布,盤古7B相關模型權重與推理代碼將于近期上線。

據開源開發者平臺GitGo信息,盤古Pro MoE基于MoGE架構構建,總參數量720億,激活參數量160億。該模型專門針對昇騰硬件優化,在昇騰300I Duo推理服務器上提供極具性價比的模型推理方案。


根據華為官方介紹,盤古Embedded 7B模型引入“快思考”和“慢思考”雙系統,簡單問題用快速模式響應,復雜問題用深度模式推理,可自動切換。

方案在專家選擇階段采用分組機制,具體來說,先將專家劃分為若干等規模的分組,再從每個分組中選取相同數量的專家進行激活。在典型的分布式部署中,每個專家分組對應獨立的計算設備,從而MoGE天然地實現了跨設備的計算負載均衡。這一設計顯著提升了訓練和推理場景下的系統吞吐量。


在預訓練階段,華為使用了4000個昇騰NPU,在包含13萬億tokens的高質量語料庫上進行預訓練,分為通用、推理和退火三個階段,逐步提升模型能力。

在后訓練階段,其通過監督微調(SFT)和強化學習(RL)進一步增強推理能力,還采用了檢查點合并等技術優化模型。

最終,盤古Pro MoE在昇騰800I A2上實現了單卡1148 tokens/s的推理吞吐性能,并可進一步通過投機加速等技術提升至1528 tokens/s,顯著優于同等規模的320億和720億個參數的稠密模型;在昇騰300I Duo推理服務器上,華為也實現了極具性價比的模型推理方案。

千億內總參數模型中處于領先

華為表示,昇騰NPU能夠支持盤古Pro MoE的大規模并行訓練。多項公開基準測試結果表明,盤古Pro MoE在千億內總參數模型中處于領先地位。

在英文基準領域,盤古Pro MoE在MMLU-PRO上以顯著優勢超越當前主流的稠密模型(包括Qwen3-32B、GLM-Z1-32B和Gemma3-27B)及 MoE架構的Llama4-Scout模型,創下新的性能標桿。

在閱讀理解領域,盤古 ProMoE于DROP基準測試中獲得91.2的優異成績,與當前最優的Qwen3-32B模型(91.3)基本持平,充分驗證其具備與前沿模型相當的英文文本理解與推理能力。


在中文領域評估中,盤古Pro MoE展現出專業化的語言理解優勢。

具體而言,在知識密集型評測C-Eval(EM)中,盤古Pro MoE以91.1的卓越成績超越Qwen3-32B(89.2)等現有百億參數量級最優模型。針對中文常識推理任務,盤古Pro MoE在CLUEWSC(EM)基準上取得94.7的高分,較Qwen3-32B(94.6)實現微幅提升,并明顯領先于Gemma3-27B(91.3)等其他對比模型。


推理基準盤古Pro MoE在保持高效推理的同時,展現出優異的邏輯推理能力。

代碼生成方面, 在MBPP+(Pass@1)的指標達到80.2,與Qwen3-32B(82.0)處于同一性能區間。數學推理任務中,MATH-500測試以96.8分超越Qwen3-32B(96.6),CNMO2024基準Pass@1指標70.8亦較后者(70.4)提升0.4分。特別在 SuperGPQA復雜問題解答基準中,54.8 的Pass@1 得分顯著優于 GLM-Z1-32B(52.6)和Qwen3-32B(49.8)等稠密模型。

值得注意的是,在僅激活160億參數的配置下,盤古Pro MoE的推理能力即可媲美320億(32B)量級的先進模型。這種高效率源于創新的MoGE架構設計,該架構在保證邏輯推理精度的同時,保障了高效的推理速度。


“工業奇跡”

根據SuperCLUE中文大模型基準測評5月的數據,盤古72B在開源排行榜中位列第五,總分為58.75分,超越Qwen3-14B、Qwen3-8B,僅次于DeepSeek-R1滿血版、DeepSeek-V3滿血版以及Qwen3-32B和235B。


有媒體評論稱,華為通過從芯片(昇騰 NPU)、到框架(MindSpore),再到模型(盤古)形成了完整的垂直整合體系。昇騰和盤古生態系統是一項里程碑式的技術成就。它證明在英偉達主導的單一產業格局之外,存在一種可行的高性能替代方案。


國產大模型開源競爭加劇

華為開源盤古大模型正值國產AI開源浪潮興起。2025年開年,DeepSeek-R1的成功在全球掀起開源風潮,隨后國產大模型開源消息接連不斷,涵蓋自然語言處理、計算機視覺、多模態等多個領域。

2025年6月,MiniMax、阿里巴巴、月之暗面等國內頭部大模型廠商陸續升級多款開源大模型。研究報告顯示,這些廠商在有限算力支持下,通過算法升級促進模型性能持續提升。

大模型價格同步快速下探。MiniMax-M1、豆包大模型1.6定價比DeepSeek-R1降低約60%-80%,更高性價比將加快應用普及速度。華為此次開源舉措有望進一步推動人工智能技術在千行百業的應用與價值創造。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“油耗子”越南付出代價,盜挖中國石油數十年,最終付出慘痛代價

“油耗子”越南付出代價,盜挖中國石油數十年,最終付出慘痛代價

紅色國際
2025-06-30 18:10:03
A股:今天,7月份的首個交易日,行情不太對勁!

A股:今天,7月份的首個交易日,行情不太對勁!

明心
2025-07-01 11:14:32
社保局不會告訴你:親人離世,除了喪葬費,還有這9筆錢可以領

社保局不會告訴你:親人離世,除了喪葬費,還有這9筆錢可以領

阿傖說事
2025-06-25 08:05:30
曼城、國米遭淘汰,世俱杯兩大冷門!8強定6席,小因扎吉神了

曼城、國米遭淘汰,世俱杯兩大冷門!8強定6席,小因扎吉神了

萬花筒體育球球
2025-07-01 14:26:12
悲催!網傳東莞一家美資企業裁員,嚴格依法賠償,已停工2個多月

悲催!網傳東莞一家美資企業裁員,嚴格依法賠償,已停工2個多月

火山詩話
2025-06-30 13:37:54
蘇超第六輪,常州VS淮安,淮安文旅放大招:人人都愛“零”妹妹!

蘇超第六輪,常州VS淮安,淮安文旅放大招:人人都愛“零”妹妹!

興史興談
2025-07-01 14:40:32
中蘇奇特的債務關系,借錢的主動延期,欠錢的說勒緊褲腰帶早點還

中蘇奇特的債務關系,借錢的主動延期,欠錢的說勒緊褲腰帶早點還

干史人
2025-06-27 23:30:03
油價調整消息:今晚7月1日12點,汽柴油每噸分別上調235元和225元

油價調整消息:今晚7月1日12點,汽柴油每噸分別上調235元和225元

今日油價
2025-07-01 09:29:11
太平軍攻入南京時有多慘烈?死傷無數,清兵全部陣亡,滿人被殺盡

太平軍攻入南京時有多慘烈?死傷無數,清兵全部陣亡,滿人被殺盡

大千世界觀
2025-06-19 09:13:05
洪森下達最后通牒,泰國爆發大規模抗議,親華總理被迫放權自救

洪森下達最后通牒,泰國爆發大規模抗議,親華總理被迫放權自救

通鑒史智
2025-07-01 08:21:25
茅臺的價格,到底會跌到什么程度?

茅臺的價格,到底會跌到什么程度?

牛鍋巴小釩
2025-06-30 16:41:50
《以法之名》謝鴻飛入獄,洪亮被捕,才知道蘭景茗下了多大一盤棋

《以法之名》謝鴻飛入獄,洪亮被捕,才知道蘭景茗下了多大一盤棋

頭號劇委會
2025-06-29 19:23:40
除夕當晚,三姑六婆挖苦我,我沒鬧,轉頭撤回姑父的晉升他們愣了

除夕當晚,三姑六婆挖苦我,我沒鬧,轉頭撤回姑父的晉升他們愣了

風聲起伏
2025-06-24 16:09:05
預告:商務部定于2025年7月3日(星期四)下午3時舉行新聞發布會

預告:商務部定于2025年7月3日(星期四)下午3時舉行新聞發布會

每日經濟新聞
2025-06-30 10:01:14
佩通坦出高招,將防長交給軍方,又兼文化部長,洪森算計徹底落空

佩通坦出高招,將防長交給軍方,又兼文化部長,洪森算計徹底落空

來科點譜
2025-07-01 10:51:08
吳泳銘掌舵阿里這一年

吳泳銘掌舵阿里這一年

財經天下WEEKLY
2025-01-11 13:21:06
安徽最新人事!涉及3名副市長

安徽最新人事!涉及3名副市長

魯中晨報
2025-07-01 11:08:06
給最近熱播國劇排個名:《潛淵》第5,《以法之名》第2,第1很意外

給最近熱播國劇排個名:《潛淵》第5,《以法之名》第2,第1很意外

坊聞本尊
2025-06-29 23:26:05
中印被加征500%關稅?比特朗普更激進的人出現,普京訪華更有必要

中印被加征500%關稅?比特朗普更激進的人出現,普京訪華更有必要

小鬼頭體育
2025-07-01 15:28:19
民眾黨集結“小草”抗議檢察官草菅人命,呼吁群眾不再沉默!

民眾黨集結“小草”抗議檢察官草菅人命,呼吁群眾不再沉默!

海峽導報社
2025-07-01 15:50:14
2025-07-01 16:47:00
華爾街見聞官方 incentive-icons
華爾街見聞官方
中國領先的金融商業信息提供商
131615文章數 2649903關注度
往期回顧 全部

科技要聞

不懼小米YU7?特斯拉逆勢漲價

頭條要聞

美軍前司令抱怨主力預警機"嚴重過時":它看不見殲-20

頭條要聞

美軍前司令抱怨主力預警機"嚴重過時":它看不見殲-20

體育要聞

創造歷史!世俱杯首次亞洲球隊戰勝歐洲

娛樂要聞

瘦到脫相!鹿晗首度回應暴瘦內情?

財經要聞

習近平:縱深推進全國統一大市場建設

汽車要聞

2026款MG Cyberster/MG5 兩款新車售5.99萬起

態度原創

手機
游戲
藝術
家居
房產

手機要聞

小米YU7限時改配,榮耀吊沙發,理想十周年

《妮姬》新角色展示太刺激:扯開外套大雷突臉!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

家居要聞

中古通透 簡約不失浪漫

房產要聞

最強黑馬殺出!海南這些區域,教育正悄悄崛起!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 佛教| 渭南市| 文安县| 铜梁县| 宝应县| 吴堡县| 望都县| 万全县| 滦南县| 兴安盟| 金华市| 滕州市| 衡阳市| 揭阳市| 英德市| 黑水县| 雷山县| 临沧市| 景泰县| 呼和浩特市| 温州市| 邯郸市| 千阳县| 民丰县| 潼南县| 肇源县| 万全县| 清远市| 阳城县| 蓬安县| 衢州市| 略阳县| 蓬莱市| 临夏县| 福清市| 吉木乃县| 大冶市| 阿尔山市| 保靖县| 阳城县| 卢氏县|