99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

英偉達含量為零!華為密集模型比肩DeepSeek-R1,純昇騰集群訓練

0
分享至

  • 克雷西 發自 凹非寺
    量子位 | 公眾號 QbitAI

密集模型的推理能力也能和DeepSeek-R1掰手腕了?

華為利用純昇騰集群訓練出的盤古Ultra,在數學競賽、編程等推理任務當中,和R1打得有來有回。

關鍵是模型參數量只有135B,整個訓練過程零英偉達含量,而且沒有出現損失尖峰。



通過改進的模型架構和系統優化策略,盤古Ultra擁有優異的性能表現和52%以上的算力利用率。

并且有網友表示,訓練過程中沒有出現損失尖峰這一特征,似乎此前從未實現。



135B密集模型比肩DeepSeek-R1

作為一個參數量135B密集模型,盤古Ultra達到了同尺度密集模型的最優表現,甚至可以與DeepSeek-R1等參數量更大的MoE模型競爭。

在預訓練階段模型的評測中,盤古Ultra在絕大部分英文基準任務和全部中文任務上取得了最佳性能,優于Llama 405B、DeepSeek-V3等baseline模型。

尤其在MMLU、TriviaQA、GSM8K等具有挑戰性的數據集上,盤古Ultra展現出了卓越的語言理解和推理能力。



經過指令調優后,盤古Ultra的性能進一步提升,尤其在AIME 2024、MATH-500等數學推理任務和LiveCodeBench等編程競賽題上達到了SOTA水平。

綜合來看,盤古Ultra超越了包括GPT-4o、Mistral-Large 2等強大模型,與DeepSeek-R1等MoE模型競爭激烈。

同時,盤古Ultra在Arena Hard、MMLU-pro等涵蓋通用語言理解和推理的評測中也表現優異。



那么,為了實現這樣的效果,盤古Ultra采用了哪些關鍵技術呢?

“三明治”層歸一化架構

如前文所述,盤古Ultra是一款135B參數量的密集模型,使用了94層的網絡結構。

盤古Ultra采用了分組查詢注意力(GQA)機制,包含96個查詢頭(query head)和8個鍵值頭(key-value head)。

為了解決訓練超深網絡面臨的不穩定性和收斂困難等問題,盤古Ultra在模型架構上做出了兩個關鍵改進——深度縮放的Sandwich-Norm層歸一化和TinyInit參數初始化策略。

傳統的Transformer通常使用Pre-LN層歸一化,但在深度模型中,Pre-LN容易導致每個子層輸出尺度的波動,引發訓練不穩定。

盤古Ultra使用的Sandwich-Norm層歸一化,則是在殘差連接前對每個子層的輸出做歸一化,并根據網絡深度對初始化值進行縮放,從而有效消除了訓練過程中的loss尖峰,使訓練過程更加平穩。

用更容易理解的話說,傳統方法僅在每個子層的輸入進行歸一化,但這種方法針對輸出也進行了歸一化,形成了Pre-Norm + 子層 + Post-Norm的“三明治”結構。



但是,僅僅使用Sandwich-Norm還不足以完全消除深度模型訓練中的不穩定性——隨著網絡層數的增加,每一層的輸出尺度仍然可能出現累積性的漂移。

為此,盤古Ultra在Sandwich-Norm的基礎上,進一步引入了深度縮放機制,對Post-Norm中的放縮參數γ進行了深度相關的初始化。



至于整個模型的初始化,傳統的初始化通常采用的Xavier初始化方法僅考慮模型寬度,而盤古Ultra采用的TinyInit同時依據模型深度和寬度來縮放初始化權重的標準差。

這種初始化方式有助于在前向傳播和反向傳播過程中,維持各層梯度的方差在一個合理的范圍內,避免了梯度消失或爆炸問題,使得訓練過程更加穩定,同時也加速了收斂。

實驗表明,TinyInit在深度模型訓練中取得了更好的收斂速度和下游任務性能;同時針對embedding層,保持權重的標準差接近1也能提升訓練穩定性。

另外,盤古團隊也針對Tokenizer進行了優化,通過在通用中英文、代碼、數學等不同領域分別進行詞頻統計,再合并去重,最終得到了一個兼顧領域覆蓋和編碼效率的153376個token的平衡詞表。



8192張昇騰NPU訓練集群

盤古Ultra的整個訓練流程主要分為三個階段——預訓練、長上下文擴展和指令調優。

其中預訓練又可以分為三個子階段:

  • 通用階段:側重建立語言理解和知識儲備,使用了大量中英文通用語料,覆蓋網頁、書籍、百科等多個來源;
  • 推理階段:引入更多高質量的數學和代碼數據,以增強模型的推理能力。同時還使用instruction數據來幫助模型學習執行任務;
  • 退火階段:幫助模型鞏固知識和推理能力,并強化指令遵循能力。大量使用問答對和人類反饋數據。

研究者們采用了基于規則和模型的數據清洗方法,并設計了curriculum learning策略,讓模型循序漸進地學習不同難度的樣本。

預訓練中使用了AdamW優化器,并動態調整超參數。



預訓練后,模型在最長128K的長上下文數據上進一步訓練,通過擴大RoPE的基頻來實現長序列建模,以增強處理長文檔的能力。

最后的指令調優階則段使用監督微調(SFT)和強化學習(RL)來使模型更好地適應下游任務,學會執行指令并與人類偏好對齊。

訓練設施方面,盤古Ultra使用了一個由8192個昇騰AI處理器組成的大規模計算集群。

集群中每個節點包含8個NPU,通過華為高速緩存一致性互聯HCCS以全互聯的拓撲結構連接,每個NPU配備64GB內存,節點間則通過200Gbps的RoCE(RDMA over Converged Ethernet)網絡互聯。

為了實現盤古Ultra的高效訓練,研究團隊還采用了一套系統的并行策略和優化技術。

在并行策略的選擇上,盤古Ultra綜合考慮了模型的規模、數據的特性以及硬件的拓撲,最終采用了數據并行、張量并行、序列并行和流水線并行等多種并行方式的組合:

  • 128路數據并行,將訓練數據分片到不同設備,保證了數據吞吐;
  • 8路張量并行,利用設備內部高帶寬切分層內張量,實現高效通信;
  • 序列并行用于處理超長序列以降低顯存壓力;
  • 8段流水線并行,將不同層分布到不同設備,形成高效的計算流水線。



在并行策略的基礎上,盤古Ultra還從多個角度對訓練系統進行了深度優化。

一方面,通過使用ZeRO(Zero Redundancy Optimizer)分布式優化器,將模型狀態分片到不同設備,大幅降低了單個設備的內存占用,在提高數據并行度的同時,確保了每個設備的內存負擔在可接受范圍內。

另一方面,研究者們通過各種通信和計算優化技術,最小化了通信開銷,提升了計算效率:

  • 通過算子融合(Kernel Fusion)將多個小算子合并,減少了內存訪問和kernel啟動;
  • 通過通信計算重疊(Communication-Computation Overlapping)實現通信和計算的深度交織,隱藏通信延遲;
  • MC^2(Merged Computation & Communication)和BOA(Batch Optimization Accelerator)分別對張量并行和規范化層的通信進行了專門優化……



在算法、工程、數據各個層面的精細優化下,盤古Ultra實現了52%以上的算力利用率。

技術報告:
https://github.com/pangu-tech/pangu-ultra/blob/main/pangu-ultra-report.pdf

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
印巴已經開火,大批中式武器登場,巴基斯坦背后有哪些強援?

印巴已經開火,大批中式武器登場,巴基斯坦背后有哪些強援?

璠爺財事通
2025-05-07 14:00:03
印巴大戰爆發:地面部隊交火已造成150人傷亡,印軍6架戰機被摧毀

印巴大戰爆發:地面部隊交火已造成150人傷亡,印軍6架戰機被摧毀

史政先鋒
2025-05-07 10:27:45
斷電斷糧斷燃油,以軍24小時瘋狂摧毀:也門胡塞打服了,要求停火

斷電斷糧斷燃油,以軍24小時瘋狂摧毀:也門胡塞打服了,要求停火

近史博覽
2025-05-07 16:29:24
景甜怎么胖成這樣了?但肉肉的更清純更像女大學生了

景甜怎么胖成這樣了?但肉肉的更清純更像女大學生了

可樂談情感
2025-05-07 16:30:56
越南突然翻臉!5月6日外交戰打響,中越20年默契一夜歸零!

越南突然翻臉!5月6日外交戰打響,中越20年默契一夜歸零!

起喜電影
2025-05-07 13:04:43
已擊落6架!巴軍確認戰果,找到陣風專屬殘骸,印媒承認損失慘重

已擊落6架!巴軍確認戰果,找到陣風專屬殘骸,印媒承認損失慘重

說天說地說實事
2025-05-07 19:55:54
30歲漂亮女游客,為打撈相機命喪87米海底,相機記錄下她溺亡過程

30歲漂亮女游客,為打撈相機命喪87米海底,相機記錄下她溺亡過程

漢史趣聞
2025-05-07 14:13:06
父親買的二手別墅給兒子辦過戶,吃驚發現“購房發票”涉嫌偽造,需補交近70萬稅款及滯納金

父親買的二手別墅給兒子辦過戶,吃驚發現“購房發票”涉嫌偽造,需補交近70萬稅款及滯納金

大風新聞
2025-05-07 18:26:13
今天6點開始,華爾街熬夜看中國!

今天6點開始,華爾街熬夜看中國!

金融界
2025-05-07 19:59:21
今起三天山東大范圍降雨!中到大雨+冰雹+陣風9級,最新天氣預報

今起三天山東大范圍降雨!中到大雨+冰雹+陣風9級,最新天氣預報

魯中晨報
2025-05-07 12:56:04
今明兩年買房子,內行人給出建議,記住7個字:買舊買大不買三

今明兩年買房子,內行人給出建議,記住7個字:買舊買大不買三

小談食刻美食
2025-05-07 21:11:11
當一個國家走向自大和封閉,它的黃金時代也就結束了

當一個國家走向自大和封閉,它的黃金時代也就結束了

黑噪音
2025-05-07 15:10:11
印軍不宣而戰,深夜發起突襲,給了殲-10戰機,一戰成名的機會

印軍不宣而戰,深夜發起突襲,給了殲-10戰機,一戰成名的機會

空天力量
2025-05-07 17:18:33
殲-10C贏在哪里?巴防長證實:印巴空戰殲-10CP成功逼退“陣風”

殲-10C贏在哪里?巴防長證實:印巴空戰殲-10CP成功逼退“陣風”

軍武次位面
2025-05-07 17:28:56
正部級掛帥,中央指導組開始進駐!劉家義任組長

正部級掛帥,中央指導組開始進駐!劉家義任組長

政知新媒體
2025-05-07 20:15:17
馬來西亞發生恐怖命案,一華裔女子被人從貨車扔到大馬路上,已死亡

馬來西亞發生恐怖命案,一華裔女子被人從貨車扔到大馬路上,已死亡

瀟湘晨報
2025-05-07 16:35:06
現成的廣告來了!7000萬美元中國戰機擊落2.8億美元西方頂級戰機

現成的廣告來了!7000萬美元中國戰機擊落2.8億美元西方頂級戰機

凱撒談兵
2025-05-07 11:19:46
趙薇15歲女兒近照曝光!在瑞士上學住宿舍,跳手勢舞,長相很普通

趙薇15歲女兒近照曝光!在瑞士上學住宿舍,跳手勢舞,長相很普通

娛樂圈圈圓
2025-05-07 17:10:59
中國外交部呼吁:冷靜克制!巴方宣布:擊落3架陣風+1架米格+1架蘇-30!莫迪徹夜“觀戰”,印方稱巴方開火致10死48傷

中國外交部呼吁:冷靜克制!巴方宣布:擊落3架陣風+1架米格+1架蘇-30!莫迪徹夜“觀戰”,印方稱巴方開火致10死48傷

每日經濟新聞
2025-05-07 14:00:04
女子穿工裝吃九元拉面,被拉面店員工嘲笑威脅,當事人再回應!

女子穿工裝吃九元拉面,被拉面店員工嘲笑威脅,當事人再回應!

阿纂看事
2025-05-07 17:15:51
2025-05-08 00:20:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10435文章數 176132關注度
往期回顧 全部

科技要聞

李想:智駕該被叫停嗎?這是黎明前的黑暗

頭條要聞

中方被問為何改變立場同意與美方舉行會談 外交部回應

頭條要聞

中方被問為何改變立場同意與美方舉行會談 外交部回應

體育要聞

未來是你們這些年輕人的,但現在還不行!

娛樂要聞

出道15年零緋聞,被劉濤贊揚演技的他

財經要聞

信息量巨大,這次放水完全不一樣

汽車要聞

《臺州宣言》再進一步 吉利汽車將全資控股極氪

態度原創

房產
藝術
數碼
健康
軍事航空

房產要聞

刺激!這波大利好,新老買房客,都贏麻了!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

數碼要聞

壹號顯卡擴展塢 EVA 聯名版發布:二號機與明日香元素,6999 元

唇皰疹和口腔潰瘍是"同伙"嗎?

軍事要聞

巴基斯坦與印度在巴控克什米爾發生交火

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 渭南市| 合江县| 洞头县| 米脂县| 南川市| 城口县| 射洪县| 中牟县| 闽清县| 珠海市| 连平县| 日照市| 卢氏县| 深水埗区| 鲜城| 军事| 安西县| 秦安县| 上思县| 三台县| 鹤岗市| 和政县| 宝丰县| 台北市| 南城县| 布尔津县| 小金县| 广平县| 蒙自县| 盐城市| 泽普县| 长垣县| 措勤县| 阿拉善盟| 安多县| 临泉县| 揭西县| 乐亭县| 陈巴尔虎旗| 平潭县| 民权县|