99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Meta為他豪擲2億美元,上交校友龐若鳴,曬出在蘋果的最新論文

0
分享至

機器之心報道

編輯:笑寒、陳陳

這或許是龐若鳴(Ruoming Pang)在蘋果參與的最后一篇論文。

龐若鳴,蘋果基礎模型團隊負責人、杰出工程師,即將成為 Meta 新成立的超級智能團隊的最新成員。他本科畢業于上海交通大學,在谷歌工作了 15 年,此后加入蘋果。另據彭博社最新消息,Meta 更是開出了 2 億美金的天價來邀請龐若鳴加入。



雖然即將跨入另一段人生旅程,但龐若鳴還在為蘋果站好最后一班崗。

7 月 9 日,龐若鳴在 X 上宣傳了自己參與的一項研究《 AXLearn: Modular Large Model Training on Heterogeneous Infrastructure 》,據了解,這項研究是構建 Apple Foundation 模型的基礎代碼庫。



具體而言,本文設計并實現了AXLearn,一個用于大規模深度學習模型訓練的生產級系統,其具備良好的可擴展性和高性能。與其他先進的深度學習系統相比,AXLearn 具有獨特的優勢:高度模塊化和對異構硬件基礎設施的全面支持。

AXLearn 內部的軟件組件接口遵循嚴格的封裝原則,使得不同組件能夠靈活組合,從而在異構計算環境中快速進行模型開發和實驗。

此外,本文還提出了一種用于衡量模塊化程度的新方法:基于代碼行數的復雜度(LoC-complexity)指標。實驗表明,AXLearn 在系統擴展時可以保持恒定的復雜度,而其他系統則呈現出線性甚至二次增長的復雜度。

例如,將 Rotary Position Embeddings(RoPE)這類功能集成到 AXLearn 的上百個模塊中僅需約 10 行代碼,而在其他系統中可能需要數百行代碼才能實現相同效果。同時,AXLearn 也保持了與主流高性能訓練系統相當的訓練性能。



  • 論文地址:https://arxiv.org/pdf/2507.05411
  • 開源地址:https://github.com/apple/axlearn
  • 論文標題: AXLearn: Modular Large Model Training on Heterogeneous Infrastructure

AXLearn 介紹

現階段,像 ChatGPT、Gemini 這樣的聊天機器人都是由大模型驅動的。這種深度學習系統會優先考慮性能和可擴展性。

作為全球最大的消費電子和在線服務公司之一,蘋果已經將許多 AI 模型集成到自家產品中,服務于全球數十億用戶。

除了訓練性能和可擴展性外,蘋果對深度學習系統還有兩個額外的要求。首先是賦能模型工程師,只需編寫最少的代碼,就能配置復雜的模型定義和訓練方法。其次,作為一家大型科技公司,他們不能依賴單一的硬件供應商,因而他們的設計目標是兼容異構后端,如 GPU、TPU 和 AWS Trainium。

為了達到上述目的,AXLearn 被開發出來。

為了促進模塊化,AXLearn 的核心設計決策是強制執行嚴格的封裝。 此外,本文還通過將旋轉位置嵌入(RoPE)和專家混合模型(MoE)集成到 AXLearn 中的案例研究,展示了該框架與傳統代碼行數計數方法的一致性。



圖 2 顯示了 AXLearn 的系統架構和工作流程。AXLearn 有兩個關鍵組件:

(1)AXLearn 組合器(AXLearn composer)和(2)AXLearn 執行框架(AXLearn runtime)。

用戶通常使用 AXLearn 內置的層庫和第三方層組件來定義訓練配置。基于該配置腳本,AXLearn 組合器會首先生成完整的 JAX 程序。

這一過程包含以下關鍵步驟: 包括為目標加速器實例選擇合適的網格形狀、為特定層應用分片注釋、為目標硬件自動調優 XLA 編譯選項、為后端選擇合適的注意力內核,并根據模塊層次中的標記點應用適當的重計算策略。這些注釋對于訓練的高效運行至關重要。

然后,JAX 程序和編譯選項被傳遞給 XLA 編譯器,以生成加速器程序(例如,CUDA 內核),該程序隨后通過 AXLearn 運行時在分布式硬件(例如 Kubernetes)上進行調度,并使用特定于加速器的運行時(例如 CUDA 運行時)。

AXLearn 執行框架監控加速器程序的執行,并提供額外的功能,如高效的檢查點、監控和容錯能力。



實驗評估

下表展示了不同系統的代碼量復雜度(LoC-Complexities)匯總。



在 AXLearn 中,RoPE 和 MoE 被嚴格封裝。本文提供了一個 10 行的代碼片段,可以將這兩個功能集成到任何實驗配置中。



在本文的內部實踐中,正是通過類似的代碼片段,成功配置了超過 1000 個實驗,用于啟用 RoPE、MoE,或兩者同時使用。隨著模塊數量或 RoPE 或 MoE 變體的增加,無需對任何現有接口進行更改,實現了恒定的代碼復雜性。

在異構硬件上的性能

本文將 AXLearn 的訓練性能與以下系統進行了對比:PyTorch FSDP、Megatron-LM 以及 MaxText,這些系統在 GPU 與 TPU 上均實現了先進的訓練性能。

本文在三種硬件平臺上評估了兩個模型:Llama2 7B 與 Llama2 70B:

1. 256/512 H100 GPU(分別對應 32/64 個 AWS P5d 實例,每個實例含 8 張 H100);

2. TPU-v5p-512/1024(分別對應 64/128 個 GCP Cloud TPU 主機,每個主機含 4 顆芯片);

3. 1024 顆 Trainium2 芯片(64 個 AWS trn2 實例,每個實例含 16 顆 Trainium2 芯片)。

下表總結了性能結果。



為驗證 AXLearn 的可擴展性,本文對兩個實際部署的模型進行了弱擴展性(weak-scaling)實驗。

這些結果表明,AXLearn 接近線性擴展性,如圖 4 所示。



AXLearn 在 TPU 上同樣展現出業界領先的推理性能。本文對比了 AXLearn 與 vLLM 在 Llama2 7B 與 70B 參數模型上的推理表現。

如表 4 和圖 5 所示,AXLearn 在延遲和吞吐量方面均顯著優于 vLLM:

  • 在延遲方面,AXLearn 在 TTFT 和 TPOT 上分別實現了 500 倍和 6 倍加速;
  • 在吞吐量方面,AXLearn 在 7B 模型推理上快 2.8 倍,在 70B 模型上快 1.6 倍。





在生產中的使用體驗

如今,AXLearn 已從最初僅有數位開發者、訓練百萬級參數模型的工具,發展為支持數百位開發者訓練十億至萬億參數規模模型的大型平臺。

它在任意時刻可并行支持超過 10,000 個實驗的開發與運行,并部署在數十種異構硬件集群上。

借助 AXLearn 訓練的部分模型,現已被廣泛應用于十億級用戶規模的產品功能中,包括:智能助手、多模態理解與生成、代碼智能等關鍵能力。

了解更多內容,請參考原論文。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
第5號臺風“百合”生成!最新路徑公布,深圳天氣將......

第5號臺風“百合”生成!最新路徑公布,深圳天氣將......

深圳晚報
2025-07-13 14:56:34
65票反對,泰國撤回法案,他信為女兒洗刷冤屈,洪瑪奈已做出選擇

65票反對,泰國撤回法案,他信為女兒洗刷冤屈,洪瑪奈已做出選擇

虎哥閑聊
2025-07-12 15:33:00
朝鮮外交官叛逃韓國后爆出金家“猛料”:金正恩有個“特別之處”

朝鮮外交官叛逃韓國后爆出金家“猛料”:金正恩有個“特別之處”

阿器談史
2025-01-30 19:45:50
53歲吳越現身菜場,馬路上狂奔舉止瘋癲、遭人白眼,她咋成這樣?

53歲吳越現身菜場,馬路上狂奔舉止瘋癲、遭人白眼,她咋成這樣?

圓圓神神神
2025-07-12 16:52:17
尹錫悅監獄生活曝光,比當韓國總統時關注度還高

尹錫悅監獄生活曝光,比當韓國總統時關注度還高

娛樂的宅急便
2025-07-13 02:04:27
禁令沒效果?3834噸稀土偷運美國,中方出手很快,兩幫兇有麻煩了

禁令沒效果?3834噸稀土偷運美國,中方出手很快,兩幫兇有麻煩了

娛樂的硬糖吖
2025-07-12 12:44:47
王楚欽:小勒布倫今天的發揮能戰勝任何人,決勝局自己足夠堅定

王楚欽:小勒布倫今天的發揮能戰勝任何人,決勝局自己足夠堅定

直播吧
2025-07-13 13:55:03
江蘇養老金2025年怎么漲?定額增加額、掛鉤增加額都要減少?

江蘇養老金2025年怎么漲?定額增加額、掛鉤增加額都要減少?

王五說說看
2025-07-13 10:41:08
七大知名酸奶“全軍覆滅”,實際為科技小甜水,以后別再被騙了!

七大知名酸奶“全軍覆滅”,實際為科技小甜水,以后別再被騙了!

阿傖說事
2025-07-11 11:29:21
點映票房560萬,《長安的荔枝》首波口碑出爐,沖15億票房穩了

點映票房560萬,《長安的荔枝》首波口碑出爐,沖15億票房穩了

電影票房預告片
2025-07-13 12:51:08
皮爾斯:東契奇這種高使用率很難奪冠 布倫森和火箭登就是例子

皮爾斯:東契奇這種高使用率很難奪冠 布倫森和火箭登就是例子

直播吧
2025-07-13 17:38:50
報應來了!捐給美國7千萬,滿嘴“中國窮關我啥事”,如今破產了

報應來了!捐給美國7千萬,滿嘴“中國窮關我啥事”,如今破產了

小鬼頭體育
2025-07-11 04:21:02
美團即時零售訂單量達1.5億再創新高,超過40萬眾包騎手日收入超500元

美團即時零售訂單量達1.5億再創新高,超過40萬眾包騎手日收入超500元

澎湃新聞
2025-07-13 06:34:26
2-3!孫穎莎爆冷丟2冠,王曼昱空手而歸,國乒變天,馬琳也愁啊

2-3!孫穎莎爆冷丟2冠,王曼昱空手而歸,國乒變天,馬琳也愁啊

體育就你秀
2025-07-13 17:37:40
中國女排八進四分析!最差打意大利,輸美國更有利,有望對陣日本

中國女排八進四分析!最差打意大利,輸美國更有利,有望對陣日本

跑者排球視角
2025-07-13 16:39:20
女子家里常年有臭味,找不到來源只好搬家,離開當天房東急了

女子家里常年有臭味,找不到來源只好搬家,離開當天房東急了

潮河講堂
2025-07-10 17:53:45
中國女足4比2擊敗中國臺北,斬獲女足東亞杯首場勝利

中國女足4比2擊敗中國臺北,斬獲女足東亞杯首場勝利

澎湃新聞
2025-07-13 17:28:35
以色列竄訪臺灣!涉臺言論驟變,中方改口,“點名”胡塞武裝

以色列竄訪臺灣!涉臺言論驟變,中方改口,“點名”胡塞武裝

古事尋蹤記
2025-07-13 08:16:02
比亞迪固態電池烏龍引爆行業!充電12分鐘跑1500公里竟是假?

比亞迪固態電池烏龍引爆行業!充電12分鐘跑1500公里竟是假?

視覺攻城獅
2025-07-12 22:43:33
搞笑冷笑話,暗戀的女神找我喝酒哭訴她與男朋友分手,看著她喝那么多酒我也好難過!

搞笑冷笑話,暗戀的女神找我喝酒哭訴她與男朋友分手,看著她喝那么多酒我也好難過!

天天明星
2025-07-12 16:53:01
2025-07-13 18:35:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10845文章數 142375關注度
往期回顧 全部

科技要聞

Grok正式登陸特斯拉 "脫韁模式"讓車主上頭

頭條要聞

浙江604分畢業生賀顯貽放棄本科 被武漢高職院校錄取

頭條要聞

浙江604分畢業生賀顯貽放棄本科 被武漢高職院校錄取

體育要聞

楊瀚森兩戰20+9+8 隔扣成最大亮點

娛樂要聞

38歲何潔近照曝光,與老公用餐甜蜜

財經要聞

宗馥莉被"弟妹"起訴 要求凍結18億美元

汽車要聞

小米YU7深度試駕:優點很多缺點也很多

態度原創

游戲
家居
時尚
親子
房產

PS第一方上Steam竟要裝Epic服務?原來是為了聯機!

家居要聞

生活憧憬 自由浪漫之境

今年最流行的4件T恤,減齡又好看!

親子要聞

天水幼兒血鉛風波后續:家長爆料孩子治療情況,給西安醫院送錦旗

房產要聞

8大新盤曝光!2025下半場,廣州主城開卷廝殺!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 汶上县| 丹阳市| 长汀县| 永靖县| 上犹县| 长寿区| 嘉峪关市| 谢通门县| 泌阳县| 金秀| 长岛县| 讷河市| 甘肃省| 张家口市| 山西省| 肇源县| 开化县| 巩义市| 安阳市| 郴州市| 丹江口市| 察雅县| 阳江市| 中卫市| 泰安市| 饶平县| 乌拉特后旗| 富锦市| 天峨县| 康马县| 扎兰屯市| 陇川县| 彭山县| 县级市| 池州市| 定南县| 正宁县| 慈利县| 右玉县| 拜城县| 常德市|