99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Meta為他豪擲2億美元,上交校友龐若鳴,曬出在蘋果的最新論文

0
分享至

機器之心報道

編輯:笑寒、陳陳

這或許是龐若鳴(Ruoming Pang)在蘋果參與的最后一篇論文。

龐若鳴,蘋果基礎模型團隊負責人、杰出工程師,即將成為 Meta 新成立的超級智能團隊的最新成員。他本科畢業于上海交通大學,在谷歌工作了 15 年,此后加入蘋果。另據彭博社最新消息,Meta 更是開出了 2 億美金的天價來邀請龐若鳴加入。



雖然即將跨入另一段人生旅程,但龐若鳴還在為蘋果站好最后一班崗。

7 月 9 日,龐若鳴在 X 上宣傳了自己參與的一項研究《 AXLearn: Modular Large Model Training on Heterogeneous Infrastructure 》,據了解,這項研究是構建 Apple Foundation 模型的基礎代碼庫。



具體而言,本文設計并實現了AXLearn,一個用于大規模深度學習模型訓練的生產級系統,其具備良好的可擴展性和高性能。與其他先進的深度學習系統相比,AXLearn 具有獨特的優勢:高度模塊化和對異構硬件基礎設施的全面支持。

AXLearn 內部的軟件組件接口遵循嚴格的封裝原則,使得不同組件能夠靈活組合,從而在異構計算環境中快速進行模型開發和實驗。

此外,本文還提出了一種用于衡量模塊化程度的新方法:基于代碼行數的復雜度(LoC-complexity)指標。實驗表明,AXLearn 在系統擴展時可以保持恒定的復雜度,而其他系統則呈現出線性甚至二次增長的復雜度。

例如,將 Rotary Position Embeddings(RoPE)這類功能集成到 AXLearn 的上百個模塊中僅需約 10 行代碼,而在其他系統中可能需要數百行代碼才能實現相同效果。同時,AXLearn 也保持了與主流高性能訓練系統相當的訓練性能。



  • 論文地址:https://arxiv.org/pdf/2507.05411
  • 開源地址:https://github.com/apple/axlearn
  • 論文標題: AXLearn: Modular Large Model Training on Heterogeneous Infrastructure

AXLearn 介紹

現階段,像 ChatGPT、Gemini 這樣的聊天機器人都是由大模型驅動的。這種深度學習系統會優先考慮性能和可擴展性。

作為全球最大的消費電子和在線服務公司之一,蘋果已經將許多 AI 模型集成到自家產品中,服務于全球數十億用戶。

除了訓練性能和可擴展性外,蘋果對深度學習系統還有兩個額外的要求。首先是賦能模型工程師,只需編寫最少的代碼,就能配置復雜的模型定義和訓練方法。其次,作為一家大型科技公司,他們不能依賴單一的硬件供應商,因而他們的設計目標是兼容異構后端,如 GPU、TPU 和 AWS Trainium。

為了達到上述目的,AXLearn 被開發出來。

為了促進模塊化,AXLearn 的核心設計決策是強制執行嚴格的封裝。 此外,本文還通過將旋轉位置嵌入(RoPE)和專家混合模型(MoE)集成到 AXLearn 中的案例研究,展示了該框架與傳統代碼行數計數方法的一致性。



圖 2 顯示了 AXLearn 的系統架構和工作流程。AXLearn 有兩個關鍵組件:

(1)AXLearn 組合器(AXLearn composer)和(2)AXLearn 執行框架(AXLearn runtime)。

用戶通常使用 AXLearn 內置的層庫和第三方層組件來定義訓練配置。基于該配置腳本,AXLearn 組合器會首先生成完整的 JAX 程序。

這一過程包含以下關鍵步驟: 包括為目標加速器實例選擇合適的網格形狀、為特定層應用分片注釋、為目標硬件自動調優 XLA 編譯選項、為后端選擇合適的注意力內核,并根據模塊層次中的標記點應用適當的重計算策略。這些注釋對于訓練的高效運行至關重要。

然后,JAX 程序和編譯選項被傳遞給 XLA 編譯器,以生成加速器程序(例如,CUDA 內核),該程序隨后通過 AXLearn 運行時在分布式硬件(例如 Kubernetes)上進行調度,并使用特定于加速器的運行時(例如 CUDA 運行時)。

AXLearn 執行框架監控加速器程序的執行,并提供額外的功能,如高效的檢查點、監控和容錯能力。



實驗評估

下表展示了不同系統的代碼量復雜度(LoC-Complexities)匯總。



在 AXLearn 中,RoPE 和 MoE 被嚴格封裝。本文提供了一個 10 行的代碼片段,可以將這兩個功能集成到任何實驗配置中。



在本文的內部實踐中,正是通過類似的代碼片段,成功配置了超過 1000 個實驗,用于啟用 RoPE、MoE,或兩者同時使用。隨著模塊數量或 RoPE 或 MoE 變體的增加,無需對任何現有接口進行更改,實現了恒定的代碼復雜性。

在異構硬件上的性能

本文將 AXLearn 的訓練性能與以下系統進行了對比:PyTorch FSDP、Megatron-LM 以及 MaxText,這些系統在 GPU 與 TPU 上均實現了先進的訓練性能。

本文在三種硬件平臺上評估了兩個模型:Llama2 7B 與 Llama2 70B:

1. 256/512 H100 GPU(分別對應 32/64 個 AWS P5d 實例,每個實例含 8 張 H100);

2. TPU-v5p-512/1024(分別對應 64/128 個 GCP Cloud TPU 主機,每個主機含 4 顆芯片);

3. 1024 顆 Trainium2 芯片(64 個 AWS trn2 實例,每個實例含 16 顆 Trainium2 芯片)。

下表總結了性能結果。



為驗證 AXLearn 的可擴展性,本文對兩個實際部署的模型進行了弱擴展性(weak-scaling)實驗。

這些結果表明,AXLearn 接近線性擴展性,如圖 4 所示。



AXLearn 在 TPU 上同樣展現出業界領先的推理性能。本文對比了 AXLearn 與 vLLM 在 Llama2 7B 與 70B 參數模型上的推理表現。

如表 4 和圖 5 所示,AXLearn 在延遲和吞吐量方面均顯著優于 vLLM:

  • 在延遲方面,AXLearn 在 TTFT 和 TPOT 上分別實現了 500 倍和 6 倍加速;
  • 在吞吐量方面,AXLearn 在 7B 模型推理上快 2.8 倍,在 70B 模型上快 1.6 倍。





在生產中的使用體驗

如今,AXLearn 已從最初僅有數位開發者、訓練百萬級參數模型的工具,發展為支持數百位開發者訓練十億至萬億參數規模模型的大型平臺。

它在任意時刻可并行支持超過 10,000 個實驗的開發與運行,并部署在數十種異構硬件集群上。

借助 AXLearn 訓練的部分模型,現已被廣泛應用于十億級用戶規模的產品功能中,包括:智能助手、多模態理解與生成、代碼智能等關鍵能力。

了解更多內容,請參考原論文。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
WC!維金斯!湖人最快速度交易

WC!維金斯!湖人最快速度交易

技巧君侃球
2025-07-10 23:29:37
剛剛!中美經貿,最新消息!

剛剛!中美經貿,最新消息!

證券時報
2025-07-10 17:39:28
香港富四代稱“只花18塊的內地窮鬼別來旅游”,評論區一片叫好

香港富四代稱“只花18塊的內地窮鬼別來旅游”,評論區一片叫好

可達鴨面面觀
2025-07-03 09:02:14
公職人員出軌人妻還毆打原配,人妻美照曝光,開房30次:信息量大

公職人員出軌人妻還毆打原配,人妻美照曝光,開房30次:信息量大

溫柔看世界
2025-07-10 12:35:45
女優竹內有紀自曝引退時間!瘋狂發片模式啟動

女優竹內有紀自曝引退時間!瘋狂發片模式啟動

葫蘆哥愛吐槽
2025-07-11 00:05:16
稀土禁令形同虛設?外媒爆中資公司將稀土通過第三國大量轉運美國

稀土禁令形同虛設?外媒爆中資公司將稀土通過第三國大量轉運美國

花小貓的美食日常
2025-07-09 15:51:57
尹錫悅又被捕!首日菜單曝光 這一次待遇降級了

尹錫悅又被捕!首日菜單曝光 這一次待遇降級了

上游新聞
2025-07-10 14:52:49
薩巴倫卡談對手提前慶祝:那一刻我真的很生氣

薩巴倫卡談對手提前慶祝:那一刻我真的很生氣

懂球帝
2025-07-11 01:17:13
中國巨輪慘遭擊沉,胡塞武裝發動海上打擊,中方成為第一個受害者

中國巨輪慘遭擊沉,胡塞武裝發動海上打擊,中方成為第一個受害者

瞻史
2025-07-09 17:51:36
世界第1出局阿尼西莫娃2-1力克薩巴倫卡,生涯首進溫網決賽

世界第1出局阿尼西莫娃2-1力克薩巴倫卡,生涯首進溫網決賽

直播吧
2025-07-10 23:19:05
亞冠燒腦?。褐袊蛎栽谏昊ㄇ蛎詤^為日本隊加油 被日本球迷打了

亞冠燒腦?。褐袊蛎栽谏昊ㄇ蛎詤^為日本隊加油 被日本球迷打了

風過鄉
2025-07-10 19:42:42
楊少華并非午休時去世!真實死因曝光更引眾怒,家屬呼吁不要網暴

楊少華并非午休時去世!真實死因曝光更引眾怒,家屬呼吁不要網暴

小咪侃娛圈
2025-07-10 09:09:02
天水血鉛事件更多細節曝光,疑后廚親屬喊冤,懷孕老師也中招!

天水血鉛事件更多細節曝光,疑后廚親屬喊冤,懷孕老師也中招!

派大星紀錄片
2025-07-10 17:05:00
7月10日俄烏最新:創造歷史

7月10日俄烏最新:創造歷史

西樓飲月
2025-07-10 18:48:00
橫掃!溫網女單半決賽:斯瓦泰克2-0速勝本西奇,將戰阿尼西莫娃

橫掃!溫網女單半決賽:斯瓦泰克2-0速勝本西奇,將戰阿尼西莫娃

直播吧
2025-07-11 01:17:04
他信首次公開回應:洪森給我女兒“下套”,“兄弟情”已破裂

他信首次公開回應:洪森給我女兒“下套”,“兄弟情”已破裂

觀察者網
2025-07-10 20:07:34
遼寧省省長王新偉與李彥宏座談

遼寧省省長王新偉與李彥宏座談

政知新媒體
2025-07-10 20:04:44
連任才兩個月,還沒見特朗普,澳總理將展開超長時間訪華之旅!

連任才兩個月,還沒見特朗普,澳總理將展開超長時間訪華之旅!

西西弗說
2025-07-10 19:26:54
生15個私生子,6個情人為他自殺,影帝的風流人生如此悲愴

生15個私生子,6個情人為他自殺,影帝的風流人生如此悲愴

文藝館
2025-07-09 21:01:05
養老金調整通知正式公布,漲2%!企退養老金3257元,能漲160元嗎

養老金調整通知正式公布,漲2%!企退養老金3257元,能漲160元嗎

興史興談
2025-07-10 17:39:22
2025-07-11 05:23:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10837文章數 142364關注度
往期回顧 全部

科技要聞

Grok4最貴訂閱月費2千,會不會三觀不正?

頭條要聞

退休人員基本養老金為何上調2% 人社部發文回應

頭條要聞

退休人員基本養老金為何上調2% 人社部發文回應

體育要聞

白衣生涯最后一舞,但魔笛的故事還沒結束

娛樂要聞

宋佳,真的好叛逆!

財經要聞

潮玩規模破千億的幕后故事

汽車要聞

靠譜奶爸的底氣 樂道L90靜態體驗

態度原創

數碼
本地
旅游
房產
公開課

數碼要聞

炎炎夏日, “瓶蓋散熱法”在新本上失效了?

本地新聞

換個城市過夏天 | 楓葉之都的22℃清涼秘境

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

房產要聞

重磅!招商+平安出手,拿下海南440畝灣區大盤!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 白山市| 江源县| 哈巴河县| 宿迁市| 高尔夫| 兰州市| 亳州市| 东丰县| 奉贤区| 遂宁市| 腾冲县| 井陉县| 连南| 洛阳市| 普定县| 正宁县| 怀宁县| 珠海市| 贡嘎县| 迭部县| 同仁县| 静乐县| 临江市| 五家渠市| 阜新| 陕西省| 清水县| 贵阳市| 金沙县| 芜湖县| 阜南县| 南平市| 塔城市| 自贡市| 松潘县| 社会| 甘肃省| 龙岩市| 丹凤县| 怀远县| 乃东县|