近日,螞蟻集團在 AI 模型訓練技術上取得突破,結合“專家混合機器學習”方法,在混合算力的系統下,依然能保證模型性能,并進一步降低訓練成本。螞蟻這一研究成果的論文于 3 月 11 日發表(論文地址:https://arxiv.org/pdf/2503.05139),其中介紹了螞蟻集團如何通過精細化的系統優化,實現大模型訓練的效率和性能雙重提升。
論文截圖
具體而言,論文深入探討了以下幾個核心技術點:
模型架構:基于對密集模型和 MoE 模型縮放規律的綜合分析,螞蟻團隊選擇與可用計算資源最匹配的架構,實現了資源利用率的最大化。這一策略性選擇在資源有限的情況下,確保了模型性能的最優表現。
訓練框架:為了充分發揮異構計算平臺的潛力,螞蟻團隊將多個訓練框架整合為一個統一的分布式深度學習框架,即開源項目 DLRover。此外,他們還開發了輕量級調試工具 XPUTimer 和彈性分布式訓練策略 EDiT, 在大幅減少內存占用的同時,顯著提升了訓練效率。
存儲系統:螞蟻團隊通過采用設備多租戶和用戶空間文件系統(FUSE)等技術,實現了大規模訓練的高性能和多集群適應性。存儲和訓練流程的協同設計不僅提高了 MoE 場景中的 I/O 效率,還將時間開銷減少了 50%。
推理優化:基于自主創新的離線推理框架 Flood,螞蟻構建了一套可擴展的跨集群評估系統,確保了訓練效果的穩定性和可靠性。
與此同時,在由 CSDN & Boolan 聯合舉辦的 2025 全球機器學習技術大會上,來自螞蟻的資深算法專家李龍飛將帶來《性能驅動的大模型架構探索——網絡架構及推理架構》的精彩分享,深入剖析螞蟻在降低大模型應用成本方面的探索與實踐。
深耕算法多年,推動螞蟻大模型落地
李龍飛擁有十年的螞蟻工作經驗,在邏輯學習、因果學習、自動學習、大模型等方向有深入研究,并在 NeurIPS、ICML、KDD、SIGIR 等國際頂級會議上發表論文 70 余篇。他主導參與了螞蟻內部的多個核心平臺和項目,深度參與螞蟻百靈大模型的開發,并主導了大模型離線推理框架 Flood 的開發(GitHub 地址:
https://github.com/alipay/PainlessInferenceAcceleration )。憑借其在人工智能領域的卓越貢獻,李龍飛榮獲了 CCF 2020 科技進步卓越獎和吳文俊 2023 科技進步一等獎。
聚焦成本難題,探索性能優化的新路徑
近年來,大語言模型能力突飛猛進,然而高昂的部署成本始終制約著其廣泛應用。為此,螞蟻集團從推理架構和網絡架構兩大方向入手,進行了系統性的優化探索。 李龍飛將在 2025 全球機器學習技術大會上深入探討螞蟻集團在大模型低成本部署方面的創新實踐:
推理架構優化: 結合具體業務,重新設計 KV Cache 和調度策略,并基于此開發了 Flood 框架,在離線推理中取得了顯著的性能提升。
網絡架構探索: 在 MoE(Mixture of Experts)、線性模型等方向進行了深入探索,積累了豐富的實戰經驗。
這些探索最終助力螞蟻集團實現了使用國產芯片降本增效的目標。李龍飛的分享將為與會者提供寶貴的借鑒和啟發,為行業提供寶貴經驗,助力開發者和研究者在降低大模型應用成本方面取得突破。
ML Summit 2025:匯聚全球智慧,共繪 AI 新藍圖
2025 全球機器學習技術大會 (ML Summit 2025) 不僅是技術交流的平臺,更是推動 AI 生態融合、促進行業協同創新的重要契機。大會設有 12 大技術專題,覆蓋 AI 領域的前沿熱點。此外,大會還將設置 AI 企業創新展區,展示最新的技術產品和解決方案。
我們誠摯邀請全球 AI 產業參與者積極加入 ML Summit 2025,共同探索 AI 的未來發展方向,推動 AI 在更廣泛的應用場景中落地生根。期待與您在 ML Summit 2025 攜手見證 AI 時代的新篇章!
▲2024全球機器學習技術大會展區盛況
我們誠邀全球 AI 產業參與者積極加入,共同捕捉前沿趨勢,探索產業升級路徑,推動 AI 走向更廣闊的應用場景。期待在 ML Summit 2025,與每一位同行者攜手見證 AI 時代的新篇章 !
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.