5 月 23 日 -24 日,AICon 全球人工智能開發與應用大會上海站即將拉開帷幕。本次大會將聚焦 AI 技術的前沿突破與產業落地,圍繞 AI Agent、多模態應用、大模型架構創新、推理性能優化、大模型驅動數據創新、AI 產品創新與出海策略等核心議題,呈現技術與應用融合的最新趨勢。
華為高級開發工程師張君已確認出席 AICon 上海并將在大模型推理性能優化策略專題發表題為《華為昇騰推理技術的優化實踐》的主題分享。隨著大模型技術的快速發展,其在 LLM、多模態融合等領域的應用越來越廣泛。然而,大模型的高效推理仍然是一個關鍵挑戰,從計算復雜度、內存占用、通信技術等各個技術層面展開,如何在保證性能的同時降低計算成本、提升推理效率成為了關鍵挑戰。本次演講將圍繞大模型推理優化的技術發展方向,圍繞模型層、推理框架層、算子層這 3 個方面展開,并結合實踐案例,闡述相關的技術方案和選型,幫助聽眾更好地理解和應用大模型推理技術。
張君作為核心開發者參與 AI 框架 (昇思) 的開發,并負責動態圖的自動微分以及動靜結合模塊。目前主要參與大模型推理在昇騰硬件上的相關開發和優化工作,致力于通過優化推理框架、模型算法和算子加速庫等層面,進一步提升大模型推理的性能。他在本次會議的詳細演講內容如下:
演講提綱
大模型推理加速的技術挑戰與常用方案
算子融合,如 FA,通算融合
模型量化,如 w8a8 等
Attention 容量壓縮,如 MLA、GQA 等
技術研究熱點:模型層、框架層、算子層
模型層優化
昇騰推理領域加速庫 ATB
推理框架層優化
昇騰圖編譯技術 TorchAir
PD 分離部署
動態批處理(Dynamic Batching)、Prefix Cache 等
算子層優化
高效融合算子,如 MLA 算子設計
NPU 親和性編程,充分利用 Cube 和 Vector 計算單元能力
業務實踐:推理優化成功案例
通信融合算子最大化時間掩蓋,如 AllGatherMatmul
MLAPO 大融合算子,加速降低計算耗時
下一步優化方向
PD+ 大 EP 等
聽眾收益
了解當前華為昇騰推理技術的優化實踐
除此之外,本次大會還策劃了AI Agent 構建及多元應用、多模態大模型創新實踐、AI for Data,數據管理與價值挖掘實踐、大模型推理性能優化策略、AI 產品設計的創新思維、智能硬件與大模型的融合探索、金融領域大模型應用實踐、大模型助力業務提效實踐等專題,屆時將有來自不同行業、不同領域、不同企業的 60+ 資深專家在 AICon 上海站現場帶來前沿技術洞察和一線實踐經驗。
現在報名即可以享受 9 折優惠,單張門票立省 580 元,詳情可掃碼或聯系票務經理 13269078023 咨詢。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.