網易首頁 > 網易號 > 正文申請入駐

FlagOS實現DeepSeek-R1滿血版多芯片高效部署，效果對齊英偉達GPU

2025-04-13 18:05:29　來源: wisemodel開源社區

北京舉報

分享至

始智AI wisemodel.cn開源社區

始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在，歡迎加入共同成長。wisemodel社區上線，最新上線4090資源不限量，價格實惠，靈活方便，支持在線微調訓練模型，及和，并。

DeepSeek火爆全球之后，各家芯片廠商和各類硬件都紛紛宣布適配了DeepSeek模型，但由于是各干各的，所以一直缺乏統一的框架支持deepseek在不同芯片上的部署。

為了解決這個問題，FlagOS開源工作進行了升級，聯合多個國產芯片廠商，共同開發了DeepSeek-R1在不同國產芯片上適配的版本，并且已經發布到始智AI-wisemodel開源社區，歡迎體驗。

此次升級之后的FlagOS，是業界首個實現DeepSeek-R1的多芯片部署的統一軟件棧，并同時給出了嚴謹的模型對齊結果，保證了開源可用、統一易用。

模型地址

https://wisemodel.cn/organization/FlagRelease

01.

FlagOS對齊多芯片部署R1

基于FlagOS適配的DeepSeek-R1多芯片版本提供了預配置芯片鏡像，可繞過分布式環境搭建與芯片專屬配置，實現零成本適配，極大方便了開發者在不同AI芯片服務器上面部署和使用DeepSeek-R1模型。

目前，首批完成了5種不同廠商的AI芯片適配，更多AI芯片適配將于近期陸續上線開源。同時，以FlagOS技術棧為基礎，未來將支持更多優秀大模型在多種AI芯片的版本發布。

基于FlagOS的DeepSeek R1跨芯片模型性能在準確性上可全面對齊使用英偉達H100的模型性能。

DeepSeek-R1-H100-CUDA 是以CUDA為基礎，在H100上部署的基線性能，基本可以還原Deepseek-R1技術報告上的數值。
DeepSeek-R1-H100-FlagOS是在H100 GPU上利用FlagOS實現的模型，其性能與基線模型相匹配，證明了跨芯片部署的可行性和一致性。
DeepSeek-R1-FlagOS-Cambricon-BF16是基于FlagOS在寒武紀芯片上基于FlagOS和BF16混合精度技術部署的模型，其性能成功與基線模型對齊，展示了跨芯片遷移的高性能潛力。
DeepSeek-R1-FlagOS-Metax-BF16是以FlagOS為基礎，在沐曦芯片上利用FlagOS和BF16混合精度技術部署的模型，其性能同樣與基線模型相匹配，進一步驗證了模型跨不同芯片平臺的兼容性和穩定性。
DeepSeek-R1-FlagOS-Iluvatar-INT8是以FlagOS為基礎，在天數芯片上基于FlagOS和INT8量化技術部署的模型。盡管由于量化技術的應用，性能略有下降，但仍然保持較高準確性。

基于FlagOS的DeepSeek-R1在各芯片上的評測結果

注：1. 本評測結果由FlagEval 提供。當前版本的發布涉及到在多個芯片平臺上進行性能評估，這一過程需要較長時間來完成，我們將根據評估進度，逐步更新并公布各平臺的性能對齊結果。確保能夠提供準確和可靠的性能數據，以滿足不同硬件環境的需求。

本測試僅用于驗證模型遷移后與英偉達版本效果的一致性，但由于適配芯片架構與產生原參數的芯片架構存在差異，因此在同數值精度（及同量化策略）條件下各數據集的評測指標差異在1%內則視為效果一致。

02.

面向多元AI芯片的開源統一軟件棧

FlagOS是由多個團隊共同打造的面向多元AI芯片的統一、開源的系統軟件技術棧，包括支持多種AI芯片的高效并行訓推框架FlagScale、支持多種AI芯片架構的高性能算子庫FlagAttention和FlagGems，以及支持多種AI芯片的統一通信庫FlagCX等關鍵技術。

FlagOS旨在包括英偉達及多種國產AI芯片上，都能為用戶提供統一、開源開放的系統軟件，支撐各種大模型在不同AI芯片上的高效易用，從而打破算力的束縛。FlagOS具備以下特點和優勢：

代碼統一：使用同一套開源代碼和底層框架，實現了不同AI芯片架構的DeepSeek-R1推理，推動生態統一、開放。

效果對齊：秉承科學嚴謹的方法，發布的多芯片版本，在各個芯片服務器上，均與英偉達芯片上的DeepSeek-R1進行嚴格評測，保證在不同芯片架構上的DeepSeek-R1版本與原始英偉達版本效果對齊，同樣優秀。該對齊評測是基于FlagEval大模型評測系統。

開源開放：多芯片版本的源代碼、各個芯片的DeepSeek-R1模型文件、各個芯片的一站式Docker運行鏡像文件分別開放到Github/Gitee，Huggingface和wisemodel，云廠商鏡像倉庫等平臺，方便廣大開發者用戶的獲取。

高效易用：依托各芯片適配的基礎鏡像，安裝 FlagOS 核心組件，其中涵蓋異構并行訓推框架 FlagScale 與大模型通用算子庫 FlagGems。在此基礎上，能夠一鍵部署 DeepSeek - R1 模型服務和自動分布式推理調優能力，同時提供與 OpenAI 兼容的 API，極大降低使用門檻，提升部署效率。

此次基于FlagOS研發的DeepSeek-R1多芯片版本，可一鍵啟動FlagScale實現6700億參數大模型跨芯片的并行推理，支持用戶根據需求靈活選擇算力組合，自動實現并行推理計算。

FlagScale會根據不同AI芯片的計算能力自動優化分布式并行策略，確保資源分配最優化和高效利用，提升整體部署性能。

FlagScale提供統一且簡單的命令執行機制，用戶可以通過相同的命令在各種硬件平臺上快速無縫部署服務。

底層的高性能算子庫FlagGems提供了25個通用算子的CUDA開源替換方案，融合算子將在下一個版本中完成替換，支持模型快速遷移至多元芯片。

借助FlagScale的統一Runner機制以及與FlagGems的深度集成，用戶只需在配置文件中添加環境變量即可無縫切換到FlagGems算子庫進行推理。

03.

詳細部署和使用步驟

基于FlagOS，只需要幾步，用戶即可在支持的AI芯片服務器上完成環境搭建和模型部署。下面以沐曦為例，具體過程如下：

1、安裝FlagScale

2、下載鏡像和模型權重

3、創建和進入容器

4、下載安裝FlagGems

5、下載FlagScale及創建vllm環境

6、配置deepseek_r1 yaml文件

7、啟動服務

04.

FlagOS系列組件介紹

1

FlagGems

由多家機構研發的大模型通用算子庫，基于 OpenAI Triton 語言并支持多種芯片架構。憑借 Triton 語言的開放性與靈活性，FlagGems 為多種加速硬件提供了統一且高效的算子層生態接入方案。目前，FlagGems 是全球范圍內基于 Triton 開發的算子覆蓋最全面的通用算子庫，已展現出以下特色：

數量豐富：算子總數超過140個，且算子類型的廣度遠超同類競品。

性能優越：90%以上平均性能超越Pytorch CUDA版本。

多后端支持：目前支持7種加速器后端，經過持續優化，性能加速比提升顯著。

創新技術：采用獨特的代碼生成優化及運行時優化技術，二次開發效率及運行時性能優于同類項目。

FlagGems算子庫已初步驗證多元芯片統一算子層的路線可行性。同時，構建了從模型應用企業、系統集成商到芯片企業全鏈路產業生態。未來，算子庫計劃進一步提升性能，支持更多模型和芯片，引領多元異構芯片統一生態的技術前沿和產業落地。

2

FlagScale

由多家生態伙伴聯合，基于開源技術共同構建的面向多芯片開源大模型框架，旨在提升計算資源利用效率，并確保模型訓練與推理效果。通過提供模型開發、訓練和部署等全流程關鍵組件，FlagScale致力于成為優化大型模型工作流程效率與效果的必備開源工具包，具備如下特色：

領先的異構混訓技術：首次實現不同代際與不同架構芯片之間大模型異構混合訓練，提供通用的多維異構混合并行策略，支持不同廠商跨節點RDMA直連和CPU中轉通信。

高效的端到端訓練與推理：支持10余種模型的端到端預訓練與推理，涵蓋稠密和稀疏模型，涉及語言與多模態領域，參數規模達千億量級。在LLaVA-OneVision同配置下，訓練效率達到DeepSpeed的1.7倍；多模態CFG推理效率達到HuggingFace的3.8～6.7倍。

跨芯片自動調優能力：為用戶提供開箱即用的自動調優工具，僅需通過配置即可一鍵獲取性能最優的并行策略。這大幅降低了分布式訓練與推理的部署門檻。通過自動調優，實際測試中多款芯片的性能平均提升11.3%。

多芯片訓練與推理適配：與廠商共建，已在8家不同芯片上完成訓練與推理適配，實現算子、預訓練損失、微調損失及評測效果四個層級的精度對齊。涵蓋語言和多模態領域多個不同規模的模型，并成功實現非英偉達芯片上千卡的端到端完整訓練。

3

FlagCX

由多家生態合作伙伴聯合，構建并開源的異構統一通信庫，是填補多元算力開源軟件棧的重要版圖，它不僅能夠實現不同芯片之間的跨節點高效通信，支持單一任務在多芯片環境下的高效異構混合訓練，還能實現大規模自適應通信優化，顯著降低跨芯片、跨規模、跨任務的遷移成本。FlagCX具備以下特色：

標準化：功能和接口進行統一標準化，將廠商適配成本極大的減少。

兼容性：兼容PyTorch等框架，兼容廠商自研通信庫，兼容標準IB/RoCE網絡協議等。

自適應：針對不同任務負載、不同集群規模、不同廠商芯片等，將提供自動調優機制。

高性能：當前已在同構芯片上實現通信的零開銷分發，而在異構跨機通信達到峰值帶寬90%以上。

為更好地推動異構統一通信庫FlagCX的發展，加速相關標準的研制及落地應用，相關團隊正在積極構建相關軟件生態。通過產學研的協同創新，形成良性循環，加速異構統一通信庫的技術推廣與應用落地。

4

FlagEval

（天秤）

大模型評測體系及開放平臺，致力于建立科學、公正、開放的評測基準、方法及工具集，旨在協助研究人員全面評估基礎模型及訓練算法的性能。

FlagEval已逐步推出一系列評測工具，涵蓋語言大模型評測、多語言文圖大模型評測及文圖生成評測等多個領域，通過系統化的工具建設，平臺不僅實現了對各類大語言模型和跨模態模型的廣泛評測，還進一步拓展了評測場景，覆蓋自然語言處理（NLP）、計算機視覺（CV）、音頻處理（Audio）及多模態（Multimodal）四大領域，并支持豐富的下游任務。

截至目前，FlagEval已完成對800多個國內外大模型的評測，支持語言問答、多模態圖文理解、文生圖、文生視頻四大任務的自定義在線或離線盲測，為模型性能的全面評估提供了強有力的支持。

----- END -----

wisemodel相關：

系統升級：

大賽報名：

系列模型：

關于wisemodel更多

歡迎持續關注和支持

開源社區建設需要長期堅持和投入，更需要廣大用戶的積極參與、貢獻和維護，歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果，包括模型、數據集和代碼等發布到 wisemodel.cn 社區，共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信，申請加入wisemodel社群，持續關注wisemodel.cn開源社區動態。

歡迎加盟wisemodel開源社區

始智AI wisemodel社區自2023年9月上線以來，逐漸成為影響力日益擴大的中立開放的AI開源社區，為了加快公司發展，我們長期需要技術、運營等人才加盟，技術側重在AI infra、后端開發，熟悉K8S、模型訓練和推理等技術，以及熟悉開發者生態運營的成員，歡迎感興趣的朋友加盟，可以通過添加wisemodel微信，或者將簡歷投遞到郵箱：liudaoquan@wisemodel.cn

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果，鼓勵高校實驗室、大企業研究團隊、個人等，在wisemodel平臺上分享各類優質內容，可以是AI領域最新論文解讀、最新開源成果介紹，也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn，也可以掃碼添加wisemodel微信。

關于wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立，旨在打造和建設中立開放的AI開源創新社區，將打造成“HuggingFace”之外最活躍的AI開源社區，匯聚主要AI開源模型、數據集和代碼等，歡迎高?？蒲性核?、大型互聯網公司、創新創業企業、廣大個人開發者，以及政府部門、學會協會、聯盟、基金會等，還有投資機構、科技媒體等，共同參與建設AI開源創新生態。

向上滑動查看

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.