始智AI wisemodel.cn開源社區
始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在,歡迎加入共同成長。wisemodel社區上線,最新上線4090資源不限量,價格實惠,靈活方便,支持在線微調訓練模型,及和,并。
DeepSeek火爆全球之后,各家芯片廠商和各類硬件都紛紛宣布適配了DeepSeek模型,但由于是各干各的,所以一直缺乏統一的框架支持deepseek在不同芯片上的部署。
為了解決這個問題,FlagOS開源工作進行了升級,聯合多個國產芯片廠商,共同開發了DeepSeek-R1在不同國產芯片上適配的版本,并且已經發布到始智AI-wisemodel開源社區,歡迎體驗。
此次升級之后的FlagOS,是業界首個實現DeepSeek-R1的多芯片部署的統一軟件棧,并同時給出了嚴謹的模型對齊結果,保證了開源可用、統一易用。
模型地址
https://wisemodel.cn/organization/FlagRelease
01.
FlagOS對齊多芯片部署R1
基于FlagOS適配的DeepSeek-R1多芯片版本提供了預配置芯片鏡像,可繞過分布式環境搭建與芯片專屬配置,實現零成本適配,極大方便了開發者在不同AI芯片服務器上面部署和使用DeepSeek-R1模型。
目前,首批完成了5種不同廠商的AI芯片適配,更多AI芯片適配將于近期陸續上線開源。同時,以FlagOS技術棧為基礎,未來將支持更多優秀大模型在多種AI芯片的版本發布。
基于FlagOS的DeepSeek R1跨芯片模型性能在準確性上可全面對齊使用英偉達H100的模型性能。
DeepSeek-R1-H100-CUDA 是以CUDA為基礎,在H100上部署的基線性能,基本可以還原Deepseek-R1技術報告上的數值。
DeepSeek-R1-H100-FlagOS是在H100 GPU上利用FlagOS實現的模型,其性能與基線模型相匹配,證明了跨芯片部署的可行性和一致性。
DeepSeek-R1-FlagOS-Cambricon-BF16是基于FlagOS在寒武紀芯片上基于FlagOS和BF16混合精度技術部署的模型,其性能成功與基線模型對齊,展示了跨芯片遷移的高性能潛力。
DeepSeek-R1-FlagOS-Metax-BF16是以FlagOS為基礎,在沐曦芯片上利用FlagOS和BF16混合精度技術部署的模型,其性能同樣與基線模型相匹配,進一步驗證了模型跨不同芯片平臺的兼容性和穩定性。
DeepSeek-R1-FlagOS-Iluvatar-INT8是以FlagOS為基礎,在天數芯片上基于FlagOS和INT8量化技術部署的模型。盡管由于量化技術的應用,性能略有下降,但仍然保持較高準確性。
基于FlagOS的DeepSeek-R1在各芯片上的評測結果
注:1. 本評測結果由FlagEval 提供。當前版本的發布涉及到在多個芯片平臺上進行性能評估,這一過程需要較長時間來完成,我們將根據評估進度,逐步更新并公布各平臺的性能對齊結果。確保能夠提供準確和可靠的性能數據,以滿足不同硬件環境的需求。
本測試僅用于驗證模型遷移后與英偉達版本效果的一致性,但由于適配芯片架構與產生原參數的芯片架構存在差異,因此在同數值精度(及同量化策略)條件下各數據集的評測指標差異在1%內則視為效果一致。
02.
面向多元AI芯片的開源統一軟件棧
FlagOS是由多個團隊共同打造的面向多元AI芯片的統一、開源的系統軟件技術棧,包括支持多種AI芯片的高效并行訓推框架FlagScale、支持多種AI芯片架構的高性能算子庫FlagAttention和FlagGems,以及支持多種AI芯片的統一通信庫FlagCX等關鍵技術。
FlagOS旨在包括英偉達及多種國產AI芯片上,都能為用戶提供統一、開源開放的系統軟件,支撐各種大模型在不同AI芯片上的高效易用,從而打破算力的束縛。FlagOS具備以下特點和優勢:
代碼統一:使用同一套開源代碼和底層框架,實現了不同AI芯片架構的DeepSeek-R1推理,推動生態統一、開放。
效果對齊:秉承科學嚴謹的方法,發布的多芯片版本,在各個芯片服務器上,均與英偉達芯片上的DeepSeek-R1進行嚴格評測,保證在不同芯片架構上的DeepSeek-R1版本與原始英偉達版本效果對齊,同樣優秀。該對齊評測是基于FlagEval大模型評測系統。
開源開放:多芯片版本的源代碼、各個芯片的DeepSeek-R1模型文件、各個芯片的一站式Docker運行鏡像文件分別開放到Github/Gitee,Huggingface和wisemodel,云廠商鏡像倉庫等平臺,方便廣大開發者用戶的獲取。
高效易用:依托各芯片適配的基礎鏡像,安裝 FlagOS 核心組件,其中涵蓋異構并行訓推框架 FlagScale 與大模型通用算子庫 FlagGems。在此基礎上,能夠一鍵部署 DeepSeek - R1 模型服務和自動分布式推理調優能力,同時提供與 OpenAI 兼容的 API,極大降低使用門檻,提升部署效率。
此次基于FlagOS研發的DeepSeek-R1多芯片版本,可一鍵啟動FlagScale實現6700億參數大模型跨芯片的并行推理,支持用戶根據需求靈活選擇算力組合,自動實現并行推理計算。
FlagScale會根據不同AI芯片的計算能力自動優化分布式并行策略,確保資源分配最優化和高效利用,提升整體部署性能。
FlagScale提供統一且簡單的命令執行機制,用戶可以通過相同的命令在各種硬件平臺上快速無縫部署服務。
底層的高性能算子庫FlagGems提供了25個通用算子的CUDA開源替換方案,融合算子將在下一個版本中完成替換,支持模型快速遷移至多元芯片。
借助FlagScale的統一Runner機制以及與FlagGems的深度集成,用戶只需在配置文件中添加環境變量即可無縫切換到FlagGems算子庫進行推理。
03.
詳細部署和使用步驟
基于FlagOS,只需要幾步,用戶即可在支持的AI芯片服務器上完成環境搭建和模型部署。下面以沐曦為例,具體過程如下:
1、安裝FlagScale
2、下載鏡像和模型權重
3、創建和進入容器
4、下載安裝FlagGems
5、下載FlagScale及創建vllm環境
6、配置deepseek_r1 yaml文件
7、啟動服務
04.
FlagOS系列組件介紹
1
FlagGems
由多家機構研發的大模型通用算子庫,基于 OpenAI Triton 語言并支持多種芯片架構。憑借 Triton 語言的開放性與靈活性,FlagGems 為多種加速硬件提供了統一且高效的算子層生態接入方案。目前,FlagGems 是全球范圍內基于 Triton 開發的算子覆蓋最全面的通用算子庫,已展現出以下特色:
數量豐富:算子總數超過140個,且算子類型的廣度遠超同類競品。
性能優越:90%以上平均性能超越Pytorch CUDA版本。
多后端支持:目前支持7種加速器后端,經過持續優化,性能加速比提升顯著。
創新技術:采用獨特的代碼生成優化及運行時優化技術,二次開發效率及運行時性能優于同類項目。
FlagGems算子庫已初步驗證多元芯片統一算子層的路線可行性。同時,構建了從模型應用企業、系統集成商到芯片企業全鏈路產業生態。未來,算子庫計劃進一步提升性能,支持更多模型和芯片,引領多元異構芯片統一生態的技術前沿和產業落地。
2
FlagScale
由多家生態伙伴聯合,基于開源技術共同構建的面向多芯片開源大模型框架,旨在提升計算資源利用效率,并確保模型訓練與推理效果。通過提供模型開發、訓練和部署等全流程關鍵組件,FlagScale致力于成為優化大型模型工作流程效率與效果的必備開源工具包,具備如下特色:
領先的異構混訓技術:首次實現不同代際與不同架構芯片之間大模型異構混合訓練,提供通用的多維異構混合并行策略,支持不同廠商跨節點RDMA直連和CPU中轉通信。
高效的端到端訓練與推理:支持10余種模型的端到端預訓練與推理,涵蓋稠密和稀疏模型,涉及語言與多模態領域,參數規模達千億量級。在LLaVA-OneVision同配置下,訓練效率達到DeepSpeed的1.7倍;多模態CFG推理效率達到HuggingFace的3.8~6.7倍。
跨芯片自動調優能力:為用戶提供開箱即用的自動調優工具,僅需通過配置即可一鍵獲取性能最優的并行策略。這大幅降低了分布式訓練與推理的部署門檻。通過自動調優,實際測試中多款芯片的性能平均提升11.3%。
多芯片訓練與推理適配:與廠商共建,已在8家不同芯片上完成訓練與推理適配,實現算子、預訓練損失、微調損失及評測效果四個層級的精度對齊。涵蓋語言和多模態領域多個不同規模的模型,并成功實現非英偉達芯片上千卡的端到端完整訓練。
3
FlagCX
由多家生態合作伙伴聯合,構建并開源的異構統一通信庫,是填補多元算力開源軟件棧的重要版圖,它不僅能夠實現不同芯片之間的跨節點高效通信,支持單一任務在多芯片環境下的高效異構混合訓練,還能實現大規模自適應通信優化,顯著降低跨芯片、跨規模、跨任務的遷移成本。FlagCX具備以下特色:
標準化:功能和接口進行統一標準化,將廠商適配成本極大的減少。
兼容性:兼容PyTorch等框架,兼容廠商自研通信庫,兼容標準IB/RoCE網絡協議等。
自適應:針對不同任務負載、不同集群規模、不同廠商芯片等,將提供自動調優機制。
高性能:當前已在同構芯片上實現通信的零開銷分發,而在異構跨機通信達到峰值帶寬90%以上。
為更好地推動異構統一通信庫FlagCX的發展,加速相關標準的研制及落地應用,相關團隊正在積極構建相關軟件生態。通過產學研的協同創新,形成良性循環,加速異構統一通信庫的技術推廣與應用落地。
4
FlagEval
(天秤)
大模型評測體系及開放平臺,致力于建立科學、公正、開放的評測基準、方法及工具集,旨在協助研究人員全面評估基礎模型及訓練算法的性能。
FlagEval已逐步推出一系列評測工具,涵蓋語言大模型評測、多語言文圖大模型評測及文圖生成評測等多個領域,通過系統化的工具建設,平臺不僅實現了對各類大語言模型和跨模態模型的廣泛評測,還進一步拓展了評測場景,覆蓋自然語言處理(NLP)、計算機視覺(CV)、音頻處理(Audio)及多模態(Multimodal)四大領域,并支持豐富的下游任務。
截至目前,FlagEval已完成對800多個國內外大模型的評測,支持語言問答、多模態圖文理解、文生圖、文生視頻四大任務的自定義在線或離線盲測,為模型性能的全面評估提供了強有力的支持。
----- END -----
wisemodel相關:
系統升級:
大賽報名:
系列模型:
關于wisemodel更多
1
歡迎持續關注和支持
開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發布到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續關注wisemodel.cn開源社區動態。
2
歡迎加盟wisemodel開源社區
始智AI wisemodel社區自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區,為了加快公司發展,我們長期需要技術、運營等人才加盟,技術側重在AI infra、后端開發,熟悉K8S、模型訓練和推理等技術, 以及熟悉開發者生態運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn
3
歡迎投稿優質內容
歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。
4
關于wisemodel開源社區
始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高??蒲性核?、大型互聯網公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。
向上滑動查看
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.