新 聞1:摩 爾線程 Linux 顯卡驅動 v3.0.0 發布:架構全面革新,支持 Wayland 協議
摩爾線程今日宣布推出 Linux 驅動程序 v3.0.0,全面支持圖形顯卡 MTT S80 和高性能專業顯卡 MTT X300。
作為 v2.7.0RC4 之后的重大升級版本,本次更新實現了多項關鍵技術突破:
在架構層面,升級底層任務調度系統,優化內存管理并增強異常處理,使系統穩定性與負載運行效率均顯著提升;
同時,新增 Wayland 協議支持,將 OpenGL 升級至 4.2 版本,并擴展了內核版本支持范圍,為 Linux 用戶提供更高效、更流暢的計算和圖形體驗。
IT之家附官方介紹如下:
驅動架構全面革新
摩爾線程對Linux 驅動架構進行了全面升級,新架構更符合現代圖形與計算融合的發展趨勢。
技術團隊深入調研 Linux 環境中 GPU 驅動的優化點,對任務調度系統、內存管理系統以及硬件交互系統進行了針對性升級,使其能夠更好地適配 GPU 計算渲染任務的高速發展需求。
升級后的驅動架構在底層功能實現了多項突破:
▼任務調度優化
GPU 的任務調度由驅動和固件協同完成,驅動負責管理任務隊列、上下文切換和資源分配。v3.0.0 版本在內核驅動層面的優化包括:1)低延遲調度優化,更優的調度算法;2)高并發支持,多核任務并發;3)高吞吐優化,批量任務提交;
▼內存管理優化
GPU 顯存管理是驅動的重要職責,優化的顯存分配和映射機制能顯著提升性能。v3.0.0 版本在內存管理優化包括:1)更快的顯存分配機制,顯存預分配與緩存;2)更低的顯存映射開銷,零拷貝內存優化;
▼異常處理優化
GPU 在運行復雜圖形計算任務時可能遇到各種異常,驅動需要快速檢測并處理這些異常,避免系統崩潰。v3.0.0 版本在異常處理的優化包括:1)更精確的異常上報,增強硬件異常檢測;2)更可靠的異常恢復機制,支持任務級容錯;3)更靈活的調試手段,增強的 GPU 調試接口;
驅動性能全面提升
▼DKMS 支持進一步擴展
v3.0.0 版本通過 DKMS(Dynamic Kernel Module Support)功能支持,將內核版本覆蓋范圍提升至 4.9-6.8,能夠適配各品牌主流國產操作系統,從而簡化部署和維護流程。
▼支持 OpenGL 4.2
本次升級將 OpenGL 版本提升至 4.2,重點優化了 Blender 及 CAD 類軟件的圖形處理性能,顯著提升了復雜場景下的渲染流暢度,能夠更好地滿足了專業設計、科學計算等場景的性能需求。基于跨平臺圖形 API 標準,摩爾線程將持續推進 OpenGL 版本迭代,以滿足不同用戶和復雜場景的多樣化需求。
▼支持 Wayland
本次驅動新增對 Wayland 顯示協議的支持,相比傳統 X11 架構,Wayland 采用更高效的通信模型,通過減少不必要的圖形數據復制和轉換,提升 GPU 資源利用率,特別適用于高性能計算、實時渲染和游戲開發等場景。同時進一步增強了與國產操作系統的兼容性,為用戶提供更完善的圖形解決方案。
▼性能與效率提升
與 v2.7.0RC4 版本相比,v3.0.0 版本在飛渡軟件典型場景平均幀率提升約 300%;GFXbench 平均幀率提升超過 200%,GLmark2 平均分數提升接近 90%。
原文鏈接:https://m.ithome.com/html/850256.htm
之前我們就說過,單從產品力來看,摩爾線程的幾款顯卡并不算多么值得購買的產品,但比起一款成品,摩爾線程更像是一個“養成系”的廠商,從最初不支持DX12,到現在各種性能和兼容性的提升。
而在最近,摩爾線程更新了其Linux顯卡驅動,更新架構底層,增加了Wayland協議支持,更進一步的提升了圖形和計算性能,在測試中出現了90%-300%的成績提升,這……提升也太夸張了吧……
新 聞 2: 摩爾線程宣布 MTT S4000 訓推一體計算卡通過中國信通院 AI 芯片和大模型適配驗證
摩爾線程官方昨日晚發文宣布:經中國信息通信研究院檢測,在本次 AI 芯片與模型適配驗證項目中,摩爾線程自主研發的訓推一體計算卡 MTT S4000 和杭州深度求索人工智能基礎技術研究有限公司研發的DeepSeek-R1 671B 大模型,在推理場景下的適配結果符合“AI 芯片和大模型通過性適配要求”,成功通過中國信通院《AI 芯片和大模型適配能力通過性評測軟硬件環境及測試細則》推理場景驗證。
摩爾線程官方表示,MTT S4000 可實現正常、穩定運行,滿足推理使用需求,符合通過性適配驗證條件,并獲頒檢測證書。目前,摩爾線程系列訓推一體計算卡正在開展優化性適配驗證工作,相關結果將在檢測流程結束后另行公布。
據介紹,MTT S4000 是基于摩爾線程全功能 GPU 架構專為大模型打造的訓推一體通用計算卡,支持 FP64 / FP32 / TF32 / FP16 / BF16 / INT8 等完整計算精度,配備 48GB 高性能顯存。MTT S4000 憑借摩爾線程自研 MTLink 1.0 技術,可實現多卡互聯及千卡集群部署,為千億參數大模型的訓練、微調和推理提供強勁算力支撐。同時,它還兼具圖形渲染、視頻編解碼和超高清 8K HDR 顯示能力,可滿足人工智能、科學計算、多媒體處理等復合場景需求。
IT之家從摩爾線程官方獲悉,MTT S4000 此次能夠快速完成 DeepSeek R1-671B 大模型的適配驗證,主要得益于包括 vLLM-MUSA 推理框架、MUTLASS、Triton-MUSA 等在內的完善 MUSA 生態軟件棧和快捷開發實踐。
另外,摩爾線程近期還推出了搭載 MTT S4000 的 MCCX DeepSeek 大模型一體機,該產品深度融合國產全功能 GPU、深度優化的高性能推理引擎和軟件棧,全面支持從蒸餾版到 671B 參數全量版 DeepSeek 模型的部署需求,號稱可靈活適配廣泛的行業、場景和應用。
原文鏈接:https://m.ithome.com/html/851383.htm
另外值得一提的還有近期摩爾線程公布的,MTT S4000訓推一體計算卡通過中國信通院AI芯片和大模型適配驗證。其實此前,就有DeepSeek蒸餾模型完全兼容摩爾線程的消息,再加上48G大顯存,確實是不可多得的AI運算卡。隨著最近老美禁售政策的進一步加嚴,更可控的國產計算卡或許會被更多廠商關注,不知道能不能得到更進一步的應用。
新 聞3: 支持原生 FP8 和 PyTorch 2.5.0,摩爾線程開源發布 Torch-MUSA v2.0.0
摩爾線程今日宣布推出 Torch-MUSA v2.0.0 版本,這是其面向 PyTorch 深度學習框架的 MUSA 擴展庫的重要升級。
新版本基于 MUSA Compute Capability 3.1 計算架構,支持原生 FP8 數據類型,支持 PyTorch 2.5.0,并通過多項針對 MUSA 計算平臺的性能優化,進一步提升了對 AI 模型和大規模數據處理的支持能力。
作為本次升級的核心亮點,Torch-MUSA v2.0.0 率先在國產 GPU 上實現了對 FP8 數據類型的完整支持。
FP8 是當前 AI 計算的一種前沿低精度格式,在支持原生 FP8 的 GPU 上,大語言模型(LLM)訓練采用 FP8 混合精度可大幅提高 GPU 算力,顯著降低顯存占用。
摩爾線程基于新一代 MUSA Compute Capability 3.1 計算架構的全功能 GPU 原生支持 FP8 計算,這為 Torch-MUSA v2.0.0 實現 FP8 矩陣乘法和分布式通信優化提供了基礎。依托這一底層架構優勢,Torch-MUSA v2.0.0 能夠充分發揮 FP8 的計算效能,提升大語言模型訓練和推理的效率。
Torch-MUSA v2.0.0 在 MUSA 計算平臺引入多項創新功能,進一步提升深度學習任務的執行效率:
Torch-MUSA v2.0.0 在完整支持 PyTorch 2.2.0 的基礎上,新增了對 PyTorch 2.5.0 的支持,使開發者能夠在基于 MUSA Compute Capability 3.1 計算架構的全功能 GPU 上,無縫運行新版本的 PyTorch。
原文鏈接:https://m.ithome.com/html/851898.htm
而摩爾線程并沒有到此為止,而是更近一步,NVIDIA在發布本代專業顯卡和計算卡的時候,引入了一個很夸張的算力參數,其實是特化的四分之一精度浮點運算能力,也就是這里說的FP8。雖然我們對NVIDIA用FP8代指算力數值的行為感覺有些……不齒,但也不得不承認像FP8、FP16這種低精度浮點運算在AI應用領域的優勢,在上文中提到的MTT S4000就缺失了FP8支持。
買電腦討論群:386615430
電腦吧評測室官方一群:798545305
文章轉載自網絡(鏈接如上)。文章出現的任何圖片,標志均屬于其合法持有人;本文僅作傳遞信息之用。如有侵權可在本文內留言。
引用文章內容與觀點不代表電腦吧評測室觀點。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.