引言:
科技的浪潮滾滾向前,每一次硬件的迭代都不僅僅是數字的變動,更是應用場景的深刻變革。近期兩大顯卡巨頭紛紛發布了新一代的NVIDIA GeForce RTX 50系列與AMD Radeon RX 9070系列消費級顯卡,引發了玩家、內容創作者,甚至是專業人士的熱烈討論。與以往不同的是,除了傳統的游戲性能提升外,一個愈發響亮的關鍵詞成為發布會和后續分析的焦點——人工智能(AI)算力。
我們清晰地看到,消費級顯卡的設計理念正在經歷一場深刻的演變。它們不再僅僅是驅動極致游戲畫面的“游戲卡”,而是越來越多地承擔起內容創作加速、復雜科學計算,乃至驅動前沿AI模型的重任。
從視頻編輯中的智能對象摳圖、音頻降噪,到3D渲染中的AI輔助優化,再到本地運行大型語言模型(LLM)的潛力,AI正以前所未有的速度滲透到我們數字生活的方方面面。而這一切,都對底層硬件的AI處理能力提出了更高的要求。
各大科技媒體和獨立評測機構對這些新生代顯卡的評測報告中,除了常規的3DMark、游戲幀率等數據外,一系列專業的AI基準測試工具及其得分也占據了顯要位置。這些工具,如MLPerf、UL Procyon AI Inference Benchmark等,正成為衡量顯卡“智慧”程度的標尺。那么,這些看似復雜的AI測試工具究竟是什么?它們是如何工作的?我們又該如何解讀其測試結果,從而準確評估一款顯卡在AI時代的真實價值?下面我們將會利用技嘉GeForce RTX 5070 Ti GAMING OC 魔鷹 16G顯卡為大家進行一系列的實測與詳解。
消費級顯卡全面擁抱AI
AI,特別是深度學習,其核心運算大多涉及大規模的矩陣和向量運算。例如,神經網絡的訓練和推理過程,本質上就是對海量數據進行重復的、相對簡單的數學計算。GPU最初為圖形渲染而設計,其核心優勢在于擁有數千個小型計算核心(如NVIDIA的CUDA核心或AMD的Stream Processors),能夠同時執行大量并行計算任務(SIMD - Single Instruction, Multiple Data)。這種架構與AI算法的需求不謀而合,使得GPU在處理這些任務時遠比CPU(中央處理器,其核心數量較少,但單個核心功能更強大,更擅長復雜的邏輯控制和串行任務)更高效。
尤其是近年來,幾大顯卡上游廠商敏銳地捕捉到了AI的趨勢,開始在GPU芯片中集成專為AI計算優化的硬件單元。其中NVIDIA的Tensor Cores便是其中的佼佼者,它們針對深度學習中常見的混合精度矩陣乘法運算進行了特別優化,能夠大幅提升特定AI工作負載的吞吐量。
拿新一代的消費顯卡技嘉GeForce RTX 5070 Ti GAMING OC 魔鷹 16G顯卡規格來說,同樣是采用了TSMC同新一代的TSMC 4nm 4N制造工藝,但是其核心規格與性能都有著明顯的增長。尤其是AI性能方面,有著長足的提升,分別達到了:Shader TFLOPS(43.9);FP4 AI TOPS(1406),AI TOPS(703),以及RT FLOPS(133.2)。
其中GeForce RTX 50系列加入了對FP4精度模型加速處理的支持,相較FP8精度,能夠實現更快的生成速度,同時顯存占用也更低。
并且FP4精度模型生成的圖片也非常能打,從下圖就能看出來,其與FP8生成的圖片幾乎沒有區別,無論是對關鍵詞的理解還是圖像的質量,都非常有保障,新時代AIGC玩家的最佳選擇了。
AI性能的關鍵指標
在查看AI測試工具的報告時,我們會遇到一系列專業術語和指標。理解它們的含義至關重要:
TOPS/FLOPS(理論峰值算力):
FLOPS (Floating Point Operations Per Second): 每秒浮點運算次數,衡量處理器執行浮點計算的能力。常見的精度有FP32(單精度)、FP16(半精度)、BF16(BFloat16)。
TOPS (Tera Operations Per Second): 每秒萬億次運算。在AI領域,通常指INT8(8位整數)或INT4等低精度整數運算能力,因為許多AI推理任務可以在較低精度下完成而幾乎不損失準確性,同時大幅提升速度和效率。
重要性與局限性:TOPS/FLOPS作為衡量GPU理論計算潛力的關鍵指標,通常由芯片制造商公布。例如,NVIDIA會強調其Tensor Core的FP16或INT8 TOPS算力,而RTX 50系列顯卡支持FP4,因此在推廣中我們也會看到這樣的數值表示。然而,理論峰值并不等同于實際性能。實際性能受到內存帶寬、緩存效率、驅動優化、軟件生態以及具體AI模型的計算特性等多種因素的影響。
吞吐量 (Throughput):
指單位時間內系統能夠處理的AI任務數量。例如,在MLPerf Inference的Offline場景下,吞吐量通常以“每秒處理樣本數”(Samples per second)來衡量。對于圖像生成,則可能是“每秒生成圖像數”或“每秒迭代次數”(iterations/sec)。高吞吐量意味著顯卡能夠高效處理大規模AI任務。
延遲 (Latency):
指完成單個AI任務所需的時間,通常以毫秒(ms)為單位。低延遲對于實時AI應用至關重要,如語音識別、實時翻譯、游戲中的AI互動等。MLPerf Inference的SingleStream場景就特別關注延遲。
準確性 (Accuracy):
雖然基準測試主要關注速度,但AI模型的輸出質量同樣重要。MLPerf等標準基準會設定一個目標準確率,測試系統需要在達到該準確率的前提下比拼速度。如果為了追求速度而犧牲過多準確性,那么測試結果的意義就會大打折扣。
能效比 (Performance per Watt):
指GPU在消耗單位功率(瓦特)的情況下所能提供的AI算力。隨著AI計算需求的增長,功耗和散熱成為重要考量。高能效比意味著顯卡在提供強大AI性能的同時,更為節能環保,對電源和散熱系統的要求也更友好。這對于筆記本電腦和小型化PC尤為重要。
內存帶寬與容量 (Memory Bandwidth & Capacity):
現代AI模型,特別是大型語言模型和高分辨率視覺模型,通常需要巨大的顯存容量來存儲模型參數和中間數據。同時,高速的顯存帶寬對于確保計算核心不因數據等待而空閑也至關重要。RTX 50和RX 9070系列預計會配備更大容量、更高帶寬的顯存(如GDDR7),這將直接惠及其AI性能,尤其是在處理大型模型時。
AI基準測試工具概覽&測試
綜合性行業標準基準:MLPerf
MLPerf 是由 MLCommons 組織開發的一套行業標準基準測試套件,旨在公平、客觀地評估機器學習(ML)系統的性能。MLPerf 的目標是通過標準化的測試方法,為硬件平臺、軟件框架和云服務的機器學習性能提供可比較的指標,促進人工智能(AI)技術的創新和透明度。MLPerf 涵蓋了機器學習生命周期的兩個主要階段:
訓練(Training):
MLPerf Training 基準測試衡量系統訓練機器學習模型到特定質量指標(如目標準確率)所需的時間。它測試模型、軟件和硬件在訓練過程中的綜合性能,適用于數據中心、云端和本地系統。
推理(Inference):
MLPerf Inference 基準測試評估系統在已訓練模型上處理新數據(推理)的速度和效率,覆蓋數據中心、邊緣設備和移動設備等多種部署場景。它包括不同場景(如離線、服務器、單流和多流)以模擬現實世界的應用。
當然MLPerf為我們提供了眾多的測試工具,但是這些都與我們沒關,因為非專業人士與專業設備想玩轉這類軟件并非一件容易的事。而我們常用到的是MLPerf Client ,這是MLPerf基準測試套件的一個分支,專門為客戶端設備(如筆記本電腦、臺式機和工作站)上的機器學習性能評估而設計。
我們可以直接從GitHub上的MLPerf官方下載頁面中下載到最新版本的MLPerf Client,如上圖所示就是我們之前常用的MLPerf Client 0.5版本,目前最新為MLPerf Client 0.6版本。
同時運行也相當簡單,只需要把ZIP壓縮包解壓后,運行對應顯卡的命名行即可,如使用NVIDIA顯卡的用戶,直接右鍵【在終端中打開】,輸入【\mlperf-windows.exe -c NVIDIA_ORTGenAI-DML_GPU.json】即進入下載的命名行,當下載完測試模型之后,即開始運行測試。
技嘉GeForce RTX 5070 Ti GAMING OC 魔鷹 16G顯卡測試出來的結果為上圖。這測試是基于llama-2-7b-chat-dml,較為關鍵的兩個數值為First Token響應時間與Token平均生成速度。因此我們在RTX 50系列顯卡測試中也主要觀察這兩數值的變化 。
面向消費級和專業用戶的基準:UL Procyon AI Benchmark
UL Procyon是著名的基準測試軟件開發商UL Benchmarks(前身為Futuremark,3DMark的開發者)推出的一套專業基準測試套件。
之前我們利用UL Procyon整機的 辦公生產率基準測試、照片編輯基準測試,以及視頻編輯基準測試。但到了最近UL Procyon針對的AI方面的測試越來越多,且越來越專業化。因此我們也常拿此軟件對顯卡進行AI性能測試。
UL Procyon AI 計算機視覺基準測試(AI Computer Vision Benchmark)
UL Procyon AI 計算機視覺基準測試,測量Windows或macOS設備上AI推理引擎和專用AI硬件(如CPU、GPU、NPU)的性能,適用于企業、行業和媒體專業用戶。其中使用先進的神經網絡模型,如MobileNetV3、ResNet50、InceptionV4、DeepLabV3、YOLOv3和Real-ESRGAN,提供浮點(FP32/FP16)和整數(INT8)優化版本。并支持多種主流推理引擎,包括:NVIDIA TensorRT、Intel OpenVINO、Qualcomm SNPE、Microsoft Windows ML,以及Apple Core ML等。
單純是針對NVIDIA TensorRT這種高性能推理的SDK,也給出了三種不同的精度:Float32、Float16,以及Integer。由于測試的神經網絡模型數量較多,因此AI 計算機視覺基準測試給出來的詳細測試結果也是較為復雜的,因此我們只需要看總分即可。
UL Procyon AI 圖像生成(AI Image Generation Benchmark)
UL Procyon AI 圖像生成評估高性能設備(特別是高端離散GPU)在AI圖像生成任務中的推理性能,適用于需要重型AI工作負載的場景。主要針對Windows,支持AMD、Intel、NVIDIA的離散GPU,基于Stable Diffusion模型,生成文本到圖像的AI任務,使用標準化的文本提示確保一致性和可靠性。
同樣測試模塊包括三個:Stable Diffusion XL (FP16):最苛刻的測試,僅適用于最新高端GPU;Stable Diffusion 1.5 (FP16):適合中端離散GPU;Stable Diffusion 1.5 (INT8):針對低功耗設備(如NPU)。
尤其是Stable Diffusion XL (FP16)測試生成的是1024 x 1024分辨率的圖片,對顯卡要求較高。若顯卡算力與顯存容量不足,基礎上出來的運行結果出現0分或者是錯誤提示,那就證明你顯卡性能不足夠進行此測試。而UL Procyon AI 圖像生成基準測試中,我們除了要留意性能總分外,我們還一般會拿Overall duration - 總耗時、Overall image generation speed - 整體圖像生成速度,以及Average UNET Speed - 平均UNET速度來做對比。
當然RTX 50系列顯卡最大的優勢就在于支持FP4精度的模型,而NVIDIA提供的Procyon-models_Flux1DEV_ONNX測試DEMO就是搶先能夠讓我們體驗一把FP4精度模型的優勢。如上圖一樣可看到,同樣的測試設備和環境下,FP4精度速度明顯比FP8精度模型生成圖片的速度快了一半,同時其圖片質量也得到較好地保證。
UL Procyon AI 文本生成基準測試(AI Text Generation Benchmark)
UL Procyon AI 文本生成基準測試,評估本地大語言模型(LLM)的AI推理性能,簡化復雜LLM測試流程,適用于企業IT和硬件評估。基于多種LLM模型的文本生成任務,測試支持模型:Phi-3.5-mini、Mistral-7B、Llama-3.1-8B、Llama-2-13B。
如上圖一樣,AI 文本生成基準測試并沒有總分數,而是針對每個大語言模型給出總結分數、平均首Token延遲時間(TTFT)、平均Token生成速度(OTS),以及加載時間。
LM Studio
當然UL Procyon是需要額外花錢或者是申請授權才能讓你使用測試的,那沒有和MLPerf Client一樣免費的測試軟件,那自然是有的——LM Studio。LM Studio提供了一個用戶友好的圖形界面,集成了模型發現、下載、加載、運行以及通過類似ChatGPT的聊天界面進行交互的功能,更重要的是LM Studio還能支持多GPU。
這樣我們只需要下載對應的測試模型,同樣的問題設定與軟件設置,就可以知道不同級別顯卡的首Token延遲時間(TTFT)與平均Token生成速度(OTS)。
具體性能展示會在回答內容的最后小字出現,如上圖我們拿技嘉GeForce RTX 5070 Ti GAMING OC 魔鷹 16G顯卡做的測試速度為66.62 tok/sec與0.30s TTFT,并且其顯存占用為11GB。
總結:
RTX 50系列顯卡的到來,再次印證了消費級顯卡正從“游戲專屬”向“通用計算與AI加速平臺”的戰略轉型。AI基準測試工具,如同精準的標尺,幫助我們量化這些“鋼鐵猛獸”的“智慧”程度,理解它們在不同AI應用場景下的潛能。
對于普通消費者而言,了解這些測試工具及其衡量標準,有助于在選購新顯卡時,不再僅僅關注游戲幀數,更能洞察其在內容創作、AI應用等新興領域的價值。對于行業而言,標準化的AI測試促進了技術的公平競爭和持續創新。
未來已來,AI算力不再是錦上添花的附加功能,而是定義下一代消費級顯卡核心競爭力的關鍵所在。無論是NVIDIA還是AMD,誰能在AI的賽道上提供更強大、更高效、更易用的解決方案,誰就更能贏得用戶和市場的青睞。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.