獨角獸偵探丨Groq，AI推理芯片的新貴

2024-07-18 10:46:42　來源: 荷馬國際

浙江舉報

分享至

在人工智能快速發(fā)展的今天,作為人工智能系統(tǒng)的"大腦",AI芯片在處理復(fù)雜算法、加速深度學(xué)習(xí)和實現(xiàn)實時決策方面扮演著至關(guān)重要的角色。這些專門設(shè)計的芯片不僅大幅提升了AI應(yīng)用的性能,還顯著降低了能耗,使得從智能手機到自動駕駛汽車等各種設(shè)備都能夠高效地運行AI模型。可以說，誰掌握了先進的芯片技術(shù),誰就掌握了人工智能領(lǐng)域的制高點。

··關(guān)于 Groq··

今天我們要介紹的主角是Groq ，成立于 2016 年，總部位于加利福尼亞州山景城。由 Google TPU 項目的主要設(shè)計師 Jonathan Ross 創(chuàng)立，Groq 致力于打造全球最快的 AI 推理技術(shù)。通過提供高效、經(jīng)濟且易于訪問的 AI 和機器學(xué)習(xí)解決方案，Groq 正在影響整個AI芯片行業(yè)。

··創(chuàng)立背景與使命··

隨著 AI 技術(shù)的快速發(fā)展，對高性能 AI 芯片的需求不斷增加，Groq 瞄準了這一市場機會。Jonathan Ross 利用他在 Google 開發(fā) TPU 時積累的經(jīng)驗，創(chuàng)立了 Groq，旨在開發(fā)新一代的 AI 加速器芯片，以提高 AI 計算性能并降低成本。Groq 的使命是消除“貧富差距”，幫助 AI 社區(qū)中的每個人蓬勃發(fā)展。推理速度是將開發(fā)人員的想法轉(zhuǎn)化為業(yè)務(wù)解決方案和改變生活的應(yīng)用程序的關(guān)鍵。

··領(lǐng)導(dǎo)團隊··

Groq 擁有一支經(jīng)驗豐富且充滿激情的領(lǐng)導(dǎo)團隊：

Jonathan RossCEO兼創(chuàng)始人，Google TPU的發(fā)明者

Jim Miller硬件工程副總裁，前 AWS 工程師

Dennis Abts首席架構(gòu)師和 Groq 研究員

Edward Kmett軟件工程主管和 Groq 研究員，曾在 MIRI 和 Haskell 基金會董事會工作

John Barrus產(chǎn)品副總裁

Samidh Chakrabarti首席產(chǎn)品官，前 Facebook Civic Integrity Group 負責(zé)人

Adrian Mendes首席運營官，前賽普拉斯半導(dǎo)體公司高管

··產(chǎn)品和創(chuàng)新··

該公司的張量流處理器（TSP）是專為機器學(xué)習(xí)而設(shè)計的專用集成電路。它是一個具有數(shù)百個功能單元的單個處理器，是處理器行業(yè)內(nèi)的一種新穎架構(gòu)。執(zhí)行計劃由處理器中的編譯器執(zhí)行。它具有 220 兆位的靜態(tài)隨機存取存儲器（SRAM）和每秒 1,000 萬億次運算。它具有單核單指令、由軟件運行的多數(shù)據(jù) （SIMD）引擎和每秒 80 TB 的片上內(nèi)存帶寬。

Groq 指出，TSP 旨在利用機器學(xué)習(xí)工作負載中固有的并行性，包括指令級、內(nèi)存并發(fā)性、數(shù)據(jù)和模型并行性。Groq 宣稱其 LPU 推理性能是 NVIDIA GPU 的 10 倍，成本僅為其十分之一。Groq憑借自研的硬件加速器LPU，達成了500個token/s的推理速度，比ChatGPT快數(shù)倍。

Groq采用混合業(yè)務(wù)模式，結(jié)合了半導(dǎo)體、云服務(wù)和企業(yè)部署的元素。通過GroqCloud平臺，提供基于云的AI推理服務(wù)，允許開發(fā)者運行大語言模型。計劃在企業(yè)內(nèi)部署Groq的解決方案，進一步擴大市場覆蓋。

LPU（語言處理器）

LPU 推理引擎，LPU 代表語言處理單元?，是一個硬件和軟件平臺，可提供卓越的計算速度、質(zhì)量和能源效率。這種新型的端到端處理單元系統(tǒng)為具有順序組件的計算密集型應(yīng)用程序（例如大型語言模型（LLM）等 AI 語言應(yīng)用程序）提供了最快的推理。

LPU 旨在克服兩個 LLM 瓶頸：計算密度和內(nèi)存帶寬。就 LLM 而言，LPU 的計算能力比 GPU 和 CPU 更大。這減少了每個單詞的計算時間，從而可以更快地生成文本序列。此外，與 GPU 相比，消除外部內(nèi)存瓶頸使 LPU 推理引擎能夠在 LLM 上提供幾個數(shù)量級的性能。

Groq 支持標準機器學(xué)習(xí) （ML）框架，例如 PyTorch、TensorFlow 和 ONNX 進行推理。Groq 目前不支持使用 LPU 推理引擎進行 ML 訓(xùn)練。

GroqCard?高性能 AI 加速器

GroqCard 加速器將單個 GroqChip? 處理器（基于LPU架構(gòu)設(shè)計）封裝到標準 PCIe Gen4 x16 外形中，提供服務(wù)器集成。GroqCard 具有多達11個 RealScale? 芯片到芯片連接以及內(nèi)部軟件定義網(wǎng)絡(luò)，無需外部交換機即可實現(xiàn)近乎線性的多服務(wù)器和多機架可擴展性。GroqCardAccelerator售價為19,948美元。

GroqNode?適用于大規(guī)模部署的服務(wù)器系統(tǒng)

GroqNode 是一套 8 個 GroqCard? 加速器，在 4U 服務(wù)器機箱中集成了芯片到芯片連接、雙服務(wù)器級 CPU 和高達 1 TB 的 DRAM。GroqNode 旨在實現(xiàn)大型深度學(xué)習(xí)模型的高性能和低延遲部署。

GroqRack?可擴展的數(shù)據(jù)中心加速器網(wǎng)絡(luò)

GroqRack 結(jié)合了 8 個 GroqNode? 套件的強大功能，具有多達 64 個互連芯片和 1 個額外的冗余節(jié)點，可減少意外停機的影響。單個機架的端到端延遲僅為 1.6μs，非常適合大型工作負載，并可擴展到整個數(shù)據(jù)中心。

GroqCloudAI/ML 模型部署平臺

利用流行的開源 LLM，如 Meta AI 的 Llama 2 70B，運行速度比其他領(lǐng)先提供商快 18 倍。對于輸出令牌吞吐量，Groq 實現(xiàn)了平均 185 個令牌/秒。

Groq目前最明顯的收入來源來自Groq云，他們的云 AI 推理平臺。Groq云提供對Groq的大規(guī)模并行 TSP 、LPU基礎(chǔ)設(shè)施通過簡單的即用即付 API 運行最新的大型語言模型，Groq 根據(jù)使用情況提供一系列定價選項。

每百萬個代幣的定價如下：

Llama3-70B-8k：0.59 美元（輸入）/ 0.79 美元（輸出）

Llama3-8B-8k：0.05 美元（輸入）/ 0.10 美元（輸出）

Mixtral-8x7B-32k：0.27 美元（輸入/輸出）

Gemma-7B-Instruct：0.10 美元（輸入/輸出）

免費套餐：非常適合以低速率限制和社區(qū)支持開始使用。

按需：按令牌付費，具有更高的速率限制和優(yōu)先級支持。

業(yè)務(wù)層：具有定制速率限制、微調(diào)模型、自定義 SLA 和專用支持的自定義解決方案。

··市場前景··

市場需求：

隨著生成式和對話式AI應(yīng)用的興起，對低延遲、高吞吐量的實時推理需求顯著增加。

Groq稱，AI芯片市場的總潛在市場（TAM）預(yù)計到2027年將達到1194億美元，目前約有40%的A芯片被用于推理，就使推理芯片的市場份額達到約480億美元，顯示出巨大的市場潛力。一旦應(yīng)用程序成熟，它們通常會將90-95%的資源分配給推理，這表明隨著時間的推移，市場會更大。

世界才剛剛開始探索人工智能帶來的可能性。隨著更多的應(yīng)用和產(chǎn)品進入市場，這一比例可能會增加，這是一個非常保守的估計。隨著全球幾乎每個行業(yè)和政府都希望利用生成式和/或?qū)υ捠?AI，AI 芯片的 TAM，尤其是專門用于推理的系統(tǒng)，市場是廣闊的。

競爭優(yōu)勢：

GroqCloud? 和 LPU? 推理引擎

超過70,000名開發(fā)人員使用GroqCloud?，并有19,000個新應(yīng)用程序在LPU?推理引擎上運行，展示了該平臺的高接受度和實用性。Groq直接與人工智能研究實驗室和模型開發(fā)人員合作，可以優(yōu)化未來的模型和系統(tǒng)，以最大限度地利用其大規(guī)模并行/橫向擴展架構(gòu)。

技術(shù)優(yōu)勢

LPU推理引擎專注于低延遲和高吞吐量，為生成式和對話式AI應(yīng)用提供了實時推理能力。

LPU架構(gòu)基于單核確定性設(shè)計，比傳統(tǒng)的GPU更適合實時AI推理。

Groq編譯器完全確定性，確保每個內(nèi)存負載和操作都按需精確安排，最大限度地提高了性能。

使用SRAM作為內(nèi)存，比GPU使用的HBM內(nèi)存快100倍，減少了程序優(yōu)化復(fù)雜性。

無需CUDA或內(nèi)核，簡化了編程和模型編譯，加快了推理速度和減少延遲。

高效能和環(huán)保設(shè)計

LPU設(shè)計優(yōu)先考慮能效，減少了片外數(shù)據(jù)流動，能效是當前最節(jié)能GPU的10倍。

這種設(shè)計不僅降低了能耗，還減少了冷卻需求，有助于降低整體計算成本和碳足跡。

供應(yīng)鏈優(yōu)勢

采用14納米硅制造，避免了對4納米硅和HBM的依賴，減少了供應(yīng)鏈風(fēng)險。

完全在北美設(shè)計和制造，保證了供應(yīng)鏈的可控性和穩(wěn)定性。

融資

Groq 已經(jīng)多輪融資中共籌集了超過 3.67 億美元。最新一輪融資計劃在 2024 年第二季度，由BlackRock領(lǐng)投，目標融資金額為 3 億美元，估值可能達到 25 億美元。這輪融資將用于加速公司增長，推進下一代產(chǎn)品開發(fā)，并擴大在AI芯片市場的競爭力，特別是挑戰(zhàn)Nvidia的主導(dǎo)地位。

主要投資者

BlackRock

Tiger Global Management

D1 Capital

The Spruce House Partnership

Addition

GCM Grosvenor

Firebolt Ventures

General Global Capital

Tru Arrow Partners

TDK Ventures

XTX Ventures

Boardman Bay Capital Management

Infinitum Partners

··企業(yè)合作··

Groq 的客戶涵蓋了從金融服務(wù)到科研機構(gòu)的廣泛領(lǐng)域：

aiXplain提供 AI 解決方案開發(fā)工具和資產(chǎn)。

Argonne National Laboratory科學(xué)和工程研究機構(gòu)。

OneNano加密貨幣交易平臺。

Groq 的合作伙伴包括

BittWare(Molex旗下): 作為Groq芯片加速卡的代工廠商。

三星電子：利用三星的4納米工藝制造先進芯片。

獨立硬件供應(yīng)商(IHVs)：合作提供根據(jù)各種規(guī)格和客戶需求定制的服務(wù)器和機架。

Carahsoft Technology：作為政府IT解決方案提供商,與Groq合作舉辦面向公共部門的GroqDay活動,推廣Groq的AI推理解決方案。

poe.com：Groq作為其特色推理提供商,托管運行在LPU推理引擎上的Llama 2 70B和Mixtral 8x7b模型。

Aramco Digital(沙特阿拉伯)以及Earth Wind& Power（挪威）：合作建立計算中心等等。

Groq通過其先進的LPU推理引擎和GroqCloud?平臺，在低延遲、高能效AI推理領(lǐng)域?qū)崿F(xiàn)了顯著的技術(shù)突破和市場擴展。其獨特的技術(shù)優(yōu)勢和供應(yīng)鏈戰(zhàn)略使其在快速增長的AI芯片市場中占據(jù)了有利位置，展現(xiàn)出巨大的市場前景和發(fā)展?jié)摿Α?/p>

https://wow.groq.com

https://sacra.com/c/groq/

https://baijiahao.baidu.com/s?id=1792920445813062731&wfr=spider&for=pc

https://www.forbes.com/sites/karlfreund/2024/02/13/ai-chip-vendors-a-look-at-whos-who-in-the-zoo-in-2024/

https://xueqiu.com/6298452140/279216412

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.