網易首頁 > 網易號 > 正文申請入駐

Hugging Face集成Groq，三行代碼實現10個開源模型推理速度超每秒800 token

2025-06-17 19:52:03　來源: 智東西

北京舉報

分享至

智東西
編譯金碧輝
編輯程茜

智東西6月17日消息，美國AI芯片創企Groq昨天宣布，其已正式成為Hugging Face Hub支持的推理服務提供商，推理服務已無縫集成至Hugging Face的JS和Python客戶端SDK，開發者可便捷地將各類模型與優選服務提供商對接使用。

開源平臺Hugging Face目前托管超50萬個AI模型，月活躍開發者突破300萬，已成為全球最大的開源AI模型社區。Groq作為首家高速推理供應商正式接入該平臺后，開發者僅需三行代碼，便可直接在Hugging Face Playground或API中一鍵調用Groq服務，賬單統一結算至平臺賬戶。

此舉使金融科技、工業研發等領域的AI原型驗證周期縮短50%，為開發者提供了低門檻高性能工具鏈支持。

一、131K上下文獨家支持，Groq推理服務集成至Hugging Face

Groq的發言人在接受VentureBeat采訪時透露：“Groq是目前唯一一家能夠支持完整131K上下文窗口的推理服務提供商，與Hugging Face的集成，極大地拓展了Groq生態系統的邊界。這一合作給開發者帶來了更多選擇，進一步降低了采用Groq快速且高效的AI推理技術的門檻。”

據外媒VentureBeat報道，雙方的聯合聲明中透露：“Hugging Face與Groq之間的合作，是推動高性能AI推理變得更易獲取、更高效的重要一步。”

Groq面臨著基礎設施與成本等方面的挑戰，公司的發言人在接受VentureBeat采訪時還透露：“即便Groq今年將基礎設施的部署數量提升至計劃的兩倍，依舊難以滿足當下的需求。這意味著市場對于高性能推理計算有著巨大的渴求。”

Groq為Hugging Face平臺提供的推理服務已支持Llama 3、Gemma及Qwen3 32B等10大主流模型，推理速度最高達800 token/s。此外，Groq還是目前唯一支持Qwen3 32B完整131K上下文窗口的推理服務提供商。

二、Groq解鎖Qwen3 32B全上下文能力，長文檔處理效率翻倍

6月12號，Groq成為首家支持阿里巴巴Qwen3 32B模型131K全上下文窗口的高速推理服務商。

此次合作的核心亮點在于：Groq平臺實測Qwen3 32B推理速度達535 tokens/s，經獨立第三方機構Artificial Analysis驗證為當前全球最快；同時，Qwen3 32B支持131K超長上下文窗口，Groq是全球唯一能完整運行該模型全量語境的推理服務商。

▲獨立基準測試公司Artificial Analysis關于Qwen3 32B的相關驗證信息

阿里巴巴Qwen3 32B是一款參數規模達328億的大語言模型，專為復雜推理與高效對話優化，支持超100種語言及方言。

通過Groq創新的語言處理單元（LPU）架構，Qwen3 32B+Groq組合首次實現131k完整上下文窗口支持。

成本方面，Groq為Qwen3 32B提供的按需定價為：輸入tokens 0.29美元（約合人民幣2.08元）/百萬、輸出tokens 0.59美元（約合人民幣4.24元）/百萬。

在Groq平臺，Qwen3 32B模型支持特有的“思考/非思考”雙模式動態切換機制，可根據推理任務的復雜度自動適配最優運行模式。

基于對超100種語言的支持能力，Qwen3 32B模型單次請求即可處理500頁技術文檔或多輪跨語種對話，顯著降低長文本信息丟失風險；在AIME 24等基準測試中，Qwen3 32B模型+Groq平臺組合以數學推理79.5分、代碼生成66.4分的實測數據，超越參數規模超過其20倍的DeepSeek R1模型。

目前，開發者可通過GroqCloud平臺零門檻使用模型：在GroqChat中輸入qwen/qwen3-32B即可進行交互演示，在開發者控制臺可快速配置API，也可通過Hugging Face以三行代碼完成服務集成。

中小團隊無需硬件投入即可在10分鐘內在平臺部署長文本分析應用，借助LPU架構實現三倍文本處理加速；中小團隊還可以注冊免費賬戶或升級付費套餐可解除速率限制，支持業務彈性擴展。

三、基礎設施與用戶增長，Groq盈利前夜的兩大難題

據外媒VentureBeat昨日報道，Groq的上述舉措堪稱其向亞馬遜云服務（AWS）、谷歌云等現有云服務提供商發起挑戰的關鍵一步。但當前Groq也面臨諸多挑戰，其基礎設施雖已覆蓋美國、加拿大及中東地區，但與AWS在全球布局的28個地理區域、谷歌云的26個區域相比，物理節點數量仍存在顯著差距。

Groq自研LPU芯片單系統部署成本達1144萬美元（折合人民幣約8200萬元），若按當2000萬token/s的處理速度推算，單臺LPU系統每日可處理172.8億token，僅能產生約500美元收入（折合人民幣約3587.3元），需連續運營63年才能覆蓋硬件成本。

今年6月，知名科技市場研究機構CB Insights分析透露，Groq需在未來12個月內將用戶規模提升10倍以上，才能通過規模效應實現盈虧平衡。

結語：Groq推理速度碾壓GPU十倍，模型訓練依賴與基建瓶頸待解

Groq憑借LPU架構的確定性計算優勢，從第三方機構Artificial Analysis的驗證基準測試結果透露，實時推理場景中實現較GPU十倍的速度碾壓，為長文本分析、跨國多語種應用創造新可能。

研究公司Grand View Research今年6月透露，受各行各業AI應用部署不斷增加的推動，到2030年，全球AI推理芯片市場規模將達1549億美元（折合人民幣約為1.11萬億元）。然而，Groq芯片僅限推理場景，模型訓練仍需依賴英偉達GPU，在一定程度上增加了開發者與企業用戶的使用成本和技術風險。同時Groq的基礎設施擴張速度能否匹配Hugging Face帶來的流量爆發仍是未知數。

如果Groq的基礎設施無法滿足用戶增長的需求，可能會導致服務質量下降，影響用戶滿意度和口碑。

來源：Groq官網、VentureBeat

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.