公眾號記得加星標??,第一時間看推送不會錯過。
來源:內容來自半導體行業觀察綜合。
人工智能芯片初創公司Hailo Technologies Ltd.今天宣布推出其第二代 AI 加速器 Hailo-10H,具有強大的生成 AI 功能。
Hailo-10H 引入了新的設備功能,包括大型語言模型、視覺語言模型和其他生成架構,而無需依賴云連接。
這款全新的 AI 芯片以公司之前專注于視覺 AI 任務的 Hailo-8 處理器的成功為基礎。新芯片增加了對生成式 AI 的支持,同時保留了針對邊緣環境優化的節能設計。Hailo-10H 的典型功耗僅為 2.5 瓦,支持從個人設備、智能家居系統到汽車和電信基礎設施等各種產品中的復雜 AI 應用。
Hailo 首席執行官兼聯合創始人 Orr Danon 表示:“隨著 Hailo-10H 現已開放訂購,我們朝著讓人工智能惠及所有人的使命又邁出了重要一步。這是首款將真正的生成式人工智能性能帶到邊緣的獨立人工智能處理器,兼具高效率、高性價比和強大的軟件生態系統。”
Hailo-10H 與 Hailo 現有的軟件堆棧完全兼容,并受益于每月超過 10,000 名用戶的全球開發者社區的支持。該芯片使開發人員能夠直接在邊緣設備上運行最先進的視覺和生成式 AI 模型,從而實現超低延遲的實時響應。
它還支持超低延遲的實時部署AI模型,在不到一秒的時間內實現首個token的生成,并在2B參數模型上每秒處理超過10個token。在視頻用例中,它使用YOLOv11m等模型實現了4K物體檢測的領先性能。
Hailo 表示,通過實現本地處理,該芯片可以改善數據隱私,減少對云端 AI 服務的依賴,從而有助于降低運營成本。該芯片符合 AEC-Q100 2 級汽車標準,計劃于 2026 年投入量產,應用于駕駛艙顯示器和駕駛員監控單元等汽車系統。
Halio 是一家由風險投資支持的初創公司,已在九輪融資中籌集了 5.64 億美元,其中包括2021 年 10 月的 1.36 億美元。該公司的投資者包括 SKC Co. Ltd.、5AM Ventures LP、Versant Ventures LP、GPB Capital Holdings、Reedland Capital Partners 和三菱 UFJ Capital Co. Ltd.。
AI 芯片新貴 FuriosaAI贏得LG青睞
本周,韓國人工智能芯片初創公司 FuriosaAI 贏得了一個重要客戶,此前 LG 的人工智能研究部門利用其人工智能加速器為運行 Exaone 系列大型語言模型的服務器提供動力。
雖然浮點計算能力、內存容量和帶寬在 AI 性能中都扮演著重要角色,但 LG 選擇 Furiosa 的 RNGD(發音為“renegade”)推理加速器并非為了速度和數據反饋,而是為了功耗效率。
LG AI 研究部門產品部門負責人 Kijeong Jeon在一份聲明中表示: “RNGD 提供了一系列引人注目的優勢:出色的實際性能、大幅降低的總體擁有成本以及令人驚訝的簡單集成。”
快速瀏覽一下 RNGD 的規格表,你會發現這是一款相當普通的芯片,浮點性能在 256 到 512 teraFLOPS 之間,具體取決于你選擇 16 位還是 8 位精度。內存容量也相當小,一對 HBM3 顯存堆棧只有 48GB,帶寬大約為 1.5TB/s。
與 AMD 和 Nvidia 的最新 GPU 相比,RNGD 的競爭力似乎并不強,但 Furiosa 僅用 180 瓦的功率就完成了所有這些工作。LG 的研究人員在測試中發現,在其自主研發的 Exaone 系列模型上,這些部件的能效比 LLM 推理 GPU 高達 2.25 倍。
在您興奮不已之前,需要注意的是,這里討論的 GPU 是 Nvidia 的 A100,它們的壽命已經相當長了——它們是在 2020 年疫情爆發時首次亮相的。
但正如 FuriosaAI 首席執行官 June Paik 告訴El Reg 的那樣,雖然自 A100 首次亮相以來的五年里,Nvidia 的 GPU 確實變得更加強大,但這種性能卻是以更高的能耗和芯片面積為代價的。
雖然單個 RNGD PCIe 卡在原始性能上無法與 Nvidia 的 H100 或 B200 加速器競爭,但就效率(每瓦可擠出的 FLOPS 數量)而言,這些芯片比您想象的更具競爭力。
Paik 將公司的效率優勢很大程度上歸功于 RNGD 的張量收縮處理器架構,他表示,與 GPU 相比,該架構執行矩陣乘法所需的指令要少得多,并且最大限度地減少了數據移動。
這些芯片還受益于 RNGD 對 HBM 的使用,Paik 表示這比依賴 GDDR 所需的功率要小得多,就像我們在 Nvidia 的一些低端產品(如 L40S 或 RTX Pro 6000 Blackwell 卡)中看到的那樣。
RNGD 的算力約為每瓦 1.4 TeraFLOPS,實際上更接近 Nvidia 的 Hopper 一代,而不是 A100。如果我們將注意力轉移到內存帶寬上,RNGD 的效率就更加明顯了,內存帶寬可以說是 LLM 推理中更重要的因素。一般來說,內存帶寬越大,它吐出令牌的速度就越快。
同樣,RNGD 的內存速度為 1.5TB/s,速度不算特別快。Nvidia 的 H100 提供了 80GB 的更高容量和 3.35TB/s 至 3.9TB/s 的帶寬。然而,該芯片的功耗卻是后者的 2 到 3.9 倍。
功率與 H100 SXM 模塊大致相同,可以擁有四張 RNGD 卡,總計 2 petaFLOP 的密集 FP8 計算能力、192GB HBM 顯存和 6TB/s 的內存帶寬。這仍然比 Nvidia 最新一代 Blackwell 部件略遜一籌,但比 RNGD 的原始速度和數據流表現得更接近了。
而且,由于 RNGD 的設計完全考慮了推理,因此模型實際上可以使用張量并行等技術分布在多個加速器上,甚至可以使用流水線并行分布在多個系統上。
LG AI 實際上使用了四塊張量并行配置的 RNGD PCIe 卡,以 16 位精度運行其內部的 Exaone 32B 模型。據 Paik 介紹,LG 在驗證該芯片的可用性時,設定了非常具體的性能目標。
值得注意的是,這些約束包括第一個令牌的時間(TTFT),它測量在 LLM 開始生成響應之前您必須等待的時間,對于較適中的 3,000 個令牌提示大約需要 0.3 秒,對于較大的 30,000 個令牌提示大約需要 4.5 秒。
如果你好奇的話,這些測試類似于中型到大型的總結任務,它們給芯片的計算子系統帶來比較短的提示更大的壓力。
LG 發現,它能夠以每秒 1 個批次大小生成約 50-60 個令牌來實現這種性能水平。
據 Paik 介紹,這些測試是使用 FP16 進行的,因為 LG 對比的 A100 本身并不支持 8 位浮點激活。據推測,降至 FP8 會使模型的吞吐量翻倍,并進一步降低 TTFT。
使用多張卡確實會帶來一些固有的挑戰。尤其是張量并行,它允許模型的權重和計算分散到四張或更多張卡上,這需要相當多的網絡資源。
與 Nvidia 的 GPU 不同,Nvidia 的 GPU 通常采用快速專有的 NVLink 互連技術,以每秒超過 1TB 的速度在芯片之間傳輸數據,而 Furiosa 則堅持使用舊的 PCIe 5.0,每張卡的最高速度為 128GB/s。
為了避免互連瓶頸和開銷,Furiosa 表示,它優化了芯片的通信調度和編譯器,以重疊芯片間直接內存訪問操作。
但由于 RNGD 尚未分享更高批次大小的數據,因此很難判斷這種方法的擴展性如何。他承認,在批次大小為 1 的情況下,張量并行運算的數量相對較少。
Paik 表示,在 64 個批次的情況下,單個性能應該只會下降 20% 到 30%。這意味著同樣的設置應該能夠實現接近每秒 2700 個令牌的總吞吐量,并支持相當多的并發用戶。但由于缺乏確切細節,我們只能進行推測。
無論如何,Furiosa 的芯片足夠好,LG 的 AI 研究部門現在計劃向使用其 Exaone 型號的企業提供由 RNGD 驅動的服務器。
Jeon 表示:“在廣泛測試了多種選項之后,我們發現 RNGD 是部署 Exaone 模型的一種非常有效的解決方案。”
與基于 Nvidia RTX Pro Blackwell 的系統類似,LG 的 RNGD 盒將配備最多八個 PCIe 加速器。這些系統將運行 Furiosa 所描述的高度成熟的軟件堆棧,其中包括一個 vLLM 版本,這是一種流行的運行時服務模型。
LG 還將提供其代理 AI 平臺 ChatExaone,該平臺捆綁了一系列用于文檔分析、深度研究、數據分析和檢索增強生成 (RAG) 的框架。
Furiosa 的說服力遠不止于 LG。你可能還記得,據報道,Meta 在今年早些時候曾出價 8 億美元收購這家初創公司,但最終未能說服 Furiosa 的領導層交出“王國”的鑰匙。
Furiosa 受益于對自主 AI 模型、軟件和基礎設施日益增長的需求,這些模型、軟件和基礎設施均在自主研發的硬件上進行設計和訓練。
然而,要在全球范圍內競爭,Furiosa 面臨著一些挑戰。最值得注意的是,Nvidia 和 AMD 的最新 GPU 不僅比 RNGD 提供更高的性能、內存容量和帶寬,而且據我們估計,它們的能效也更高。得益于 Nvidia 早期對機架級架構的投資,其架構也支持更高的并行度,而我們現在才看到芯片制造商開始采用這種設計理念。
話雖如此,值得注意的是,RNGD 的設計過程始于 2022 年,當時 OpenAI 的 ChatGPT 尚未掀起 AI 熱潮。當時,像 Bert 這樣的模型在語言模型領域占據主流地位。然而,Paik 堅信 GPT 將會蓬勃發展,其底層架構將成為新的常態,這也為他做出使用 HBM 還是 GDDR 顯存等決策提供了參考。
Paik 表示:“現在回想起來,我認為我應該做出更大膽的嘗試,采用四個 HBM(堆棧),并在一個封裝中放置更多的計算芯片。”
我們已經看到許多芯片公司,包括 Nvidia、AMD、SambaNova 等,都采用這種方法來擴展他們的芯片以超越光罩極限。
事后看來,Paik 表示,既然 Furiosa 已經成功證明了其張量壓縮處理器架構、HBM 集成和軟件堆棧,那么該公司只需要擴大其架構。
“我們擁有非常堅實的構建模塊,”他說,“我們非常有信心,當你擴展這個芯片架構時,它將與所有最新的 GPU 芯片競爭。
https://www.theregister.com/2025/07/22/sk_furiosa_ai_lg/
*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯系半導體行業觀察。
今天是《半導體行業觀察》為您分享的第4103期內容,歡迎關注。
加星標??第一時間看推送,小號防走丟
求推薦
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.