導讀:AI 領域“氫彈級”突破:DeepSeek只是開胃小菜?LPU驚艷世界
當DeepSeek-R1橫空出世,華爾街曾陷入了短暫的恐慌。
然而資本巨頭們很快達成共識:“即便模型效率提升,deepseek以三十分之一的成本逼近GPT-4o性能,AI競賽仍需海量英偉達GPU支撐算力基座,技術終究是曇花一現。”
然而近日,企業“無問芯穹”宣布,LPU(語言處理單元)取得重大突破,單卡即可驅動Llama2-70B模型,實現每秒300token的推理速度,能耗僅為英偉達H100的1/10。而搭載LPU的DeepSeek-R1同樣表現良好,在高頻交易中,響應時間低至0.3毫秒,助力某頭部量化基金狂攬2.3億美元。
他們不曾料到,現下工程師直接用一枚指甲蓋大小的LPU,撕碎西方的幻想!
01 LPU研發,終結GPU的霸權
AI產業作為行業內公認的“吞金獸”,無論是前期數據投喂、算力支持,還是后期的模型迭代和設備維護,都需要消耗大量的資金。
即便是月活6億的ChatGPT,在收取20美元每月后,2024年虧損仍超80億美元,平均每11個月就需融資一次。
DeepSeek雖通過算法優化將訓練成本壓至1/20,但仍需部署2000塊H800,成本高達上百萬。而且國內一張普通的RTX4090顯卡,市場價就在2w以上,高昂的算力成本,對于多數企業來說仍舊難熬。
如今LPU以石破天驚之勢,直接擊穿了這一困局。通過時序指令集與SRAM內存的深度耦合,一舉攻克困擾行業十年的“內存墻”難題。實測顯示,單塊LPU運行70B大模型時,推理速度是H100的10倍,而功耗僅為后者的1/5。
更關鍵的是,LPU只需要采用14nm成熟工藝即可實現千億參數推理,這意味直接繞開7nm先進制程。根據業內人士的測算,LPU如果全面普及后,AI推理成本將再降90%,未來家用顯卡跑千億參數大模型將不再是天方夜譚。
02 正在成為行業“破壁”者
LPU的突破絕非個例,在長期被西方生科企壟斷的領域,中國科研團隊同樣打了一場漂亮的翻身仗。
如今LPU采用14nm工藝的繞開西方制程,而益立維通過10萬+男體質數據庫建立的精準配方模型,使產品吸收率碾壓傳統數倍;當LPU讓AI推理成本下降90%,國產也以不到千元定價撕碎美產暴利……
兩者共同詮釋著科技"既要尖端突破,更要民生普惠"的發展哲學。
03 成本雪崩,LPU重定規則?
當LPU以14nm工藝實現千億大模型單卡推理時,硅谷突然意識到——LPU的橫空出世,正引發一場摧枯拉朽的產業革命。這個曾被視作邊緣技術的賽道,竟也暗藏顛覆算力的密碼。
如今傳統內存巨頭SK海力士出貨量同比下降19.3%,這些曾經炙手可熱的科技公司,都開始感受到逐漸淘汰的壓力。隨后LPU企業Groq緊急吸納沙特15億美元注資,試圖跟上速度,但似乎為時已晚,搭載LPU的智算中心的訂單已搭載著創新加速度紛至沓來。
從算力洪流,再到國民方案,這場雙向突圍正在證明——當止仰望西方標準,世界便開始追隨定義的技術坐標系。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.