算力當前最大的問題還是無序的市場秩序,還有內卷式的價格競爭。
4月28日,由「甲子光年」主辦、上海馬橋人工智能創新試驗區聯合承辦的「AI共潮生——2025甲子引力X科技產業新風向」大會在上海工業智能中心盛大啟幕。
在下午場的「數據筑基·算力革新:協同存儲與異構,解鎖AI時代新質生產力」圓桌對話中,真知創投董事總經理陳超擔任主持人,與趨境科技CEO艾智遠、希捷科技中國區市場營銷負責人俞康、西云算力CEO莊寧、Zilliz合伙人兼研發VP欒小凡,圍繞GPU荒與國產替代、智算中心數據與存儲、AI Infra降本增效、 算力成本、算力性能、企業級落地門檻等問題進行了深度探討。
真知創投董事總經理陳超
趨境科技CEO艾智遠指出當前算力建設與AI應用落地存在斷層,私有化部署中硬件成本(如671B模型部署需數百萬)遠超客戶實際預期成本,形成商業閉環阻礙。
他認為,軟件層對推理做全棧優化是破局關鍵,需通過硬件算力的異構協同,充分釋放GPU、CPU、存儲等硬件的算力,提高算力利用率。國產算力經深度優化也可接近國際領先水平。
趨境科技CEO艾智遠
希捷科技中國區市場營銷負責人俞康提出了存儲的三大挑戰,第一是AI生成的數據爆炸, 到2028年,全球數據量將達到394ZB,其中生成式AI單獨貢獻100ZB,催生非結構化數據管理難題,需兼顧容量、性能、能耗;第二是存算協同不足制約大模型實時性需求;第三點是數據質量合規性的問題。合規與數據質量是構成可信賴AI的基石。
希捷科技中國區市場營銷負責人俞康
西云算力CEO莊寧認為當前算力市場陷入了無序價格戰,資金與技術密集屬性被忽視,威脅行業長期發展。對此,應通過軟硬協同的集群架構、閑時調度優化、業務適配工具集開發等提升現有資源利用率,同時積極提升國產芯片在軟硬件層面的適配性,布局異構算力。
西云算力CEO莊寧
Zilliz合伙人兼研發VP欒小凡作為向量數據庫行業的代表,指出當前向量數據庫的性能瓶頸集中于內存帶寬與磁盤延遲,非算力本身;同時,國產算力生態割裂,開發適配需要3-6個月優化周期,這也給向量數據庫帶來了挑戰。他呼吁算力降價以倒逼應用爆發,并認為這需要行業共建存儲、網絡、軟件標準以釋放生態潛力。
Zilliz 合伙人兼研發VP欒小凡
以下是本場圓桌的對話實錄,「甲子光年」整理:
陳超(主持):感謝主辦方邀請,也非常榮幸能夠邀請到各位嘉賓一起探討算力這個前沿領域的話題。大家都知道今年隨著DeepSeek的爆火,對于算力的各種要求有了新的認知。在企業級落地算力的過程當中,我們對算力成本、算力性能以及落地門檻有了更進一步的要求。在AI大模型時代,會給存儲、數據、AI Infra,以及算力中心又提出了怎樣的新需求和新挑戰,下一代的智算中心又是怎樣的形態?今天我在圓桌論壇當中會和各位專家進行深入的探討。
作為開場我想先請各位專家簡要地介紹一下自己和自己所在的企業。
艾智遠:感謝甲子光年給這個機會大家一起探討AI算力相關的工作,也感謝陳總的介紹。
我是趨境科技CEO艾智遠,我們是一家做大模型推理優化解決方案的公司,我們是從清華出來的一批人,通過軟件的方式優化整個算力,我們希望能夠在數量級級別降低大模型部署的門檻,以及大模型運行的成本。
我們有兩個開源項目可能大家會更熟悉,一個是KTransformers,一個是Mooncake。KTransformers更傾向于中小規模的端側型部署,主要是通過GPU+CPU的異構協同做整個大模型的推理,KTransformers也是首個用一張GPU+一個CPU+512G內存把671B的模型在端側跑起來的推理框架;
Mooncake是當前分布式的實施標準,也是我們和清華包括Kimi等產學研機構一起開源的整個方案,通過PD分離和以存換算的模式做大型云上部署,幫助Kimi承接了線上超過75%的流量。
俞康:大家好我叫俞康,我來自希捷科技,負責中國區市場營銷和產品線管理,覆蓋云、邊緣、端等領域。希捷科技是一家專注于數據存儲方案的科技公司,我們自1979年就成立了,1979年成立以來一直致力于為合作伙伴、客戶提供創新數據存儲的技術。一提到希捷科技,相信大家都知道我們是做硬盤的。但是實際上,希捷科技已經在全面布局AI時代的數據基礎設施,為人工智能發展提供更好的數據基礎底座。近些年AI發展起來,我們與合作伙伴、客戶一起探討AI發展對數據存儲提出哪些新的挑戰,以及能夠為客戶提供更好的最優的解決方案。
今天特別期待和各位生態伙伴一起討論,看看我們將來怎么樣共建一個更高效、更有效、更可持續的數據基礎底座,我們也希望大家緊密合作,看怎樣讓我們的數據釋放更多的潛能,為行業發展注入新的活力。
莊寧:非常感謝甲子引力給我們這個機會,我是西云算力的莊寧,我們在寧夏建了一個自己的算力集群,我們主要的業務是為大模型提供底層算力。除了大模型之外,我們也為眾多的開發者提供各種的彈性資源。
目前我們已經開發了自己算力調度管理平臺,還有我們面向開發者的智算云平臺(丹摩平臺)。從今年開始,除了在寧夏之外,我們也開始在北京、浙江部署新的算力集群,也希望我們能夠為行業內的同仁提供更好、性價比更高的算力,謝謝各位。
欒小凡:大家好,我叫欒小凡,來自Zilliz。我們公司的名字是兩個回文的單詞,體現我們是一家做海量非結構化數據處理的公司,我們公司最重要的產品是開源的向量數據庫產品Milvus和云上托管產品Zilliz Cloud,今天很高興有機會和大家分享,在今天的算力時代里面從數據和數據庫的視角,怎么看待算力的問題,謝謝大家。
陳超(主持):感謝各位嘉賓的介紹,各位都是AI技術架構生態圈的一員,有做存儲、有做Infra的,有做智算中心、有做數據庫的。所以想請教大家一個問題:今年的算力圈異常火爆,大家都是在一線實踐、真正看到過實際的情況,那么當前我們在一線看到了哪些所謂的“真問題”?
艾智遠:實際上從2月份開始比較火的是一體機,算力建設非常火爆,但是私有化的算力建設最大的問題是算力建設和應用落地的GAP。雖然算力建設得比較快一點,但是實際上客戶的應用還在探索的過程中,這里面遇到的問題就是早期探索期的應用產生的價值點,對應的價格比算力的價格更低。
比如說在一個項目落地的過程中,要落地使用一個671B的模型,不管是國產化還是非國產化的方案至少都是幾百萬起。當前應用處于的階段,可能整體的價值還達不到幾百萬的量級,這明顯在成本和應用的落地過程中有很大的斷層。我遇到很多的項目,客戶想要去落地應用,但是首先又要部署一個671B的大模型,建小機房可能就需要花超過200萬,應用根本就沒有辦法往下落地,這是我遇到的比較大的問題。
俞康:我分享一下從希捷做數據存儲的角度我的一點看法,我覺得有幾點:
第一點是數據爆炸和存儲需求之間的矛盾。
舉一個例子,現在生成式AI這么普及,每個人手機里都有好幾個AI APP。大家有沒有注意到IDC有一組數據,說2028年人類數據會到達394 ZB。其中關鍵一點就是有100 ZB是由生成式AI生成的,也就是說人類有史以來記錄的數據25%會在接下來三年由AI生成,這是非常可怕的。不僅對我們的存儲容量提出了巨大的挑戰,而且對存儲的性能、存儲的可靠性都提出了非常高的要求,特別剛才還有人提到能耗的問題。
394 ZB的數據中,百分之八九十都是非結構性的數據,所以這個數據在里面存著以后,我們怎么樣更好的管理,怎么樣更好的存儲,這是第一個繞不開的話題。
第二點是存力和算力之間的高度協調。
AI落地離不開存力和算力的高度協調,大模型在計算過程中,在推理的過程中對數據的調用,對云和端之間的反應時效性有極高要求,對于存儲系統則要求大容量、高性能、低延遲。怎么樣做到這些事情,怎么樣提供更多的技術創新,包括怎么樣做層級的數據存儲、優化架構是第二個繞不開的話題。
第三點是數據質量與合規性的問題。
高質量的數據是我們構建所謂值得信任的AI非常關鍵的支柱,如果數據不準確很大概率大模型做出來推理結果是錯誤的,合規性就是對數據存儲和管理更是提高了復雜性。所以對于企業來說,一定要關注數據的準確性、完整性、一致性,還要關注相關的法規,避免不必要的風險。
所以希捷在這方面的角色是非常明顯的,我們是做AI基礎數據設施的搭建者,我們也知道算力和存力相互協調不僅是技術問題,而且是大家生態行業的共建,所以我們也希望大家能夠攜手共建,能夠打造更高效、更快速、更靈活的基礎設施,為行業的發展助力。
莊寧:在算力這個行業,當前最大的問題還是無序的市場秩序,還有內卷式的價格競爭。短期來講,可能對于算力需求方來講這是一個好的事情,但是從長期來講已經影響了整個行業的生態和可持續發展。
因為算力這個行業并不僅僅是資金密集的行業,也是一個技術密集的行業,工程技術也是一個很高的要求。
從這幾年來看,有各種的投資人進入到了這個行業,總體造成了這個行業一下子發展成過熱的狀態,從算力行業來講這可能是很影響未來發展的隱患。
欒小凡:我有三個看法,第一,特別同意剛才艾總說的,我們起來存在整個算力Infra和應用價值之間的不匹配,要解決這種不匹配我的觀點是Infra必須降價,算力必須要降價。
剛才莊總提到的內卷問題,我個人覺得內卷是必然的,當Infra的價格下降10倍,我們就可以看到10倍以上的用例,這就是通過DeepSeek看到的最基本的點,就是DeepSeek把整個算力使用成本和門檻降低以后,我們看到大量的應用爆發。作為我們做算力和Infra的公司來說,內卷是必然的,并且一定要通過技術的方式進一步地降低整個的算力成本。
第二,算力和其他的一些硬件和資源的不匹配。
這里面包含做存儲的公司,也包括做網絡的公司。因為從過去幾年的經歷里面可以看到,以GPU包括國產化硬件為代表的算力的提升速度是非常快的,但是我們的網絡以及我們的存儲能夠提供的帶寬和fIops的提升相對來講是比較緩慢的。
作為一個做向量數據庫的公司,我們發現在構建整個系統的過程中,很多時候瓶頸沒有卡在算力的層面上面,而是卡在存儲和網絡這層,包括在座有一些了解大模型訓練的也清楚,今天主要的瓶頸算力只是一個很小的部分,核心是怎么把更多的卡連接在一起構建一個更大的集群,里面有機房的問題、卡的問題,有非常多的其他問題作為里面的瓶頸。
第三是算力生態。
很多時候不是大家沒有算力,而是整個生態的布局導致這些算力沒有辦法被充分使用。我們國產的一些算力和以英偉達為代表的海外算力對比,從各種各樣的參數上來講我認為我們并不落后,但是在實際對接的時候就會發現因為中間的生態尤其是軟件生態的缺乏,會導致對于整個開發者來講這件事情是極其不友好的。
我們基于GPU做向量數據庫的索引的過程中,我們大概花了3-6個月時間實現了CPU10倍以上的性能提升,但是在和國產算力對接的狀態下,我們發現這件事情非常困難,我們需要有大量的合作伙伴、硬件供應商甚至包括中間層的支持,才能把中間的流程跑通,無論是中間的推理還是開發者的生態,都限制了我們對于算力的使用。
陳超(主持):接下來想請教一下俞總,第一個問題是:隨著智算中心的大規模落地,其實很多地方都開始將原來的DIC升級為AIDC。在整個AI時代,將給存儲行業帶來怎么樣的改變?
俞康:AI時代我們看到智算中心的發展非常快,所以像你剛才說的IDC(數據中心)慢慢逐漸升級為AIDC(智算中心),這個轉型對我們存儲行業的影響確實非常深遠。
剛才已經講到比如說AI的應用落地,對于存儲要求是非常高的,像您剛才說的大規模隨機讀寫、混合編譯、在線推理,這種并發式的應用對我們的存儲要求必須要大容量、高性能、低延遲性,所有的這些要求我們怎么樣實現它。
這個時候我們希捷有兩項技術創新HAMR、MACH.2,這兩個技術正是應對這樣的挑戰。HAMR是熱輔助磁記錄的技術,相當于通過提升單碟的存儲密度增加,提高整個單盤的容量。現在,單盤容量已經可以增加到30、40甚至50T,我們希捷基于HAMR技術去年發布了魔彩盒3+(Mozaic 3+)平臺,在這個平臺上我們30T以上的硬盤已經在市場上批量發貨了,它滿足了數據中心對海量數據的需求。這個盤還有另外一個特點,就是在增加容量的過程中其實并沒有增加能耗,所以在單盤的能量和以前相同的一塊盤的能耗是一樣的,也就是說這樣的話,數據中心單TB的TCO(Total Cost of Ownership,總擁有成本)會有一個非常大的改善,極大降低了數據中心TCO。
第二個技術是MACH.2,是引用了飛機馬赫(的名稱),相當于雙磁臂的技術,是為了解決隨機性的性能下降問題。大家可能知道傳統的硬盤隨機性的性能會隨著容量的增加逐漸下降。這個雙磁臂幾乎可以做到性能倍增,這樣可以幫助我們的數據中心特別是AI大模型推理做到在高并發的任務需求下實現較快的速度和較好的性能。
其實剛才除了主持人提到的兩個技術,我今天還要提一下我們的希捷在引入NVMe的接口放到我們的大容量硬盤里面去,所以我們也在不斷的推進將NVMe的接口作為未來硬盤的標準協議。希望各位合作伙伴能夠支持,我們將會把AI的數據管道進行很大的優化,降低數據存儲的瓶頸。
希捷就是通過這樣的技術創新,不僅滿足了對大容量的需求、高性能的要求,而且我們還在不斷優化能效,能夠滿足數據中心可持續性的發展,謝謝。
陳超(主持):下一個問題想請教小凡總,Redge多模態檢索要求毫秒級的并發,包括GPU、FPGA乃至專用ASIC芯片等正在進入向量數據庫的內核,Milvus / Zilliz Cloud 將如何在算力受限甚至多租戶的環境中,同時兼顧 QPS、延遲與成本?未來會否考慮把近數據處理(NDP)能力直接融入數據庫節點?
欒小凡:過去幾年里面,我們看到最核心的挑戰,作為向量數據庫這一層,我們主要為大模型和AI應用去提供數據的檢索核心能力,最大的挑戰是在成本和擴展性這兩個點上面。
我們過去探索過非常多的方案,包括基于GPU去構建向量檢索服務,包含了定制的硬件。從成本的角度上來講,或者從算力和性能的角度上來講,都拿到了很好的優化。目前最大的問題,從技術角度來看,其實沒有卡在算力側,而是卡在了內存帶寬和磁盤的延遲上面,這個是我們目前最主要的挑戰。
相應的,我們的解法是尋求更加定制的硬件和存儲的一些solution,在今年推出了整個向量數據湖的解決方案,更多面向了離線的訓練場景或者說交互式查詢,以犧牲一定的延遲為代價去降低整個算力的需求,提升了吞吐,并且幫助用戶去節省成本;同時在高性能的搜索領域里面,我們也引入了定制硬件、無論是基于ARM或者是CPU的加速和GPU的加速解決方案。
至于剛才主持人說到的近存儲的計算,確實是我們探索的方向,剛才也提到的帶寬可能是我們目前最大的問題。如果我們能夠把一部分的計算下推到我們能夠有計算資源的device上面,確實對于我們性能有非常大的幫助,這個也在跟一些合作伙伴做探索。
陳超(主持):請教一下莊總,最近我們看到H20又被禁了,在GPU荒與國產替代并存現實當中,我們西云算力如何通過網絡拓撲和節點設計,包括一些商業計費模式等確保有拿得到用得起的算力,當新型芯片,比如說MI300,GB200或者是昇騰的910B、910C等新芯片落地后,我們西云這邊的資源池,調度策略與商業模式又會有什么樣的新的迭代計劃,有請莊總。
莊寧:關于H20準確來講,他是許可證的制度,我們在努力分析,為什么改成了許可證,這里面代表了一定的彈性,至于首批許可證什么時候發,發多少,什么條件,我們很難去回答這個問題,從這個角度上來講,我們現在也在觀望和密切關注相關的一些進展。從我們自己來看,主要還是在用技術上彌補一些工作,所以我們目前主要的研發放在幾個方向:
第一個,提升已有資源利用率,這里面做幾個事情,第一個是降低故障率,盡快縮短故障的恢復時間,讓整個集群利用率更高;第二個是加強時間上的協同調度,讓閑時的資源能夠利用起來。
第二個,我們重點在做的就是讓算力集群和業務,跟模型或者說各種的智能地的應用去適配,我們現在目前也在利用很多的工具,逐漸形成工具集,通過這個讓現有的資源能夠對于業務有更好支持。
第三個,我們現在也在開始做異構算力的研發,包括我們現在跟一些國產的芯片,我們也在開始做一些適配和測試。我們總體來講是用技術的手段來盡量彌補我們管制上的不可控的因素。
陳超(主持):感謝莊總。下一個問題請教一下艾總,隨著DeepSeek-R1的強勢破圈,讓原本就橫斷在企業落地大模型過程當中的性能與成本問題更加凸顯,盡管DeepSeek訓練推理成本有不同程度的降低,但是真正落實到企業業務當中,實際部署成本不低。趨境科技深耕于這樣的一個業務,也推出了一體機,請問艾總,您如何看待企業落地大模型成本的問題,你們公司為了降低大模型落地成本在技術和商業側做了什么努力?
艾智遠:我們看到的成本來自于兩方面,一方面是企業落地大模型的門檻的成本,第二部分是來自于企業將來推出自己大模型應用的成本。
我們先說第一個成本,現在大模型在私有化落地處在什么樣的階段,叫做算力的導入期或者說大模型的導入期,去年大模型沒有這么火,DeepSeek爆火后需要落到實際的應用里,要解決的第一件事情就是前期的試錯成本,這個是很明顯的門檻,去年主打模型是70B的模型或者32B的模型,這類模型對于算力的起步門檻要求沒有那么高,現在變成671B的模型之后,部署模型的起步門檻大幅度提升,客戶是既要又要還要:既要成本,又要效率,還要更大參數效果更好的模型。在前期需要一個很低成本的硬件支撐,同時也要能抵抗住當前大模型的快速發展,這幾家大模型公司一個比一個卷。
DeepSeek-R2發布時,模型參數會不會再突破極限值,也有可能。千問也剛發布了自己的新模型,包括KIMI也有自己的模型,這些模型大小的變化,會不會引發對算力的新的要求,比如說現在單臺H20 141G乘8,可以放下DeepSeek 671B的FP8,如果這個模型再大一圈,算力上怎么適配,也會成為一個大的問題。
第二個成本,現在所有一體機的方案,是在benchmark的邏輯之下測出來的性能方案,當企業在真正落地過程當中,應用所帶來的token的量級,是比現在測出來的token要高一個數量級的要求,這個過程當中對于算力成本要求更高,這是一系列要去解決的問題,包括前面嘉賓講到的這些東西,存儲、網絡、向量數據庫,都存在大量問題要解決。
我們這邊想從技術層面和軟件層面去看,如何通過高效利用硬件本身來做更大的性能提升,我們從最開始就沒有完全瞄向GPU的算力,我們在想的問題是除了GPU之外,還有什么事情可以利用,KTransformer的開源項目是CPU+GPU的概念,因為當前這個時代的GPU、CPU和內存和上一個時代的邏輯設計差距比較大,上一個時代里面CPU和內存之間是一個解耦的關系,GPU的顯存和計算單元是完全綁死的,顯存越大,計算單元往往更強,這個時候成本也比較高。
所以KTransformer在CPU層面上做了很多的工作,我通過大內存,即便這個模型再大一圈,比如說到萬億級別的模型,如果把內存擴大到1T或者是2T,也可以把模型運行起來,雖然說并發降低了,但是成本也很低。
第二個,真正到大規模使用的過程當中,我們還是要解決算力問題,比如客服型的應用、用戶一次問題訪問,帶來好幾次的大模型的調用,這個時候對于token的使用量非常龐大,對于GPU算力的需求是無窮盡的,所以在mooncake的項目里面主要是通過以存換算節省計算資源。
所以我們在產品側的整個設計來講,有更小的Box、也有工作站、服務器,這幾種不同的設計是支撐了各種不同客戶對于大模型的訴求。
但是不管是最小的Box,還是我們和聯想、華為也要合作一起推出的產品,包括在最大的server,我們都能夠運行當前最大的671B的模型,這樣可以適用于各種場景的使用。
陳超(主持):在過去的18個月里,基礎設施融資更加開始注重PUE、利用率和回本周期,作為投資人我想問一個資本關心的問題,我們的VC將如何為算力資產類公司做估值與退出路徑的設計?
莊寧:我覺得過去基本邏輯并沒有太大的問題,如果從投資人的角度來講看一個企業的本質還是要看回報。本質是這樣子的,那有哪些表象或者哪些指征呢?從算力這個行業來講,第一個可能要關注客戶情況,客戶的規模、客戶的成長、客戶的黏性,這個可能算力來講是第一個要關注的。
第二個目前的算力總體來講同質化比較嚴重,但是未來我覺得可能會逐漸地分化,體現在對于模型、Agent支持的程度,所以投資人在投資算力的時候,需要關注這一個層面。
其他我覺得之前的幾個基本邏輯,回報率、周期、利潤率可能也沒有問題,但是還有一個是對于回報率方面,往往來講在當前算力行業都還在摸索自己的商業模式包括技術路徑,所以我覺得在早期內希望有短期過高的回報可能不太現實。
欒小凡:這個問題我不是特別專業,因為我們是一家做軟件的公司。其實關于這個問題我更多想分享一個看法,我覺得第一個方面,算力可能在接下來的時間內也會達到瓶頸。因為大家都知道整個行業的發展是要么從硬件開始,要么是從應用開始,這一波的硬件迭代是因為整個應用的范式發生了變化,到目前為止我認為這波很快速的變化周期基本上達到了所謂的瓶頸或者是達到了增長的周期,接下來下一個突變是需要時間的,所以大家并不需要過度地擔心算力在未來幾年里貶值的問題。
我覺得真正需要關心的是我們到底做出了怎么樣的護城河,來提升算力使用的效率?這里面有很多需要考慮的問題,包括集群規模變大之后怎么解決硬件本身的故障率問題,包括網絡問題,以及我們現在看到很明顯的以DeepSeek為代表的稀疏模型,隨著部署的規模變大,能夠怎樣加速硬件使用的問題等。
但是我如果作為投資人的話,我會問所有的投資公司一個問題,你的Scaling Factor在哪里,給你這些硬件你到底能夠做出和其他的競爭對手怎么樣一些不一樣的事情。
陳超(主持):下一個問題,在大型生成式AI把算力、存儲和網絡性能推薦極致后,我們追求的是每秒、每瓦、每元將成為新的綜合指標。想請各位嘉賓分別談一下在不犧牲總體TOC的前提下,下一代算力集群應該如何重新定義這一基準,哪些環節更需要行業共建標準?
艾智遠:說實話我也不是特別清楚這個指標具體是怎么定出來,但是我可以提一個可能性。前兩年最大的算力建設點是做大模型訓練,訓練最大的性能要求是來自算力卡,所以這個時候就有功耗、算力成本以及價格。
這兩年有比較大的風向轉變,第一是從訓練的算力集群建設轉到推理集群建設,去年就是一個轉折點,今年DeepSeek就帶來了另一個轉折點。
當推理變成很重要的事情,這個時候所需要的算力級別整體是會增大的,因為在訓練層面上的玩家并沒有那么多。
2023年的時候有好幾十家在做大模型訓練,到現在為止可能留下來就幾家,但是做訓練的建設成本非常高。當推理建設開始建設的時候,這個時候就不只是GPU本身了。因為在大型的算力集群內,除了有GPU本身還有像內存、存儲、網絡,他們在推理層面上都有很大的幫助。
比如說可以通過以存換算,把之前計算的結果進行緩存下來,可以帶來10倍的成本降低,這個時候算力成本就會大幅度地下降;同時如果存儲上來了,就需要用更高的帶寬甚至更高的網絡,比如現在的IB網絡大概是400G的網絡,有沒有可能做到800G甚至更高的網絡?
又比如英偉達目前限了NVLink卡間帶寬,我還見過GPU卡要做光互聯的可能性存在,所以從這個層面上,我們要做的事情應該是整個系統層面或者架構層面的完整優化,最終考驗的不是純粹的GPU的算力成本,還是在于存儲+GPU+內存等的成本。
第二是在整個推理過程中,模型也會存在很多的變化性,比如說像671這次為什么出現了FP8精度、FP16精度、Q4量化精度等等相關,以及我們在應用層面上當應用真的要大范圍爆發的時候,不只是會卡在模型推理的本身,也會卡在小凡總講的向量數據庫的邏輯請求里面。
因為需要從大量的庫里面找到文本信息本身,以及送到上層。在這一過程中,GPU的利用率大概是什么樣的量級,以及這些數據中間結果存儲在磁盤的過程中應該怎么調用,以及Agent在調用過程中怎么能夠保證Agent每個吐字速度超過現在的速度,比如說我真的要一秒鐘吐一百個Token這個事情該怎么做等,都是我們需要考慮的問題。所以我覺得新的標準一定是當前模型推理過程中應用整體來決定的。
對于整個生態來講標準也很關鍵,包括大家講應用本身,我們現在也在做各種各樣的國產化對接。原本在英特爾做得比較好的指令集,可能到國產CPU上面發現指令集失效了,可能還要做多NUMA并行、各種各樣的處理。
GPU層面也是,我們有CUDA兼容,有非CUDA兼容。但是要做一套真正能對客戶進行服務的硬件的情況下,必須要在上層包括通信層、存儲層、計算層以及各種各樣的應用接口層都要達到標準化,所以我覺得這個生態不是相互內卷和競爭的生態,應該是多家合作來共謀更開源、更開放、更標準的邏輯生態,這樣才有助于整個行業在大模型推理或者大模型落地過程中的快速發展。
陳超(主持):最后一個問題請教各位嘉賓,我們展望未來,如果把時間軸拉到未來的5-10年,各位認為數據中心最有可能引爆的一項底層技術革新是什么?是Chiplet的光互聯,還是存算一體、存算融合,還是面向Agent的新型數據庫,亦或者其他?請給出一個最樂觀和最悲觀的預測,并說明貴公司當前的技術與資本儲備如何對沖風險押注機會。
欒小凡:因為我們是一家做數據庫的公司,在過去我們看到最大的挑戰是數據和算力之間的不匹配的挑戰,不匹配指的很多方面。我們在過去看到的是數據體量遠遠大于我們能夠提供的算力,包括在成本上面也是如此。因此面對90%以上體量的非結構化數據,其實我們并沒有足夠多、成本足夠合適的算力幫助用戶挖掘這里面的價值。
第二個方面,今天我們的存儲性能、網絡性能和我們能夠提供的算力并不匹配,在這么多的數據情況之下,我們的算力是非常有限的。怎么樣通過調度的手段,包括近存儲的計算降低帶寬和IOPS(Input/Output Operations Per Second)之間的GAP,這個是我們非常關注的挑戰。
回到剛才主持人的問題,我們希望在未來能夠出現的其實是硬件層面上的迭代,無論是在存儲上還是在網絡層面上,能夠降低算力和數據之間的能力不匹配。如果有一天能夠做到這樣的點,充分利用我們整個的資源調度,可能就像以10倍甚至更低的成本優化,去把更多的非結構化數據轉化成大家能夠理解、能夠由大模型調用的數據結構,未來可以做更多的應用。
莊寧:從做算力的角度來講,我最希望5-10年能夠真正實現算力調度。因為我們現在在講算力調度更多的是算力卡的資源簡單分配,不是實現真正的算力角度。我希望能夠在5-10年真正實現算力調度,是指支持多元算力資源,根據不同的業務負載、數據流量等因素,實現算力資源的動態調配和優化,無需過多的人工干預。只有這樣的話才能夠把整個算力的價格大大降低下來。
俞康:從我們的角度,我只是有一點擔憂數據增長太快了,我們存儲行業需要快速反應才能應對挑戰。我剛才提到30、40、50T(的硬盤),甚至還有客戶問我們要有沒有100T容量的產品,所以這對我們是一個非常大的挑戰。
技術上的儲備是為了解決將來的問題。強調一下我剛才提到的幾點,一是HAMR技術能夠解決數據中心對于海量數據爆炸的增長需求,另外就是雙磁臂的技術可以對并發性的應用、特別是AI大模型的需求提供非常好的支撐。
NVMe可以把架構做得更簡潔,讓存儲兼容性更好,性能更高,為我們的人工智能的發展保駕護航。所以希捷希望不斷地做技術更新,為我們行業和用戶提供更多的價值。
艾智遠:從我們看到的情況,整個算力的建設上個時代是以虛擬化為主,但是在這個時代最大的問題就是大模型推理過程中或者整個AI應用環節算力成本過高,但整個軟件棧沒有完全朝著整個AI算力的方向發展,所以我認為未來5-10年很重要的事情就是做軟件層的整體優化。
DeepSeek大家看到的是2月份很火,整個MOE的架構,智能化很強。但是大家忽略的是DeepSeek團隊在整個Infra層面的投入也很強,業界里面戲稱DeepSeek在教英偉達怎么寫代碼,因為他可以把整個帶寬跑到很高。
我們這邊在做整體設計的過程中也發現:CPU進行計算的過程中,如果我們用了比較好的指令集,可以把CPU的性能提高4倍以上,比如說可以達到40 Tflops的計算能力,整個提升空間很大。
我們在應用軟件的開發過程中,大量的軟件架構沒有完全發揮我們硬件本身的性能本質。所以在未來的5-10年之內如果AI應用是會在廣泛爆發的過程中,我們實際上可以在整個系統層面或者說數據中心的全系統層面上做軟件的優化提高,硬件資源還有很大的利用空間。
我們看到很多國產化卡性能,如果優化得比較好的話,也不會亞于和英偉達或者英特爾,這很關鍵。因為軟件所定義的整個硬件的發展將有利于我們整體算力基礎設施的鋪設,這也是英偉達GTC2025推Dynamo開源推理框架的原因,現在單卡已經到2納米了,算力還能得到多大的整體提升呢?但是整個集群層面上的提升有很大的空間可以做的,因為利用率遠比我們想象的要低。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.