近日,英偉達在2024 GTC大會上發布了多款芯片、軟件產品,引得國內媒體一通兒追捧,什么“核彈”、“炸裂”,總之一個比一個驚悚。同樣的追捧也出現在了對于OpenAI的身上,尤其是其Sora問世之時更是如此。殊不知,在我們追趕的過程中,極有可能陷入后發劣勢的陷阱。
AI的“Wintel效應”顯現:英偉達給的,OpenAI們就會拿走
“安迪給的,比爾就會拿走(What Andy giveth, Bill taketh away)”。這句源于1990年代在計算機會議上的一句小笑話形象地詮釋了“Wintel效應”,即指新軟件總將耗盡新硬件所提高的任何計算能力。正是借此,直到今天,Wintel不僅依然牢牢控制著PC產業,且雙方依然是全球科技產業中不可或缺的角色。
那么進入現在的AI,尤其是炙手可熱的生成式AI時代,又當如何呢?
眾所周知,生成式AI模型的訓練是一個計算極為密集的過程。這些模型包含數百萬乃至數十億個參數,需要在龐大的數據集上進行多輪迭代訓練。在訓練過程中,涉及大量矩陣運算和梯度計算等計算密集型操作。因此,為確保訓練過程的順利進行,必須依賴強大的計算資源來加速。
不同模型訓練一輪所需算力
資料來源:《language Models are Few-Shot Learners》,中國銀河證券研究院
以最近大火的Sora為例,據銀河證券研究院基于大語言模型推導算力需求方法,對Sora單次訓練算力需求進行推演后推測,Sora參數規模估算在30B(待確認),如果按此參數測算,推演出Sora訓練單次算力需求或可達到8.4×10^23Flops,相當于GPT-3 175B的2.7倍。而且該研究院認為,目前Sora還在初級階段,仍然存在如能以準確模擬物理運動規律及場景、混淆左右方向、混淆空間細節等,而伴隨Sora不斷迭代調優,訓練數據集規模增大,未來算力需求將呈現指數級爆發式增長。
國泰君安則認為,Sora大模型延續了此前GPT模型“源數據-Transformer-Diffusion-涌現”的技術路徑,這意味著其發展成熟同樣需要“海量數據+大規模參數+大算力”作為基座,且由于視頻訓練所需數據量遠大于文本訓練的數據量,預計Sora大模型將進一步拉大算力缺口。
問題來了,如此大的算力需求或者說缺口,誰來補?無疑業內首先想到的就是英偉達。
說到英偉達,就不得不提及剛剛結束的,備受業內關注的英偉達2024 GTC大會。雖然相關的報道很多,但我們還是要借此看下英偉達在滿足AI算力需求的技術和商業邏輯是什么。
作為GTC大會的核心,英偉達發布了新一代計算架構Blackwell,以及采用Blackwell架構的GPUB200及GB200,在FP4精度下,Blackwell 架構的AI計算性能達到前代Hopper 架構的5倍。Blackwell系列GPU采用臺積電4NP工藝,集成了2080億顆晶體管,且升級了 Transformer引擎、NVLink等以提升算力。相對上一代Hopper架構,Blackwell架構的集群化計算降低了能源消耗及所需的GPU數量,有望降低計算成本。
例如在標準的1750億參數GPT-3基準測試中,GB200的性能是H100的7倍,提供的訓練算力是H100的4倍。過去,在90天內訓練一個1.8萬億參數的MoE架構GPT模型,需要8000個Hopper架構GPU,15兆瓦功率;如今,在Blackwell架構下進行訓練,同樣90天時間的情況下只需要2000個GPU,以及1/4的能源消耗,是不是很摩爾定律。
這里請注意,英偉達算力創新和發展的邏輯是降本增效,而這個并非是指芯片成本本身,而是AI訓練和推理的整體TCO(其實英偉達CEO黃仁勛在接受媒體采訪時提到了),而給外界的感覺越來越貴,是因為被OpenAI不斷更迭的大模型們“吃掉”了。
需要說明的是,在演講中,老黃還特別提到2016年贈送OpenAI的DGX-1,那也是史上第一次8塊GPU連在一起組成一個超級計算機,當時只有0.17PFlops。從此之后便開啟了訓練最大模型所需算力每6個月翻一倍的增長之路,并一直延續到今天,甚至有過之而無不及。
到這里,看出點兒門道沒?至少在我們看來,也許早在8年前,不管是有意還是無意,英偉達和OpenAI就已達成了類似“Wintel效應”式的默契。而我們到今天才看到這種效應浮出水面(因為英偉達和OpenAI彼此間的技術更迭速度太快、步子太大),由此看來,以后“吃掉”芯片算力的就是大模型了,而根據MIT的相關研究,大模型以后根本“吃不飽”,這意味著算力還需增加,而英偉達與OpenAI的“Wintel效應”將繼續正循環下去。
追趕GPT國內掀百模大戰 知其然不知所以然
也許正是由于英偉達和OpenAI跑得太快,中國的AI,尤其是生成式AI掀起了“比學趕幫超”的熱潮,這點在大模型方面體現得尤為充分。
自OpenAI的GPT問世,全球沒有哪一個國家像我們,在極短的時間內出現了各行各業都推自己類GPT大模型、中模型、小模型以及各種所謂的行業模型,甚至有媒體用“百模大戰”形容當下國內大模型數量之多,競爭之慘烈。
實際的情況是,人工智能大模型研發的關鍵因素之一是算法,而算法的進步又依賴于持之以恒的前沿研究投入。在當下國內企業快節奏的競爭和盈利壓力下,企業難以做到不計短期回報的投入。因而,在這些高風險的創新技術領域,國內企業更傾向于采取復制和追隨策略,國內大模型大多基于國外公開論文和開源模型的基礎上進行模仿和復制,結果總是“慢人一步”,最典型的表現就是Sora的出現,讓我們又是一驚。
除了“慢人一步”,我們認為最為致命的是,上述基于國外公開論文和開源模型的基礎上進行模仿和復制造成的后果是我們國內企業對于大模型會陷入知其然不知所以然的尷尬。
例如近日,南加州大學的研究團隊通過一種攻擊方法,成功破解了OpenAI最新版 ChatGPT模型(gpt-3.5-turbo)的參數規模,結果發現其參數規模可能只有70億,而非此前外界猜測和傳聞的數百億甚至上千億。
那么隨之而來的是,最初的200億參數數據是否來自誤傳?還是OpenAI之后又對模型進行了壓縮?亦或是OpenAI一直在刻意隱藏ChatGPT的真實參數規模?無論真相如何,都表明OpenAI在模型優化或者算法方面擁有著強大的技術實力,它才是GPT的核心。
反觀國內的大模型,以現在排名靠前,用戶最大的百度前文心一言為例,據新浪科技的報道,近日,多位文心一言4.0付費用戶表示,“買了文心一言4.0會員,問了幾組問題后發現質量不達預期,跟免費的版本沒有太多區別,想要退費又聯系不上客服,覺得有點虧?!痹诤谪埻对V“投訴入口”平臺上,目前文心一言也是國內唯一一款收到多位用戶投訴的對話式AI產品。而新浪科技實測發現,目前這些版本功能相對單一,除了滿足基本的嘗鮮要求外,確實難以與其他相似的免費工具拉開差距,甚至于在交互體驗和內容即時性上,也開始落后于國內同行。
又如創新工場董事長兼CEO李開復創辦的AI大模型創業公司“零一萬物”去年11月推出的Yi-34B和Yi-6B兩個開源大模型“抄襲 LLaMA”事件,雖然其始終沒有承認抄襲,但也承認做法不妥,承諾將修改爭議張量名。
號稱國內領先和AI領軍人物創辦公司的大模型尚且如此,至于其他所謂大模型,相信人們都會有自己的判斷。
AI算力芯片挑戰英偉達 陷入純算力PK誤區
如果上述是我們國內在生成式AI“軟”(大模型)方面與GPT的競爭是知其然不知所以然,那么在“硬”(AI芯片)方面表現又如何呢?
目前,具有國產AI加速芯片(等同于英偉達的GPU)的企業包括阿里巴巴(含光系列)、百度(昆侖系列)、華為(昇騰系列)、寒武紀(思元系列)、海光信息(深算系列)、燧原科技、天數智芯、壁仞科技、摩爾線程等。此外,景嘉微、龍芯中科也在研發云端AI加速芯片。
這里我們以媒體近期報道最多、最具代表性,同時也被認為最具挑戰英偉達的華為昇騰和海光信息的深算為例來予以說明。
先看華為昇騰系列,據相關媒體報道,經過測試,目前在大模型推理方面,國內AI芯片910B僅能達到A100的60%-70%左右,集群的模型訓練難以為繼;同時,910B在算力功耗、發熱等方面遠高于英偉達A100/H100系列產品,且無法兼容CUDA,很難完全滿足長期智算中心的模型訓練需求。對此,有大型國企客戶評價,華為昇騰確實夠用,但不好用。原因何在?
其實不要說華為910B,其在2019年8月發布的昇騰910在某些媒體曝光的紙面數據上,就與英偉達在2020年5月發布的A100性能相當,但是華為不具備深度學習框架生態掌控力,導致Tensorflow/Pytorch兩大主流深度學習訓練框架沒有基于華為昇騰910做特定的優化,相反,PyTorch、TensorFlow等主流的深度學習框架均提供了基于CUDA的英偉達GPU的運算支持,同時還有更高層、更抽象的調用方式,方便用戶編程。所以算法結合上述兩大訓練框架在昇騰910上實際跑出來的性能其實不如英偉達A100,而目前僅華為自研的深度學習框架MindSpore對昇騰910和昇騰310做了特別優化,但由于華為MindSpore大部分精力都是放在對昇騰芯片的算子支持和優化上,對英偉達GPU的支持還不夠,只有同時使用華為的深度學習框架和昇騰芯片才能同時發揮出兩者的最佳性能。
而要想在深度學習訓練框架要想打破Tensorflow和Pytorch的壟斷必須要靠原始創新,但目前包括華為基于開源的MindSpore等在內的國產深度學習框架尚未很好解決上述兩大訓練框架的痛點。
說到深度學習框架,回望Caffe,其之所以能夠在早期獲得開發者歡迎是因為解決了深度學習框架從0到1的過程,Tensorflow之所以可以取代Caffe是因為解決了其不夠靈活、不能自動求導 、對非計算機視覺任務支持不好等問題,Pytorch之所以明顯搶奪Tensorflow的份額是因為Pytorch引入了動態圖解決了Tensorflow是靜態圖設計調試困難的問題。
相比之下,不僅是華為MindSpore,目前國產的深度學習框架百度Paddle Paddle、曠視Megengine等均還沒有完美解決開發者在用Tensorflow和Pytorch所遇到的痛點。
此外,將AI芯片作為訓練和推理,構建集群的能力至關重要,而這又和互聯技術密切相關。
而提及互聯技術,英偉達的NVlink通訊模組是目前市場上最先進的技術。盡管華為聲稱自己的卡間互聯技術(模仿NVlink模式)也不錯,但在進行8卡同時算力的訓練模型訓練時,與英偉達的技術相比仍存在差距。樂觀地估計,要達到英偉達的技術水平,可能還需要兩到三年的時間。不過,日前英偉達第五代NVLink,可為每個GPU提供了1.8TB/s雙向吞吐量,確保多達576個GPU之間的無縫高速通信,適用于復雜大語言模型的發布,恐怕又會將華為甩開距離。
至于服務器與服務器之間的互聯,目前大部分通用AI服務器之間的互聯,英偉達推薦使用其IB交換機,因為這種交換模式在數據損失量方面表現最佳,技術成熟且經過20多年的市場驗證,至今連模仿者都未能出現。
需要補充說明的是,由于華為受到非市場因素的影響越來越大,即便未來性能與英偉達產品在實際使用中相近,但由于制造工序等問題,未來差距可能會擴大。有部分報道稱,昇騰的成品率僅為20%左右。這無疑使得上述類似國企的用戶們,在不好用的同時,還會抬高他們使用昇騰的成本。
接下來,我們在看海光信息的深思DCU。
追根溯源,海光的DCU源自AMD的MI100芯片,這在其此前的招股說明書有描述。從源頭可以看出,海光DCU是AMD Mi100的裁剪版,裁剪了50%的性能。最關鍵的痛點是,海光DCU從Mi100授權過來時,把GPU的互聯接口(類似NVlink)從AMD的Infinity Fabric縮減成了xGMI接口(顯卡場景),導致最多只能兩顆GPU直聯。因此無法組成大規模陣列(Nvidia A100可以16GPU集群,H100 256GPU集群),基本上喪失了訓練能力(浮點性能低和無法集群組網);至于推理能力,場景性價比很低,大概是2022年代主流專用推理芯片的10%—15%性能。
另外,深思屬于兼容“類 CUDA”生態,但由于CUDA的閉源特性和快速迭代,后來者很難通過指令翻譯等方式完美兼容,即使部分兼容也會有較大的性能損失,導致在性價比上會持續落后英偉達。
更不利的是,近日有消息稱,英偉達可能禁止第三方硬件,也就是非英偉達的GPU,通過使用模擬層運行CUDA軟件,而之前英偉達只是在在線EULA用戶協議中提出警告而已。雖然對此業內持有不同的看法,但不管最后是否會付諸于行動,都暴露出所謂兼容CUDA所蘊含的巨大和未知的風險。
當然,隨著深思的更新迭代,尤其是今年可能發布的深思三,希望上述短板可以有所改觀。
綜上,我們認為,在生成式AI中“硬”的AI芯片方面,我們的真實實力遠非某些媒體報道的那么樂觀,而這又和我們相關企業缺乏原始創新、走模仿(技術)和兼容(生態)的路線密切相關。
寫在最后:不可否認,在AI,尤其是生成式AI方面,我們已經失去了先發優勢,但更可怕的是,從目前的發展路徑看,為了追趕英偉達和OpenAI這一新的“Wintel效應”和借助被制裁而出現新的爭奪國內AI芯片市場的所謂機會,我們有可能被人家帶入后發劣勢中,即借鑒和依賴往往無法標定涇渭分明的界限,在學習借鑒過程中形成“模式依賴”“路徑依賴”“技術依賴”。只“借”不“鑒”、抑或是只借鑒不創新,知其然而不知其所以然,形成依賴性而不自知,甚至還沾沾自喜,進而使得我們在付出更大資源和社會成本、與人家科技創新和發展的邏輯是降本增效背道而馳的同時,導致差距會越來越大。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.