杰西卡 發(fā)自 副駕寺
智能車參考 | 公眾號(hào) AI4Auto
老黃人在北京侃侃而談,沒(méi)想到轉(zhuǎn)眼老家被“偷”,客戶變對(duì)手。
特斯拉的最新消息,Dojo二代芯片量產(chǎn)進(jìn)入倒計(jì)時(shí),性能比第一代提高10倍,算力直逼英偉達(dá)Blackwell B200芯片
這很可能會(huì)讓特斯拉FSD實(shí)現(xiàn)“自產(chǎn)自訓(xùn)”,從此擺脫英偉達(dá)的束縛,甚至能向外部提供算力。
更關(guān)鍵的是,特斯拉表示,Dojo 2超算能讓數(shù)據(jù)訓(xùn)練速度猛增一個(gè)數(shù)量級(jí),也意味著FSD的優(yōu)化能再上一個(gè)臺(tái)階。
不過(guò)在馬斯克這兒,還不夠。
算力更強(qiáng)、性能巔峰的Dojo第三代芯片,時(shí)間表也定了,明年就推出。
特斯拉Dojo 2量產(chǎn)倒計(jì)時(shí)
據(jù)外媒平臺(tái)Not a Tesla App稱,特斯拉新一代Dojo 2芯片,已和全球最大的半導(dǎo)體制造商——臺(tái)積電達(dá)成合作,年底前進(jìn)入量產(chǎn)階段。
臺(tái)積電方面也透露過(guò),第二代Dojo的訓(xùn)練模塊已投入生產(chǎn),且采用了臺(tái)積電最新的封裝技術(shù)。
特斯拉多次表示,Dojo 2芯片已經(jīng)接近英偉達(dá)Blackwell B200水平——這是英偉達(dá)最新一代的AI芯片,性能也最強(qiáng)。
在馬斯克的另一家公司X平臺(tái)上,也有人分享了這個(gè)消息:
不少“特粉”表示,足夠令人振奮。
因?yàn)檫@意味著,特斯拉實(shí)現(xiàn)了從傳感器到超算的垂直AI能力,即將擺脫英偉達(dá)的束縛:
甚至,特斯拉未來(lái)可以向外提供算力,成為英偉達(dá)的對(duì)手。
并且自研芯片最利好的就是成本,特斯拉將有能力以前所未有的速度擴(kuò)大規(guī)模:
還有網(wǎng)友已經(jīng)“預(yù)見(jiàn)”到未來(lái)的驚天巨變,認(rèn)為Dojo 2很有可能會(huì)改變汽車和AI行業(yè)的游戲規(guī)則:
也有人對(duì)真實(shí)性存疑,畢竟,馬斯克定下的ddl總是設(shè)定在年末,但真正兌現(xiàn)的情況并不多見(jiàn):
不過(guò),馬斯克倒是在評(píng)論區(qū)現(xiàn)身說(shuō)法,回應(yīng)很簡(jiǎn)潔:“Dojo 2是一臺(tái)很好的計(jì)算機(jī)”,算是暗戳戳地肯定了量產(chǎn)時(shí)間屬實(shí)。
緊接著他又講了個(gè)經(jīng)典的計(jì)算機(jī)硬件性能笑話——
- Dojo 2可以以每秒十億幀的速度玩《孤島危機(jī)》。
提醒一下不知道的朋友,《孤島危機(jī)》是2007年發(fā)行的一款游戲,起初對(duì)配置要求極高,不知道燒壞了多少顯卡,被玩家一致調(diào)侃為“顯卡危機(jī)”。
后來(lái)是英偉達(dá)向游戲官方提供了技術(shù)支持,英偉達(dá)曾多次用“可以玩《孤島危機(jī)》”,證明其配置硬核。
現(xiàn)在,這個(gè)玩笑也被馬斯克也拿出來(lái)證明Dojo二代芯片的性能,算是里里外外都和英偉達(dá)對(duì)標(biāo)了。
那么Dojo到底有多厲害,能和全球第一的AI公司杠上?
馬斯克布局6年的關(guān)鍵基建
所謂Dojo,就是馬斯克親自推動(dòng)、為了訓(xùn)練FSD神經(jīng)網(wǎng)絡(luò)而自研的AI超級(jí)計(jì)算平臺(tái)
關(guān)于“Dojo”的概念,最早是在2019年特斯拉的自動(dòng)駕駛?cè)丈?,被馬斯克和AI團(tuán)隊(duì)首次提及。
馬斯克多次強(qiáng)調(diào),視覺(jué)是實(shí)現(xiàn)FSD的關(guān)鍵,強(qiáng)大的神經(jīng)網(wǎng)絡(luò)需要海量視頻數(shù)據(jù)訓(xùn)練。
特斯拉的純視覺(jué)方案,每天會(huì)產(chǎn)生1600億幀的視頻數(shù)據(jù)。
這些視頻需要逐一進(jìn)行分析、標(biāo)記和處理,幫助FSD不斷學(xué)習(xí)新的邊緣場(chǎng)景(即不可預(yù)測(cè)的罕見(jiàn)情況),這對(duì)于堅(jiān)持不用激光雷達(dá)的特斯拉而言至關(guān)重要。
而當(dāng)時(shí),即便強(qiáng)如英偉達(dá),其算力也很難滿足特斯拉對(duì)大規(guī)模視頻訓(xùn)練的需求,并且缺乏針對(duì)視頻訓(xùn)練的專用指令集。
這讓特斯拉產(chǎn)生了自研芯片、打造高性能視頻訓(xùn)練超算的念頭。因?yàn)橐坏┏晒Γ厮估腇SD訓(xùn)練效率將從根本上被改變。
在這種背景下,第一代Dojo及其自研芯片D1,首次亮相于2021年的特斯拉AI Day上,不過(guò)當(dāng)時(shí)還只是Demo。
D1芯片是Dojo的核心,由臺(tái)積電7nm工藝制造,有500億個(gè)晶體管,芯片面積為645mm2,小于英偉達(dá)的A100(826 mm2)和AMD的Arcturus(750 mm2)
每個(gè)芯片有354個(gè)訓(xùn)練處理節(jié)點(diǎn),以及440MB的靜態(tài)隨機(jī)存儲(chǔ)器,BF16精度下算力高達(dá)362TFLOPs,一塊芯片功耗只有400W。
D1芯片測(cè)試完成后,會(huì)被封裝到Dojo訓(xùn)練瓦片(Tile)上,每個(gè)瓦片容納25顆D1,這就是最終的Dojo。
當(dāng)時(shí)的Dojo有超過(guò)50萬(wàn)個(gè)訓(xùn)練節(jié)點(diǎn),每個(gè)模塊算力為9 petaflops,每秒36 TB的區(qū)塊外帶寬。
而120個(gè)Dojo組合在一起,就是當(dāng)時(shí)超算的頂級(jí)配置——Dojo ExaPOD,集結(jié)3000塊D1芯片,擁有超1百萬(wàn)個(gè)訓(xùn)練節(jié)點(diǎn),算力達(dá)到1.1EFLOP。
不過(guò),特斯拉也表示,當(dāng)時(shí)的D1芯片還不能完全為Dojo提供計(jì)算支持,需要和英偉達(dá)的GPU一起工作,之后會(huì)逐步擴(kuò)大D1和Dojo使用的占比。
次年9月,特斯拉展示了首個(gè)Dojo機(jī)柜,進(jìn)行了2.2兆瓦的負(fù)載測(cè)試,還演示了運(yùn)行Stable Diffusion模型生成“火星Cybertruck”圖像的能力,以證明其AI訓(xùn)練通用性。
直到2024年1月,特斯拉投資5億美元(約36億元),在紐約工廠打造了Dojo集群,承擔(dān)起特斯拉5%~10%的智能輔助駕駛訓(xùn)練數(shù)據(jù)量。
只不過(guò),特斯拉這時(shí)候仍是“自研+合作”雙路徑運(yùn)行,沒(méi)有擺脫對(duì)英偉達(dá)的依賴。
但這一切,可能都會(huì)隨著今年Dojo 2芯片的量產(chǎn)而改變。
據(jù)特斯拉透露,新一代Dojo芯片仍由臺(tái)積電代工,解決了上一代Dojo的靜默數(shù)據(jù)損壞(SDC)和功耗問(wèn)題,性能將比上一代提升10倍
靜默數(shù)據(jù)損壞,就是超算存在有缺陷的節(jié)點(diǎn),可能導(dǎo)致耗時(shí)數(shù)周的AI模型訓(xùn)練產(chǎn)生錯(cuò)誤結(jié)果,或使收斂速度顯著放緩,并且這種缺陷很難被第一時(shí)間檢測(cè)
而Dojo 2實(shí)現(xiàn)性能大漲,原因來(lái)自多方面,包括優(yōu)化了D1的核心架構(gòu),采用更密集的mesh網(wǎng)絡(luò)互聯(lián)架構(gòu)擴(kuò)展帶寬,模塊化規(guī)模更大、集成度更高等等。
其中最值得一提的是臺(tái)積電的最新封裝技術(shù)——InFO-SoW
這是一種晶圓級(jí)系統(tǒng)集成技術(shù),就是把整個(gè)晶圓當(dāng)作一個(gè)整體,把多顆芯片、電源模塊、散熱結(jié)構(gòu)等直接集成在晶圓上,而不再是傳統(tǒng)方式中先切割晶圓,再單獨(dú)封裝芯片的方法。
Dojo將直接在整片晶圓上集成25個(gè)計(jì)算芯片,在645平方毫米的晶片上放置500億個(gè)晶體管,單晶粒提供362 TFlops的運(yùn)算能力。
也就是說(shuō),一個(gè)晶圓就相當(dāng)于一個(gè)超算模塊,單一Dojo就擁有9 Petaflops(每秒千兆次)的算力。
同時(shí),新的封裝技術(shù)取消傳統(tǒng)封裝中的基板(PCB)和中介層,芯片之間通過(guò)超高密度金屬布線直接進(jìn)行高帶寬連接,數(shù)據(jù)傳輸速度翻倍增長(zhǎng)。
散熱模組則被直接集成在晶圓背面,熱量通過(guò)金屬板快速導(dǎo)出,顯著改善了散熱問(wèn)題。
據(jù)特斯拉介紹,Dojo 2已經(jīng)能夠達(dá)到接近、甚至部分超越英偉達(dá)B200的水平。
例如其單訓(xùn)練瓦片算力可達(dá)1000 TOPS,高于B200單芯片的900 TOPS;Dojo 2的瓦片模塊間帶寬達(dá)36TB/s,也是B200的NVLink 5(10TB/s)的3.6倍。
也就是說(shuō),特斯拉或許很快就能脫離外部GPU的依賴,實(shí)現(xiàn)“計(jì)算自由”。
而且,Dojo雖然是為FSD而生,卻也適用于其他應(yīng)用領(lǐng)域,比如同樣需要“視覺(jué)”的特斯拉機(jī)器人擎天柱。
此外,Dojo 2還不是特斯拉超算實(shí)力的終點(diǎn)。
馬斯克曾表示,Dojo實(shí)現(xiàn)起來(lái)“可能不抱希望”,并且應(yīng)當(dāng)是“三代出巔峰”。Dojo 3將是特斯拉超算的最強(qiáng)水平,性能還會(huì)是Dojo 2的40倍
而Dojo 3的推出時(shí)間已經(jīng)不遠(yuǎn),預(yù)計(jì)2026年就會(huì)問(wèn)世。
馬斯克不愧是馬斯克。
從公開(kāi)首次提出概念,到二代產(chǎn)品即將追平世界頂尖水平,不過(guò)六年時(shí)間。
其實(shí)透過(guò)特斯拉的例子看中國(guó)汽車行業(yè),同樣大有啟發(fā)。
AI基礎(chǔ)設(shè)施,中國(guó)車企的新戰(zhàn)場(chǎng)
馬斯克之前,中國(guó)車圈沒(méi)有類似的先例。
現(xiàn)在,雖然能完全獨(dú)立的超算芯片還沒(méi)真正看到落地,但他的做法已經(jīng)給了中國(guó)車圈啟發(fā)。
自動(dòng)駕駛發(fā)展,有三大核心要素:算力、數(shù)據(jù)、算法,它們也被統(tǒng)稱為AI基礎(chǔ)設(shè)施。
現(xiàn)在,車圈已經(jīng)有不少玩家和特斯拉類似,在這些AI基礎(chǔ)設(shè)施上布局。
算法方面,不用多說(shuō),這是各家車企最先爭(zhēng)奪的智能化戰(zhàn)場(chǎng)。
數(shù)據(jù)方面,比亞迪在深圳構(gòu)建了超級(jí)數(shù)據(jù)閉環(huán)平臺(tái),數(shù)據(jù)每日回傳規(guī)模達(dá)PB級(jí)別,蔚來(lái)在上海與合肥建立了雙數(shù)據(jù)中心,與部分外部云平臺(tái)(阿里、AWS)一起協(xié)同工作。
算力方面,有蔚來(lái)自研的神璣NX9031芯片,小鵬自研的圖靈芯片。
也有比亞迪成立先進(jìn)技術(shù)研發(fā)中心,自建AI超算平臺(tái),吉利、長(zhǎng)城、蔚小理等也都打造了自己的智算中心。
通過(guò)這些車企動(dòng)作,可以得出一個(gè)汽車行業(yè)更遠(yuǎn)的趨勢(shì)是:
車企智能化戰(zhàn)場(chǎng),已經(jīng)從單純的智能化功能疊加,轉(zhuǎn)向更持久的AI基建能力。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.