編輯:Mark
出品:紅色星際(ID:redplanx)
頭圖:毫末智行四位聯(lián)合創(chuàng)始人圖片
說起毫末智行,大家的第一印象是什么呢?
有些小伙伴表示,毫末是一家才成立3年的創(chuàng)業(yè)公司,還很年輕,但是銳氣十足。特別是過去2年,成為了一個現(xiàn)象級的存在,無論在資本市場的認可度,還是在商業(yè)模式的探索,都給行業(yè)提供了一種新范式。很多公司,特別是那些商業(yè)化探索還不是很成功的公司,大家紛紛開始探索、學習和模仿毫末模式。
也有些小伙伴表示,我對毫末印象最深的就是他們的HAOMO AI DAY活動,作為技術(shù)人員,基本每期的活動都會看,毫末的AI DAY活動能把每個技術(shù)環(huán)節(jié)都講得很清楚,而且經(jīng)常會提出一些前沿技術(shù)的探索和實踐。過去2年時間舉辦了7期技術(shù)開放活動,這無論是放在國內(nèi),還是放在全球,力度都可以說是空前絕后。
這也反映出毫末智行對于技術(shù)的執(zhí)著追求和信仰。
(毫末智行技術(shù)研發(fā)成果圖片)
毫末智行作為中國第一個大規(guī)模投入Transformer架構(gòu),率先布局Attention大模型,發(fā)布了中國第一個自動駕駛數(shù)據(jù)智能體系MANA,建設(shè)了中國自動駕駛公司首個智算中心,所有的這些都折射出毫末智行在下一盤大棋。
為什么毫末在技術(shù)上永遠是第一個吃螃蟹的人?
這可能和毫末智行堅持長期主義,善于使用終局思維思考問題有關(guān)。對于毫末而言,他首要思考的是擁有百萬輛規(guī)模的數(shù)據(jù)時,如何讓自己能夠低成本高效的處理這些數(shù)據(jù)。
這對于任何一家中國公司而言,都是不可想象的,就連蔚小理這樣的造車新勢力也就才二三十萬輛的總銷量,百萬輛的數(shù)據(jù)規(guī)模可能并不是他們目前思考的頭等大事,更何況對于一些公司而言,商業(yè)化還遠遠沒有開始。
所以你會看到毫末的很多技術(shù)理念都和特斯拉相似,甚至有些理念還先于特斯拉發(fā)布,這是因為毫末和特斯拉的數(shù)據(jù)量思考基礎(chǔ)是一樣的。對于百萬輛的大數(shù)據(jù),必須采用大模型才可以低成本高效的處理每天數(shù)百萬個數(shù)據(jù)集,否則帶來的就是浪費。
正如毫末智行CEO顧維灝所言,“如果大家關(guān)注過毫末的成長歷程,就會發(fā)現(xiàn),我們一直在為自動駕駛3.0時代做準備。在感知、認知、模式建設(shè)上,都是按照數(shù)據(jù)驅(qū)動的方式建設(shè)的”。
正是大家思考的基礎(chǔ)不太一樣,所以毫末總是行業(yè)第一個實踐和應(yīng)用最前沿技術(shù)的公司。
1. HAOMO AI DAY放大招:智算中心和MANA大模型
1月5日,毫末AI DAY再次來襲,這次又是滿滿的技術(shù)干貨。
毫末智行重磅發(fā)布了已經(jīng)籌劃了近1年的智算中心雪湖?綠洲(MANA OASIS),這將是中國自動駕駛行業(yè)最大的智算中心,整個硬件性能在計算能力方面,浮點運算可以達到每秒67億億次,存儲帶寬達到每秒2T,通信帶寬方面達到每秒800G,在業(yè)界都是屬于相當高的水平。
(毫末智行智算中心MANA OASIS圖片)
支持百億級小文件高速讀寫,每臺服務(wù)器配置8個GPU卡,通過600G/s的雙向NVSwitch高速互聯(lián),進行通信;MANA OASIS服務(wù)器之間通過4張200G帶寬的RDMA網(wǎng)絡(luò)互聯(lián),提供高達800G/s的網(wǎng)絡(luò)帶寬。
至于為什么建立智算中心,用毫末智行董事長張凱的話說,“超算中心會成為自動駕駛企業(yè)的入門配置,因為隨著城市輔助駕駛系統(tǒng)的推進,數(shù)據(jù)量會呈現(xiàn)爆發(fā)式的發(fā)展,毫末有太多的新技術(shù)需要進行嘗試和迭代,云計算的效率對毫末而言也越來越重要,甚至是毫末最核心的競爭力”。
大規(guī)模自動駕駛數(shù)據(jù)上云將會是自動駕駛公司很大的一個挑戰(zhàn),可能對于其他公司而言目前這個問題還不存在,但對于毫末而言,已經(jīng)迫在眉睫。
一方面是因為成本問題,隨著城市輔助駕駛系統(tǒng)的發(fā)展,真正進入大數(shù)據(jù)時代,處理成本也變得越來越高,只有自建智算中心,才能降低數(shù)據(jù)的處理成本。現(xiàn)在整個大模型的數(shù)據(jù)量和模型本身的參數(shù)量非常大,差不多能達到千億級別,這會導(dǎo)致如果用常規(guī)的訓練方式成本非常昂貴。
另一方面則是可以快速的部署大模型和新算法,人工智能的發(fā)展很快,新的算法層出不窮,需要我們盡快引入新的技術(shù)和新的模型,同時需要更好的并行計算框架,提高訓練效率,減少硬件的浪費。
(毫末智行和火山引擎合作圖片)
據(jù)悉,在智算中心方面,為了支持多模型訓練,毫末最終選擇了與火山引擎合作,在高性能算子庫方面,毫末已經(jīng)部署了超過500多個高性能算子,同時整體訓練效率提升了100倍。
用毫末團隊的話說,我們建設(shè)智算中心更多是自己業(yè)務(wù)發(fā)展的需要,循序漸進地執(zhí)行著我們的戰(zhàn)略,但是一不小心做成了中國最大的智算中心,這可能就是堅持長期主義的魅力所在。
伴隨著毫末智行智算中心MANA OASIS,毫末發(fā)布了5大模型,來應(yīng)對城市輔助駕駛最難的幾個問題。
(MANA 5大模型圖片)
第一個難題就是標注成本。在AI領(lǐng)域,標注和訓練成本幾乎占到了AI領(lǐng)域的大頭,其中標注更高,占總成本的三分之二甚至是五分之四以上。所以大家都戲說,有多少智能,就有多少人工。
如果使用傳統(tǒng)的方式,面對百萬級的大數(shù)據(jù),標注成本將會是無限的,所以毫末推出了視頻自監(jiān)督大模型。為了滿足把整個數(shù)據(jù)形態(tài)從離散幀到Clip(短視頻)的轉(zhuǎn)化,毫末想辦法做了一套自動標注的方法。
(視頻自監(jiān)督大模型圖片)
經(jīng)過一個季度的研發(fā)測試之后,發(fā)現(xiàn)視頻自監(jiān)督大模型的泛化性效果極佳,即使是在一些非常困難的場景,例如嚴重遮擋的騎行者,遠處的小目標,惡劣的天氣和光照,都能準確地完成自動標注。目前毫末基本上達到了百分之百的自動化,只需要非常少量的,大概2%的人工做一遍抽檢就可以了,人工標注成本降低98%。
第二個難題就是重感知,輕地圖的城市輔助駕駛方案,這個方案最難的在于沒有高精地圖的輔助,有時候車輛會不知道怎么駕駛。在傳統(tǒng)的高精地圖方案中,大家的做法是通過高精地圖來解決紅綠燈拓撲關(guān)系,在高精地圖里面會把紅綠燈拓撲關(guān)系做進去。
(動態(tài)環(huán)境大模型圖片)
但是對于百城的規(guī)模,更大范圍的城市輔助駕駛,高精地圖顯然跟不上節(jié)奏,主要原因是城市場景里的道路環(huán)境發(fā)生變化的頻率遠遠高于高速場景,所以毫末發(fā)布了動態(tài)環(huán)境大模型,讓毫末進一步使用重感知技術(shù),降低對高精地圖依賴。動態(tài)環(huán)境大模型可以讓毫末的感知能力,像人類一樣在標準地圖的導(dǎo)航提示下,就可以實現(xiàn)對道路拓撲結(jié)構(gòu)的實時推斷。
第三個難題就是無窮無盡的Corner Case。之前這些數(shù)據(jù)的采集只能通過用戶慢慢搜集,但有些Corner Case可能幾年也不發(fā)生一次,所以毫末推出了3D重建大模型,將NeRF技術(shù)應(yīng)用在自動駕駛場景重建和數(shù)據(jù)生成中,通過改變視角、光照、紋理材質(zhì)的方法,生成高真實感數(shù)據(jù),實現(xiàn)以低成本獲取Normal Case,然后再生成各種高成本Corner Case。
(3D重建大模型圖片)
通過一段時間的實踐后,毫末發(fā)現(xiàn)這個大模型不僅比傳統(tǒng)的人工顯式建模再渲染紋理的方法效果更好、成本更低,還可將感知的錯誤率降低30%以上,且數(shù)據(jù)生成可實現(xiàn)全程自動化,無需任何人工參與。
第四個難題是如何處理異形障礙物,針對城市多種異形障礙物的穩(wěn)定檢測問題,毫末正在思考和探索更加通用的解決方案,所以毫末發(fā)布了多模態(tài)互監(jiān)督大模型。通過引入了激光雷達作為視覺監(jiān)督信號,直接使用視頻數(shù)據(jù)來推理場景的通用結(jié)構(gòu)表達,可以很好地補充已有的語義障礙物檢測,還可以有效提升自動駕駛系統(tǒng)在城市復(fù)雜工況下的通過率。
(多模態(tài)互監(jiān)督大模型圖片)
第五個難題是,如何讓自動駕駛開得像老司機一樣,同時讓駕駛行為具有可解釋性,因為人類司機有時候開車是不可解釋的,于是毫末推出了人駕自監(jiān)督認知大模型。通過使用與ChatGPT相似的思路,讓模型能夠?qū)W習到老司機優(yōu)秀的駕駛策略。
(人駕自監(jiān)督認知大模型圖片)
面對變道行為,現(xiàn)在的自動駕駛基本都是端到端的模仿學習,直接擬合人駕的行為。但這個最大的問題是有點黑盒,不具有駕駛策略的可解釋性。為此,毫末借鑒了RLHF人類的反饋做強化學習的方式,訓練了一個Reward Model,通過這種方式,毫末在公認的困難場景,例如掉頭、環(huán)島等公認的困難場景中,通過率提升30%以上。
人駕自監(jiān)督認知大模型可以避免手寫規(guī)則與參數(shù)設(shè)定的臃腫和自相矛盾,更具有廣泛的適用性。
針對這5個大模型,毫末總結(jié)道:“視覺自監(jiān)督大模型基本上用的是全自動化的方法,低成本的解決了Clip形態(tài)的問題,針對通用障礙物的識別,我們有多模態(tài)的互監(jiān)督大模型,針對一些Hard Case數(shù)據(jù)的獲取,我們做了3D重建大模型之后,可以修改它的視角、紋理和光照,動態(tài)環(huán)境大模型做的是整個地圖上道路拓撲的實時推斷,人駕自監(jiān)督大模型也是借鑒了現(xiàn)在業(yè)界在自然語言處理方面的最新成果,對駕駛決策擬人化做的更好的優(yōu)化”。
2. 全力沖刺自動駕駛3.0時代
除了云端的大模型需求,車端的大模型也是自動駕駛3.0時代必需品。
(毫末智行沖刺自動駕駛3.0時代)
對于高速場景或者小范圍的公開道路而言,小模型小數(shù)據(jù)還可以應(yīng)對,但是城市場景的復(fù)雜性是高速場景的幾百倍,如果使用小模型,還是用傳統(tǒng)的單幀圖片,很難適應(yīng)城市無群盡的復(fù)雜場景。
只有大模型和真正的大數(shù)據(jù),數(shù)億公里以上的輔助駕駛里程所產(chǎn)出的數(shù)據(jù),才能真正的快速迭代自動駕駛系統(tǒng)。
小模型一個最大的問題是會經(jīng)常出現(xiàn)腦補的情況,比如路口沒有車道線,它也會補上一個車道線,有時候就補錯了。作為中國第一個大規(guī)模部署Transformer技術(shù)的公司,毫末不但在云端部署了大模型,MANA五大模型也將助力毫末車端感知架構(gòu)跨代升級。
(毫末智行MANA OASIS系統(tǒng)架構(gòu)圖片)
但正如毫末智行董事長張凱所預(yù)測的那樣,隨著新一代支持Transformer加速的AI芯片的出現(xiàn)和新一代傳感器進入市場,大模型在數(shù)據(jù)合成,知識提取等方面的能力將助力自動駕駛迭代速度實現(xiàn)量級提升。隨著車端的算力越來越大,我們在車端用的模型也越來越大,以Transformer為代表的大模型在車端和自動駕駛的應(yīng)用將會越來越多。
目前,MANA最新的車端感知架構(gòu),已經(jīng)從過去分散的多個下游任務(wù)都集成到一起,形成一個更加端到端架構(gòu),包括紅綠燈、局部路網(wǎng)、預(yù)測等任務(wù),實現(xiàn)了跨代升級。通過使用車端大模型,整個車道線的輸出視野上會更遠,以及車道本身的拓撲結(jié)構(gòu)、準確度會更高。這也意味著毫末的感知能力和產(chǎn)品力將會更強,全力加速邁進全無人駕駛時代。
在向自動駕駛3.0沖刺的過程中,安全始終是毫末堅持的底線,為此毫末自研AEB算法,目前AEB場景庫超過12000個,道路驗證達數(shù)億公里,也具備整套的MIL、SIL、HIL的仿真測試系統(tǒng),并在2022年助力魏牌、歐拉、坦克總計四款車型拿到E-NCAP、A-NCAP五星安全認證,成為中國首個自研AEB算法落地海內(nèi)外的公司,也成為第一個出海歐洲、澳洲的自動駕駛公司。
3.毫末智行2023年四大戰(zhàn)役
2022毫末三大戰(zhàn)役穩(wěn)健收官:毫末數(shù)據(jù)智能體系MANA學習時長42萬小時,虛擬世界駕齡相當于人類駕駛5.5萬年,正在加速邁入大模型、大算力、大數(shù)據(jù)時代;毫末城市NOH軟件封版,達到交付狀態(tài),目前已開啟多城路測,搭載毫末城市NOH的車型將在2023年上市,預(yù)計2024年上半年落地城市達到100個;毫末末端物流自動配送車初步完成商業(yè)閉環(huán),目前交付超過1000臺,截至2022年12月,小魔駝配送的訂單量已突破13萬單,毫末末端物流配送車商業(yè)化進程正在加速。
(毫末智行2023年四大戰(zhàn)役圖片)
面對2023年,毫末智行制定了四大戰(zhàn)役。
第一場戰(zhàn)役是智能駕駛裝機量王者之戰(zhàn)。2023年是毫末智能駕駛裝機量的攻堅階段,毫末將完成多平臺、數(shù)十款車型、數(shù)十個項目的異步并行開發(fā),通過智能駕駛流程化開發(fā)和標準化交付,完成智能駕駛產(chǎn)品的規(guī)模量產(chǎn)落地。
2022年,毫末已經(jīng)具備了完整的工程化能力,可以做到超過30個智能駕駛項目的異步并行開發(fā),這種開發(fā)能力,國內(nèi)唯一。同時毫末已經(jīng)形成一整套高效的智能駕駛產(chǎn)品開發(fā)流程,在軟件復(fù)用層面,統(tǒng)一了當前智駕軟件的架構(gòu)和算法接口,通過中間層將不同廠家傳感器的輸出內(nèi)容進行統(tǒng)一抽象,實現(xiàn)了同一套軟件算法支持不同廠家、不同接口類型傳感器的能力。
并培養(yǎng)了車端工程化、云端工程化和交互工程化全鏈條的工程化能力,目前毫末已經(jīng)解決了自動駕駛的規(guī)模化部署問題,對于2023年,毫末需要將規(guī)模化部署優(yōu)勢轉(zhuǎn)化為數(shù)據(jù)優(yōu)勢,然后再利用數(shù)據(jù)優(yōu)勢來進一步擴大規(guī)模優(yōu)勢。
第二場戰(zhàn)役是MANA大模型巔峰之戰(zhàn)。2023年,毫末將在智算中心的助推下將大模型的應(yīng)用落地進行到底。
數(shù)據(jù)智能將會成為自動駕駛量產(chǎn)決勝的正負手,搭建高效、低成本的數(shù)據(jù)智能體系是自動駕駛健康發(fā)展的基礎(chǔ),2023年毫末將會持續(xù)的優(yōu)化云端和車端的大模型,真正踏入數(shù)據(jù)驅(qū)動時代,MANA數(shù)據(jù)智能體系也將成為毫末所有產(chǎn)品進化的核心動力。
第三場戰(zhàn)役是城市NOH百城大戰(zhàn)。2023年,毫末城市NOH導(dǎo)航輔助駕駛將正式與車主見面,按照有序節(jié)奏陸續(xù)落地到國內(nèi)100個城市。
(毫末智行未來規(guī)劃圖片)
按照毫末智行的規(guī)劃,2023上半年,毫末HPilot 3.0將著重實現(xiàn)復(fù)雜障礙物交互升級,提升路口、變道通過性;2023下半年,實現(xiàn)特殊工況處理,開放免教學長距離泊車;2024上半年,毫末將完成HPilot落地中國100個城市的計劃,頭部城市落地全場景NOH,實現(xiàn)點點互達。在2024下半年至2025上半年,更大規(guī)模全場景的NOH將更快落地,毫末HPilot也將全面邁入全無人駕駛時代。
第四場戰(zhàn)役是末端物流配送登頂之戰(zhàn)。2023年,毫末以規(guī)模和成本優(yōu)勢持續(xù)助力合作伙伴加速落地無人配送產(chǎn)品和服務(wù),持續(xù)引領(lǐng)商超履約和快遞接駁無人配送市場。
在末端物流自動配送方面,目前毫末智行可實現(xiàn)年產(chǎn)1萬臺的無人配送車產(chǎn)能,生產(chǎn)車間占地1萬平米,生產(chǎn)線依據(jù)“柔性化+定制化”的理念進行設(shè)計,符合客戶要求的定制化需求,可以實現(xiàn)小批量試制以及規(guī)模化的量產(chǎn)。
據(jù)悉,毫末的生產(chǎn)基地是目前全球范圍內(nèi),規(guī)模最大的末端物流自動配送車生產(chǎn)制造基地。在2022年,毫末發(fā)布了業(yè)內(nèi)首款面向商用市場的10萬元級末端物流自動配送車小魔駝2.0,目前小魔駝2.0已經(jīng)開始穩(wěn)定量產(chǎn)交付,2023年末端物流自動配送車整體成本將降至10萬元,進一步改善生產(chǎn)關(guān)系,促進末端物流配送市場的爆發(fā)。
(毫末智行10萬元級末端物流自動配送車)
正如毫末智行董事長張凱、CEO顧維灝在公司三周年內(nèi)部信中所說的,“剛剛過去的1000天,毫末智行剛好穿越了一家創(chuàng)業(yè)公司的生死線。從0到1,毫末突破了重重技術(shù)和商業(yè)難關(guān)。我們突破了大規(guī)模、多車型的自動駕駛量產(chǎn)難關(guān);突破了末端物流自動配送車用車成本高居不下的難關(guān);我們更是在自動駕駛核心AI技術(shù)領(lǐng)域突破了大規(guī)模數(shù)據(jù)處理以及大模型算法應(yīng)用的難關(guān)”。
為了應(yīng)對乘用車自動駕駛競爭的下半場,毫末為此儲備了小魔盒3.0計算平臺、MANA數(shù)據(jù)智能體系,中國最大的智算中心,新一代AI自動駕駛大模型以及最強的技術(shù)工程化經(jīng)驗。
目前毫末正進入從1到N的快速發(fā)展階段。開放合作、共創(chuàng)共贏是毫末始終堅持的宗旨,在乘用車自動駕駛領(lǐng)域,毫末繼續(xù)堅持“6P開放合作原則”,與客戶伙伴進行各類開放式的合作探索;在末端物流自動配送領(lǐng)域,毫末通過“5S服務(wù)體系”,與客戶伙伴一起,共同推動末端物流自動配送車的規(guī)模化商用的行業(yè)進程。
2022年已過,2023年已開啟,讓我們對毫末拭目以待!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.