2022年12月,OpenAI推出了ChatGPT,之后一年時間里,文心一言、kimi AI、豆包、星火等AI產(chǎn)品也陸續(xù)推出,被認(rèn)為是AI對話產(chǎn)品的元年。
但似乎AI真正“出圈”成為全民討論對象,還是要等到DeepSeek。
有人總結(jié)DeepSeek能夠超越眾多“競品”,甚至將AI這個話題帶入到普通大眾的視野中,有三個主要原因:性能出色、訓(xùn)練成本相對較低、開源。
這其實和汽車領(lǐng)域智能駕駛的發(fā)展路徑頗為相似,在技術(shù)積淀和發(fā)展多年之后,“全民智駕”一詞在2025年開年被點燃。
當(dāng)DeepSeek成為眾多車企爭相擁抱的對象時,智能駕駛的“DeepSeek時刻”還要多久?
商湯絕影的答案,是很快了。
2月22日,商湯大模型生產(chǎn)力論壇,商湯絕影CEO,商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家發(fā)布了行業(yè)首個“與世界模型協(xié)同交互的端到端自動駕駛路線R-UniAD”。
商湯絕影說,R-UniAD將加速智駕跨越式演進(jìn),“跨越式”的自信源自哪里?
王曉剛在采訪中和我們分享了一段人工智能發(fā)展的歷程:“過去一年,大模型行業(yè)的發(fā)展實際遇到了一些瓶頸,這個瓶頸主要在于互聯(lián)網(wǎng)的數(shù)據(jù)價值被榨干。通過原來尺度定律,在它的指引通過擴大模型的規(guī)模以及增加單純的算力,大家得到的收益相對來說是比較有限的。DeepSeek的出現(xiàn),通過引入強化學(xué)習(xí)長思維鏈,其實解決了數(shù)據(jù)瓶頸,造出了很多人類知識之外的數(shù)據(jù),甚至超越了人類的一些認(rèn)知水平。”
而R-UniAD和DeepSeek的技術(shù)創(chuàng)新思路一致——從模仿學(xué)習(xí)向強化學(xué)習(xí)升級,通過對端到端模型的強化學(xué)習(xí)訓(xùn)練,實現(xiàn)超越,而不是“類人”的自動駕駛表現(xiàn)。
DeepSeek對自動駕駛的啟發(fā)
首先解釋一下什么是模仿學(xué)習(xí)和強化學(xué)習(xí)。
所謂模仿學(xué)習(xí),就像是用一本字帖(人類示范數(shù)據(jù))教小朋友寫字,他照著字帖一筆一劃模仿(算法學(xué)習(xí)),最終小朋友可以寫出相似的字,但其實并不知道為何要這樣寫。
而強化學(xué)習(xí),像小朋友玩超級瑪麗,一開始可能不懂規(guī)則,但隨機嘗試后會發(fā)現(xiàn)吃到金幣可以得分,碰到烏龜會扣分,一遍遍試錯后,就會找到吃最多金幣的通關(guān)路線。也就是說,通過強化學(xué)習(xí),機器可以通過環(huán)境反饋的獎勵/懲罰,自主摸索最優(yōu)策略并不斷提升。
其實你會發(fā)現(xiàn),DeepSeek的創(chuàng)新其實和人類的學(xué)習(xí)路徑非常相似,先通過模仿、觀察掌握基礎(chǔ),再加入自己的理解、經(jīng)驗、創(chuàng)意實現(xiàn)自我突破。
將這套理論放到自動駕駛系統(tǒng)中,其實就是讓機器從“模仿人類開車”到“自主學(xué)習(xí)開車”。
現(xiàn)在我們經(jīng)常可以聽到車企宣傳其端到端智駕“x千萬clips大模型”上車,背后是端到端自動駕駛的本質(zhì),即通過海量的高質(zhì)量人類駕駛數(shù)據(jù)來實現(xiàn)最佳的“模仿”駕駛效果。
但“模仿”就會帶來一些問題。
首先,基于模仿學(xué)習(xí)的技術(shù)范式可以做到接近人類,但難以突破人類能力的上限;其次,高質(zhì)量場景數(shù)據(jù)的稀缺以及人類駕駛數(shù)據(jù)質(zhì)量的參差,讓觸及“天花板”本身的難度和成本都會很高。
如果說激光雷達(dá)這樣的硬件,或許隨著規(guī)模化效應(yīng)和制造能力的提升,門檻有機會逐漸降低,王曉剛說:“決戰(zhàn)的分水嶺,還是在云端的能力。”
DeepSeek-R1的關(guān)鍵創(chuàng)新,就是通過強化學(xué)習(xí)使得大模型性能的提升不必只依靠擴大算力規(guī)模和增加模型參數(shù),而是通過自行涌現(xiàn)長思維鏈能力,以更小的數(shù)據(jù)規(guī)模獲得更強的推理效果。
自動駕駛的學(xué)習(xí)訓(xùn)練若能復(fù)制DeepSeek模式,就意味著車企對于算力基建和數(shù)據(jù)規(guī)模的需求將大幅降低,從而降低自動駕駛的成本,提高訓(xùn)練效率。
更重要的是,在體驗上,這種技術(shù)路線可以實現(xiàn)端到端智駕體驗的上限從“類人”變成超越人類駕駛。
王曉剛解釋了這套系統(tǒng)如何更好利用數(shù)據(jù),他說:“我們通過強化學(xué)習(xí),更好地挖掘了數(shù)據(jù)的價值,甚至是產(chǎn)生了一些額外的數(shù)據(jù)。”
比如,在復(fù)雜交通場景下,端到端的處理是依賴人類駕駛行為的學(xué)習(xí),但人類司機面對復(fù)雜場景時,可能會解決,但更多可能是直接避免。這使得哪怕系統(tǒng)采集了復(fù)雜場景數(shù)據(jù),但90%以上的駕駛行為數(shù)據(jù)并沒有成功解決場景,只有很少量的司機行為數(shù)據(jù)才能符合要求。
但在強化學(xué)習(xí)模式下,給定這個復(fù)雜場景后,系統(tǒng)可以通過模擬仿真反復(fù)試驗,最終不僅能夠順利通過,甚至還能發(fā)現(xiàn)多條不同的駕駛行為和路徑來解決問題。“在這個場景里,它對于數(shù)據(jù)的利用率可能就是10倍、100倍的提升。”王曉剛說。
在此之前,“高質(zhì)量駕駛行為”需要一個非常熟練的老司機來完成,但如今,系統(tǒng)看到復(fù)雜場景的圖片或是一小段視頻,就可以以此為起點,通過強化學(xué)習(xí)完成后面的工作。
降本、效率和量產(chǎn)落地
商湯絕影預(yù)計在年底交付量產(chǎn)端到端智駕方案,而在4月的上海車展,也會展示“與世界模型協(xié)同交互的端到端自動駕駛方案”的實車部署。
當(dāng)“全民智駕”已經(jīng)成為2025年的市場營銷關(guān)鍵詞時,意味著相比于技術(shù)本身,無論是自動駕駛公司還是主機廠,都要將技術(shù)落地到產(chǎn)品,并且是一個“物美價廉”的產(chǎn)品。而一旦談及量產(chǎn)落地,就意味著技術(shù)、體驗、成本的“妥協(xié)”與平衡。
在智能駕駛領(lǐng)域,一方面是車端算力有限,量產(chǎn)車需要考慮算力成本、能耗、體積甚至是發(fā)熱的工程問題;另一方面,是從硬件到軟件的成本與體驗的平衡。
強化學(xué)習(xí)可以突破數(shù)據(jù)的瓶頸,相比于從量產(chǎn)車數(shù)據(jù)中提取有效數(shù)據(jù),依托世界模型的模擬仿真可以提升效率,降低對基建的要求。
這也是商湯絕影作為一家AI公司,在這個時代的機遇和優(yōu)勢。
“如今激光雷達(dá)對于各種環(huán)境并不是一個非常魯棒的狀態(tài),所以很多時候我們要達(dá)到性能和成本的平衡點,對于降低成本、提高魯棒性都有進(jìn)一步的要求,那么大數(shù)據(jù)驅(qū)動其實是未來的必然。”王曉剛說。
首先,商湯絕影R-UniAD的“多階段強化學(xué)習(xí)”端到端自動駕駛技術(shù)路線包括了三個階段:
1、依靠冷啟動數(shù)據(jù)通過模仿學(xué)習(xí)進(jìn)行云端的端到端自動駕駛大模型訓(xùn)練;
2、基于強化學(xué)習(xí),讓云端的端到端大模型與世界模型協(xié)同交互,持續(xù)提升端到端模型的性能;
3、云端大模型通過高效蒸餾的方式,實現(xiàn)高性能端到端自動駕駛小模型的車端部署。
而這其中關(guān)鍵的第二步,要求大模型與依靠世界模型生成的仿真環(huán)境進(jìn)行在線交互,并獲得閉環(huán)獎勵反饋,從而實現(xiàn)強化學(xué)習(xí)。因此,生成高保真的場景數(shù)據(jù)、保證長時推演一致性、并支持在線交互的強大世界模型是核心基石。
商湯絕影的“開悟”世界模型,可以實現(xiàn)1個GPU產(chǎn)生的仿真數(shù)據(jù)相當(dāng)于500臺量產(chǎn)車數(shù)據(jù)采集效果。以此為核心,實車數(shù)據(jù)和云端仿真數(shù)據(jù)在“車云一體”的新范式下閉環(huán)流轉(zhuǎn),可以使端到端智駕系統(tǒng)的訓(xùn)練更加全面、高效,從而縮短研發(fā)周期,降低成本。
此外,芯片上部署類似于DeepSeek的MOE架構(gòu)(混合專家模型),可以在更低算力、成本的芯片上更好地運營大模型,因為它每次只需要激活部分參數(shù),使用部分算力,會比傳統(tǒng)模型更加節(jié)省。
它類似于醫(yī)療會診,不同科室專家分別給出診斷意見,再由協(xié)調(diào)員綜合意見形成最終結(jié)論。在深度學(xué)習(xí)中,MOE可以在每次推理中僅激活部分專家,大幅降低計算量,同時不同專家專注于處理不同任務(wù)。對應(yīng)到汽車自動駕駛領(lǐng)域,就是可以適應(yīng)多模態(tài)數(shù)據(jù)的處理和融合,同時降低對車端芯片算力的要求。
我們可以借用特斯拉FSD在中國市場落地的表現(xiàn)作為參考。
馬斯克此前曾表示,特斯拉使用了互聯(lián)網(wǎng)上公開的中國道路和標(biāo)志視頻,將其用于模擬訓(xùn)練。事實上,特斯拉官方并未明確說明其如何解決FSD在中國落地背后的數(shù)據(jù)、算力跨境合規(guī)問題,而結(jié)合首批用戶體驗與馬斯克的表述,似乎特斯拉仍然受限于數(shù)據(jù)問題,并且影響了FSD的能力。
而如果使用商湯絕影R-UniAD技術(shù)路線,特斯拉可以在美國大算力基礎(chǔ)與中國豐富本土行車數(shù)據(jù)無法兼顧的情況下,通過不依賴大算力的仿真訓(xùn)練,實現(xiàn)FSD的體驗提升。
“我覺得未來的發(fā)展趨勢一定是基礎(chǔ)設(shè)施和云端研發(fā)占比越來越高,如今我們看到的各種數(shù)據(jù)蒸餾、工程優(yōu)化方法的存在,使得我們將來在越來越多的更加便宜的低算力芯片上,可以實現(xiàn)更強大的功能。”王曉剛說。
大公司視點
“人工智能技術(shù)的發(fā)展并不像之前大家想象的,到了‘端到端’以后就到了終局,它還是在持續(xù)發(fā)展,這就給了我們作為人工智能公司的一個更大發(fā)展空間。其次,即便有了強化學(xué)習(xí)的世界模型,數(shù)據(jù)本身依然非常重要,而我們與車企合作共建數(shù)據(jù)基礎(chǔ)設(shè)施,也可以更好地發(fā)揮優(yōu)勢。”王曉剛說。
“全民智駕”的落地,其實也意味著淘汰賽的真正開始,有人拿到越來越多定點,但同樣也有人消失在了歷史的進(jìn)程當(dāng)中。
對于商湯絕影來說,一方面跟上節(jié)奏,布局地平線J6E、J6M,與廣汽、奇瑞、東風(fēng)達(dá)成了戰(zhàn)略合作,很快會推出基于J6M的量產(chǎn)產(chǎn)品。另一方面看到核心優(yōu)勢與長期方向,通過在基礎(chǔ)設(shè)施領(lǐng)域與車企的合作,幫助車企建設(shè)數(shù)據(jù)生產(chǎn)管線、對齊研發(fā)體系,同時結(jié)合車企自身擁有的豐富數(shù)據(jù),實現(xiàn)雙贏。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.