去年,Scaling law和端到端自動駕駛,都遇到了瓶頸。
隨著互聯網的數據價值被榨干,自動駕駛模型千萬級clips的「數據黑洞」難以被填補。
此時,DeepSeek出現了。它采用的強化學習,帶來了長思維鏈的涌現,大幅降低數據需求。隨之,商湯絕影也推出了R-UniAD,同樣應用了強化學習,以此突破數據瓶頸,并有望優于人類駕駛水平。
昨日(2月25日),商湯絕影CEO、商湯科技聯合創始人、首席科學家——王曉剛,對RoboX進一步解釋了R-UniAD誕生的背景和思路,以及該公司下一步的規劃。
什么是R-UniAD?
“從中國的實際情況來看,我們很難像特斯拉那樣,擁有700萬臺量產車的數據回流,而且高質量數據占比極少...目前端到端只是模仿學習,難以突破人類上限。”
王曉剛介紹稱,DeepSeek通過強化學習的框架,可以生成多條的思維鏈,讓模型產生更多的解法,突破了人類知識庫的限制,也產生了更多的數據,以此大幅降低數據門檻。
在這一啟發下,商湯絕影在UniAD的基礎上,推出了強化學習的新范式——Reinforced-UniAD(R- UniAD)。
其具體訓練方法如下:
1、基于冷啟動數據,讓端到端自動駕駛大模型達到基礎水平,通過模仿學習進行云端訓練;
2、再基于強化學習,讓該模型與世界模型協同交互,持續提升其性能;
3、從云端大模型通過高效蒸餾的方式,實現端到端小模型的車端部署。
王曉剛表示,在初始階段,通過千臺規模量產車形成的數據,即可讓端到端模型達到較好的水準,之后就不再需要這些「冷啟動數據」了。
“端到端的模型可以預測很多種軌跡,世界模型也可以模擬仿真出各種周邊環境的這樣的變化。同時,仿真器可通過Reward的方式,為這些軌跡和環境變化打分,找到最佳的駕駛行為。”
DeepSeek帶來的「利好」
在王曉剛看來,DeepSeek的長思維鏈、慢推理方式,能夠產生更高層次的認知,達到情感上的支持。這對于絕影的「New Member」產品來說,是很大的利好。
王曉剛認為,商湯絕影去年推出的「A New Member For U」產品,同樣是端云協同的方案。從前,此類方案落地時,對端側芯片有一定要求。而DeepSeek的MoE(混合專家模型)的架構,使其能部署在低成本芯片上,該方式也有利于「A New Member For U」的推廣。
“以蒸餾手段,可以通過強大的云端模型,產生高性能的端側模型,這是給端側模型的一個機會。同時,MoE只需要激活部分參數,使用部分算力,肯定要比傳統模型更加節省算力。”
不過他也表示,目前各車企接入的DeepSeek應用,還是比較簡單的。而且,DeepSeek能支撐的訪問量是有限的,延時也較長,現在還不能算是好的體驗。
“如果只是進行DeepSeek原始模型的接入,這在汽車產品上的體驗還是有差距的。這對于商湯絕影來說,也是一個利好。”
王曉剛用「做幾何題」來描述自動駕駛仿真:在解題過程中,每解一步都需要加一些輔助線,幾何圖像本身也在演變,這就類似于自動駕駛的世界模型仿真——不但要預測物體軌跡,還要讓環境里的視頻圖像得到演進,能夠預見出來,這是DeepSeek所欠缺的。
“DeepSeek一直致力于語言模型,對于圖像、視頻的精準生成還是比較欠缺的,但這正是我們的強項。”
視頻生成的嚴格標準
“「開悟」世界模型的視頻生成,其實和Sora等標準還是有區別的。我們需要更加精準的可控性,要符合物理規律,還有交通法則。我們生成的視頻輸入,實際上是物體的運動軌跡和3D的框,由這些輸入精準地控制視頻的生成。”
為了準確模擬各種極端場景,「開悟」必須做到結合11個攝像頭輸入的時空一致性。同時,絕影本身也儲備了大量真值數據測試集,可以通過視頻反向提取其中的物體位置,進行軌跡驗證,保障視頻的真實和有效性。
“其實從去年開始,就已經有20%的生成視頻,應用在了模型訓練中。希望將來這一數字能超過50%,乃至80%。”
通俗一點來比喻的話,「強化學習」就是針對一個復雜場景,通過模擬仿真反復測試,并給出多條不同的駕駛行為和路徑。
接下來,就像DeepSeek一樣,可以針對一個問題找到10條乃至100條的思維鏈,去解決問題。
“我們之前所說的高質量數據,指的是人類的高質量駕駛行為。而如今高質量數據的生成,不一定再需要人類的駕駛行為,而是將圖片或者視頻片段作為一個場景起點,接下來由世界模型通過強化學習去生成即可。”王曉剛說道。
R-UniAD的3大挑戰
為實現云端大模型和世界模型的在線交互,絕影克服了3個關鍵難題:
1、模擬仿真能力:必須精準、可控。
2、預測能力:對于周圍環境視頻的生成,除了準確,還要有多樣性。“如果生成的東西都是單一的,就沒法模擬出不同的場景和駕駛行為。”
3、Reward:也就是評價出哪些視頻和軌跡的序列,它是一個好的駕駛行為,那么有的產生了碰撞,那么有的給人家不舒適的這樣的一些這樣的一些感覺。
R- UniAD的重要一環,在于世界模型的環境生成,以及對其的精準控制,達成這一能力,才能體現強化學習的效果。
王曉剛指出,未來的發展,一定是基礎設施和云端研發占的比重越來越高,而端側則變得更加簡單:各種數據蒸餾、工程優化,能夠使得越來越多的功能被部署在更加便宜的低算力芯片上,但這一前提都依賴于強悍的云端模型。
被高估的激光雷達魯棒性
近期,「純視覺」風頭漸弱,多家車企都表示,會在高階智駕上繼續使用激光雷達。
但王曉剛認為,激光雷達有著自己的天花板,其本身具有的信息量是偏少的,達不到非常魯棒的狀態。只不過,當下由于沒有海量數據支撐,智駕的視覺能力偏弱,因此還需要用激光雷達作為輔助。
從成本層面考慮,「全民智駕」的趨勢下,智駕需要下探到10萬元級別以下,硬件成本也需要進一步降低。
“視覺能力的上限更高。在硬件固定的前提下,通過大數據去更新的模型,會不斷提升軟件的性能。”他說道。
先布局中低算力平臺
從去年開始,商湯已開始在智駕市場中布局:“從市場份額上考慮,要先下探到價格較低的中低算力車型,所以我們去年主要布局了地平線J6E、J6M等平臺的方案,也與廣汽、奇瑞還有東風形成了戰略合作。”
王曉剛透露稱,到今年3月,商湯絕影和車企合作開發的基于J6M的自動駕駛產品,就能實現量產,4月還會在上海車展發布。
除了智駕產品本身,絕影還在大模型、數據基礎設施等方面,協同車企進行規劃和布局,包括建設數據的生產管線,共建研發體系等等。
需要注意的是,即便有了強化學習的世界模型,要想覆蓋更多的復雜場景,真值數據還是非常重要的,而這些數據還是在車企,這也是絕影與車企形成深度合作的意義之一。
特斯拉FSD的挑戰
訪問當天,正值特斯拉FSD突然在華推送,王曉剛對此也發表了自己的看法。
他認為,特斯拉FSD在中國的應用,還是會受到數據的限制。首先,中國的交通場景與美國存在很大差異;其次,特斯拉在在中國采集的數據也會受到管控,無法跨境。
“如果是做端到端的話,FSD會面臨這些自動駕駛場景數據方面的問題。它也不太可能用它在美國所擁有的數據在本地訓練,因為數據不能夠跨境,也沒有強大的基礎設施。所以絕影R-UniAD的新型技術路線,即便對于特斯拉的FSD,也有著現實意義。”
同時他表示,特斯拉FSD目前還是模仿學習的范式,而R-UniAD技術路線訓練出來的端到端智駕模型,很有希望超越人類駕駛表現,實現彎道超車。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.