理想AI Talk第二季的核心內容還是之前理想在英偉達GTC大會上的那篇演講《VLA:邁向自動駕駛物理智能體的關鍵一步》,只是這次主講人換成了李想,也補充了一些更詳細的信息。
1、 理想做了一個32B云端VL基座模型,這個模型是專門用于視覺和語言的多模態基座大模型,可以處理長思維鏈、進行長任務拆解。同時蒸餾出一個3.2B的小模型,加上Action后訓練部分,組合成一個4B的VLA司機大模型,這樣雙Orin X或者Thor-U的算力就能在車端跑了。并且因為DeepSeek的開源,讓VLA研發加速了9個月的時間。
2、 理想的VLA司機大模型有兩個比較特別的地方,一是支持短CoT(思維鏈),一般兩步到三步,否則延時太長,這樣能夠確保安全。這種短CoT可以解決比如“靠邊停車”“前方掉頭”這類短指令,實現語音控制車輛軌跡。另外Action做完以后,還做了一個diffusion(擴散模型)的預測,這個主要根據性能會做來4到8秒的一個diffusion的軌跡和環境的預測,更接近人類駕駛。
3、 理想在做到了1000萬Clips以后,在去年底成立了一個約100人的超級對齊的團隊。這個團隊要做的事情是VLA大模型的“價值觀”要和人類駕駛規則對齊。比如模型能力很強,但不遵守交通規則、經常去加塞等等,做出來一些讓人類坐在車上感覺不安的行為。所以理想希望通過強化訓練的環節,必須把人類的這些規則、習俗、駕駛習慣,對于很多東西的判斷,變成整個預訓練的反饋。
4、 李想個人認為并不會出現通用的Agent,而是每個專業領域做專業的Agent。他認為,VLA司機大模型要做好,所有的vision的語料,language的語料,和action其實都是和交通相關的,做不了一樣的。
5、 關于端到端和VLA的關系,李想認為端到端是VLA的基礎,是VLA的A的部分,不做端到端+VLM是沒有辦法一步抵達VLA的。
6、 李想反駁了那些說理想只有冰箱彩電大沙發、沒有核心技術的說法。他舉了一個例子,為什么大家做端到端和VLM很難?是因為這個Orin芯片并不支持直接跑語言模型。但是理想有編譯團隊,有芯片的能力,有主板設計能力,有操作系統能力,所以理想能夠把兩個Orin-X帶寬做到足夠的大,它同樣可以跑同等規模的VLA的模型。理想這方面的技術都是非常扎實的,基本功和能力永遠是無法逾越的。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.