在人工智能技術(shù)飛速發(fā)展的今天,理想汽車推出了其革命性的VLA(Vision-Language-Action Model)司機(jī)大模型,標(biāo)志著自動(dòng)駕駛技術(shù)從“昆蟲動(dòng)物智能”向“人類智能”的重大進(jìn)化。理想汽車董事長(zhǎng)兼CEO李想在“理想AI Talk第二季”中,深入闡述了VLA司機(jī)大模型的作用、訓(xùn)練方法及其對(duì)行業(yè)的影響。
李想將AI工具分為信息工具、輔助工具和生產(chǎn)工具三個(gè)層級(jí)。他指出,當(dāng)前大多數(shù)人僅將AI作為信息工具使用,而理想汽車則致力于將AI發(fā)展為能夠獨(dú)立完成專業(yè)任務(wù)的生產(chǎn)工具。VLA司機(jī)大模型正是這一愿景的具體實(shí)現(xiàn),它將成為交通領(lǐng)域的專業(yè)生產(chǎn)工具,為自動(dòng)駕駛技術(shù)帶來(lái)質(zhì)的飛躍。
VLA司機(jī)大模型的進(jìn)化之路經(jīng)歷了三個(gè)階段。初期,理想汽車依賴規(guī)則算法和高精地圖,類似于“昆蟲動(dòng)物智能”。隨后,通過(guò)端到端+VLM輔助駕駛技術(shù),實(shí)現(xiàn)了接近“哺乳動(dòng)物智能”的水平。然而,這些技術(shù)仍存在局限,難以與人類有效溝通,也無(wú)法全面理解物理世界。為此,理想汽車自2024年起開展VLA研究,通過(guò)3D和2D視覺(jué)的組合,使VLA能夠完整地看到物理世界,并具備語(yǔ)言和思維鏈推理能力,真正實(shí)現(xiàn)了“人類智能”的階段。
VLA司機(jī)大模型的訓(xùn)練過(guò)程模擬了人類學(xué)習(xí)駕駛的過(guò)程,分為預(yù)訓(xùn)練、后訓(xùn)練和強(qiáng)化訓(xùn)練三個(gè)環(huán)節(jié)。預(yù)訓(xùn)練階段,通過(guò)大量高清視覺(jué)數(shù)據(jù)、交通相關(guān)語(yǔ)料和VL聯(lián)合數(shù)據(jù),訓(xùn)練出云端的VL基座模型。后訓(xùn)練階段,加入動(dòng)作數(shù)據(jù),使VL基座變?yōu)閂LA司機(jī)大模型。強(qiáng)化訓(xùn)練階段,通過(guò)RLHF和純強(qiáng)化學(xué)習(xí)模型,使VLA司機(jī)大模型更加安全、舒適,并對(duì)齊人類價(jià)值觀。
除了提升專業(yè)能力,VLA司機(jī)大模型還解決了安全性和模型黑盒的問(wèn)題。理想汽車組建了超級(jí)對(duì)齊團(tuán)隊(duì),確保VLA司機(jī)大模型具備職業(yè)司機(jī)的安全和舒適性。同時(shí),打造了真實(shí)、符合物理世界規(guī)律的世界模型,破解了AI黑盒難題,提升了解決問(wèn)題的效率。
理想汽車在VLA司機(jī)大模型的研發(fā)上取得了顯著成果,不僅得益于DeepSeek的開源助力,更在于其扎實(shí)的基本功積累。理想汽車堅(jiān)持自研,通過(guò)技術(shù)賦能用戶價(jià)值,實(shí)現(xiàn)了讓雙Orin-X芯片和Thor-U芯片運(yùn)行同等規(guī)模的VLA司機(jī)大模型。同時(shí),理想汽車還選擇開源自研的汽車操作系統(tǒng)——理想星環(huán)OS,回饋社會(huì)。
面對(duì)AI的發(fā)展,李想認(rèn)為,所有的人性都應(yīng)被保留,因?yàn)槿诵允俏幕⑸⑿愿瘛⒛芰Φ奶刭|(zhì),也是人類真正的生命力所在。理想汽車將繼續(xù)以技術(shù)創(chuàng)新解決行業(yè)無(wú)法解決的問(wèn)題,不斷挑戰(zhàn)成長(zhǎng)的極限,持續(xù)為行業(yè)和用戶創(chuàng)造價(jià)值。VLA司機(jī)大模型的推出,不僅是理想汽車技術(shù)實(shí)力的體現(xiàn),更是自動(dòng)駕駛技術(shù)向“人類智能”邁進(jìn)的重要里程碑。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.