出品|搜狐科技
作者| 梁昌均
編輯|楊錦
“大模型經歷了從專家系統到通才系統,再到真正強專家系統的階段,智駕、機器人也會經歷同樣階段。”這是元戎啟行CEO周光對物理AI發展做出的判斷。
他在電動汽車百人會期間對搜狐科技表示,ChatGPT就是通才,只有在語言領域實現通才,才能實現非常強的專才。“如果沒有GPT-4這樣的通才系統,也很難做出來o1這種專家系統。”
“物理世界也是一樣,因此整個自動駕駛會跟著大模型走,會follow同樣的范式。現在還是在弱專家階段,我認為接下來要做通才,否則實現不了最后的強系統。”周光強調。
目前,很多車企都在追求L3自動駕駛。周光認為,L3更多是工程問題,但AI能力做得越好,工程難度會降低。“用以前的弱專家系統去做L3,可能需要非常大量的工程,需要千人團隊,但用下一代的AI系統,可能只需要百人,體驗可能也會更好。”
在周光看來,特斯拉的FSD V13是以大模型范式去做,領先國內一個代差,但國內優勢在與本土的數據閉環,特斯拉沒辦法在中國采集數據。“我們也許能在中國率先把這個做出來,中國公司也有這個能力做出V13的效果。”
不過,他也提出一個值得思考的觀察:特斯拉為什么沒有強調要做L3,以及為什么沒有做“車位到車位”的智駕功能?
對此,周光的解釋是,國內做“車位到車位”依靠的是高精地圖,是“縫合怪物”,技術層面沒有價值,AI能力沒有長進,但用戶覺得有一定價值。“特斯拉不會為了取悅用戶做,而是希望通過技術去解決,真正用AI的能力實現‘車位到車位’。”
周光認為,這里面更重要的還是AI能力上限的提升。他表示,元戎啟行雖然有追求AI上限的愿景,認為做出物理世界AGI的意義和使命更大,但也會為了商業化,去滿足市場的需求。
“如果不考慮商業化,我認為就不應該有L3,應該直接像特斯拉,從L2盡可能追平L5,這是從純AI角度來講。”
周光認為,特斯拉這么做也是因為它在美國沒有對手,但在中國這么卷的市場下,它可能也會做“車位到車位”。
為了謀求更高階的智駕能力的突破,不少車企和智駕企業都開始發力端到端的自動駕駛大模型,甚至開始做集語言-視覺-行為為一體的VLA大模型。
周光解釋,端到端就是所有東西都是靠神經網絡來決策,而大模型天生就是端到端,不是以前的范式。
“現在大家都叫智駕大模型,喊口號誰都能喊。但今天的自動駕駛遠沒有到大模型時代,用大模型架構來做自動駕駛才叫進入大模型時代,現在是剛開始從專才往通才走。“
他表示,當全面進入大模型時代,采用了更新的架構,就可以享受Scaling law帶來的優勢。誰先能夠進入智駕大模型時代,誰可能就能享受這個紅利。但現在很多同行都是專家系統,因此所謂的規模優勢并不存在。
他進一步解釋到,要想實現自動駕駛的終極目標,必須要對普遍的物理世界有通用的認知,但現在的智駕系統除了可以理解車道線、車、人和部分障礙物,對物理世界的其它場景是零理解。
“按照現在的專家系統做法永遠不行,一定得讓系統通用化,讓大模型對物理世界各類場景都能理解,實現通用能力是實現L5級自動駕駛必需的條件。”周光說,這來源于對AI的認知,這也是元戎企業不是定位智駕公司,而是一家物理AI公司的原因。
此前不久的英偉達GTC大會上,元戎啟行發布了RoadAGI產品。周光表示,就是希望借此實現智駕從專家系統到通才系統的轉變,計劃VLA今年上車,預計會在超過10款車型上實現超20萬輛的量產規模。
不過,在自動駕駛往大模型時代走的的過程中,周光也坦言,可能也會有走錯路的情況,沒有人能夠100%對。
“每次關鍵技術的變化都會帶來行業的變化,接下來可能還會是翻天覆地。一旦技術路線走錯,今天市場所謂的排位就蕩然無存。”他說。
周光表示,元戎啟行會持續在物理AI領域突破,而智駕也許是物理AI第一個大規模落地的場景。“所以我們會不停地去做更好的AI,直到真正實現物理世界的AGI。
運營編輯|曹倩審核|孟 莎莎
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.