如果你也喜歡不客觀實(shí)驗(yàn)室,希望和我們一起探討數(shù)碼相關(guān)的選題,請(qǐng)私信“不客觀”,我們將回復(fù)您加群的方式,期待與你的見面~
作者|王飛
郵箱|wf@pingwest.com
理想汽車董事長(zhǎng)兼CEO李想在幾年前首次提出,公司未來是一家領(lǐng)先的人工智能企業(yè)的時(shí)候,并沒有太多人get到他在表達(dá)什么。
隨后理想公司的動(dòng)作是:將公司汽車的銷量擠到中國(guó)市場(chǎng)的領(lǐng)先地位,賣出年銷量50萬輛的汽車,在車上全部部署上端到端技術(shù)、Mind GPT,隨后Mind GPT經(jīng)過1.0/2.0,然后到3o多模態(tài)智能體的迭代后,理想決定推出理想同學(xué)App,讓這個(gè)語(yǔ)音助手觸及到更多的人。
在近日年底壓軸舉辦的“2024理想AI Talk”活動(dòng)中,伴隨著那個(gè)男人——李想回歸公眾視野,理想同學(xué)App宣布在手機(jī)應(yīng)用市場(chǎng)上線,理想汽車的人工智能戰(zhàn)略路徑也逐漸清晰。
在描述理想同學(xué)和理想智能駕駛這兩個(gè)通常被認(rèn)為獨(dú)立領(lǐng)域的產(chǎn)品和場(chǎng)景時(shí),李想用了一種不同與往的表達(dá)——“我們的大語(yǔ)言模型Mind GPT是認(rèn)知智能,連接數(shù)字世界;而自動(dòng)駕駛被稱為空間智能,關(guān)乎物理世界。我們同時(shí)在這兩個(gè)領(lǐng)域探索,并堅(jiān)信認(rèn)知智能與空間智能的結(jié)合——我們稱之為VLA(Vision Language Action Model,視覺語(yǔ)言行動(dòng)模型)——是一個(gè)更值得相信和追求的機(jī)遇。”
理想從汽車企業(yè)變成人工智能企業(yè)的表述,也正式被連接起來,“從企業(yè)角度來看,理想汽車是一家人工智能企業(yè),我們要做的不是汽車的智能化,而是人工智能的汽車化,并將推動(dòng)人工智能普惠到每一個(gè)家庭。從行業(yè)視角來看,汽車將從工業(yè)時(shí)代的交通工具,進(jìn)化成為人工智能時(shí)代的空間機(jī)器人。在對(duì)整個(gè)世界的理解上,我們通過人工智能將物理世界與數(shù)字世界進(jìn)行融合,讓有限的空間實(shí)現(xiàn)無限的延伸。”
ChatGPT的對(duì)手,最終會(huì)是一家汽車公司?理想同學(xué)App的表現(xiàn)會(huì)是什么樣?我們也率先對(duì)理想同學(xué)App進(jìn)行了體驗(yàn)。
一切極簡(jiǎn),上手難度低
從理想汽車的場(chǎng)景來看,理想同學(xué)有很多時(shí)間是被家庭中的小朋友使用的。
反過來看,很多理想家庭用戶中的小孩第一次接觸到人工智能,也是理想同學(xué)。在理想Mind GPT上車之后,家庭中的小朋友會(huì)用理想同學(xué)畫畫,或者和理想同學(xué)聊作業(yè),甚至是陪他們娛樂,從這個(gè)角度來看,車的場(chǎng)景確實(shí)延伸到了下一代用戶。
所以,一個(gè)上手難度低,且能給大部分人用的理想同學(xué)App就似乎有了一個(gè)“路徑”。
從理想公布的理想同學(xué)App的功能來看:理想同學(xué)App是一款人工智能應(yīng)用,目前具備兩大功能:“知識(shí)問答”提供多領(lǐng)域的問答能力,包括汽車、出行、財(cái)經(jīng)、科技等領(lǐng)域,并能處理多種文本任務(wù),如撰寫文章、翻譯和創(chuàng)作文案等;“看世界”依靠視覺感知能力,幫助用戶識(shí)別菜單、畫作、動(dòng)植物、汽車等上千種通用物品。
在蘋果應(yīng)用商店,理想同學(xué)App的分類是“效率”,力圖成為一個(gè)隨時(shí)隨地陪伴你的智能助手。
理想同學(xué)App使用了理想同學(xué)在汽車上的形象,不管是圖標(biāo)還是內(nèi)部的軟件ui設(shè)計(jì)都采用了極簡(jiǎn)的風(fēng)格。
打開App,直接注冊(cè)/登陸賬戶就來到了主頁(yè)面,整個(gè)軟件的功能可以說非常簡(jiǎn)單:注冊(cè)不需要必須是理想車主,可以是任何人,第一次登陸不需要設(shè)定復(fù)雜的個(gè)人信息,幾乎是賬號(hào)登錄直接用,輸入直接視覺、文字和語(yǔ)音,然后除去設(shè)置、開啟新對(duì)話和查看過去的對(duì)話就沒有其他功能了。
這確實(shí)很符合“效率”的印象,簡(jiǎn)潔的菜單,極速登錄,甚至沒有首次教程,不主動(dòng)做推薦內(nèi)容,可以說上手就開用——如果它真的針對(duì)的是家庭中的小朋友的話,那意味著它也覺得這個(gè)軟件不需要學(xué)習(xí)成本。
像很多Kimi、ChatGPT軟件在提問過程中其實(shí)會(huì)顯示一定的loading時(shí)間,但理想同學(xué)App在這個(gè)過程做了一個(gè)動(dòng)畫反饋——理想同學(xué)App在AI生成內(nèi)容的過程中,它會(huì)通過一系列生動(dòng)的動(dòng)效,展現(xiàn)AI的“思考步驟”和內(nèi)容生成的“思維導(dǎo)圖”。
當(dāng)然,第一次看到這樣的loading反饋確實(shí)很新鮮,覺得蠻有科技感,但每次看這樣的過程有些人也會(huì)覺得有點(diǎn)無聊——你也可以在設(shè)置里關(guān)閉這個(gè)“思考過程”。
我們覺得理想同學(xué)App整體設(shè)計(jì)上確實(shí)沒有什么上手門檻,如果按照蘋果那種“不需要教程小孩子都可以直接上手使用”理論的話,這無疑是比較成功的。
另外,從理想同學(xué)初次打開推薦的話題來看——理想同學(xué)App的話題似乎比較傾向于財(cái)經(jīng)、科技知識(shí)類。
常規(guī)的問題能在2-3秒內(nèi)快速地返回內(nèi)容,這比我在ChatGPT(可能是后臺(tái)連接速度問題)上的反應(yīng)似乎更快一些。
此外,視覺識(shí)別和理解印象也比較深刻:
比如讓它識(shí)別了一段手寫體的日文,我們用蘋果自帶翻譯識(shí)別地非常錯(cuò)亂,但理想同學(xué)App還算是總結(jié)出了基本意思(也可以看到手寫體部分識(shí)別錯(cuò)誤):
讓它識(shí)別天氣,也可以結(jié)合網(wǎng)絡(luò)信息檢索和真實(shí)視覺:
左側(cè)結(jié)合了視覺分析,右側(cè)統(tǒng)計(jì)了網(wǎng)絡(luò)信息
從手機(jī)App到硅基家人
據(jù)理想,理想同學(xué)基于理想自研的行業(yè)首個(gè)車載認(rèn)知大模型Mind GPT打造,23年12月至今,大模型已經(jīng)迭代30多次。即將上線的Mind GPT-3o 是一個(gè)多模態(tài)端到端大模型,響應(yīng)速度進(jìn)入百毫秒級(jí)別,能夠理解不同的模態(tài),在一個(gè)模型內(nèi)完成從感知到認(rèn)知再到表達(dá)的完整的能力。理想同學(xué)的大腦升級(jí)為最新一代Mind GPT-3o之后,記憶、規(guī)劃、工具、表達(dá)能力全面提升,也變得更加了解你、認(rèn)識(shí)你、一直陪伴你。
從認(rèn)知大模型Mind GPT到理想同學(xué)App更像是一個(gè)自然而然的過程。而為什么要做一個(gè)手機(jī)App,背后的問題是理想怎么看,以及為什么要自研大模型?
理想汽車智能空間AI負(fù)責(zé)人陳偉把理想做大模型描述為一個(gè)“逐漸達(dá)成共識(shí)的”的過程——線上的關(guān)于自然語(yǔ)言處理的技術(shù),切換到了預(yù)訓(xùn)練的模式下,任務(wù)型對(duì)話能夠在車?yán)锩妫鲕嚳亍⒚襟w、導(dǎo)航這樣非常多垂域的覆蓋,上面用預(yù)訓(xùn)練的模式能夠快速高效地、高質(zhì)量地完成這樣的能力。
2022年年底,ChatGPT發(fā)布了。大模型帶來的認(rèn)知智能和語(yǔ)言智能上突飛猛進(jìn)的變化,這件事情對(duì)理想汽車和李想本人來說,都有著非常大的震撼,當(dāng)然理想內(nèi)部在討論:為什么我們沒有快速地考慮把這個(gè)模型架做得那么高那么大。
李想則認(rèn)為,應(yīng)該回歸用戶體驗(yàn),核心的問題在認(rèn)知智能上面。要把理想同學(xué)的認(rèn)知快速拉上來,指引了后續(xù)做基座模型。
李想認(rèn)為今天仍然由OpenAl在定義AGI(通用人工智能),比如第一個(gè)階段是聊天機(jī)器人,OpenAl完全按照這個(gè)定義做了最好的產(chǎn)品體驗(yàn)。第二個(gè)階段是推理者,到第三個(gè)階段Agent(智能體)的時(shí)候,才是真正的“iPhone 4時(shí)刻”,普通老百姓都能用了,它能獨(dú)立地、持續(xù)地、連續(xù)地完成任務(wù),而不需要靠密集的提示詞。
“除了目前OpenAl宣稱進(jìn)入L2(推理者)以外,絕大部分的團(tuán)隊(duì)現(xiàn)在還停留在L1(聊天機(jī)器人)這個(gè)階段。在這樣的一個(gè)狀態(tài)下,技術(shù)處于早期,而我們?cè)谧鲆粋€(gè)無限游戲。探索邊界還不清晰的情況下,我們最重要的事情就是把握住目前的第一性原理Scaling Law(規(guī)模效應(yīng))。”陳偉稱。
于是,理想同學(xué)就化身在空間智能里和手機(jī)App上,被定為了“硅基家人”。
不過,從目前反饋的內(nèi)容質(zhì)量上來看,確實(shí)很難看出各個(gè)應(yīng)用之間的差異化。但理想嘗試想做的:一是將行業(yè)類似的功能從可用提升到好用;二是將前沿產(chǎn)品轉(zhuǎn)化為可用的場(chǎng)景和功能——從過去的產(chǎn)品定義上來看,這確實(shí)是這家公司的強(qiáng)項(xiàng)。
陳偉稱,在追趕ChatGPT的過程中,Mind GPT數(shù)據(jù)保持快速迭代——現(xiàn)在的預(yù)訓(xùn)練數(shù)據(jù)規(guī)模量已經(jīng)到10萬億Token的規(guī)模了,“在預(yù)訓(xùn)練后訓(xùn)練階段,也要構(gòu)建一套好的分段學(xué)習(xí)的邏輯,盡快地把強(qiáng)化學(xué)習(xí)后訓(xùn)練的事情做好。”
“Scaling Law(規(guī)模效應(yīng))本身在解決的問題是模型的效果、數(shù)據(jù)和模型規(guī)模之間的關(guān)系。我們?cè)絹碓接X得數(shù)據(jù)不只是規(guī)模的,需要有高質(zhì)量的數(shù)據(jù)才能把規(guī)模做上去,才真正有價(jià)值。”
這也符合李想本人的人工智能演進(jìn)論,從第一階段“增強(qiáng)我的能力”到第二階段“成為我的助手”,最后成為“硅基家人”。
“我不需要再給它任何的指示了,我也不需要給它分配任務(wù)了,它就是我們的家庭成員,甚至是家庭重要的組織者,它不但了解我,它還了解我的孩子,了解我身邊的朋友,甚至比我還了解。”
“它會(huì)主動(dòng)去干很多事情,可以自主的衡量,幫我把這個(gè)家管理好。當(dāng)AGI發(fā)展到第三階段,是我的硅基家人后,我覺得很重要的點(diǎn)是說,我的記憶也會(huì)被它得以延續(xù),可能我的肉體不存在了,但是我的記憶會(huì)變成它的一部分。”
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.