55年前,左腳剛剛踏上月球的阿姆斯特朗,說了一句簡單的話:“這是個人的一小步,卻是人類的一大步。”
過去幾十年里,很多人曾引用過這句話,用來定格某個歷史性時刻。今天,我們想把這句話套用到智譜的AutoGLM上。
11月29日的智譜Agent OpenDay上,對外公測或內(nèi)測了三個產(chǎn)品——瀏覽器插件AutoGLM Web、電腦智能體大模型GLM-PC,以及一個多月前“劇透”過的AutoGLM,也是智譜第一個產(chǎn)品化的智能體Agent。
短短一個月的時間,AutoGLM的能力不再局限于點(diǎn)外賣、朋友圈點(diǎn)贊,帶來了多個新進(jìn)展:
AutoGLM 可以自主執(zhí)行超過 50 步的長步驟操作,也可以跨App執(zhí)行任務(wù);
AutoGLM開啟“全自動”上網(wǎng)新體驗(yàn),支持等數(shù)十個網(wǎng)站的無人駕駛;
像人一樣操作計(jì)算機(jī)的GLM-PC啟動內(nèi)測,基于視覺多模態(tài)模型實(shí)現(xiàn)通用Agent的技術(shù)探索。
同時AutoGLM 啟動了大規(guī)模內(nèi)測,將盡快上線成為面向 C 端用戶的產(chǎn)品,并宣布啟動“10個億級 APP 免費(fèi) Auto 升級”的計(jì)劃。
01 AutoGLM可以做什么?
看到這里,可能不少人會疑問:什么是AutoGLM?
單從名字上看,很容易讓人聯(lián)想到自動駕駛,畢竟幾乎每輛汽車的中控區(qū)都有一個AUTO按鈕,表示該功能或設(shè)置為自動模式。
顧名思義,AutoGLM的場景正是用AI控制手機(jī),只需要一句語音指令,AutoGLM即可模擬人類操作手機(jī)來完整任務(wù)。AI從只有對話功能的Chatbot,正在進(jìn)化為“有手、有腦、有眼睛”的自主Agent。
為了方便大家理解,我們提前做了一波測試。
對于不方便看視頻的小伙伴,這里大致說一下我們測試的四個場景:分別是到小紅書查找周末出行攻略、給小紅書博主的最新內(nèi)容評論、到拼多多上買一箱涌泉蜜桔、訂一張從寧波到北京的機(jī)票。
直接說結(jié)果,AutoGLM都準(zhǔn)確完成了工作,幾個涉及到購買的場景,只需要我們最后付款即可。稍有不足的是,遇到彈窗或需要人工確認(rèn)的環(huán)節(jié),目前AutoGLM還無法處理,需要人為操作后才能繼續(xù)后面的流程。
由于時間的原因,我們的測試沒有太深入,對于AutoGLM的能力升級,可以參考智譜Agent OpenDay上傳遞出的信息:
超長任務(wù):理解超長指令,執(zhí)行超長任務(wù)。例如,在采購火鍋食材的例子中,AutoGLM 自主執(zhí)行了 54步無打斷操作。并且,在這種多步、循環(huán)任務(wù)中,AutoGLM 的速度表現(xiàn)超過人手動操作。
跨 App:AutoGLM 支持跨 App 來執(zhí)行任務(wù)。用戶將習(xí)慣于 AI 自動處理,而不是在多個 APP 間來回切換。由于目前 AutoGLM 形態(tài)更像是用戶和應(yīng)用間的APP執(zhí)行的調(diào)度層,因此跨 App 能力是里面非常關(guān)鍵的一步。
短口令:AutoGLM 能夠支持長任務(wù)的自定義短語。今天,你不用再給AutoGLM說:“幫我買一杯瑞幸咖啡,生椰拿鐵,五道口店,大杯、熱、微糖” 這類超長指令,只需要說“點(diǎn)咖啡”。
隨便模式:我們都會陷入選擇恐懼,AutoGLM 今天可以主動幫你做出決策。隨便模式下所有步驟都讓 AI 決策,帶來有抽盲盒式的驚喜。想不想嘗嘗AI為你點(diǎn)的咖啡口味?
以此類推,AutoGLM Web和GLM-PC的能力和AutoGLM相似,面向的場景分別是瀏覽器和電腦端,并且有一些智能手機(jī)上做不到的功能。
比如AutoGLM Web能夠理解用戶的指令,自動為用戶在網(wǎng)頁上站內(nèi)檢索、多鏈接總結(jié),甚至進(jìn)一步實(shí)現(xiàn)生成arXiv日報(bào),搭建Github倉庫,在微博超話簽到等個性化功能。
再比如遠(yuǎn)程手機(jī)發(fā)指令,GLM-PC可以自主完成電腦操作,可以設(shè)定一個未來時間,在開機(jī)狀態(tài)下定時執(zhí)行任務(wù)。
想象一下:即使你在摸魚、喝咖啡或者上廁所,你的電腦依然在工作,絲毫不會影響工作的進(jìn)度。
02 人機(jī)交互進(jìn)入AI時代
當(dāng)然,讓我們印象深刻的,并非是AutoGLM所實(shí)現(xiàn)的能力,而是對人機(jī)交互模式的巨大沖擊,基于自然語言的人機(jī)交互已經(jīng)是現(xiàn)在進(jìn)行時。
小時候上“微機(jī)課”,老師經(jīng)常掛在嘴邊的一句話就是:“你們要學(xué)會用電腦。”
之所以會出現(xiàn)一個“學(xué)”字,因?yàn)椴僮麟娔X必須要學(xué)會使用鍵盤和鼠標(biāo)、必須學(xué)會輸入法、必須要去適應(yīng)每一個應(yīng)用的復(fù)雜界面,想要編寫程序還需要從0開始學(xué)一門編程語言。盡管這些工具在不斷進(jìn)步,人與機(jī)器的協(xié)作依然是一件高門檻的事,特別是一些專業(yè)軟件,想要完成某個任務(wù)需要很多個步驟,過程中充斥著機(jī)械性的重復(fù)勞動。
AutoGLM目前的功能還很基礎(chǔ),卻拉開了人機(jī)交互進(jìn)化的序幕:借助于大模型的強(qiáng)大能力,只需要一句話,AI就能自動幫我們處理復(fù)雜的任務(wù),人機(jī)協(xié)作的門檻進(jìn)一步降低。
不再是人被動適應(yīng)機(jī)器,而是讓機(jī)器理解人類。
試圖打破人機(jī)交互僵局的,不只是國內(nèi)的智譜,蘋果的Apple lnteligence、Anthropic的Computer Use、谷歌的Jarvis,以及OpenAI即將發(fā)布的Operator,都在朝同樣的方向進(jìn)行創(chuàng)新。
問題來了,大模型距離重塑人機(jī)交互范式還有多遠(yuǎn)呢?
自動駕駛領(lǐng)域有L1—L5的能力劃分,OpenAI、智譜等企業(yè)也提出了類似的技術(shù)階段:L1是語言能力、L2是邏輯能力(多模態(tài)能力)、L3是使用工具的能力、L4是自我學(xué)習(xí)能力,最終做到像人一樣理解界面、規(guī)劃任務(wù)、使用工具、完成任務(wù)。
“壞消息”在于,目前大模型能力還處于初級階段。按照智譜 CEO 張鵬的說法,“Agent 將極大地提升 L3 使用工具能力,同時開啟對 L4 自我學(xué)習(xí)能力的探索。”
“好消息”則是,在智譜Agent OpenDay上,榮耀、華碩、小鵬、高通、英特爾等,分別從不同的場景出發(fā),分享了他們對智能終端的實(shí)踐及展望。
也就是說,大模型重塑人機(jī)交互范式,絕非是大模型企業(yè)的愿景,而是包含終端廠商、芯片廠商在內(nèi)的產(chǎn)業(yè)上下游的共識。隨著AutoGLM能力的提升,將能調(diào)用越來越多的應(yīng)用,適配越來越多的系統(tǒng),實(shí)現(xiàn)越來越復(fù)雜的連貫自主操作。
另一個不應(yīng)該忽略的信息是:端側(cè)算力正在持續(xù)提升,智譜順勢推出了為AI原生設(shè)備適配的模型和端云同源的協(xié)同架構(gòu),意味著Agent不僅將在應(yīng)用上實(shí)現(xiàn)用戶體驗(yàn)變革,還能將推廣到各類智能設(shè)備上,手機(jī)+AI、PC+AI、汽車+AI等將不斷涌現(xiàn)。
03 寫在最后
在大模型的概念剛走紅時,就有人將其比作是“操作系統(tǒng)”。
至少從AutoGLM的表現(xiàn)來看,即便只是在用戶和應(yīng)用之間增加一個智能調(diào)度層,已經(jīng)有了GLM-OS(以大模型為中心的通用計(jì)算系統(tǒng))的雛形。倘若能夠進(jìn)一步實(shí)現(xiàn)原生的人與機(jī)器交互,將從根本上改變?nèi)藱C(jī)交互模式,所有人都可以用自然語言操作手機(jī)、電腦、汽車、眼鏡等等。
值得期待的是,著名調(diào)研機(jī)構(gòu)Gartner已經(jīng)將agentic AI列為2025年十大技術(shù)趨勢之一,預(yù)測2028年至少有 15%的日常工作決策將由agentic AI自主完成。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.