11月29日,智譜在Agent開放日活動(dòng)上,發(fā)布了Agent“全家桶”產(chǎn)品:包括升級(jí)版Auto GLM、AutoGLM-Web和GLM-PC,分別適用于手機(jī)、瀏覽器和PC。
2024年,AI Agent成為焦點(diǎn),它可以模擬人的感知、決策、判斷過程,自主幫助人類完成工作。成為大模型應(yīng)用落地,最受關(guān)注的應(yīng)用形式之一。
在發(fā)布會(huì)的現(xiàn)場(chǎng),智譜AI CEO張鵬也接受了包括騰訊科技在內(nèi)的少數(shù)媒體采訪,他表示,雖然Auto GLM已經(jīng)能幫你在手機(jī)上跨APP實(shí)現(xiàn)50步以上的自主操作,但是,距離賈維斯照進(jìn)現(xiàn)實(shí),還有很多現(xiàn)實(shí)的難題需要跨越。
在PC場(chǎng)景同樣如此,“由于 PC 的復(fù)雜程度,以及大家在 PC 完成的幾乎都是復(fù)雜任務(wù),今天大模型的能力距離真正代替大家辦公還有一定距離。GLM-PC在當(dāng)前版本下,用戶仍需要輸入非常精準(zhǔn)的指令。”
但是,從目前的技術(shù)路線來看,類似的Agent產(chǎn)品,并不需要依賴調(diào)取各種API,而是能夠通過圖形化界面的識(shí)別,模擬人用電腦的過程——用眼看圖形及文字,用腦規(guī)劃,再用手執(zhí)行單擊雙擊、輸入等操作。GLM-PC 用電腦的方式幾乎完全和人一樣。也正因如此,理論上只要是為人類設(shè)計(jì)的應(yīng)用,在GLM-PC學(xué)習(xí)之后它都能夠執(zhí)行。這也為未來打開想象,是否Agent擁有了系統(tǒng)級(jí)、跨平臺(tái)的能力,未來具備更高的能力上限,甚至成為新的操作系統(tǒng)?
以下為訪談內(nèi)容(有精編刪減):
提問:大模型行業(yè)上半年大家其實(shí)還在尋找“超級(jí)應(yīng)用”,下半年突然看到了智能體的爆發(fā),行業(yè)內(nèi)公司的戰(zhàn)略重心發(fā)生了什么改變嗎?
張鵬:過去,技術(shù)可能被視為單一方向的,例如文本技術(shù)的提升就能帶來巨大的價(jià)值。然而,我們現(xiàn)在認(rèn)識(shí)到,要將技術(shù)轉(zhuǎn)變?yōu)樯a(chǎn)力工具或雙向交互的機(jī)器人,它不能有明顯的短板。因?yàn)槿祟愄幚韱栴}和任務(wù)是多模態(tài)的,非常復(fù)雜,所以對(duì)技術(shù)能力的需求是全面的。只有當(dāng)模型的各項(xiàng)能力都達(dá)到一定水平并相互疊加時(shí),它才可能成為一個(gè)有效的工具。
提問:發(fā)布會(huì)上提到的“端云”統(tǒng)一,具體如何解釋?
張鵬:我們所說的統(tǒng)一,是指架構(gòu)和體系的統(tǒng)一,例如我們的GLM模型,有小版本可以在端側(cè)運(yùn)行,也有云端版本,它們的架構(gòu)相同,能力傾向相似,上層應(yīng)用和功能也相對(duì)一致,可以進(jìn)行優(yōu)化等操作。這樣,我們就能更容易地形成一個(gè)云、邊、端協(xié)同的、無縫銜接的技術(shù)體系。大家也知道,如果整個(gè)模型來自不同的工具廠商,需要適應(yīng)不同的技術(shù)架構(gòu)和技術(shù)特點(diǎn),那么整合的成本就會(huì)更高。所以,我們所說的統(tǒng)一并不是指模型本身的差異。
提問:去年手機(jī)、PC廠商都在提端側(cè)AI,今年更多會(huì)提及Agent,為什么會(huì)有這種變化,端側(cè)AI相較于去年有了哪些進(jìn)化?
張鵬:模型的能力在達(dá)到一定程度后,會(huì)轉(zhuǎn)化為實(shí)際的生產(chǎn)力。在早期,如果能力尚未成熟,提出Agent概念可能實(shí)際效果達(dá)不到。為什么大家特別關(guān)注端側(cè)?因?yàn)槎藗?cè)的效果更直觀,大家都能明顯感受到。大多數(shù)交互本質(zhì)上是改善人機(jī)交互,所以在端側(cè)更容易找到顯著提升用戶體驗(yàn)的部分。
Agent同樣可以應(yīng)用于TOB服務(wù)端,例如作為教育API等。我們也推出了這樣的功能,但這些更多是面向開發(fā)者和企業(yè)級(jí)系統(tǒng),因此普通用戶可能不會(huì)有太多直接感受。當(dāng)然,隨著技術(shù)的進(jìn)步和關(guān)注度的提高,專業(yè)的硬件廠商也開始適配和靠攏這些技術(shù)。這兩個(gè)因素結(jié)合起來,使得端側(cè)的應(yīng)用能力更加明顯,用戶體驗(yàn)也更加顯著。這些因素的綜合作用,使得端側(cè)的應(yīng)用能力得到了顯著提升。
提問:Scaling Law是否已經(jīng)“撞墻”或放緩?
張鵬:Scaling只是一個(gè)現(xiàn)象,本質(zhì)是計(jì)算量。你有多少的計(jì)算量,你就能獲得多少的智能水平。這是我覺得目前比較接近真相的一個(gè)可能性,但我不保證它一定對(duì),因?yàn)檫@件事情還在不斷探索中,不斷更新大家的認(rèn)知。
我們所謂的“撞墻”,更多是在預(yù)訓(xùn)練階段,所謂的人類語言的高質(zhì)量數(shù)據(jù)不夠用了。但是,其實(shí)還有多模態(tài),還有可能在后訓(xùn)練。不斷加大你的計(jì)算量,還是能夠提升效果,這種曲線看起來其實(shí)是和預(yù)訓(xùn)練的Scaling Law是差不多的。所以我們不能簡(jiǎn)單粗暴地下結(jié)論說,Scaling law已經(jīng)撞墻了。
提問:智譜發(fā)布了Agent產(chǎn)品之后,如何考慮生態(tài)位的問題?APP是存在墻的,底層的權(quán)限也不好打通,如何解決應(yīng)用墻的問題?
張鵬:這其實(shí)一半是商業(yè)問題,一半是技術(shù)問題。
從技術(shù)角度來說,我們這次發(fā)布會(huì)展示的愿景是讓“Auto GLM”成為一個(gè)幫助用戶更好地連接硬件、應(yīng)用和服務(wù)的中樞。它應(yīng)該是一種工具,能夠通過自然語言的方式,讓用戶更容易地根據(jù)自己的意愿組裝各種服務(wù)。雖然這個(gè)目標(biāo)聽起來很美好,但從技術(shù)上來說,實(shí)現(xiàn)起來還是相當(dāng)困難的。
原本在自己的應(yīng)用生態(tài)中,你可以獲取底層的很多東西,包括完整的設(shè)計(jì)圖紙,這使得設(shè)計(jì)和開發(fā)變得相對(duì)容易。但這也意味著你在一個(gè)封閉的生態(tài)中工作,無法與他人很好地合作,而且你的模型可能不夠智能,無法很好地與其他系統(tǒng)連接。
因此,從技術(shù)角度來看,讓模型更好地連接是一個(gè)重要的挑戰(zhàn),也是我們接下來工作的重點(diǎn)之一。此外,要實(shí)現(xiàn)高水平的智能體能力,并不是一件簡(jiǎn)單的事情。作為一家大模型公司,我們對(duì)此非常自信。就像OpenAI的o1模型preview版本已經(jīng)發(fā)布一段時(shí)間了,但它的完整版本還沒有發(fā)布,可能完整版本非常強(qiáng)大,達(dá)到了一個(gè)難以想象的水平。這本質(zhì)上需要原始創(chuàng)新,需要在算法和模型能力上持續(xù)迭代。從我的視角來看,這是我們最重要的任務(wù)。
從商業(yè)角度來看,我們公司是技術(shù)驅(qū)動(dòng)型的,技術(shù)特性決定了商業(yè)化路徑和策略。我們希望定位自己,為這個(gè)新生產(chǎn)和新范式中的賦能者。我們希望通過這種賦能方式,幫助解決一些原本條塊化或垂直化行業(yè)劃分后形成的資源壁壘問題,打開新的視角和機(jī)會(huì),包括今天在現(xiàn)場(chǎng)看到的許多合作伙伴,他們參與并和我們合作,這表明從商業(yè)角度來看,大家采取的是一種互利的態(tài)度和方式。
提問:剛才演示的各種連續(xù)操作的功能,包括 Auto GLM發(fā)紅包,涉及到主動(dòng)輸入和生成,能調(diào)用各種APP,是否涉及到用戶的個(gè)人隱私合規(guī)問題?
張鵬:首先,關(guān)于發(fā)紅包這類活動(dòng),確實(shí)涉及到用戶隱私和安全問題,因此我們非常謹(jǐn)慎。我們可能會(huì)開發(fā)一套統(tǒng)一的框架來解決數(shù)據(jù)隱私和安全問題,例如通過在本地處理一些不涉及敏感信息的任務(wù),而將更復(fù)雜的任務(wù)交給云端解決。從技術(shù)演進(jìn)的角度來看,我們先識(shí)別出可能性,然后逐步解決伴隨而來的問題。
Auto GLM目前還處于內(nèi)測(cè)階段,主要是為了展示大模型的發(fā)展方向和潛在能力,而不是作為一個(gè)正式產(chǎn)品。然而,我們也注意到國(guó)際上的公司如OpenAI、Google等已經(jīng)推出了類似的技術(shù),它們通過讀取用戶電腦屏幕并在電腦上執(zhí)行操作來完成任務(wù)。OpenAI和Google也有計(jì)劃推出更多此類智能體。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.