昨天凌晨,OpenAI 推出了一款新產(chǎn)品,ChatGPT agent。
最興奮的不是廣大用戶(畢竟 200 刀的 Pro 用戶沒那么多),而是各家 Agent 競品。
Manus 發(fā)布多則推文與 ChatGPT agent 「正面較量」。圖片來自:https://x.com/ManusAI_HQ/status/1945954009547677992
Manus 連發(fā)十幾條推文,把自己的 Agent 產(chǎn)品和 OpenAI 的新 Agent 一項(xiàng)項(xiàng)對比,暗示自己才是更早、更快、更好用的那一個(gè)。
Genspark 創(chuàng)始人發(fā)推文展示 Genspark 和 ChatGPT agent 結(jié)果對比。 圖片來自:https://x.com/genspark_ai/status/1946005869533311030
Genspark 也發(fā)了個(gè)輕描淡寫但意味深長的 demo,說自己在同樣的提示詞下「一次搞定」,并補(bǔ)了一句:
我們不想制造什么 drama(戲劇性效果),只是為整個(gè) Agent 生態(tài)感到興奮。當(dāng)然,也為我們自己的絲滑體驗(yàn)小小自豪一下。
這場熱鬧,不像是一家巨頭發(fā)布新品,更像是扔進(jìn) Agent 市場的一顆「競品炸彈」。
OpenAI 發(fā)布的這個(gè) ChatGPT agent 到底怎么樣?能讓同類產(chǎn)品連夜上線 battle 模式?
目前 ChatGPT agent 已經(jīng)向全部的 Pro 用戶推出。而由于需求高于預(yù)期,Plus 和 Team 用戶將于周一開始獲得訪問權(quán)限。
我們搜集了一些網(wǎng)友們的實(shí)測案例分享,試著還原一下 Agent 的基本樣子,也找來了 Kimi、Manus、Minimax 幾個(gè)典型的對手,做了一次實(shí)測對比。
看看這個(gè)遲到幾個(gè)月才出現(xiàn)的 ChatGPT Agent,到底是王者歸來,還是落后補(bǔ)作業(yè)。
它確實(shí)能替你干活,但是不是「萬能」還得另說
博主 @rowancheung 提前獲得了訪問權(quán)限,他嘗試要 ChatGPT agent 給他生成一份完整的退休計(jì)劃 PPT。
他輸入的提示詞是:
為年收入 50 萬美元、希望 30 歲退休并擁有 500 萬美元的人創(chuàng)建一個(gè) FIRE 模型。
模型包括極端儲(chǔ)蓄率(80%+)、稅收優(yōu)化、高效復(fù)利的投資策略,以及在加拿大溫哥華生活的生活成本。包含不同提款率的情景,并展示與傳統(tǒng)退休計(jì)劃相比需要作出的犧牲。
然后,創(chuàng)建一個(gè)可下載的演示文稿。
ChatGPT agent 的流程還是很順的,只花了 20 分鐘左右的時(shí)間就幫他完成了任務(wù),生成了完整的 PPT。
查找當(dāng)?shù)囟惙ǎ馗缛A),并分析平均每月支出率
計(jì)算 30 歲退休所需的儲(chǔ)蓄,研究最優(yōu)投資配置
發(fā)現(xiàn)全新的稅收優(yōu)化策略,構(gòu)建多個(gè) FIRE 場景
創(chuàng)建了可下載的演示文稿,其中包含結(jié)果
依舊是在 ChatGPT 的聊天窗口里面進(jìn)行,它甚至不需要詢問額外的偏好或者其他信息,直接啟用虛擬電腦,自動(dòng)搜索和總結(jié)歸納信息,過程中完全不需要自己動(dòng)手點(diǎn)擊。
最后 ChatGPT agent 生成了一份 14 頁的 PPT 文檔。說實(shí)話,我看到這個(gè)成品是有點(diǎn)失望的,因?yàn)閷?shí)在是太簡陋了。
上下滑動(dòng)查看更多內(nèi)容,來源: https://x.com/rowancheung/status/1945896543263080736
這位博主說如果他請一位財(cái)務(wù)顧問來做這件事,他需要花費(fèi) 5000 多美元,而且要花幾周的時(shí)間。
當(dāng)被其他用戶問到,覺得 ChatGPT agent 怎么樣,是不是一款令人驚喜的產(chǎn)品,還是僅僅是功能的增強(qiáng)時(shí)?他也直接說,
最令人印象深刻的是電子表格和幻燈片生成功能,但結(jié)果與我使用 Manus 或 Genspark 獲得的結(jié)果類似。
鑒于大多數(shù)人還沒有嘗試過其他工具,它對大多數(shù)人來說都會(huì)是令人興奮的。
言外之意大概是,如果你嘗試過其他工具,大概興奮不起來。
還有其他用戶分享通過 ChatGPT agent 來幫助他準(zhǔn)備一份購物清單。他說看著 ChatGPT 瀏覽網(wǎng)站、提示他輸入登錄詳細(xì)信息、將商品添加到購物車并自主完成整個(gè)過程,是令人難以置信。
請幫我為這個(gè)周末兩個(gè)人的烤肉晚餐,準(zhǔn)備一個(gè)特易購購物清單,并包括一道甜點(diǎn)。
來源: https://x.com/thealexbanks/status/1945921363237052589
不過他在評論區(qū)也提到如果是自己去做這件事情,可能會(huì)更快。
網(wǎng)上的案例分享大多都是在解決一些生成 PPT、表格或者制定計(jì)劃清單等任務(wù)上。但很明顯,我們的生活里面遠(yuǎn)不止這些問題需要 Deep Research。
同樣的,規(guī)劃行程之類的問題還是更偏向于模糊性質(zhì)的任務(wù),對于我們實(shí)際工作生活中要處理的,更嚴(yán)肅的,需要更高準(zhǔn)確度的任務(wù),ChatGPT agent 輸出的內(nèi)容想必經(jīng)不起太多的推敲。
不過,它確實(shí)是做到了一個(gè)「進(jìn)化版」的 ChatGPT。
Manus、Kimi、Minimax 表示:我做得更好
我們讓 Kimi、Minimax、和 Manus 也一起來做了「加拿大退休計(jì)劃」這個(gè)任務(wù),看看 ChatGPT agent 是否比這些先前推出的產(chǎn)品更出色。
首先是 Manus,它的速度是最快的。我把需求發(fā)送給它,十分鐘不到的時(shí)間,它就結(jié)束了整個(gè)任務(wù)。
和 ChatGPT agent 一樣,Manus 也會(huì)啟用一個(gè)「Manus 的電腦」來可視化模型執(zhí)行任務(wù)的過程。
但是最后的結(jié)果,明顯會(huì)比使用 ChatGPT agent 生成的 PPT 更「好看」的感覺。至少,Manus 不像 ChatGPT agent 只是單純的黑白。
而在內(nèi)容上,它給我生成了 10 頁的 PPT,可能是中英文切換的原因,Manus 內(nèi)容比 ChatGPT 要更寬泛一點(diǎn),整體上是差不多。
此外,相比 ChatGPT agent,Manus 不會(huì)在 PPT 文檔里面標(biāo)注引用的信息源。
上下滑動(dòng)查看更多內(nèi)容,訪問鏈接:https://manus.im/share/kwujwPDSTQe4y8vAKQZR5Q
Manus 官方自己也下場,做了多個(gè)和 ChatGPT agent 對比的嘗試,正面硬剛。
首先是在新加坡設(shè)立企業(yè)這個(gè)任務(wù),Manus 說,自己能夠提供更優(yōu)質(zhì)的研究和演示文稿。
在加拿大退休計(jì)劃任務(wù)上,Manus 是實(shí)際地完成了這件事情,而 ChatGPT agent 停留在空泛的計(jì)劃上。
第三個(gè)對比是計(jì)劃一次 3 天的棕櫚泉網(wǎng)球之旅,ChatGPT 依舊是白底黑字的 PPT,Manus 則是色彩豐富,使用符合棕櫚泉、網(wǎng)球等特點(diǎn)的圖片背景。
在舊金山城市預(yù)算分析與演示這個(gè)任務(wù)上,Manus 提到自己不僅是給你數(shù)據(jù),還完成了一個(gè)項(xiàng)目;截圖里顯示 ChatGPT 生成的 PPT 只是表格,而沒有可視化的分析……
多個(gè)對比,從電子商務(wù)、金融分析、餐廳預(yù)訂、航班查找、行程規(guī)劃、和報(bào)告分析等不同的任務(wù)上,Manus 都表示比 ChatGPT agent 聰明,且生成的內(nèi)容更全面、更好看。
Manus 還在更新相關(guān)的對比情況,目前是已經(jīng)發(fā)布了 10 個(gè)與 ChatGPT agent 比較的推文。
第二個(gè)我們嘗試了 Minimax,它花的時(shí)間很長,大概有將近一個(gè)小時(shí)。Minimax 也會(huì)有一個(gè)類似虛擬電腦的「Minimax 視窗」,就像 ChatGPT agent 或者 Manus 一樣,實(shí)時(shí)的顯示它的思考和行動(dòng)過程。
讓我感到驚喜的是,Minimax 不僅給我提供了可以下載編輯的 PPT 文檔,還有一份純文字的 PDF 報(bào)告,同時(shí)還給了我一份在線瀏覽的鏈接。
Minimax 生成的文字報(bào)告
上下滑動(dòng)查看更多內(nèi)容,在線瀏覽:https://rd4hl2nxlutu.space.minimax.io/
對比 Manus,我覺得 Minimax 這份報(bào)告又更嚴(yán)謹(jǐn),無論是內(nèi)容上要更詳盡,還是數(shù)據(jù)的可視化效果,都做的比 ChatGPT agent 和 Manus 要好。
最后是花了最長研究時(shí)間的 Kimi,大概有超過一個(gè)小時(shí)。它是目前還沒有被完全叫做 Agent 的一個(gè)產(chǎn)品,仍然是以 Deep Research 的形式出現(xiàn),所以它沒有虛擬電腦實(shí)時(shí)顯示過程這個(gè)頁面。
就像前段時(shí)間,Kimi 團(tuán)隊(duì)成員在自己的博客里面寫到的一樣,Kimi 做的不只是一個(gè)聊天機(jī)器人。它可以做的,不再是簡單的返回 Markdown 文本,而是從 chat-first 到 artifact-first(從「以對話為中心」到「以任務(wù)成果為中心」),讓 AI 構(gòu)建交互式前端。
博客里面也提到,他對于 Agentic Model 的理解,是一個(gè)必須能循環(huán)性完成任務(wù)的模型。一個(gè) Agentic Model,不是你問一句、它答一句的「問答機(jī)」,而是一個(gè)能自己「觀察、思考、嘗試、糾錯(cuò)、再嘗試」,最終完成復(fù)雜任務(wù)的模型。
大概正因?yàn)槿绱耍琄imi 也是唯一一個(gè),在獲取到我的任務(wù)提示詞之后,會(huì)問我現(xiàn)在多大,租房還是買房等等問題的助手。這也讓我覺得,這才像是一個(gè)現(xiàn)實(shí)生活中真正的「秘書」。
最后,Kimi 深度研究的結(jié)果也是最讓我滿意的,它生成的報(bào)告非常非常的長,內(nèi)容也是最詳細(xì)的,同樣在 PPT 文檔里面也會(huì)有信息引用的標(biāo)注。
上下滑動(dòng)查看更多內(nèi)容;此處僅展示全部內(nèi)容的 50% 左右,預(yù)覽鏈接:https://www.kimi.com/preview/1981ba88-3871-8785-9e20-edd331000509
ChatGPT agent 作為新入局的 Agent 產(chǎn)品,給我的感覺就是像他們直播的時(shí)候說的一樣,
ChatGPT 智能體將 Operator 與網(wǎng)站交互的能力、深入研究在整合網(wǎng)絡(luò)信息方面的優(yōu)勢,以及 ChatGPT 的對話能力有機(jī)融合,形成一個(gè)統(tǒng)一的智能體系統(tǒng)。
它也就只是把 Deep Research、Operator、ChatGPT 這三樣結(jié)合起來了。
所以,它生成的 PPT 會(huì)很像是 Deep Research 的文字版,不會(huì)像 Kimi、Manus 這些產(chǎn)品,在前端、產(chǎn)品美學(xué)上下功夫。
但他們還是有一個(gè)共同點(diǎn),就是這些 Agent 產(chǎn)品已經(jīng)能完成復(fù)雜內(nèi)容任務(wù),且體驗(yàn)越來越像是「協(xié)作型 AI 工具」而非「問答機(jī)器人」了。
我想這次 ChatGPT agent 的出現(xiàn),可能不是多么厲害的「革命性升級」,但確實(shí)是另一個(gè)信號:
從「回答問題」到「執(zhí)行任務(wù)」,AI 的形態(tài)正在變化,而大模型 AI 公司的野心也開始從語言模型本身,擴(kuò)展到「誰來承載未來人機(jī)交互的主入口」。
歡迎加入 APPSO AI 社群,一起暢聊 AI 產(chǎn)品,獲取,解鎖更多 AI 新知
我們正在招募伙伴
簡歷投遞郵箱hr@ifanr.com
?? 郵件標(biāo)題「姓名+崗位名稱」(請隨簡歷附上項(xiàng)目/作品或相關(guān)鏈接)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.