99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

ChatGPT Agent口碑兩極化,Manus隔空對戰(zhàn):贏了

0
分享至


智東西AI前瞻(公眾號:zhidxcomAI)
作者 江宇
編輯 漠影

智東西AI前瞻7月18日報(bào)道,今日凌晨,OpenAI正式推出了ChatGPT Agent,一個整合了網(wǎng)頁交互、深度檢索和代碼能力的全新“AI助手形態(tài)”。

從產(chǎn)品邏輯上看,網(wǎng)絡(luò)交互工具Operator和深度信息檢索工具DeepResearch不再分家,ChatGPT內(nèi)部出現(xiàn)了一個能夠“查找-思考-執(zhí)行”一體化的Agent,用戶能直接讓AI跨網(wǎng)頁、代碼、個人數(shù)據(jù)源完成完整任務(wù)。

相較于OpenAI接連被挖角引發(fā)的輿論熱度,ChatGPT Agent的發(fā)布似沒達(dá)到“革命性Agent”的期許,略顯反應(yīng)平淡。社區(qū)用戶體驗(yàn)后褒貶不一,有人認(rèn)為“初見AGI的雛形”,但也有人指出PPT排版簡陋、復(fù)雜邏輯易中斷和幻覺等問題。

ChatGPT Agent發(fā)布后,競品Manus第一時間接招,放出10個實(shí)測案例,試圖通過財(cái)務(wù)建模、生活規(guī)劃、行程安排、消費(fèi)購物、航班篩選等不同場景任務(wù),證明ChatGPT Agent在任務(wù)閉環(huán)和可視化交付上并不占優(yōu)。


▲(圖源:Manus X平臺)

回過頭來看,ChatGPT Agent在網(wǎng)頁瀏覽、執(zhí)行任務(wù)等多個測評中實(shí)現(xiàn)了SOTA,在“人類的最后考試”(Humanity’s Last Exam)測試中取得了41.6的高分。這一成績證明了其能力,也同時需要進(jìn)一步在真實(shí)場景中驗(yàn)證。


ChatGPT Agent將首先向Pro、Plus和Team用戶推出,Pro用戶每月可獲得400次查詢,其他付費(fèi)用戶每月40次。面向企業(yè)和教育用戶的版本,預(yù)計(jì)將在本月底前上線。

目前,ChatGPT Pro版的訂閱價格為每月200美元,包含Agent和終端功能。相比之下,xAI的Grok 4最新的Agent產(chǎn)品定價高達(dá)每月300美元,兩者價格相差1.5倍。

一、一次“功能拼圖”的交付,ChatGPT Agent有哪些升級?

ChatGPT Agent的定位可以簡單理解為“把Operator和DeepResearch合并”,并補(bǔ)上了一個“終端”和“圖像生成API”的工具棧。

1、文本瀏覽器(DeepResearch功能)負(fù)責(zé)批量搜索網(wǎng)頁、閱讀長文本;

2、可視化瀏覽器(Operator功能)負(fù)責(zé)網(wǎng)頁點(diǎn)擊、拖拽和表單填寫;

3、終端可以跑Python腳本、生成和分析文件(Excel表格、PPT幻燈片)和調(diào)用API,甚至接入Google Drive、GitHub等外部數(shù)據(jù);

4、圖像生成API補(bǔ)足基礎(chǔ)的可視化內(nèi)容生成,可以為報(bào)告或幻燈片創(chuàng)建視覺素材。

這套“工具箱”搭載在一個虛擬機(jī)環(huán)境下,由經(jīng)過強(qiáng)化學(xué)習(xí)訓(xùn)練的模型調(diào)度,能實(shí)現(xiàn)從自動檢索、分析、生成文檔,到最終下單、預(yù)約的完整閉環(huán)。

在發(fā)布演示中,OpenAI選擇了一個貼近生活的案例:用Agent幫用戶策劃一場婚禮行程。


▲婚禮策劃實(shí)測(圖源:OpenAI)


ChatGPT團(tuán)隊(duì)提供婚禮網(wǎng)站鏈接,提出“幫忙推薦服裝、選酒店、挑禮物”三個需求。Agent先自動抓取婚禮時間、地點(diǎn)和著裝要求,再查詢天氣并推薦適合的服裝,隨后跳轉(zhuǎn)到Booking.com查找酒店選項(xiàng),最后搜索禮物推薦。最終,Agent生成一份“婚禮準(zhǔn)備報(bào)告”,按服裝、酒店、禮物分類整理,附帶來源鏈接和截圖,完整交付給用戶。


▲ChatGPT Agent所生成的婚禮策劃(圖源:OpenAI)

二、Manus隔空叫板:十大對比,功能對齊,體驗(yàn)分化

ChatGPT Agent發(fā)布后,作為競品的Manus第一時間在X平臺發(fā)布多輪實(shí)測對比,主動“迎戰(zhàn)”。

從展示效果來看,Manus通過可視化呈現(xiàn)、跨平臺操作和交付形式展示了自身優(yōu)勢,試圖證明其在任務(wù)閉環(huán)和最終輸出上的完整度優(yōu)于ChatGPT Agent;相比之下,ChatGPT Agent更多聚焦于基礎(chǔ)信息檢索和文本型交付,功能覆蓋相近,但在交互體驗(yàn)上呈現(xiàn)出不同方向。

具體案例呈現(xiàn):

1、案例1:新加坡公司選址與政府資助

Manus輸出完整調(diào)研資料和資助方案PPT,含生態(tài)概覽、政策詳情與圖片;ChatGPT Agent只生成基礎(chǔ)幻燈片,缺少要點(diǎn)總結(jié)與可視化呈現(xiàn)。


▲(圖源:Manus)

案例2:高收入FIRE模型

Manus完成包含城市生活成本、稅務(wù)規(guī)劃的完整PPT,含關(guān)鍵圖表和視覺元素;ChatGPT Agent只列出基礎(chǔ)生活成本清單,稅務(wù)信息方面并不完善,且無投資策略或可視化分析。


▲(圖源:Manus)

案例3:三日網(wǎng)球行程制定

Manus生成含每日日程、預(yù)算及訂票鏈接的可視化行程卡片;ChatGPT Agent輸出純文字行程,排版單調(diào)無整合。


▲(圖源:Manus)

案例4:舊金山ACFR財(cái)務(wù)表格

Manus整理2020-2024年財(cái)務(wù)數(shù)據(jù)并生成可視化預(yù)算趨勢PPT;ChatGPT Agent只生成無視覺呈現(xiàn)的財(cái)務(wù)表格。


▲(圖源:Manus)

案例5:電動車行業(yè)研究

Manus制作5頁完整PPT,包含行業(yè)增速圖表、旗幟等定制視覺元素;ChatGPT Agent停留在信息收集,未完成PPT交付。


▲(圖源:Manus)

案例6:篩選500美元以下風(fēng)衣

Manus整理符合條件的商品清單并生成對比文檔;ChatGPT Agent只停留在電商頁面截圖,無完整輸出。


▲(圖源:Manus)

案例7:英偉達(dá)估值建模(DCF模型)

Manus完成全流程,包括歷史財(cái)務(wù)數(shù)據(jù)抓取、WACC估算、現(xiàn)金流預(yù)測、敏感性分析和完整圖表輸出;ChatGPT Agent僅停留在搜索公開年報(bào)信息,未完成建模和分析。


▲(圖源:Manus)

案例8:季度財(cái)報(bào)拆分更新

Manus完成季度表格更新和PPT生成,ChatGPT Agent只完成基礎(chǔ)表格更新,無季度拆分和PPT。


▲(圖源:Manus)

案例9:預(yù)訂高評分壽司餐廳

Manus全流程完成訂座并返回確認(rèn)頁面,ChatGPT Agent只完成基礎(chǔ)餐廳信息檢索,無預(yù)訂動作。


▲餐廳預(yù)定成功界面(上)和Manus實(shí)操界面(下)(圖源:Manus)

案例10:查詢機(jī)票并篩選優(yōu)選航班

Manus完成可視化航班票價對比卡片,ChatGPT Agent僅展示網(wǎng)頁搜索信息,無可視化總結(jié)和篩選邏輯。


▲(圖源:Manus)

作為“參賽選手”,Manus的展示更側(cè)重自身產(chǎn)品優(yōu)勢,ChatGPT Agent實(shí)際效果如何,還需持續(xù)觀察更多用戶的真實(shí)體驗(yàn)反饋。

三、體驗(yàn)有驚喜也有槽點(diǎn):效率在線,復(fù)雜檢索還需人類兜底

社區(qū)實(shí)測也迅速給出了“褒貶對半開”的反饋。

X平臺用戶用Agent在20分鐘內(nèi)完成了FIRE計(jì)劃,稱相同服務(wù)在人類顧問處花費(fèi)可能高達(dá)5000美元。

ChatGPT Agent首先查找了本地稅收政策(溫哥華),分析了用戶的月均開支,測算出在30歲退休所需的儲蓄金額,接著生成了投資組合建議,并梳理出用戶此前未接觸過的稅務(wù)優(yōu)化策略,最后構(gòu)建了多個退休方案的對比情景,生成了一份完整的可下載PPT文件。


▲(圖源:X平臺)

他還補(bǔ)充道,Agent在生成電子表格和PPT上的能力最讓人印象深刻,但整體結(jié)果與他用Manus、Genspark等其他Agent工具的體驗(yàn)“差異不大”。在他看來,對沒用過這些工具的大多數(shù)人而言,ChatGPT Agent的能力“依然足夠震撼”。


▲(圖源:X平臺)

不過,ChatGPT Agent在社區(qū)的用戶反饋中也暴露出不少實(shí)際體驗(yàn)上的短板。不少用戶吐槽,在網(wǎng)頁交互過程中經(jīng)常出現(xiàn)卡頓或404錯誤,生成的PPT排版簡陋、審美效果較差,遇到稍微復(fù)雜的邏輯需求時,任務(wù)流程也往往需要頻繁中斷和人工修正。

沃頓商學(xué)院教授、AI研究者Ethan Mollick也分享了類似感受。他在X平臺稱,自己用ChatGPT Agent分析了Kaggle上的數(shù)據(jù)集,雖然Agent能夠順利完成分析流程并生成PPT和Excel文件,但初步結(jié)果中存在明顯的數(shù)據(jù)異常。只有在他提供反饋后,Agent才成功識別出問題并修正結(jié)果。


▲(圖源:X平臺)

Agent在執(zhí)行流程上已經(jīng)具備高效率,但在數(shù)據(jù)判斷和邏輯把控上仍然離不開人類監(jiān)督。

從跑分和社區(qū)反饋來看,ChatGPT Agent擅長處理指令明確、路徑清晰的任務(wù),比如生成婚禮準(zhǔn)備清單或根據(jù)財(cái)務(wù)數(shù)據(jù)制作PPT,在這類標(biāo)準(zhǔn)化流程中,Agent能夠高效執(zhí)行,顯著節(jié)省人工操作。

但遇到模糊指令或需要開放式判斷的任務(wù),比如整理行業(yè)隱性趨勢或挖掘未被報(bào)道的新聞線索時,Agent往往難以給出有效結(jié)果,容易陷入“找不到”或“請明確需求”的反復(fù)循環(huán)。

四、跑分成績亮眼:擅長流程跑通,難在開放推理

在數(shù)據(jù)測評上,Agent模式在人文學(xué)科推理、金融分析、網(wǎng)頁交互和電子表格四大維度上對o3有不同程度領(lǐng)先,最高實(shí)現(xiàn)翻倍提升。

ChatGPT Agent在“人類的最后考試”(Humanity’s Last Exam)評估中取得41.6%的最高分,相比o3無工具模式(20.3%)實(shí)現(xiàn)翻倍提升,在跨學(xué)科專家級問題上展現(xiàn)了推理與工具調(diào)用能力。


▲Humanity’s Last Exam(來源:OpenAI)

DSBench聚焦數(shù)據(jù)分析類實(shí)際任務(wù),Agent在數(shù)據(jù)分析子任務(wù)中準(zhǔn)確率達(dá)到87.9%,顯著高于o3(64.1%),首次超越人類參考水平。在DSBench的數(shù)據(jù)建模子任務(wù)中,Agent準(zhǔn)確率達(dá)到85.5%,優(yōu)于o3(77.1%)和GPT-4o(45.5%),接近人類表現(xiàn)。


▲DSBench數(shù)據(jù)分析任務(wù)與DSBench數(shù)據(jù)建模任務(wù)(來源:OpenAI)

SpreadsheetBench測試Agent對電子表格的編輯操作,ChatGPT Agent在直接訪問.xlsx文件時,準(zhǔn)確率提升至45.5%,顯著優(yōu)于Copilot in Excel(20.0%),但與人類水平(71.3%)存在較大差距


▲電子表格任務(wù)(來源:OpenAI)

在投行分析師任務(wù)中,Agent完成復(fù)雜財(cái)務(wù)建模的準(zhǔn)確率達(dá)到71.3%,大幅領(lǐng)先o3(48.6%)和DeepResearch(55.9%)。


▲內(nèi)部投資銀行分析師任務(wù)評估(來源:OpenAI)

WebArena測試Agent在網(wǎng)頁交互任務(wù)的操作能力,ChatGPT Agent準(zhǔn)確率達(dá)到65.4%,超越o3和CUA模型,接近人類水平(78.2%)。


▲WebArena網(wǎng)頁交互基準(zhǔn)(58.1%)(來源:OpenAI)

BrowseComp用于評估Agent對長尾信息檢索任務(wù)的處理能力,ChatGPT Agent準(zhǔn)確率達(dá)到68.9%,比DeepResearch高出17.4個百分點(diǎn)。


▲復(fù)雜網(wǎng)頁信息檢索任務(wù)BrowseComp(來源:OpenAI)

ChatGPT Agent在DSBench、SpreadsheetBench、BrowseComp等流程化任務(wù)中表現(xiàn)亮眼,數(shù)據(jù)分析、表格編輯和網(wǎng)頁檢索準(zhǔn)確率大幅提升,部分任務(wù)超越人類水平。各類型任務(wù)相較于o3模型,Agent都實(shí)現(xiàn)了從10%到30%不同程度的提升。

結(jié)語:Agent潮起,OpenAI穩(wěn)步邁進(jìn)

ChatGPT Agent的發(fā)布再次證明Agent賽道正在加速進(jìn)化。整合多工具、接入個人數(shù)據(jù)、具備基礎(chǔ)執(zhí)行力,正逐漸成為Agent產(chǎn)品進(jìn)化的主流方向,但距離真正行業(yè)普及仍有不小距離。

這次,OpenAI并沒有交付一個“劃時代”版本,僅在個人助理和辦公場景邁出了一步穩(wěn)健但平淡的更新。

對用戶來說,ChatGPT Agent值得體驗(yàn),它確實(shí)讓一部分瑣碎事務(wù)可以交給AI代勞。但要說AI“重塑工作流”,顯然還為時尚早。OpenAI還在路上,Agent也還在半成品階段。它是一場值得肯定的進(jìn)步,但并不是一場值得興奮的飛躍。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
深度科普:中子星上也可能存在智慧生命,但人類無法與他們交流!

深度科普:中子星上也可能存在智慧生命,但人類無法與他們交流!

宇宙時空
2025-07-17 12:01:25
1200萬發(fā)炮彈抵俄,總攻將開始?特朗普翻臉,拉夫羅夫抵華交底

1200萬發(fā)炮彈抵俄,總攻將開始?特朗普翻臉,拉夫羅夫抵華交底

兵說
2025-07-17 23:57:38
山東泰山隊(duì)醞釀徹底變革:文旅退出,新資方入主,年輕化戰(zhàn)略啟航

山東泰山隊(duì)醞釀徹底變革:文旅退出,新資方入主,年輕化戰(zhàn)略啟航

體壇小鵬
2025-07-18 22:53:19
楊瀚森4戰(zhàn)43+20+15+9帽:首次得分未上雙卻更顯全能 率隊(duì)4戰(zhàn)3勝

楊瀚森4戰(zhàn)43+20+15+9帽:首次得分未上雙卻更顯全能 率隊(duì)4戰(zhàn)3勝

醉臥浮生
2025-07-18 10:19:20
50萬解放軍武力統(tǒng)一臺灣,馬英九:朝鮮戰(zhàn)爭讓臺灣有了喘息機(jī)會

50萬解放軍武力統(tǒng)一臺灣,馬英九:朝鮮戰(zhàn)爭讓臺灣有了喘息機(jī)會

歷史縱觀
2025-07-06 23:30:14
張又俠上將:我這一生最痛快的一天,莫過于7月12日!

張又俠上將:我這一生最痛快的一天,莫過于7月12日!

深度報(bào)
2025-07-15 21:43:44
叔叔宗繼昌律師發(fā)聲:宗慶后晚年承認(rèn)外有三孩子,說不會虧待他們

叔叔宗繼昌律師發(fā)聲:宗慶后晚年承認(rèn)外有三孩子,說不會虧待他們

興史興談
2025-07-14 15:41:56
河北20歲女大學(xué)生嫌奶奶做敷衍菜,網(wǎng)友看不下去:這么熱你自己做

河北20歲女大學(xué)生嫌奶奶做敷衍菜,網(wǎng)友看不下去:這么熱你自己做

阿龍美食記
2025-07-16 14:58:26
中國女排副攻陳厚羽,唯一的缺點(diǎn)就是太可愛了,好在趙勇知人善任

中國女排副攻陳厚羽,唯一的缺點(diǎn)就是太可愛了,好在趙勇知人善任

阿覽
2025-07-17 22:25:09
最新消息!川西墜河6母女中的大明玉找到了,丈夫回憶兩人過往

最新消息!川西墜河6母女中的大明玉找到了,丈夫回憶兩人過往

九方魚論
2025-07-18 19:44:39
中國為啥還不收臺灣?唐湘龍的解釋是我聽過的最好的回答

中國為啥還不收臺灣?唐湘龍的解釋是我聽過的最好的回答

阿器談史
2025-03-19 17:18:43
海港豪取中超四連勝!343天第一次,8戰(zhàn)亞泰全勝,連刷5紀(jì)錄

海港豪取中超四連勝!343天第一次,8戰(zhàn)亞泰全勝,連刷5紀(jì)錄

奧拜爾
2025-07-18 18:48:38
民間故事:尼姑書生同處破廟避雨,一番云雨,尼姑說:我們不該這樣

民間故事:尼姑書生同處破廟避雨,一番云雨,尼姑說:我們不該這樣

上古螃蟹
2025-04-09 10:12:44
結(jié)婚25年難抵現(xiàn)實(shí)殘酷,陳婷把張藝謀熬成爹,年齡差距終究是道坎

結(jié)婚25年難抵現(xiàn)實(shí)殘酷,陳婷把張藝謀熬成爹,年齡差距終究是道坎

白面書誏
2025-07-18 12:42:37
那些幫康熙除掉鰲拜的“布庫少年”,他們最終結(jié)局如何?

那些幫康熙除掉鰲拜的“布庫少年”,他們最終結(jié)局如何?

大千世界觀
2025-07-18 17:01:03
涉嫌嚴(yán)重違紀(jì)違法,珠海市紀(jì)委監(jiān)委原調(diào)研員萬良主動投案

涉嫌嚴(yán)重違紀(jì)違法,珠海市紀(jì)委監(jiān)委原調(diào)研員萬良主動投案

極目新聞
2025-07-18 10:57:36
遠(yuǎn)東集團(tuán)賺大陸錢捐“臺獨(dú)”?被大陸精準(zhǔn)反制后,發(fā)展如何?

遠(yuǎn)東集團(tuán)賺大陸錢捐“臺獨(dú)”?被大陸精準(zhǔn)反制后,發(fā)展如何?

芳芳?xì)v史燴
2025-07-17 19:25:55
李連杰大大方方地承認(rèn)了:對,我有

李連杰大大方方地承認(rèn)了:對,我有

猛哥的搞笑視頻
2025-07-17 21:27:32
美債最大“接盤俠”誕生,瘋狂買走1.5萬億,但不是英國、日本

美債最大“接盤俠”誕生,瘋狂買走1.5萬億,但不是英國、日本

任紀(jì)煙
2025-06-10 20:16:18
天塌了!這些東西用了20年,今天才告訴我“用錯了”?真無語

天塌了!這些東西用了20年,今天才告訴我“用錯了”?真無語

三農(nóng)老歷
2025-07-17 04:09:39
2025-07-19 01:32:49
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級。
10170文章數(shù) 116802關(guān)注度
往期回顧 全部

科技要聞

凌晨,OpenAI重磅更新,Manus們算白忙活嗎

頭條要聞

娃哈哈員工:宗慶后曾欲將51%股份給長子 宗馥莉僅40%

頭條要聞

娃哈哈員工:宗慶后曾欲將51%股份給長子 宗馥莉僅40%

體育要聞

夏聯(lián)-楊瀚森8+8+5+3帽 開拓者大勝火箭

娛樂要聞

王琳自曝被兒子打,承認(rèn)自己水性楊花

財(cái)經(jīng)要聞

娃哈哈爭產(chǎn)大戰(zhàn):杜建英的進(jìn)擊

汽車要聞

售30萬?方程豹鈦7高配版有激光雷達(dá)/車載無人機(jī)

態(tài)度原創(chuàng)

藝術(shù)
本地
旅游
親子
公開課

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

換個城市過夏天 | 誰打翻了濰坊的調(diào)色盤?

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

親子要聞

兒科醫(yī)生反向科普:如果你想讓孩子慢慢變笨,應(yīng)該怎么做? #睡個好覺

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 吴桥县| 桦南县| 牡丹江市| 临猗县| 新宾| 临洮县| 玛曲县| 曲周县| 新平| 张家口市| 安顺市| 博爱县| 兴化市| 定南县| 兖州市| 津市市| 股票| 盐池县| 聊城市| 汉寿县| 焦作市| 赫章县| 武城县| 来安县| 富裕县| 乡宁县| 财经| 仲巴县| 巴塘县| 襄樊市| 横峰县| 宁武县| 白沙| 承德市| 迭部县| 布拖县| 蚌埠市| 文安县| 营山县| 海盐县| 南投县|