網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

OpenAI 親自下場(chǎng)！全能ChatGPT Agent發(fā)布，Manus們危險(xiǎn)了

2025-07-22 11:49:05　來源: 大數(shù)據(jù)文摘

北京舉報(bào)

分享至

大數(shù)據(jù)文摘出品

昨天，OpenAI在凌晨正式推出了全新的“ChatGPT Agent”，這一產(chǎn)品整合了此前的Operator和DeepResearch兩大系統(tǒng)。

Operator善于網(wǎng)頁(yè)互動(dòng)，能像人一樣瀏覽網(wǎng)站、點(diǎn)擊按鈕、填寫表單，但它讀文章太慢，需要慢慢滾動(dòng)。

DeepResearch擅長(zhǎng)信息挖掘，能從全網(wǎng)抓取材料、整合分析并生成研究報(bào)告，但它基本不會(huì)和網(wǎng)頁(yè)互動(dòng)。

一個(gè)慢工細(xì)磨，一個(gè)信息狂魔。OpenAI最終決定把兩者的長(zhǎng)處整合，推出“統(tǒng)一的Agent系統(tǒng)”。

這個(gè)Agent能同時(shí)調(diào)度文本瀏覽器、圖形界面瀏覽器和代碼終端，還跑在一個(gè)虛擬機(jī)中。

這意味著，它不只是讀網(wǎng)頁(yè)、分析網(wǎng)頁(yè)，還能執(zhí)行代碼、訪問API、創(chuàng)建文檔，真正具備“工具使用能力”。

OpenAI稱之為“agentic能力”：自主選工具，自動(dòng)完成任務(wù)。

一、它究竟能做什么？

OpenAI官網(wǎng)： https://openai.com/zh-Hans-CN/index/introducing-chatgpt-agent/

這個(gè)Agent可以完成一整套復(fù)雜任務(wù)，而不是只回答問題。比如，它可以幫你制定早餐菜單、查價(jià)格、比對(duì)營(yíng)養(yǎng)、列清單、生成購(gòu)物鏈接。

還能幫你分析競(jìng)爭(zhēng)對(duì)手，寫分析報(bào)告，順手做個(gè)PPT。還可以抓取最新的日程變動(dòng)新聞，自動(dòng)更新你的日歷和提醒事項(xiàng)。

所有這些，不是靠插件，而是它自己在“動(dòng)手”。

Agent會(huì)在執(zhí)行中自行判斷，是該打開圖形界面瀏覽器，還是用文本版瀏覽器，或者該寫段代碼。

它能主動(dòng)登錄網(wǎng)站，篩選信息，提取結(jié)果，還能生成可編輯文檔，比如Excel表格或幻燈片。

更重要的是，它不會(huì)盲目行動(dòng)。在執(zhí)行任何有后果的操作前，它會(huì)先征求用戶確認(rèn)。你也可以隨時(shí)打斷它的行為，手動(dòng)接管。它還會(huì)主動(dòng)提問，如果不清楚目標(biāo)或數(shù)據(jù)不全，就會(huì)暫停任務(wù)請(qǐng)求更多信息。

此外，核心模型在多項(xiàng)基準(zhǔn)測(cè)試中刷新紀(jì)錄。在被稱為“人類最后的考試”的HLE測(cè)試中拿下41.6的高分。低于馬斯克的Gork 4 heavy。

在復(fù)雜數(shù)學(xué)基準(zhǔn)FrontierMath中準(zhǔn)確率達(dá)27.4%。在SpreadsheetBench中，它在電子表格處理上也超過了現(xiàn)有AI工具Copilot。

瀏覽器測(cè)試BrowseComp中，它比DeepResearch高出17.4個(gè)百分點(diǎn)。

這套系統(tǒng)如今面向Pro、Plus和Team用戶開放，未來將逐步覆蓋企業(yè)與教育用戶。

不過，PPT功能仍處于beta階段，OpenAI也承認(rèn)目前生成內(nèi)容較為粗糙。

關(guān)于額度，Pro用戶每月可使用400次，Plus與Team用戶為40次。首次允許用戶購(gòu)買額外次數(shù)。

使用方式就在GPT網(wǎng)頁(yè)的工具一欄。（目前小編的這個(gè)功能還沒給開放o(╥﹏╥)o）

二、能力提升背后的代價(jià)

擁有強(qiáng)大行動(dòng)力的Agent，也意味著帶來更高的安全風(fēng)險(xiǎn)。OpenAI承認(rèn)：新Agent的整體風(fēng)險(xiǎn)水平“更高”。

最突出的風(fēng)險(xiǎn)之一是“提示注入攻擊”。即黑客通過網(wǎng)頁(yè)中的隱藏命令欺騙Agent執(zhí)行不當(dāng)操作。

OpenAI為此進(jìn)行了針對(duì)性訓(xùn)練，讓模型識(shí)別這類威脅。它還設(shè)有實(shí)時(shí)監(jiān)控機(jī)制，對(duì)關(guān)鍵操作強(qiáng)制雙重確認(rèn)。

例如，發(fā)送郵件前會(huì)啟動(dòng)“觀察模式”監(jiān)控，銀行轉(zhuǎn)賬等高風(fēng)險(xiǎn)任務(wù)被默認(rèn)屏蔽。

OpenAI將這個(gè)Agent歸入“具備高度生物和化學(xué)能力”的模型級(jí)別。

根據(jù)其“安全準(zhǔn)備框架”，它已啟動(dòng)迄今最全面的安全體系。這包括構(gòu)建詳細(xì)威脅模型、部署專門分類器監(jiān)測(cè)濫用、建立異常行為升級(jí)流程。

還請(qǐng)來生物安全專家進(jìn)行“紅隊(duì)測(cè)試”，模擬真實(shí)攻擊。開發(fā)過程中，OpenAI與多家安全研究機(jī)構(gòu)展開合作。

此外，還開放了漏洞獎(jiǎng)勵(lì)計(jì)劃，邀請(qǐng)外部開發(fā)者尋找潛在風(fēng)險(xiǎn)。

隨著Agent與用戶日常操作融合更深，OpenAI將持續(xù)強(qiáng)化多層防護(hù)。

而與此同時(shí)，Operator將被正式下線，其核心功能已被完全整合進(jìn)新Agent中。

三、Manus們的時(shí)間不多了，Agent賽道被徹底改寫

OpenAI的這次“親自下場(chǎng)”，對(duì)整個(gè)Agent行業(yè)格局造成了沖擊。

幾個(gè)月前，Manus曾被稱為“國(guó)產(chǎn)Agent的希望”，其展示的能力與這次OpenAI發(fā)布的Agent高度相似。

但不同的是，OpenAI不是做了一個(gè)“演示工具”，而是把這種能力“做進(jìn)了系統(tǒng)底層”。

Agent不再是工具集合，而是AI架構(gòu)的一部分。

這讓Manus式的初創(chuàng)路線面臨一個(gè)根本性問題：基礎(chǔ)設(shè)施層的機(jī)會(huì)已經(jīng)被巨頭鎖死。

就像朱嘯虎公開表示的那樣：“大模型會(huì)吃掉90%的Agent。”

AI產(chǎn)業(yè)的“二次演進(jìn)”，很可能從“對(duì)話代理”過渡到“行為代理”，而ChatGPT Agent就是這條路徑的起點(diǎn)。

過去一年，市場(chǎng)上出現(xiàn)了大量以Agent為賣點(diǎn)的AI創(chuàng)業(yè)公司。

但它們很多只是簡(jiǎn)單把幾個(gè)開源工具粘在一起，跑個(gè)流程演示，缺乏對(duì)系統(tǒng)能力的整合。

而ChatGPT Agent的出現(xiàn)，把“粘合工具”的玩家一夜之間打回了原形。

更殘酷的是，OpenAI Agent的迭代方式已從靜態(tài)微調(diào)轉(zhuǎn)向“端到端強(qiáng)化學(xué)習(xí)”。

這意味著，模型通過真實(shí)任務(wù)來訓(xùn)練“動(dòng)手能力”，其學(xué)習(xí)方式與人類更接近，升級(jí)速度更快。

如今，再看當(dāng)時(shí)奧特曼有點(diǎn)狂的話語(yǔ)，是不是值得一些初創(chuàng)企業(yè)思考思考？

作者長(zhǎng)期關(guān)注 AI 產(chǎn)業(yè)與學(xué)術(shù)，歡迎對(duì)這些方向感興趣的朋友添加微信Q1yezi，共同交流行業(yè)動(dòng)態(tài)與技術(shù)趨勢(shì)！

GPU 訓(xùn)練特惠！

H100/H200 GPU算力按秒計(jì)費(fèi)，平均節(jié)省開支30%以上！

掃碼了解詳情?

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.