大數(shù)據(jù)文摘出品
昨天,OpenAI在凌晨正式推出了全新的“ChatGPT Agent”,這一產(chǎn)品整合了此前的Operator和DeepResearch兩大系統(tǒng)。
Operator善于網(wǎng)頁(yè)互動(dòng),能像人一樣瀏覽網(wǎng)站、點(diǎn)擊按鈕、填寫表單,但它讀文章太慢,需要慢慢滾動(dòng)。
DeepResearch擅長(zhǎng)信息挖掘,能從全網(wǎng)抓取材料、整合分析并生成研究報(bào)告,但它基本不會(huì)和網(wǎng)頁(yè)互動(dòng)。
一個(gè)慢工細(xì)磨,一個(gè)信息狂魔。OpenAI最終決定把兩者的長(zhǎng)處整合,推出“統(tǒng)一的Agent系統(tǒng)”。
這個(gè)Agent能同時(shí)調(diào)度文本瀏覽器、圖形界面瀏覽器和代碼終端,還跑在一個(gè)虛擬機(jī)中。
這意味著,它不只是讀網(wǎng)頁(yè)、分析網(wǎng)頁(yè),還能執(zhí)行代碼、訪問API、創(chuàng)建文檔,真正具備“工具使用能力”。
OpenAI稱之為“agentic能力”:自主選工具,自動(dòng)完成任務(wù)。
一、它究竟能做什么?
OpenAI官網(wǎng): https://openai.com/zh-Hans-CN/index/introducing-chatgpt-agent/
這個(gè)Agent可以完成一整套復(fù)雜任務(wù),而不是只回答問題。比如,它可以幫你制定早餐菜單、查價(jià)格、比對(duì)營(yíng)養(yǎng)、列清單、生成購(gòu)物鏈接。
還能幫你分析競(jìng)爭(zhēng)對(duì)手,寫分析報(bào)告,順手做個(gè)PPT。還可以抓取最新的日程變動(dòng)新聞,自動(dòng)更新你的日歷和提醒事項(xiàng)。
所有這些,不是靠插件,而是它自己在“動(dòng)手”。
Agent會(huì)在執(zhí)行中自行判斷,是該打開圖形界面瀏覽器,還是用文本版瀏覽器,或者該寫段代碼。
它能主動(dòng)登錄網(wǎng)站,篩選信息,提取結(jié)果,還能生成可編輯文檔,比如Excel表格或幻燈片。
更重要的是,它不會(huì)盲目行動(dòng)。在執(zhí)行任何有后果的操作前,它會(huì)先征求用戶確認(rèn)。你也可以隨時(shí)打斷它的行為,手動(dòng)接管。它還會(huì)主動(dòng)提問,如果不清楚目標(biāo)或數(shù)據(jù)不全,就會(huì)暫停任務(wù)請(qǐng)求更多信息。
此外,核心模型在多項(xiàng)基準(zhǔn)測(cè)試中刷新紀(jì)錄。在被稱為“人類最后的考試”的HLE測(cè)試中拿下41.6的高分。低于馬斯克的Gork 4 heavy。
在復(fù)雜數(shù)學(xué)基準(zhǔn)FrontierMath中準(zhǔn)確率達(dá)27.4%。在SpreadsheetBench中,它在電子表格處理上也超過了現(xiàn)有AI工具Copilot。
瀏覽器測(cè)試BrowseComp中,它比DeepResearch高出17.4個(gè)百分點(diǎn)。
這套系統(tǒng)如今面向Pro、Plus和Team用戶開放,未來將逐步覆蓋企業(yè)與教育用戶。
不過,PPT功能仍處于beta階段,OpenAI也承認(rèn)目前生成內(nèi)容較為粗糙。
關(guān)于額度,Pro用戶每月可使用400次,Plus與Team用戶為40次。首次允許用戶購(gòu)買額外次數(shù)。
使用方式就在GPT網(wǎng)頁(yè)的工具一欄。(目前小編的這個(gè)功能還沒給開放o(╥﹏╥)o)
二、能力提升背后的代價(jià)
擁有強(qiáng)大行動(dòng)力的Agent,也意味著帶來更高的安全風(fēng)險(xiǎn)。OpenAI承認(rèn):新Agent的整體風(fēng)險(xiǎn)水平“更高”。
最突出的風(fēng)險(xiǎn)之一是“提示注入攻擊”。即黑客通過網(wǎng)頁(yè)中的隱藏命令欺騙Agent執(zhí)行不當(dāng)操作。
OpenAI為此進(jìn)行了針對(duì)性訓(xùn)練,讓模型識(shí)別這類威脅。它還設(shè)有實(shí)時(shí)監(jiān)控機(jī)制,對(duì)關(guān)鍵操作強(qiáng)制雙重確認(rèn)。
例如,發(fā)送郵件前會(huì)啟動(dòng)“觀察模式”監(jiān)控,銀行轉(zhuǎn)賬等高風(fēng)險(xiǎn)任務(wù)被默認(rèn)屏蔽。
OpenAI將這個(gè)Agent歸入“具備高度生物和化學(xué)能力”的模型級(jí)別。
根據(jù)其“安全準(zhǔn)備框架”,它已啟動(dòng)迄今最全面的安全體系。這包括構(gòu)建詳細(xì)威脅模型、部署專門分類器監(jiān)測(cè)濫用、建立異常行為升級(jí)流程。
還請(qǐng)來生物安全專家進(jìn)行“紅隊(duì)測(cè)試”,模擬真實(shí)攻擊。開發(fā)過程中,OpenAI與多家安全研究機(jī)構(gòu)展開合作。
此外,還開放了漏洞獎(jiǎng)勵(lì)計(jì)劃,邀請(qǐng)外部開發(fā)者尋找潛在風(fēng)險(xiǎn)。
隨著Agent與用戶日常操作融合更深,OpenAI將持續(xù)強(qiáng)化多層防護(hù)。
而與此同時(shí),Operator將被正式下線,其核心功能已被完全整合進(jìn)新Agent中。
三、Manus們的時(shí)間不多了,Agent賽道被徹底改寫
OpenAI的這次“親自下場(chǎng)”,對(duì)整個(gè)Agent行業(yè)格局造成了沖擊。
幾個(gè)月前,Manus曾被稱為“國(guó)產(chǎn)Agent的希望”,其展示的能力與這次OpenAI發(fā)布的Agent高度相似。
但不同的是,OpenAI不是做了一個(gè)“演示工具”,而是把這種能力“做進(jìn)了系統(tǒng)底層”。
Agent不再是工具集合,而是AI架構(gòu)的一部分。
這讓Manus式的初創(chuàng)路線面臨一個(gè)根本性問題:基礎(chǔ)設(shè)施層的機(jī)會(huì)已經(jīng)被巨頭鎖死。
就像朱嘯虎公開表示的那樣:“大模型會(huì)吃掉90%的Agent。”
AI產(chǎn)業(yè)的“二次演進(jìn)”,很可能從“對(duì)話代理”過渡到“行為代理”,而ChatGPT Agent就是這條路徑的起點(diǎn)。
過去一年,市場(chǎng)上出現(xiàn)了大量以Agent為賣點(diǎn)的AI創(chuàng)業(yè)公司。
但它們很多只是簡(jiǎn)單把幾個(gè)開源工具粘在一起,跑個(gè)流程演示,缺乏對(duì)系統(tǒng)能力的整合。
而ChatGPT Agent的出現(xiàn),把“粘合工具”的玩家一夜之間打回了原形。
更殘酷的是,OpenAI Agent的迭代方式已從靜態(tài)微調(diào)轉(zhuǎn)向“端到端強(qiáng)化學(xué)習(xí)”。
這意味著,模型通過真實(shí)任務(wù)來訓(xùn)練“動(dòng)手能力”,其學(xué)習(xí)方式與人類更接近,升級(jí)速度更快。
如今,再看當(dāng)時(shí)奧特曼有點(diǎn)狂的話語(yǔ),是不是值得一些初創(chuàng)企業(yè)思考思考?
作者長(zhǎng)期關(guān)注 AI 產(chǎn)業(yè)與學(xué)術(shù),歡迎對(duì)這些方向感興趣的朋友添加微信Q1yezi,共同交流行業(yè)動(dòng)態(tài)與技術(shù)趨勢(shì)!
GPU 訓(xùn)練特惠!
H100/H200 GPU算力按秒計(jì)費(fèi),平均節(jié)省開支30%以上!
掃碼了解詳情?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.