過去大半年,Agent(智能體)是 AI 行業(yè)最常被提及的概念之一。
幾乎所有廠商都在講 Agent,概念不缺,demo 也不少,但真正做到產(chǎn)品級(jí)落地,始終缺一套完整的執(zhí)行系統(tǒng)——既能理解復(fù)雜目標(biāo),又能調(diào)用多種工具串聯(lián)任務(wù)流程,還要隨時(shí)支持任務(wù)中斷、修改與恢復(fù),真正貼合任務(wù)流。
就在剛剛,OpenAI 正式發(fā)布 ChatGPT Agent 功能。
通過整合 Operator + Deep Research + ChatGPT 本體,用戶只需描述任務(wù),ChatGPT Agent 就能自主判斷所需工具,自動(dòng)訪問網(wǎng)頁、提取信息、運(yùn)行代碼、生成 PPT 或表格等,并可在執(zhí)行過程中實(shí)時(shí)展示相應(yīng)步驟、接受臨時(shí)中斷和修改指令。
看到這,你或許有種似曾相識(shí)的感覺。ChatGPT 這個(gè)新功能其實(shí)與 3 月份大火的 Manus 在體驗(yàn)層面頗為相似,而 Manus 也正面回應(yīng)了 OpenAI 這位競(jìng)爭(zhēng)對(duì)手的入場(chǎng)。
凌晨發(fā)布會(huì)結(jié)束后,OpenAI CEO Sam Altman 在社交媒體上寫道:
觀看 ChatGPT Agent 使用計(jì)算機(jī)完成復(fù)雜任務(wù),對(duì)我來說是一個(gè)真正的「感受 AGI」時(shí)刻;看到計(jì)算機(jī)思考、計(jì)劃和執(zhí)行,有種與眾不同的感覺。
亮點(diǎn)如下:
ChatGPT Agent 將 Operator、Deep Research 與 ChatGPT 本體三合一,構(gòu)建了一個(gè)統(tǒng)一智能體系統(tǒng);
內(nèi)置圖形/文本瀏覽器、終端和 API 調(diào)用器等工具,支持手機(jī)端使用,任務(wù)完成后可自動(dòng)推送結(jié)果;
可連接 Gmail、GitHub 等第三方應(yīng)用,深度嵌入用戶真實(shí)工作流;
在多項(xiàng)基準(zhǔn)測(cè)試中表現(xiàn)領(lǐng)先,綜合性能位居行業(yè)前列;
Pro 用戶每月享有 400 條調(diào)用額度,其他付費(fèi)用戶為 40 條,并支持按需擴(kuò)展配額;
ChatGPT Agent 正式上線,能購物,能寫 PPT,你的瀏覽器要被 AI 接管了
今天開始,你可以在任何對(duì)話中,通過聊天界面左下角的「工具」下拉菜單,選擇「Agent 模式」來啟用這一功能。
輸入你想完成的任務(wù),ChatGPT Agent 就能瀏覽網(wǎng)站、篩選結(jié)果、在需要時(shí)安全提示你登錄、運(yùn)行代碼、執(zhí)行分析,PPT、電子表格等任務(wù)也都能信手拈來。
整個(gè)執(zhí)行過程是可視的——操作步驟會(huì)實(shí)時(shí)顯示在屏幕上,用戶可以隨時(shí)中斷、修改指令,甚至手動(dòng)接管瀏覽器繼續(xù)操作,確保任務(wù)始終符合你的目標(biāo)和需求。
在今天凌晨的演示中,OpenAI 展示了 ChatGPT Agent 在真實(shí)場(chǎng)景中的應(yīng)用能力。
比如,為即將出席的婚禮做準(zhǔn)備,一直是個(gè)難題。現(xiàn)在只需發(fā)出請(qǐng)求,ChatGPT Agent 迅速搭建虛擬環(huán)境,自主判斷應(yīng)調(diào)用瀏覽器、文本解析器還是終端,并開始依次調(diào)取婚禮日期、查詢場(chǎng)地天氣、推薦西裝搭配、篩選酒店。
在這個(gè)過程中,模型可以與 OpenAI 研究員進(jìn)行互動(dòng),并在適當(dāng)節(jié)點(diǎn)請(qǐng)求確認(rèn)需求,而執(zhí)行這樣一個(gè)任務(wù)只需十分鐘左右。
更重要的是,用戶還可以隨時(shí)中斷任務(wù)。
比如當(dāng) Agent 在推薦西裝過程中,OpenAI 研究員臨時(shí)插入了「幫我找一雙 9.5 碼黑色正裝鞋」的請(qǐng)求,模型立刻暫停當(dāng)前任務(wù),轉(zhuǎn)而處理新需求。
同樣地,當(dāng) Agent 認(rèn)為有必要時(shí),也會(huì)主動(dòng)向你請(qǐng)求更多信息,確保任務(wù)始終與你的目標(biāo)保持一致。如果任務(wù)超出預(yù)期時(shí)間或出現(xiàn)卡頓,你可以選擇暫停任務(wù)、請(qǐng)求進(jìn)度摘要,或直接終止任務(wù)并獲取已有的部分結(jié)果。
「這種可打斷、可多輪對(duì)話的機(jī)制,是我們這次訓(xùn)練模型的重點(diǎn)之一,」OpenAI 研究員解釋道。
這一能力背后,是 ChatGPT Agent 對(duì)三大系統(tǒng)的統(tǒng)一整合:Operator 提供網(wǎng)頁交互能力,支持自動(dòng)滾動(dòng)、點(diǎn)擊、填表;Deep Research 擅長信息整合與分析;ChatGPT 本體則負(fù)責(zé)自然語言理解與智能推理。
ChatGPT Agent 是通過強(qiáng)化學(xué)習(xí)在復(fù)雜的任務(wù)中訓(xùn)練出來的,過去三者各有短板——前者難以深入分析,后者無法操作網(wǎng)頁,而 Agent 將三者優(yōu)勢(shì)整合為一體,并輔以瀏覽器、終端、API 調(diào)用器等工具,形成一個(gè)完整的執(zhí)行系統(tǒng)。
用戶不僅可以在桌面端啟動(dòng) Agent 模式,在手機(jī)端也同樣適用。
任務(wù)完成后還將自動(dòng)推送結(jié)果通知。在第二個(gè)演示任務(wù)中,OpenAI 研究員在 ChatGPT App 上傳了團(tuán)隊(duì)吉祥物 Bernie Doodle 的貼紙圖案,Agent 自動(dòng)調(diào)用圖像生成 API 設(shè)計(jì)貼紙樣式,通過瀏覽器訪問電商平臺(tái)完成比價(jià)、樣式選擇、購物車添加,最終整理出定制 500 份貼紙的下單明細(xì)。
當(dāng)然,為確保流程安全、靈活且清晰可控,面對(duì)涉及金額的支付環(huán)節(jié),則只會(huì)由用戶手動(dòng)接管瀏覽器完成。
通過連接器,用戶還可將 Gmail、GitHub 等日常應(yīng)用接入 ChatGPT,讓模型讀取郵件、日歷或代碼庫等上下文內(nèi)容,并執(zhí)行諸如總結(jié)今天的郵箱內(nèi)容或查找下周空閑會(huì)議時(shí)間等任務(wù)。
一個(gè)更典型的應(yīng)用場(chǎng)景是,OpenAI 研究員能夠讓 ChatGPT Agent 匯總自己在多項(xiàng)基準(zhǔn)測(cè)試中的表現(xiàn),并制作成 PPT。收到命令后,Agent 成功調(diào)用 Google Drive 連接器讀取數(shù)據(jù)文件,用終端編寫代碼繪制圖表,并完成任務(wù)。
這類自動(dòng)化能力,都是 Agent 深度嵌入工作流的體現(xiàn)。
不過,可以看到,ChatGPT Agent 生成的 PPT 在設(shè)計(jì)審美方面表現(xiàn)比較一般,并且,雖然可以上傳電子表格供 ChatGPT 編輯或作為模板使用,但生成的 PPT 暫不支持二次修改。
需要說明的是,OpenAI 并不是讓 Agent 像人一樣打開 PPT或 Excel 文件,通過點(diǎn)擊來插入文本框和公式,而是直接生成代碼來創(chuàng)建文檔。這種做法的好處是可以利用模型在代碼編寫方面的天然優(yōu)勢(shì),避免因模擬點(diǎn)擊操作帶來的效率低下或出錯(cuò),也降低了對(duì)計(jì)算資源的消耗。
The Information 報(bào)道指出,如果 ChatGPT 要直接編輯 PPT 或 Excel 文件,就需要啟動(dòng)一臺(tái)「虛擬機(jī)」(即通過 ChatGPT 運(yùn)行的虛擬計(jì)算機(jī)環(huán)境),這會(huì)占用更多計(jì)算資源。
而直接生成代碼則更輕量、高效。盡管潛力巨大,但就目前來看,這一功能短期內(nèi)很難對(duì)微軟的 Office 或者 Google Workspace 造成沖擊。
對(duì)于 ChatGPT Agent 功能,Pro 用戶將在今天之內(nèi)獲得訪問權(quán)限;Plus 與 Team 用戶將在接下來的幾天內(nèi)陸續(xù)開放;企業(yè)版和教育版將在未來幾周內(nèi)陸續(xù)上線。
Pro 用戶每月可使用 400 次,主打一個(gè)量大管飽,而其他付費(fèi)用戶每月可使用 40 次,并可通過彈性積分方案購買更多額度。
全線刷新「跑分」記錄,Agent 戰(zhàn)場(chǎng)迎來最強(qiáng)對(duì)手
ChatGPT Agent 能力的提升,也體現(xiàn)在「跑分」環(huán)節(jié)。
在評(píng)估 AI 解決跨學(xué)科專家級(jí)問題的基準(zhǔn)測(cè)試 Humanity’s Last Exam(HLE)中,ChatGPT Agent 以 41.6 的 pass@1 得分刷新紀(jì)錄。在啟用并行執(zhí)行策略后,該得分進(jìn)一步提升至 44.4。
在目前被認(rèn)為最具挑戰(zhàn)性的數(shù)學(xué)基準(zhǔn) FrontierMath 中,面對(duì)難度極高、從未公開的題目,ChatGPT Agent 在具備終端代碼執(zhí)行能力的前提下,取得了 27.4% 的準(zhǔn)確率,遠(yuǎn)高于此前模型。
在這一復(fù)雜且高經(jīng)濟(jì)價(jià)值的知識(shí)型工作任務(wù)的內(nèi)部基準(zhǔn)測(cè)試中,ChatGPT Agent 在約一半的任務(wù)中輸出質(zhì)量已達(dá)到甚至超過人類水平,表現(xiàn)也顯著優(yōu)于 o3 和 o4-mini 模型。
在一個(gè)內(nèi)部的投行建模任務(wù)基準(zhǔn)中,ChatGPT Agent 的表現(xiàn)也顯著優(yōu)于 Deep Research 和 o3 模型。每個(gè)任務(wù)都基于數(shù)百項(xiàng)關(guān)于公式正確性、格式規(guī)范等評(píng)分標(biāo)準(zhǔn)進(jìn)行評(píng)估。
此外,在公開評(píng)估模型信息查找能力的 BrowseComp 基準(zhǔn)上,Agent 以 68.9% 的準(zhǔn)確率刷新記錄,較 Deep Research 高出 17.4 個(gè)百分點(diǎn)。在 WebArena 評(píng)估中,其網(wǎng)頁任務(wù)執(zhí)行能力也優(yōu)于基于 o3 的 CUA 模型。
從平臺(tái)視角看,Agent 能力的底層接口,正是瀏覽器。
在 Perplexity AI CEO Aravind Srinivas 最近的采訪中,他表示瀏覽器將會(huì)是 AI 的「殺手級(jí)應(yīng)用」。在他看來,瀏覽器天然具備讓 AI 真正「動(dòng)起來」的全部條件。
不同于傳統(tǒng)聊天機(jī)器人,AI Agent 的理想形態(tài)不是停留在對(duì)話框中生成文本,而是具備實(shí)際行動(dòng)力——從訪問網(wǎng)頁、提取信息、填寫表單,到執(zhí)行跨平臺(tái)操作。而這一切,瀏覽器恰好具備所需的操作權(quán)限和上下文獲取能力。
瀏覽器可以直接讀取頁面、模擬點(diǎn)擊、自動(dòng)執(zhí)行任務(wù),幾乎無需額外授權(quán)。
在這個(gè)過程中,用戶與 AI 共處于同一個(gè)交互空間:AI 可以自動(dòng)執(zhí)行任務(wù),用戶也能隨時(shí)中斷或接管,避免黑盒操作帶來的不確定性。這種可控性與透明度,是當(dāng)前許多上下文協(xié)議仍難實(shí)現(xiàn)的能力。
如今,隨著 ChatGPT Agent 能力正式上線,所有聲稱要做 Agent 的廠商,恐怕都要重新審視自己的產(chǎn)品路徑。
當(dāng) ChatGPT 從語言交互工具,轉(zhuǎn)向具備協(xié)作、調(diào)度與承接任務(wù)能力的執(zhí)行系統(tǒng),開始接入用戶的真實(shí)工作流,Agent 的可用性門檻,也在此刻被實(shí)質(zhì)性地拉高。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.