網易首頁 > 網易號 > 正文申請入駐

OpenAI發布ChatGPT Agent：AI"代理人"已至，人類準備好交出操作權了嗎？

2025-07-18 12:44:12　來源: 鈦媒體APP

北京舉報

分享至

文 | 大模型之家

北京時間7月18日凌晨，OpenAI如約發布了其最新力作——ChatGPT Agent。

根據CEO Sam Altman和四位OpenAI研究員介紹，ChatGPT Agent是一個具備自主執行復雜任務能力的AI Agent，它不再僅僅“對話”，而是可以打開虛擬機，完成搜索、篩選、判斷、執行等一整套流程，最終輸出可交付的結果。

ChatGPT Agent的定位非常“簡單直接”：一個擁有終端、圖形瀏覽器、文本瀏覽器的多工具整合智能體系統。功能上，幾乎等于一個受控的遠程虛擬操作系統。

值得注意的是，ChatGPT Agent可以說是OpenAI自今年以來推出產品的一次階段性整合與釋放：Operator和Deep Research，一個偏執行，一個偏思考，如今徹底融合。

AI真正開始“動手”：ChatGPT Agent的能力邊界

與如今大火的“智能體”賽道的產品類似，ChatGPT Agent的最大變化，是讓AI真正獲得了對數字世界的“動手”能力。Agent模式下，用戶不再是通過提示詞一步步引導ChatGPT生成答案，而是描述一個需求后，模型啟動虛擬機，自主規劃任務、調度工具、完成執行。

在演示中，OpenAI展現了其三大基礎能力組件：文本瀏覽器、可視化瀏覽器和終端。

文本瀏覽器的職責是爬梳大量信息，完成閱讀和篩選。它適合處理長文內容、查找具體數據或者跟蹤文獻，是Deep Research的延續；可視化瀏覽器則具備界面識別與交互能力，比如可以點擊網頁按鈕、識別圖像、進行鼠標操作等；終端部分支持代碼執行、API調用和復雜文件生成——如PPT、Excel、數據分析腳本等。

這些能力的協同，使Agent具備了完整的“感知-決策-執行”鏈路。比如在一次旅行安排任務中，它先用文本瀏覽器分析網頁信息、提取天氣與禮儀信息，再切換至可視化瀏覽器挑選合適禮服，最后生成整合報告。整個任務歷時僅十分鐘，遠遠快于人類的處理效率。

更復雜的場景中，Agent還能夠自動調用圖像生成API設計貼紙，然后在網站上上傳圖像、填寫參數、放入購物車，最后請用戶確認是否付款。在另一個演示中，Agent還連接了Google Drive，提取文檔并自動生成PPT；或將日程數據匯總為帶地圖的電子表格行程表。

這些能力讓Agent不僅適用于內容生成，更適用于事務型任務處理，意味著它從“信息輔助”跨越到“決策+執行”。在辦公場景中，Agent可以完成會議安排、報告撰寫、差旅預訂等一系列中層管理事務。在生活場景中，它能規劃婚禮、生成資料、預約專家等個性化需求。用一個略顯理想主義但已逐步接近現實的說法：ChatGPT Agent，是人人都可以擁有的“高效執行助理”。

基準測試成績：Agent能力更接近人類水平

與以往OpenAI擅長的語言能力不同，Agent的測試指標更偏向執行能力和任務完成度。在這方面，ChatGPT Agent通過了多個廣受認可的專業評測，其結果呈現出一次系統性的躍遷。

在“人類的最后一場大考”（Humanities Last Exam）中，ChatGPT Agent獲得了41.6%的成績，幾乎是不帶工具模型的兩倍。這項測試不僅包含復雜的推理與信息調度任務，還考察模型的工具調度能力。在使用終端、瀏覽器等資源的前提下，Agent表現出對任務流程的高度掌控。

在WebArena這個網頁交互能力評測中，Agent的得分已經接近人類水平。而在SpreadsheetBench，即電子表格操作能力的標準測評中，其分數達到45.5%，較GPT-4o提升一倍。

尤其值得一提的是DSBench測試，它用于衡量數據分析與建模任務的能力。Agent在這一測試中超過了所有此前的SOTA（state-of-the-art）模型，明確表明其在面對現實數據分析任務中，不僅可用，而且強大。

這些數字背后，是OpenAI在工具調度、任務分解、推理執行上的系統性優化。可以說，ChatGPT Agent已不再局限于“語言智能”，而是進入“操作智能”的新階段。

Operator和Deep Research子產品的融合

在大模型之家看來，ChatGPT Agent并不是從零起步的“創新”：其核心其實是Operator和Deep Research兩個子產品的融合。

Operator是今年初推出的圖形界面Agent工具，支持鼠標模擬點擊、滾動等界面操作；Deep Research則是一個偏內容分析和信息整合的工具，擅長處理復雜文字材料并輸出結構化結果。兩者原本分別服務不同需求，但用戶使用行為暴露出兩者之間的邊界并不清晰。

許多Operator用戶在提示詞中描述的任務，其實更像是深度調研；而Deep Research的高階用戶，又頻繁表達對圖形交互的訴求。

這使OpenAI做出順理成章的決策：合并兩個工具，并在一個統一的模型訓練框架下，用強化學習方法教會模型如何調度工具。具體方法是模型從“笨拙地”亂用工具開始，通過獎勵高效行為逐漸掌握何時使用哪個工具、在哪一步執行操作。

這個過程類似于AI界所熟知的Curriculum Learning（課程學習）策略，從簡入繁，在逐步暴露復雜問題之前先引導其掌握基礎邏輯。強化學習在這里的作用不僅僅是讓模型“能用”工具，而是“用得巧”，用得靈活。

這種組合式的工程化思維并不新鮮，但放在OpenAI此時此刻的體系中，它是一種極高效的資源整合，既降低開發風險，又釋放實際能力，是對“AI工具生態”合理性的回應。

Agent不是終點，而是通往應用未來的橋梁

ChatGPT Agent的誕生，不只是對工具融合的一次技術實現，更是對“大模型如何走進現實”的階段性回答。從ChatGPT的出現開始，逐漸理解語言模型的強大；從GPT-4o開始看見多模態推理的邊界；而現在，Agent將“思考”與“動手”統一，標志著AI真正有可能完成從“助手”向“代理人”角色的轉變。

從開放的任務執行結構來看，Agent模式更像是未來操作系統的一種雛形：具備動態調度資源、主動規劃流程、與人類深度交互的能力。它并不重定義AI模型本身，而是重塑了人與AI協作的界面與方法。

OpenAI將這套能力下放到Plus、Team乃至企業級服務中，也意味著Agent從不再是“高級用戶”的特權，同時借助Agent熱潮吸引更多用戶，擴大自己在大模型賽道的話語權。

未來，ChatGPT Agent是否能像操作系統那樣擁有開放插件生態？Agent是否能承接SaaS級別復雜度的任務？企業的專屬工作流是否可以嵌入Agent？這些問題都已開始具象化地浮出水面。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.