文 | 大模型之家
北京時間7月18日凌晨,OpenAI如約發布了其最新力作——ChatGPT Agent。
根據CEO Sam Altman和四位OpenAI研究員介紹,ChatGPT Agent是一個具備自主執行復雜任務能力的AI Agent,它不再僅僅“對話”,而是可以打開虛擬機,完成搜索、篩選、判斷、執行等一整套流程,最終輸出可交付的結果。
ChatGPT Agent的定位非常“簡單直接”:一個擁有終端、圖形瀏覽器、文本瀏覽器的多工具整合智能體系統。功能上,幾乎等于一個受控的遠程虛擬操作系統。
值得注意的是,ChatGPT Agent可以說是OpenAI自今年以來推出產品的一次階段性整合與釋放:Operator和Deep Research,一個偏執行,一個偏思考,如今徹底融合。
AI真正開始“動手”:ChatGPT Agent的能力邊界
與如今大火的“智能體”賽道的產品類似,ChatGPT Agent的最大變化,是讓AI真正獲得了對數字世界的“動手”能力。Agent模式下,用戶不再是通過提示詞一步步引導ChatGPT生成答案,而是描述一個需求后,模型啟動虛擬機,自主規劃任務、調度工具、完成執行。
在演示中,OpenAI展現了其三大基礎能力組件:文本瀏覽器、可視化瀏覽器和終端。
文本瀏覽器的職責是爬梳大量信息,完成閱讀和篩選。它適合處理長文內容、查找具體數據或者跟蹤文獻,是Deep Research的延續;可視化瀏覽器則具備界面識別與交互能力,比如可以點擊網頁按鈕、識別圖像、進行鼠標操作等;終端部分支持代碼執行、API調用和復雜文件生成——如PPT、Excel、數據分析腳本等。
這些能力的協同,使Agent具備了完整的“感知-決策-執行”鏈路。比如在一次旅行安排任務中,它先用文本瀏覽器分析網頁信息、提取天氣與禮儀信息,再切換至可視化瀏覽器挑選合適禮服,最后生成整合報告。整個任務歷時僅十分鐘,遠遠快于人類的處理效率。
更復雜的場景中,Agent還能夠自動調用圖像生成API設計貼紙,然后在網站上上傳圖像、填寫參數、放入購物車,最后請用戶確認是否付款。在另一個演示中,Agent還連接了Google Drive,提取文檔并自動生成PPT;或將日程數據匯總為帶地圖的電子表格行程表。
這些能力讓Agent不僅適用于內容生成,更適用于事務型任務處理,意味著它從“信息輔助”跨越到“決策+執行”。在辦公場景中,Agent可以完成會議安排、報告撰寫、差旅預訂等一系列中層管理事務。在生活場景中,它能規劃婚禮、生成資料、預約專家等個性化需求。用一個略顯理想主義但已逐步接近現實的說法:ChatGPT Agent,是人人都可以擁有的“高效執行助理”。
基準測試成績:Agent能力更接近人類水平
與以往OpenAI擅長的語言能力不同,Agent的測試指標更偏向執行能力和任務完成度。在這方面,ChatGPT Agent通過了多個廣受認可的專業評測,其結果呈現出一次系統性的躍遷。
在“人類的最后一場大考”(Humanities Last Exam)中,ChatGPT Agent獲得了41.6%的成績,幾乎是不帶工具模型的兩倍。這項測試不僅包含復雜的推理與信息調度任務,還考察模型的工具調度能力。在使用終端、瀏覽器等資源的前提下,Agent表現出對任務流程的高度掌控。
在WebArena這個網頁交互能力評測中,Agent的得分已經接近人類水平。而在SpreadsheetBench,即電子表格操作能力的標準測評中,其分數達到45.5%,較GPT-4o提升一倍。
尤其值得一提的是DSBench測試,它用于衡量數據分析與建模任務的能力。Agent在這一測試中超過了所有此前的SOTA(state-of-the-art)模型,明確表明其在面對現實數據分析任務中,不僅可用,而且強大。
這些數字背后,是OpenAI在工具調度、任務分解、推理執行上的系統性優化。可以說,ChatGPT Agent已不再局限于“語言智能”,而是進入“操作智能”的新階段。
Operator和Deep Research子產品的融合
在大模型之家看來,ChatGPT Agent并不是從零起步的“創新”:其核心其實是Operator和Deep Research兩個子產品的融合。
Operator是今年初推出的圖形界面Agent工具,支持鼠標模擬點擊、滾動等界面操作;Deep Research則是一個偏內容分析和信息整合的工具,擅長處理復雜文字材料并輸出結構化結果。兩者原本分別服務不同需求,但用戶使用行為暴露出兩者之間的邊界并不清晰。
許多Operator用戶在提示詞中描述的任務,其實更像是深度調研;而Deep Research的高階用戶,又頻繁表達對圖形交互的訴求。
這使OpenAI做出順理成章的決策:合并兩個工具,并在一個統一的模型訓練框架下,用強化學習方法教會模型如何調度工具。具體方法是模型從“笨拙地”亂用工具開始,通過獎勵高效行為逐漸掌握何時使用哪個工具、在哪一步執行操作。
這個過程類似于AI界所熟知的Curriculum Learning(課程學習)策略,從簡入繁,在逐步暴露復雜問題之前先引導其掌握基礎邏輯。強化學習在這里的作用不僅僅是讓模型“能用”工具,而是“用得巧”,用得靈活。
這種組合式的工程化思維并不新鮮,但放在OpenAI此時此刻的體系中,它是一種極高效的資源整合,既降低開發風險,又釋放實際能力,是對“AI工具生態”合理性的回應。
Agent不是終點,而是通往應用未來的橋梁
ChatGPT Agent的誕生,不只是對工具融合的一次技術實現,更是對“大模型如何走進現實”的階段性回答。從ChatGPT的出現開始,逐漸理解語言模型的強大;從GPT-4o開始看見多模態推理的邊界;而現在,Agent將“思考”與“動手”統一,標志著AI真正有可能完成從“助手”向“代理人”角色的轉變。
從開放的任務執行結構來看,Agent模式更像是未來操作系統的一種雛形:具備動態調度資源、主動規劃流程、與人類深度交互的能力。它并不重定義AI模型本身,而是重塑了人與AI協作的界面與方法。
OpenAI將這套能力下放到Plus、Team乃至企業級服務中,也意味著Agent從不再是“高級用戶”的特權,同時借助Agent熱潮吸引更多用戶,擴大自己在大模型賽道的話語權。
未來,ChatGPT Agent是否能像操作系統那樣擁有開放插件生態?Agent是否能承接SaaS級別復雜度的任務?企業的專屬工作流是否可以嵌入Agent?這些問題都已開始具象化地浮出水面。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.