ChatGPT Agent正式登場,三位一體刷爆全網
2025年的版本答案是Agent,幾乎成為一種共識。
昨夜,奧特曼親自帶隊四位OpenAI 的研究員,用25分鐘的高能直播重磅發布了ChatGPT agent,ChatGPT和Deep Research、Operator完成首次“三位一體”。由此,OpenAI再次打出了一張讓全世界為之震驚的牌。
圖源:微博
簡單來說,ChatGPT agent是一個綜合體,融合了Operator的網頁交互能力、Deep Research的信息整合與分析能力、以及ChatGPT的自然語言對話優勢。
在這種模式下,用戶可以直接給ChatGPT下任務,讓它來扮演一個打工人的角色,復雜的任務10分鐘就能搞定。
比如,輸入想完成的任務,ChatGPT agent 能自動瀏覽相關網站、篩選結果、在需要時安全提示你登錄、運行代碼、執行分析,工作場景中的PPT、表格等任務也都不在話下。
從發布起,Pro、Plus和Team用戶直接可以開啟體驗,在對話框中選擇“Agent mode”就可以。Pro用戶每月有400次的額度,Plus和Team有每月40次。
圖源:微博
看到這里,有一些用戶就會問了,這些功能和其他智能體,比如Manus、Claude Agent相比,有什么區別?
一方面,ChatGPT Agent是單一端到端模型,通過內部強化學習直接整合能力,實現推理與執行的閉環。任務執行時無需外部調用多個模型,能夠減少延遲和錯誤率。
其他模型如Manus,則是調用多個底層模型,更像是“外部縫合”,穩定性較差。
另一方面,ChatGPT Agent在多種工具自主調用上進行了專門訓練,學會了如何在接受復雜任務時子啊不同工具之間流暢切換并協同工作。用戶僅需一個自然語言指令(如“分析競品并生成PPT”),即可自動完成數據爬取→篩選→分析→生成可編輯文件的全流程。
除此之外,在人機交互和斷點續傳上,ChatGPT Agent也是有一定優勢的。比如用戶可以隨時中斷任務、調整指令,Agent則會從中斷點繼續執行且不丟失進度(如修改PPT排版或補充數據)。
圖源:現場直播
這一點上,部分傳統智能體則需重新觸發任務,在使用體驗上則會有所削減。
如此看來,ChatGPT agent 并非簡單的功能疊加,而是重新定義了智能體的“自主性”邊界。
當然,對于對手來勢洶洶的挑戰,Manus 也正面回應了 OpenAI 進入這場游戲。
圖源:小紅書
總之,目前看來,正如OpenAI CEO奧特曼在發布會后寫下的:看著 ChatGPT agent 使用計算機完成復雜任務,對我來說是一次真實的“感受AGI”的時刻。看到計算機思考、計劃和執行,感覺格外與眾不同。
圖源:X
ChatGPT Agent:超級打工人
用戶任務評估不一般,ChatGPT agent的跑分數據也不簡單。
在綜合性考試“人類的最后考試”(Humanity’s Last Exam)中,其單次通過率達到了41.6%,并行策略下提升至44.4%,刷新了pass@1最高紀錄。
圖源:OpenAI
在目前已知最難的數學基準測試FrontierMath中,ChatGPT agent借助代碼終端等工具,實現了27.4%準確率,大幅超越o3和o4-mini。
圖源:OpenAI
此外,在內部設計的“高經濟價值知識工作”測試中,有半數的案例,ChatGPT agent的輸出質量與人類相當,甚至優于 o3 和 o4-mini 模型。
圖源:OpenAI
不僅如此,在評估數據科學生產力任務的DSBench中,ChatGPT agent更是以顯著的優勢超越了人類表現。
圖源:OpenAI
當然還有對Excel表格優秀的編輯能力,在 SpreadsheetBench 中,其拿到 45.5%,超過 Copilot in Excel 的 20%。此外,它在 BrowseComp、WebArena 等瀏覽評測里均刷新了SOTA。
圖源:OpenAI
以及,在公開評估模型信息查找能力的 BrowseComp 基準上,Agent 以 68.9% 的準確率刷新紀錄,較 Deep Research 高出 17.4 個百分點。在 WebArena 評估中,其網頁任務執行能力也優于基于 o3 的 CUA 模型。
圖源:OpenAI
最后,在投行分析師1-3年級建模任務的內部評估中,ChatGPT agent底層模型也做到了碾壓Deep Research和o3模型。
圖源:OpenAI
由此看來,ChatGPT agent帶來的沖擊力是顯而易見的,甚至說以一己之力推動行業洗牌也不為過。
不過,山姆·奧特曼在發布會結束后,也發布了一條文章,提醒外界ChatGPT Agent仍存在風險。
奧特曼表示:我們尚不清楚具體會造成什么影響,但不法分子可能會試圖“誘騙”用戶的 AI 代理提供不該提供的私人信息并采取不該采取的行動,而這其中的方式我們無法預測。
舉個例子,由于太過于“絲滑了”,使用過程中若授權了Gmail、GitHub等賬戶,則有可能導致隱私泄露。
圖源:微博
ChatGPT背后的故事
值得一提的是,OpenAI還有一個播客,目前更新到了第二期。
在最新節目中,前工程師安德魯?梅恩(Andrew Mayne)、首席研究官馬克?陳(Mark Chen)和ChatGPT負責人尼克?特利(Nick Turley)參與錄制談話,爆料了一些關于ChatGPT的故事。
圖源:微博
其中,他們提到:直到ChatGPT發布前一晚,團隊還沒有確定好名字,最早想用“Chat with GPT-3.5”,后來將它縮寫成為了今天的ChatGPT,而對于這個的釋義團隊至今仍有分歧。
此外,他們還提到ChatGPT發布前,OpenAI團隊還吵得很厲害。馬克?陳回憶:“當時用10個難題測試模型,大概只有5個答案讓他滿意,發布前一晚我們還在糾結要不要發?!?/p>
OpenAI播客 圖源:微博
為什么有這種猶豫,是他們意識到,作為開發者研究久了,自然很快便能適應模型,但剛剛接觸模型的用戶可不一定。
最終,團隊決定用偏保守的策略,即“不擴大模型范圍,先盡快拿到用戶反饋數據,畢竟真實反饋,比‘閉門造車’有價值多了?!?/p>
由此,ChatGPT一炮而紅,直到今天仍領跑行業,也在人類大模型歷史上留下了濃墨重彩的一筆。
除了ChatGPT,OpenAI的圖像生成技術——ImageGen,一直以來也在模型領域扮演著重要角色。
圖源:網頁截圖
尼克·特利表示:“發布的那個周末,印度約5%的互聯網用戶都涌入體驗,這種爆發式場面類似于ChatGPT剛推出時的景象?!?/p>
他還注意到用戶群發生了變化,許多此前未接觸過ChatGPT的人被圖像生成功能吸引,因為它大幅降低了使用門檻。
團隊更意外的是用戶使用場景的轉變,原本預計會以娛樂為主,結果涌現出了裝修設計模擬、商業演示插圖等實用用途。
值得一提的是,他還透露了一個非常有意思的現象。
對于ChatGPT,團隊預期它會是一個純粹的實用產品,但實際上不少人拿來娛樂:“越來越多的Z世代把ChatGPT當作思考伙伴,用于處理人際關系或規劃職業發展?!?/p>
而對于ImageGen,本來設想是用來玩梗的娛樂產品,果大部分都是用于實際工作,如裝修設計模擬、PT插圖等。
綜合以上,正如在發布會上提到的“AI杠桿”這個概念。OpenAI團隊認為:2025年之后,AI智能體將成為一種全新的杠桿。
因為它不僅能代替人類完成工作,還能通過代碼的復制無限擴展,10個人的小團隊,借助這個AI杠桿,便有機會撬起想要的“地球”。
作者 | 宋輝
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.