網易首頁 > 網易號 > 正文申請入駐

ChatGPT重磅升級，影響太大，行業徹底沸騰

2025-07-21 14:21:59　來源: 科技頭版Pro

廣東舉報

分享至

ChatGPT Agent正式登場，三位一體刷爆全網

2025年的版本答案是Agent，幾乎成為一種共識。

昨夜，奧特曼親自帶隊四位OpenAI 的研究員，用25分鐘的高能直播重磅發布了ChatGPT agent，ChatGPT和Deep Research、Operator完成首次“三位一體”。由此，OpenAI再次打出了一張讓全世界為之震驚的牌。

圖源：微博

簡單來說，ChatGPT agent是一個綜合體，融合了Operator的網頁交互能力、Deep Research的信息整合與分析能力、以及ChatGPT的自然語言對話優勢。

在這種模式下，用戶可以直接給ChatGPT下任務，讓它來扮演一個打工人的角色，復雜的任務10分鐘就能搞定。

比如，輸入想完成的任務，ChatGPT agent 能自動瀏覽相關網站、篩選結果、在需要時安全提示你登錄、運行代碼、執行分析，工作場景中的PPT、表格等任務也都不在話下。

從發布起，Pro、Plus和Team用戶直接可以開啟體驗，在對話框中選擇“Agent mode”就可以。Pro用戶每月有400次的額度，Plus和Team有每月40次。

圖源：微博

看到這里，有一些用戶就會問了，這些功能和其他智能體，比如Manus、Claude Agent相比，有什么區別？

一方面，ChatGPT Agent是單一端到端模型，通過內部強化學習直接整合能力，實現推理與執行的閉環。任務執行時無需外部調用多個模型，能夠減少延遲和錯誤率。

其他模型如Manus，則是調用多個底層模型，更像是“外部縫合”，穩定性較差。

另一方面，ChatGPT Agent在多種工具自主調用上進行了專門訓練，學會了如何在接受復雜任務時子啊不同工具之間流暢切換并協同工作。用戶僅需一個自然語言指令（如“分析競品并生成PPT”），即可自動完成數據爬取→篩選→分析→生成可編輯文件的全流程。

除此之外，在人機交互和斷點續傳上，ChatGPT Agent也是有一定優勢的。比如用戶可以隨時中斷任務、調整指令，Agent則會從中斷點繼續執行且不丟失進度（如修改PPT排版或補充數據）。

圖源：現場直播

這一點上，部分傳統智能體則需重新觸發任務，在使用體驗上則會有所削減。

如此看來，ChatGPT agent 并非簡單的功能疊加，而是重新定義了智能體的“自主性”邊界。

當然，對于對手來勢洶洶的挑戰，Manus 也正面回應了 OpenAI 進入這場游戲。

圖源：小紅書

總之，目前看來，正如OpenAI CEO奧特曼在發布會后寫下的：看著 ChatGPT agent 使用計算機完成復雜任務，對我來說是一次真實的“感受AGI”的時刻。看到計算機思考、計劃和執行，感覺格外與眾不同。

圖源：X

ChatGPT Agent：超級打工人

用戶任務評估不一般，ChatGPT agent的跑分數據也不簡單。

在綜合性考試“人類的最后考試”（Humanity’s Last Exam）中，其單次通過率達到了41.6%，并行策略下提升至44.4%，刷新了pass@1最高紀錄。

圖源：OpenAI

在目前已知最難的數學基準測試FrontierMath中，ChatGPT agent借助代碼終端等工具，實現了27.4%準確率，大幅超越o3和o4-mini。

圖源：OpenAI

此外，在內部設計的“高經濟價值知識工作”測試中，有半數的案例，ChatGPT agent的輸出質量與人類相當，甚至優于 o3 和 o4-mini 模型。

圖源：OpenAI

不僅如此，在評估數據科學生產力任務的DSBench中，ChatGPT agent更是以顯著的優勢超越了人類表現。

圖源：OpenAI

當然還有對Excel表格優秀的編輯能力，在 SpreadsheetBench 中，其拿到 45.5%，超過 Copilot in Excel 的 20%。此外，它在 BrowseComp、WebArena 等瀏覽評測里均刷新了SOTA。

圖源：OpenAI

以及，在公開評估模型信息查找能力的 BrowseComp 基準上，Agent 以 68.9% 的準確率刷新紀錄，較 Deep Research 高出 17.4 個百分點。在 WebArena 評估中，其網頁任務執行能力也優于基于 o3 的 CUA 模型。

圖源：OpenAI

最后，在投行分析師1-3年級建模任務的內部評估中，ChatGPT agent底層模型也做到了碾壓Deep Research和o3模型。

圖源：OpenAI

由此看來，ChatGPT agent帶來的沖擊力是顯而易見的，甚至說以一己之力推動行業洗牌也不為過。

不過，山姆·奧特曼在發布會結束后，也發布了一條文章，提醒外界ChatGPT Agent仍存在風險。

奧特曼表示：我們尚不清楚具體會造成什么影響，但不法分子可能會試圖“誘騙”用戶的 AI 代理提供不該提供的私人信息并采取不該采取的行動，而這其中的方式我們無法預測。

舉個例子，由于太過于“絲滑了”，使用過程中若授權了Gmail、GitHub等賬戶，則有可能導致隱私泄露。

圖源：微博

ChatGPT背后的故事

值得一提的是，OpenAI還有一個播客，目前更新到了第二期。

在最新節目中，前工程師安德魯?梅恩（Andrew Mayne）、首席研究官馬克?陳（Mark Chen）和ChatGPT負責人尼克?特利（Nick Turley）參與錄制談話，爆料了一些關于ChatGPT的故事。

圖源：微博

其中，他們提到：直到ChatGPT發布前一晚，團隊還沒有確定好名字，最早想用“Chat with GPT-3.5”，后來將它縮寫成為了今天的ChatGPT，而對于這個的釋義團隊至今仍有分歧。

此外，他們還提到ChatGPT發布前，OpenAI團隊還吵得很厲害。馬克?陳回憶：“當時用10個難題測試模型，大概只有5個答案讓他滿意，發布前一晚我們還在糾結要不要發?！?/p>

OpenAI播客圖源：微博

為什么有這種猶豫，是他們意識到，作為開發者研究久了，自然很快便能適應模型，但剛剛接觸模型的用戶可不一定。

最終，團隊決定用偏保守的策略，即“不擴大模型范圍，先盡快拿到用戶反饋數據，畢竟真實反饋，比‘閉門造車’有價值多了?！?/p>

由此，ChatGPT一炮而紅，直到今天仍領跑行業，也在人類大模型歷史上留下了濃墨重彩的一筆。

除了ChatGPT，OpenAI的圖像生成技術——ImageGen，一直以來也在模型領域扮演著重要角色。

圖源：網頁截圖

尼克·特利表示：“發布的那個周末，印度約5%的互聯網用戶都涌入體驗，這種爆發式場面類似于ChatGPT剛推出時的景象?！?/p>

他還注意到用戶群發生了變化，許多此前未接觸過ChatGPT的人被圖像生成功能吸引，因為它大幅降低了使用門檻。

團隊更意外的是用戶使用場景的轉變，原本預計會以娛樂為主，結果涌現出了裝修設計模擬、商業演示插圖等實用用途。

值得一提的是，他還透露了一個非常有意思的現象。

對于ChatGPT，團隊預期它會是一個純粹的實用產品，但實際上不少人拿來娛樂：“越來越多的Z世代把ChatGPT當作思考伙伴，用于處理人際關系或規劃職業發展?！?/p>

而對于ImageGen，本來設想是用來玩梗的娛樂產品，果大部分都是用于實際工作，如裝修設計模擬、PT插圖等。

綜合以上，正如在發布會上提到的“AI杠桿”這個概念。OpenAI團隊認為：2025年之后，AI智能體將成為一種全新的杠桿。

因為它不僅能代替人類完成工作，還能通過代碼的復制無限擴展，10個人的小團隊，借助這個AI杠桿，便有機會撬起想要的“地球”。

作者 | 宋輝

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

金牌模型三位核心華人光速離職！谷歌IMO奪金24h即遭小扎閃電抄家

新智元 2025-07-23 10:24:25
5 跟貼 5
剛剛，OpenAI星際之門要建5GW數據中心，馬斯克祭出AI基建5年計劃

機器之心Pro 2025-07-23 10:29:14
4 跟貼 4

半年不到，DeepSeek已跌落神壇！用戶都去哪了？

雷科技 2025-07-23 16:30:03
58 跟貼 58

剛剛，阿里最強編程模型開源！

智東西 2025-07-23 07:14:46
267 跟貼 267
宋非老師精選：統一臺灣的進程已經加速了（04）

搞笑梅姐 2025-07-23 00:16:09
1 跟貼 1

草帽姐：你這是怎么了！

正哥說 2025-07-23 15:31:36
0 跟貼 0

館長：很多人說我去成都要留胡子，才會有很多人喜歡我

七言體育 2025-07-22 02:08:16
0 跟貼 0
老湯的直播內容有什么特點？網友：他具有兩面性

渤海草堂2 2025-07-21 06:06:28
15 跟貼 15

2025.7.21日報第四集（共七集，注意查看主頁）

獨夫之心 2025-07-22 16:49:57
0 跟貼 0
館長開心的手舞足蹈直言發現大陸寶藏博主對其評價。獨夫水平高

安安折紙 2025-07-23 11:45:53
5 跟貼 5
ChatGPT智能體來了：自己操作電腦干活，接管你的電腦，自動執行各種任務

量子位 2025-07-18 18:08:35
0 跟貼 0
網紅公司團播現場，別看現在跳得這么辛苦，一晚比你們一年賺得多

云邸光看點 2025-07-22 15:27:21
0 跟貼 0
幾月前的傷心事，ChatGPT突然翻出來提醒我？網友當場破防：太會捅刀子了！

新智元 2025-07-22 09:43:39
3 跟貼 3
L骨頭和云昊的糾紛

恒蘇 2025-07-22 18:45:57
28 跟貼 28
造福or替代程序員？實測阿里新模型

虎嗅APP 2025-07-23 22:42:47
3 跟貼 3
杭州市余杭區部分小區供水異常調查情況通報

界面新聞 2025-07-23 17:44:30
25309 跟貼 25309
DeepMind剛拿完IMO金牌，科學家就被Meta挖走了，都是華人大牛

機器之心Pro 2025-07-23 10:21:08
6 跟貼 6
讓ChatGPT連讀“A”，直接崩潰到念廣告詞，網友：拿我們做測試？

量子位 2025-06-02 12:21:33
0 跟貼 0
特朗普公開呼吁逮捕奧巴馬，一場由機密文件引爆的政治復仇

瑩瑩觀點 2025-07-21 17:26:11
0 跟貼 0
開源Qwen凌晨暴擊閉源Claude！刷新AI編程SOTA，支持1M上下文

量子位 2025-07-23 08:37:45
12 跟貼 12
大神卡帕西親自演繹零基礎開發APP，ChatGPT四輪對話搞定

量子位 2025-03-24 16:04:01
0 跟貼 0
一場對抗OpenAI們的“危險游戲”

虎嗅APP 2025-07-23 18:10:49
0 跟貼 0
醉酒父親街頭摟著亭亭玉立女兒不時親手親臉:我生的

臺海大林 2025-07-23 08:47:56
6253 跟貼 6253
創智「小紅書」震撼上線，讓AI從效率工具進化為認知伙伴

機器之心Pro 2025-07-22 17:10:27
1 跟貼 1
特朗普搞清算！報“胯下之辱”？機密文件曝光，奧巴馬真叛國了嗎

究竟誰主沉浮 2025-07-22 15:49:34
0 跟貼 0
互聯網怎么變成這樣了？

茶妹娛樂 2025-07-19 20:39:41
0 跟貼 0
幫你識別一下關于AI的那些“裝腔作勢”

秦朔朋友圈 2025-07-24 00:15:09
1 跟貼 1
迷你四驅車創始人田宮俊作去世，開創了日本塑料拼裝模型

澎湃新聞 2025-07-22 18:31:06
0 跟貼 0
想將來干醫美或者想做醫美的同學，張老師真情流露

娛樂喵喵貓 2025-07-22 00:22:41
0 跟貼 0
笑噴！當館長看到解放軍紀錄片！反應太真實了！

蘇達big 2025-07-23 02:24:31
4 跟貼 4
福耀科技大學錄取通知書曝光！寫著：你們是這個大學形態的創建者

火山詩話 2025-07-23 17:08:00
1173 跟貼 1173
封關后到海南出差、旅游等不需要額外辦理證件

央視新聞客戶端 2025-07-23 10:42:44
7282 跟貼 7282
ShellAgent 2.0首個為非專業人士設計的智能體應用構建器

新智元 2025-07-23 09:36:07
0 跟貼 0
航空發動機用上大模型：解決復雜時序問題，性能超越ChatGPT-4o

量子位 2025-06-28 12:58:12
0 跟貼 0
遠光軟件：公司AI Agent在國網、南網、國家電投等集團上線應用

每日經濟新聞 2025-07-23 16:35:58
1 跟貼 1
主鋼筋被切斷？長沙一小區多棟精裝房存在安全隱患！住建局已介入

封面新聞 2025-07-23 12:58:04
2502 跟貼 2502
真正的智能體軟件工程師：OpenAI研發A-SWE能寫代碼、測試質量、修復Bug

量子位 2025-04-14 19:04:43
0 跟貼 0
女子被兩男子強行塞車內絕望大喊救救他要把我送精神病院我不去

爆料視頻 2025-07-23 10:04:44
3440 跟貼 3440
“瀕死感”爆棚！有醫院僅一周30多人被“放倒”，最小才7歲！這個習慣趕緊改

極目新聞 2025-07-23 08:39:33
432 跟貼 432
24省份半年報陸續出爐：廣東穩居首位四川守住第五

時代周報 2025-07-23 15:24:30
2553 跟貼 2553

科技頭版Pro

一起見證改變世界的力量

411文章數 146關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術

數碼

本地

時尚

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
你到底該和什么樣的人做朋友？
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

ChatGPT重磅升級，影響太大，行業徹底沸騰

別自嗨了！XREAL徐馳：AI眼鏡只有5歲智商

宗馥莉被質疑讀的是“野雞大學” 校方回應

宗馥莉被質疑讀的是“野雞大學” 校方回應

英格蘭最紅球星 也是加勒比島國驕傲

汪峰森林北同游日本 各帶各娃互不耽誤

律師解析娃哈哈遺產案:遺囑是最大變數

德系大招放盡 場地極限測試全新奧迪A5L

態度原創

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

AppleCare+ 為 iPad 和 Apple Watch 帶來防盜和丟失選項

這雙丑鞋“泰”辣眼，跪求內娛不要抄作業

搶戲《醬園弄》、尬演《長安荔枝》，雷佳音的舒適圈正在反噬

ChatGPT重磅升級，影響太大，行業徹底沸騰

英格蘭最紅球星也是加勒比島國驕傲

汪峰森林北同游日本各帶各娃互不耽誤

德系大招放盡場地極限測試全新奧迪A5L

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

這雙丑鞋“泰”辣眼，跪求內娛不要抄作業

搶戲《醬園弄》、尬演《長安荔枝》，雷佳音的舒適圈正在反噬