白交 雷剛 發自 紐凹非寺
量子位 | 公眾號 QbitAI
實用,太實用了!這才是OpenAI Agent該有的樣子。
就在剛剛,OpenAI最新發布來了,ChatGPT Agent正式對外亮相。
這是一個把“想”和“干”統一了的智能體,之前深度研究的思考和分析能力,Operator的操作執行能力,在ChatGPT Agent實現了統一。
而且ChatGPT Agent還可以接管你的整個電腦——這幾乎就是全新的操作系統了。
能做什么?
工作場景里,安排和改期會議、生成PPT、制定出差和外出議程、自動提交報銷……幾乎就是大廠高管才能配置的助理的核心工作。
生活場景下,你個人的旅游行程規劃設計、重大活動如婚禮晚宴安排……一些定期需要手動更新的認證證明……差不多也是董事長CEO們個人秘書實現的能力。
但現在,ChatGPT Agent一夜之間人人都可擁有。OpenAI還專門配備了專用模型,創造了全新的SOTA,刷新了模型能力新紀錄。
之前,通用Agent們只敢自稱“實習生”,但OpenAI在自研底層模型能力的底氣下,幾乎就把“實習生”變成了“大秘書”。之前一個創業賽道,分分鐘變成了大廠產品里的一個功能按鈕。
這也是ChatGPT Agent注定不會讓所有人都開心的地方。
此前不論是在“想”還是“做”上做產品功能創新的Agent創業者,今夜難眠,又要被重新審視核心壁壘和競爭力了。
總之,把Operator和深度研究實現“二合一”的ChatGPT Agent,不止于1+1。
ChatGPT Agent詳解:All in ONE
這次新發布,名字簡單直接:ChatGPT Agent。
入口沒有變——還是在原來頁面「工具」下拉激活「智能體模式」即可。只是ChatGPT已經不再是以前的ChatGPT了,而是具備“Agent”能力的ChatGPT了。
具體如何做的?
就是將以往Operator的「網站交互」能力,DeepResearch這種「整合高質量信息」的能力,以及ChatGPT的對話能力等等,全部All in One,形成一個統一的智能體系統。
這樣一來,能做的那就多了去了。
僅單一模型就可以主動與網站互動、篩選并獲取最高效的結果。
比如它可以制作公司吉祥物漫畫風貼紙,然后再訂購500張并送到某個地址。
先整合搜索-再推理創作-再執行任務,一氣呵成~
以往的瀏覽網頁、制定行程、制作文檔等各方面的體驗,都實現了升維。
比如生成表格吧,它可以在這基礎上保持原有格式的同時,用新的財務數據來隨時更新表格。
不過這里有個華點,仔細看這個過程,它不是通過打開PPT插入文本框,而是編寫代碼生成一個看起來很像的表格。(Doge)
此外,你還可以設置固定時間執行,比如每周一生成周報啥的。
還有像規劃并預訂旅行行程,可以具體到某個環節的設計和預訂,或者幫你尋找專業人士并安排預約。
他們強調,整個過程人類始終都掌握控制權,不僅可隨時中斷操作、接管瀏覽器或停止任務,它在執行重要操作前也會征得你的許可。
即日起,Pro、Plus 和Team版用戶就可以感受到這種工作與生活的體驗全面升維。
Pro版用戶每月可執行近乎無限的任務,其他付費用戶每月可執行 50 次任務,額外使用量可通過靈活的積分額度選項獲取。
而企業版和教育版的用戶將在7月獲得使用權限。
免費等等黨可以再蹲蹲,萬一什么時候就有了呢。
不過需要明確的是,ChatGPT Agent也算不上全新的模型,而是與OpenAI o3 還是屬于一個家族。
這個模型經過了專門的訓練,能夠在執行任務時會動態學習,通過優化速度、準確性和效率來調整其工作方式——
每個步驟中識別并運用最適合的工具,通過評估結果而非固守固定方法來優化流程。
他們也還配備了所有可用的網絡工具:通過圖形用戶界面與網絡交互的可視化瀏覽器、用于簡單推理型網絡查詢的文本瀏覽器,以及直接API訪問權限。
有了不同的訪問和交互路徑,保證ChatGPT能夠在推理與執行之間流程轉換。
比如它可以快速通過 API 獲取財務數據或體育賽事比分,同時也能與主要面向人類設計的網頁進行視覺交互。
ChatGPT Agent在專門優化之后,相比于以往幾個模型,網頁瀏覽、執行現實世界任務能力方面實現了SOTA。
比如在「人類最后的考試」中,一舉取得了41.6分。該測試集是出了名的超難,剛推出時無模型得分能超過10分。
在 DSBench? 測試中,該測試旨在評估智能體在涵蓋數據分析和建模等現實數據科學任務中的表現,ChatGPT 智能體顯著超越了之前的最先進模型。
尤其在數據分析任務中,其表現明顯優于人類水平。
還有在SpreadsheetBench,同樣實現了SOTA。
這個評測主要是是來評估模型處理真實場景中的電子表格編輯任務的表現。
結果ChatGPT Agent相比于GPT-4o提升了超過一倍。當具備直接編輯電子表格的能力時,ChatGPT Agent 的得分進一步提升至45.5%。
不過在最后,他們也強調了這個模型也存在一定的風險。他們自己的“防范框架”將其定義為具有“放大現有嚴重危害途徑”能力的模型。
雖然目前還沒有直接證明,但他們已經有了些額外的安全措施,比如有個實時監視器,在每次回答前會判斷這個問題有沒有風險,比如生物相關,是否會給人類帶來威脅;還有那種高風險的金融投資啊、敏感法律任務等等,都會主動拒絕。并且為了防止濫用,還禁用了記憶功能。
怎么看ChatGPT Agent帶來的變革?
毫無疑問,ChatGPT Agent帶來的變革,可能要比OpenAI之前的Agent試水要大得多深遠得多。
Agent算是一個曾經科幻的概念,《鋼鐵俠》中的賈維斯,就是對Agent的“終極幻想”。
但AI Agent的推進,似乎又才剛剛開始。
在基礎大模型能力不斷強大之后,Agent開始被視為大模型應用的核心產品,Agent也成為了今年最熱創新和創業賽道。
如果把視野拓展到企業級、工業級應用里,Agent的創新和發展就更早了。
AI客服實際就是最隱秘但又實際發展最快速的應用,而且帶來的價值替代非常明顯——現在找人工客服已經是相當困難了。
在AI客服之外,AI編程、AI繪圖、AI PPT等垂直專用能力,也都在狂飆突進…
但更值得關注的是通用Agent的推進,即AI可以真正像人一樣,接管你的上網甚至電腦。
OpenAI在這個方向推進上算是慢的。早在去年10月,Claude的母公司Anthropic就推出了名為“Computer Use”的工具,能夠像人類一樣使用電腦,“代表”用戶完成任務。
如果只是“想”的層面,具體到撰寫分析研究報告的Agent就更多了,海外有OpenAI、Google 和 Perplexity,國內則有秘塔、Kimi等等。
在手機端,華為、小米、OPPO、vivo和榮耀等等在內的公司,都在試水Agent,讓AI自動幫你完成訂咖啡、接推銷電話——雖然那邊也是AI打的,以及更多之前需要人自己“想”和“干”才能完成的工作。
而這就是趨勢:一個全新的由AI貫穿始終的操作系統或者全新產品形態,正在洶涌而至。
如果保守來看,Agent會率先重塑如今互聯網相關的一切,重塑我們互聯網實現的對工作和生活的塑造。
PC時代的互聯網核心塑造是“網站”,智能手機時代是“APP”,到了AI時代就是“Agent”。
PC互聯網時代是千人一面,門戶網站是其代表。
移動互聯網時代可以千人千面,推薦算法下誕生了抖音Tiktok這樣的全新超級應用。
那么Agent互聯網在呢?會有怎樣全新的應用?又有誰會站上浪潮之巔?
問題還沒有答案,但問題的答案,已經在被深度研究、自動執行了。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.