本文來自微信公眾號:山上,作者:薛星星,頭圖來自:AI生成
和三月份發(fā)布文生圖更新一樣,OpenAI 又一次試圖提前結束 AI Agent 的創(chuàng)業(yè)競賽。
北京時間 7 月 18 日凌晨,OpenAI 發(fā)布 ChatGPT Agent。它可以根據(jù)用戶的指令,自動規(guī)劃執(zhí)行步驟,調用多種工具,并完成從抓取數(shù)據(jù)到生成表格、規(guī)劃行程到預訂酒店等多環(huán)節(jié)任務。
OpenAI 推文截圖
您目前設備暫不支持播放 Manus發(fā)布的與 ChatGPT Agent 的對比視頻
這也是目前多數(shù) AI Agent 創(chuàng)業(yè)項目正在嘗試的方向。4 個月前你在 Manus 那場號稱首個通用 AI Agent 宣傳片中看到了什么,ChatGPT Agent 就完成了什么。
OpenAI 創(chuàng)始人山姆·阿爾特曼(Sam Altman)說,這是他第一次“真正感受到 AGI(通用人工智能)”。OpenAI 的研究人員則表示,ChatGPT Agent 是目前為止最強的 AI Agent 模型。
是的,OpenAI 將 ChatGPT Agent 稱為一個模型,而不是產品。與 Manus 等依賴上下文管理、工具鏈編排的系統(tǒng)不同,OpenAI 訓練了一個專用模型,能夠在單一系統(tǒng)中完成任務規(guī)劃、跨工具調用和文檔生成等復雜流程。該模型目前被歸入 o3 系列,但尚未被單獨命名。
AI 時代的創(chuàng)業(yè)者們面臨著比任何歷史時期都更快速的技術迭代,一次底層模型更新往往就能毀掉一個垂直領域的創(chuàng)新產品。
理想汽車創(chuàng)始人李想此前在朋友圈說,to C 層面,OpenAI 在內的掌握最強基座模型的企業(yè),不會留下什么垂直應用的創(chuàng)業(yè)空間。“軟件的本質是功能,需要場景化、垂直化。人工智能的本質是能力,能力強就可以吃掉一切,也是用戶最方便的。”
就連一直高喊 AI 應用創(chuàng)新的朱嘯虎也在社交媒體上表示,大模型會吃掉 90%的 Agent。X 平臺上也有用戶發(fā)問,如果 OpenAI 后續(xù)開放 ChatGPT Agent 模型的 API,其他創(chuàng)業(yè)者該如何與其競爭?
“Listen-that's the sound of a great many startups evaporating into the void.”(聽——那是無數(shù)初創(chuàng)公司悄然蒸發(fā)的聲音。)
OpenAI 發(fā)布會視頻下的一條高贊評論寫道。
Manus們選擇正面硬剛
至少在目前,Manus 們還沒有表現(xiàn)出任何退讓跡象。
OpenAI 發(fā)布會剛結束,Manus 就在 X 上轉發(fā)推文稱,“Welcome to the game.”同屬于華人 AI Agent 創(chuàng)業(yè)公司的 flowith 也轉發(fā)強調,他們早在一年前就推出了 AI Agent 產品。
作為過去半年最早對外喊出通用 AI Agent 口號的創(chuàng)業(yè)公司,Manus 的反應要比其他公司強烈得多。發(fā)布會結束僅 3 個小時,Manus 就一口氣對外放出了 10 條與 ChatGPT Agent 的對比測試,宣稱要和 OpenAI 正面較量。
這些對比內容部分來自 OpenAI 當日展示的演示片段,部分則來自用戶在社交平臺上的真實使用。涵蓋場景包括數(shù)據(jù)整理、路線規(guī)劃、在線購物、財務分析、餐廳預訂等,Manus 發(fā)出的測試結果幾乎全面占優(yōu)——不僅響應更快,也更強調“任務完成度”,如表格更整潔、圖示更豐富、PPT 更接近成品。
比如 OpenAI 演示的“計劃一次為期三天的棕櫚泉網(wǎng)球之旅”,OpenAI 給出的是一張簡單的行程表,而 Manus 生成的則是一張帶有目的地風格設計的行程海報。
Manus 發(fā)布的測試對比
又如分析舊金山市過去四年的財務報告,OpenAI 輸出的是 Excel 文件,而 Manus 給出的是包含圖表與要點總結的完整演示文檔。“Manus 完成的是整個項目,而不僅僅是提供數(shù)據(jù)。”Manus 評價說。
另一家華人公司 Genspark 的反應同樣高調。創(chuàng)始人景鵬(Eric Jing)在 X 上寫道:“我從未想過有一天——作為一家只有 24 人的小公司,我們竟然可以領先……領先于 OpenAI。”他表示,用同樣的提示詞,Genspark 的響應時間更短、成本更低,生成結果的質量也“高出好幾倍”。
7 月 19 日,Genspark 也在社交平臺上分享了 9 個與 ChatGPT Agent 的對比實例,顯示他們輸出的文檔數(shù)據(jù)維度更豐富,排版更加美觀。除了與 Manus 對比測試中類似的旅游行程制定、財務數(shù)據(jù)分析等案例外,他們還分享了一則視頻生成能力的對比,指出 ChatGPT Agent 未能完成任務。
Genspark 分享的視頻生成案例
社交媒體上用戶們的反饋也不如此前 OpenAI 更新文生圖功能那樣強烈。一些批評聲音指出 ChatGPT Agent 任務的完成度不高,任務生成速度也比較緩慢,部分復雜任務需要 20 分鐘乃至更長時間才能完成。
OpenAI 似乎也意識到當前的 ChatGPT Agent 的速度問題,他們拍攝的幾條宣傳視頻里,員工往往在下達指令后就合上筆記本,等到稍晚再返回查看結果。
“即便耗時 15 分鐘或半個小時,相比你自己手動完成也已經(jīng)是顯著的提速了。”O(jiān)penAI 的研究員 Isa Fulford 說。她表示,這是一種“可以在后臺發(fā)起任務,過一會兒再回來查看結果”的使用方式,而 OpenAI 的搜索團隊則更專注于低延遲場景。
OpenAI 或許更強調模型能夠持續(xù)推理和思考的時間,OpenAI 的研究員張熙堃說,ChatGPT Agent 在內部測試中的最長連續(xù)推理時間達到了 2 小時,“我們應該有一個排行榜來記錄模型能持續(xù)思考多久。”
針對外界詬病的生成文檔或 PPT 不夠美觀的問題,OpenAI 的研究員們在 X 上建議,先讓 ChatGPT Agent 把研究工作做完,再讓它輸出 PPT 文件。ChatGPT 生成的是標準 pptx 格式,用戶也可以在 PowerPoint 中統(tǒng)一套用想要的設計模板。
雖然 OpenAI 強調他們專門為 ChatGPT Agent 訓練了專用模型,但部分批評聲音亦指責它更像是將此前已經(jīng)推出的 Operator(瀏覽器交互能力)與 Deep Research(深入研究能力)組合在一起的產物。Operator 可以支持 ChatGPT 通過瀏覽器與網(wǎng)站直接互動、閱讀并理解網(wǎng)頁內容,Deep Research 則擅長分析和總結信息。
事實上,ChatGPT Agent 目前團隊成員正是來自于此前的 Operator 與 Deep Research 部門,目前團隊規(guī)模大約在 20-35 人。OpenAI 對外表示,ChatGPT Agent 是 Operator 和 Deep Research 功能自然延續(xù),“我們發(fā)現(xiàn)用戶通過 Operator 嘗試的許多查詢實際上更適合 Deep Research,因此我們將兩者的優(yōu)勢結合在一起。”
OpenAI 表示,這次發(fā)布僅標志著他們將智能體功能直接集成到 ChatGPT 中的第一步,他們計劃定期逐步更新更多功能。
兩種技術路線
相較于初創(chuàng)公司們過去半年來圍繞輸出質量和交付體驗不斷工程迭代和提示優(yōu)化,OpenAI 剛剛發(fā)布的 ChatGPT Agent 在任務的最終呈現(xiàn)上可以稱得上是粗糙。
初創(chuàng)公司們試圖為用戶呈現(xiàn)一個完成度更高且上手難度更低的 Agent 產品。以 Manus 為例,過去 2 個月來這家公司先后為產品加入了包括 PPT 生成、視頻生成、音頻生成等諸多不同能力,官網(wǎng)還列舉出了諸多現(xiàn)成的模板分享以及用戶案例分享。即便這些能力的實現(xiàn)都依托于外部模型,但至少在上手難度上,初創(chuàng)公司們都做得比 OpenAI 更好一些。
但拋去這些應用體驗創(chuàng)新,在基礎模型的能力比拼維度上,ChatGPT Agent 通過端到端訓練的統(tǒng)一模型顯然更有優(yōu)勢。OpenAI 為 ChatGPT Agent 做了諸多學術測試,部分測試結果甚至領先于 OpenAI o3 或 GPT 4o,達到行業(yè)最高水平。
比如在《人類的最后考試》(Humanity’s Last Exam)評估中,ChatGPT Agent 取得了?41.6%(pass@1)的新高,大約是 OpenAI o3 的兩倍。DSBench 測試中,ChatGPT Agent 大幅度領先于 GPT-4o,在數(shù)據(jù)分析任務中的表現(xiàn)更是明顯優(yōu)于人類水平。
Humanity’s Last Exam 測試結果
在專門衡量電子表格編輯能力的 SpreadsheetBench 平臺上,ChatGPT Agent 創(chuàng)下行業(yè)新高,性能較 GPT-4o 領先一倍。OpenAI 稱,在他們的內部基準測試中,ChatGPT Agent 的能力大致相當于 1 至 3 年經(jīng)驗的投資銀行分析師水平。
簡單來說,OpenAI 更強調 ChatGPT Agent 帶來的底層模型能力的提高,而初創(chuàng)公司們受限于技術及資金則更傾向于應用創(chuàng)新。
7 月 19 日凌晨,Manus 聯(lián)合創(chuàng)始人季逸超發(fā)文稱,Manus 仍將繼續(xù)押注于上下文工程(in-context learning)而非端到端智能體。
他說,早在 Mannus 項目初期,他們就在思考是使用開源模型訓練一個端到端的智能體,還是基于前沿模型的上下文學習能力構建智能體。GPT-3 等模型的出現(xiàn)讓他們意識到,上下文工程才是正確的方向,因為這些模型的能力遠高于他們此前的內部模型。
“如果模型進步是上漲的潮水,我們希望 Manus 成為那條船,而不是固定在海床上的柱子。”季逸超說,這可以使他們能夠在幾小時而非幾周內交付改進,并始終讓他免費產品與底層面模型保持正交。
他在這篇技術文檔中分享了不少 Manus 在上下文工程上的經(jīng)驗,比如需要圍繞 KV 緩存進行設計、要使用系統(tǒng)文件作為上下文等等。這些工程創(chuàng)新顯著提升了 Manus 的響應速度以及成本優(yōu)勢。
季逸超舉例,使用 KV 緩存可以大幅度提升首個 token 的生成時間和推理成本,例如使用 Claude Sonnet 時,緩存的輸入 token 成本比未緩存的成本降低 10 倍。
季逸超分享的技術文檔
上下文工程的創(chuàng)新的確也可以使智能體擁有更好的性能效果。非盈利人工智能研究機構 Epoch AI 測試了 ChatGPT Agent 在 FrontierMath 數(shù)學試題集中的表現(xiàn),稱 ChatGPT Agent 在 Tier 1-3 的數(shù)學題上只得到了 27% 的正確率,且難度越高得分越低。
但當每道題允許 ChatGPT Agent 嘗試 16 次之后,它的得分就從 27% 大幅度提升至 49%。Epoch AI 說,這表明更好的提示詞設計(prompting)或任務結構支持(scaffolding),可能會顯著提升當前模型的性能。
Epoch AI 測試結果
換句話說,即便是相同的模型,創(chuàng)業(yè)公司們依然可以通過更好的提示工程與上下文設計,來達到遠超基準模型的效果。
“你如何塑造上下文最終決定了你的智能體的行為方式:它運行的速度、恢復的效果以及擴展的范圍。”季逸超說。
如何與 Agent 的未來共處
ChatGPT Agent 的正式推出,標志著 AI Agent 正式進入巨頭博弈的時代。它帶給人類的社會的影響不會比大模型爆發(fā)之初的影響小,讓 AI 搶奪人類工作真正成了現(xiàn)實。
這種改變已經(jīng)在悄然發(fā)生。微軟和亞馬遜等科技巨頭們都在密集裁員,微軟 CEO 薩蒂亞·納德拉今年初表示,微軟 20% 到 30% 的代碼都由 AI 生成。一家金融科技公司 Klarna 更是早在去年初就對外宣布,他們的 AI Agent 僅投入使用一個月,就處理了公司 2/3 的客服聊天工作,相當于 700 名全職人工客服的工作量。
市場研究機構 MarketsandMarkets 表示,全球的 AI Agent 市場將從 2024 年的 51 億美元增長至 2030 年的 471 億美元,年均復合增長率(CAGR)達 44.8%。Deloitte 預測,到 2025 年,使用生成式 AI 的公司將有 25% 開始試點智能體,到 2027 年將增長至 50%。
AI Agent 的快速應用也讓行業(yè)人士產生擔憂。和過去大模型僅僅只是提供信息不同,AI Agent 真正具備了從思考到行動的完整能力。比如 ChatGPT Agent 現(xiàn)在已經(jīng)可以訪問網(wǎng)站幫助用戶下單購物、自動填寫信用卡地址,也可以訪問用戶的日歷、電子郵件、云盤等隱私信息。對于使用 AI Agent 的人們來說,這意味著他們將自己的私人信息交給了一個“黑盒”,也更容易受到攻擊。
發(fā)布會上,OpenAI 也專門強調了 ChatGPT Agent 的風險。他們強調,ChatGPT Agent 在執(zhí)行所有重要操作前都會征得用戶同意,“用戶始終擁有控制權。”同時,OpenAI 還加入了包括主動監(jiān)督(Watch Mode)、主動風險緩解(Proactive risk mitigation)等安全措施。
OpenAI 發(fā)布的聲明
山姆·阿爾特曼在 ChatGPT Agent 推出后專門發(fā)布長篇推文警告用戶,要求用戶審慎地使用 ChatGPT Agent。
“Agent 代表著 AI 系統(tǒng)能力的新高度,它可以用自己的計算機完成一些令人驚嘆且復雜的任務。它融合了 Deep Research(深度研究)和 Operator(任務執(zhí)行者)的理念,但遠比這些字面描述更強大 —— 它可以長時間思考,使用各種工具,再繼續(xù)思考,再采取行動,如此往復。”山姆·阿爾特曼說。
山姆表示,雖然他們還不確定這些影響具體是什么,但也許會有人試圖惡意“欺騙” 用戶的 AI Agent,使其提供不應該提供的隱私信息,并做出無法預測的不當操作。“我們建議用戶只授予 Agent 完成任務所必需的最低限度訪問權限,以降低隱私和安全風險。”山姆強調,他不會將 ChatGPT Agent 用于高風險的用戶或涉及大量個人信息的場景。
但對于已經(jīng)演變成了一家商業(yè)盈利公司的 OpenAI 來說,它并不會因為隱私或者安全風險而減緩 AI Agent 迭代的步伐。
在 ChatGPT Agent 推出之前,《金融時報》就報道稱 OpenAI 正計劃在 ChatGPT 中開發(fā)支付結賬系統(tǒng),通過 ChatGPT 完成訂單的商家需要向 OpenAI 支付傭金。《金融時報》稱,OpenAI 已經(jīng)向部分合作伙伴電商平臺 Shopify 等展示了系統(tǒng)的早期版本。
本文來自微信公眾號:山上,作者:山上
本內容為作者獨立觀點,不代表虎嗅立場。未經(jīng)允許不得轉載,授權事宜請聯(lián)系 hezuo@huxiu.com
本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4596874.html?f=wyxwapp
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.