北京時(shí)間7月18日凌晨,美國(guó)科技公司OpenAI臨時(shí)舉行直播活動(dòng),發(fā)布通用人工智能代理ChatGPT智能體。
ChatGPT Agent具備自主思考和行動(dòng)的能力,能夠主動(dòng)從其技能庫(kù)中選擇合適的工具,包括Operator、 Deep Research和ChatGPT來(lái)完成各種超復(fù)雜任務(wù)。
簡(jiǎn)單描述,這是一個(gè)融合Operator智能體網(wǎng)頁(yè)交互能力、“深入研究”(Deep Research)功能的互聯(lián)網(wǎng)信息搜集能力,以及ChatGPT對(duì)話能力的統(tǒng)一智能體。ChatGPT不再只是問(wèn)答機(jī)器人,還能通過(guò)“內(nèi)置計(jì)算機(jī)”代表用戶完成復(fù)雜的多步驟任務(wù)。
圖片來(lái)源:直播視頻
OpenAI介紹稱,ChatGPT智能體能夠通過(guò)互聯(lián)網(wǎng)搜索或API獲取數(shù)據(jù),進(jìn)行深入的財(cái)務(wù)研究、制作精美的幻燈片,或者預(yù)定活動(dòng)或規(guī)劃行程。
特別值得注意的是,在內(nèi)部基準(zhǔn)測(cè)試中ChatGPT智能體展現(xiàn)能夠處理入門級(jí)投資銀行分析師(1-3年工作經(jīng)驗(yàn))任務(wù)的能力,例如為財(cái)富500強(qiáng)公司構(gòu)建符合準(zhǔn)則的財(cái)務(wù)報(bào)表模型,或?yàn)樗接谢灰讟?gòu)建杠桿收購(gòu)模型。
ChatGPT智能體的產(chǎn)品經(jīng)理Neel Ajjarapu表示:“這個(gè)模型實(shí)際上非常適合處理新人入行第一年或第二年財(cái)務(wù)分析類型的工作。這些任務(wù)過(guò)去可能需要一個(gè)人熬夜完成,尤其是在深夜被老板臨時(shí)叫去處理的時(shí)候。”
在演示中,OpenAI給出的案例是根據(jù)結(jié)婚請(qǐng)柬上的日期、地點(diǎn)和著裝要求,搜索合適的男裝和鞋子,并推薦禮物。
經(jīng)過(guò)10分鐘的努力,ChatGPT智能體如期完成了搜索工作,并列出了所有推薦的商品,并附上推薦理由和鏈接。
在另一個(gè)案例中,ChatGPT智能體被要求根據(jù)美國(guó)職業(yè)棒球大聯(lián)盟賽程,規(guī)劃一條在2025賽季常規(guī)賽期間,走遍全美30座大聯(lián)盟棒球隊(duì)的觀賽路線,推薦酒店住宿,最后以電子表格的形式呈現(xiàn)并生成一張可視化路線圖。
用戶可以要求 ChatGPT Agent分析三個(gè)競(jìng)爭(zhēng)對(duì)手并制作幻燈片演示文稿等請(qǐng)求。ChatGPT會(huì)智能地瀏覽網(wǎng)站、選擇日期、篩選結(jié)果、運(yùn)行代碼,甚至自動(dòng)生成經(jīng)過(guò)潤(rùn)色的幻燈片演示文稿或電子表格。
也就是說(shuō)你只需要一個(gè)提示,ChatGPT Agent就會(huì)幫你完成所有工作等待結(jié)果就好。
技術(shù)架構(gòu)方面,ChatGPT Agent通過(guò)其虛擬計(jì)算機(jī)處理任務(wù),能夠流暢地在推理與執(zhí)行之間切換。在面對(duì)復(fù)雜任務(wù)時(shí),不僅能夠進(jìn)行邏輯推理,還能夠?qū)嶋H執(zhí)行任務(wù),從而獨(dú)立完成復(fù)雜的多步驟任務(wù)。
例如,當(dāng)用戶要求 ChatGPT Agent“查看我的日歷,并根據(jù)最新動(dòng)態(tài)簡(jiǎn)要匯報(bào)即將舉行的客戶會(huì)議”時(shí),能夠理解任務(wù)需求,主動(dòng)從日歷應(yīng)用中獲取信息,并整理出簡(jiǎn)潔的匯報(bào)內(nèi)容。
ChatGPT Agent另一個(gè)重要功能模塊是其多工具集成能力,將 Operator 的網(wǎng)站交互能力、Deep Research的信息整合能力以及 ChatGPT的深度對(duì)話能力融合在一起,形成統(tǒng)一的智能體系統(tǒng)。
此外,ChatGPT Agent還配備了多種網(wǎng)絡(luò)工具,包括可視化瀏覽器、文本瀏覽器和直接API 訪問(wèn)權(quán)限。
OpenAI會(huì)試圖回避有關(guān)“搶微軟PowerPoint、Excel生意”的說(shuō)法,僅表示AI可以幫助人類生成初稿,然后再使用微軟或其他公司的辦公軟件進(jìn)行編輯。核心意義在于能減少人們制作演示文稿和分析所需的工作量,例如將數(shù)小時(shí)或數(shù)天縮短至30分鐘。
對(duì)于全球股民高度關(guān)注的問(wèn)題:能否讓ChatGPT智能體自己拿著錢去炒股。OpenAI表示這類操作暫時(shí)受到限制,主要考量是避免AI出錯(cuò)導(dǎo)致高額損失。同時(shí)ChatGPT智能體在執(zhí)行敏感或重要操作(例如發(fā)送郵件、購(gòu)買商品、提交個(gè)人數(shù)據(jù))時(shí),會(huì)明確征求用戶授權(quán)。用戶在使用ChatGPT智能體訪問(wèn)金融網(wǎng)站時(shí),將不能離開當(dāng)前標(biāo)簽頁(yè),否則工具會(huì)停止運(yùn)作。
在安全性方面,ChatGPT 智能體的設(shè)計(jì)也充分考慮了用戶的安全需求。在執(zhí)行涉及敏感或重要操作前,ChatGPT會(huì)明確征得用戶的授權(quán),確保用戶始終掌握控制權(quán)。此外,ChatGPT 智能體還具備主動(dòng)監(jiān)督和風(fēng)險(xiǎn)緩解功能,能夠主動(dòng)拒絕高風(fēng)險(xiǎn)任務(wù),例如,金融交易或敏感法律互動(dòng)。
根據(jù)OpenAI公布的測(cè)試數(shù)據(jù)顯示,ChatGPT Agent 在多項(xiàng)測(cè)試中表現(xiàn)優(yōu)異。在 “人類終極考試” 中,單次嘗試通過(guò)率達(dá)41.6%,取得新SOTA成績(jī),采用并行策略時(shí)分?jǐn)?shù)提升至44.4;在“前沿?cái)?shù)學(xué)”基準(zhǔn)中,準(zhǔn)確率達(dá)27.4%,大幅超越以往模型。
在BrowseComp基準(zhǔn)中以68.9% 的成績(jī)創(chuàng)SOTA,比深度研究高17.4 %;在WebArena中表現(xiàn)優(yōu)于由o3驅(qū)動(dòng)的CUA。
每日經(jīng)濟(jì)新聞綜合OpenAI官網(wǎng)、公開資料
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.