網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

超強(qiáng)AI代理上線！OpenAI推出“Deep Research”，媲美研究分析師水平？

2025-02-03 20:23:14　來源: 大數(shù)據(jù)文摘

北京舉報(bào)

分享至

大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自頭部科技

文丨譚梓馨

在性價(jià)比推理模型o3-mini發(fā)布后不久，OpenAI創(chuàng)始人Sam Altman曾透露團(tuán)隊(duì)還準(zhǔn)備了一個(gè)驚喜，網(wǎng)友好奇：到底什么是驚喜？

今天，第一個(gè)驚喜就拋出來了，OpenAI重磅發(fā)布了全新的ChatGPT代理功能：Deep Research（深度研究）。

官方介紹，你給它一個(gè)提示，它就會(huì)自動(dòng)查找、分析和綜合數(shù)百個(gè)在線資源，以研究分析師的水平創(chuàng)建一份綜合報(bào)告，僅需數(shù)十分鐘就能完成人類需要數(shù)小時(shí)才能完成的工作。

此外，深度研究由即將面世的OpenAI o3模型的一個(gè)版本驅(qū)動(dòng)，借助推理功能，能夠智能且廣泛地瀏覽互聯(lián)網(wǎng)上的文本、圖像和PDF文件，并可根據(jù)遇到的信息做出必要調(diào)整。

Sam Altman將Deep Research稱之為“一個(gè)瘋狂的里程碑”、“一種超能力“，并表示這還不是o3-mini發(fā)布后提到的那個(gè)“one-more-thing”，驚喜還在后面。一夜之間，人類就要大步邁進(jìn)AGI時(shí)代了么？

刷新AI代理智商高度

綜合知識(shí)的能力是創(chuàng)造新知識(shí)的先決條件。OpenAI官方介紹說，深度研究是為從事金融、科學(xué)、政策和工程等領(lǐng)域密集知識(shí)工作并需要全面、精確和可靠研究的人員而打造的。

此外，它對(duì)于尋找高度個(gè)性化推薦的挑剔購(gòu)物者同樣有用，這些推薦通常需要仔細(xì)研究才能購(gòu)買，例如汽車、家電和家具。

從即日起，ChatGPT Pro用戶就可使用 “深度研究” 功能，每月限100次查詢。隨后Plus和Team用戶也將獲得該功能支持，企業(yè)用戶會(huì)在之后跟進(jìn)。并且，此次功能推出按地域進(jìn)行，OpenAI尚未公布針對(duì)英國(guó)、瑞士及歐洲經(jīng)濟(jì)區(qū)ChatGPT用戶的發(fā)布時(shí)間安排。

那么，深度研究的“智商”目前達(dá)到了什么程度？

“Humanity's Last Exam” （人類的終極測(cè)試）是由Scale AI和人工智能安全中心（CAIS）聯(lián)合推出的針對(duì)AI的多模態(tài)基準(zhǔn)測(cè)試，該評(píng)估在專家級(jí)問題上對(duì)廣泛學(xué)科的人工智能進(jìn)行了測(cè)試，包括各個(gè)學(xué)術(shù)領(lǐng)域的3000多個(gè)專家級(jí)問題，深度研究以26.6%的準(zhǔn)確性創(chuàng)下了行業(yè)新高。

GAIA是一個(gè)針對(duì)現(xiàn)實(shí)世界問題評(píng)估AI的公共基準(zhǔn)，深度研究達(dá)到了目前最先進(jìn)水平 (SOTA)躍升榜首，該測(cè)試基準(zhǔn)涵蓋三個(gè)難度級(jí)別的問題，需要AI具備推理、多模式流暢性、網(wǎng)頁(yè)瀏覽和工具使用熟練等能力。

OpenAI展示了好多個(gè)實(shí)用場(chǎng)景，比如制作商業(yè)報(bào)告表格，大海撈針（根據(jù)片段場(chǎng)景描述找到影視劇出處），醫(yī)學(xué)研究分析，用戶體驗(yàn)設(shè)計(jì)，個(gè)性化需求購(gòu)物推薦和常識(shí)的解讀參考等等。

在對(duì)各個(gè)領(lǐng)域的專家級(jí)任務(wù)進(jìn)行的內(nèi)部評(píng)估中，人類專家們認(rèn)為“深度研究”可以自動(dòng)化完成數(shù)小時(shí)的艱難手動(dòng)調(diào)查，但需要給AI更多的時(shí)間，此外，AI模型瀏覽的內(nèi)容越多，對(duì)所瀏覽內(nèi)容思考得越深入，其表現(xiàn)就越好。

下圖為任務(wù)通過率與最大工具調(diào)用次數(shù)曲線，基本上是成正比的狀態(tài)：

另一個(gè)有趣的發(fā)現(xiàn)是，任務(wù)的經(jīng)濟(jì)價(jià)值與通過率的相關(guān)性比與人類花費(fèi)的小時(shí)數(shù)的相關(guān)性更高。也就是說，模型覺得困難的事情，和人類覺得耗時(shí)的事情并不完全相同。

OpenAI官方表示，深度研究現(xiàn)已在ChatGPT網(wǎng)頁(yè)上推出，并將在本月內(nèi)推廣到移動(dòng)和桌面應(yīng)用，目前，深度研究可以訪問開放網(wǎng)絡(luò)和任何上傳的文件，未來，則能夠連接到更專業(yè)的數(shù)據(jù)源上（擴(kuò)大其對(duì)基于訂閱或內(nèi)部資源的訪問），從而使其輸出更加可靠和個(gè)性化。

由于深度研究處于早期階段，它也存在局限性。根據(jù)內(nèi)部評(píng)估，它有時(shí)會(huì)在響應(yīng)中產(chǎn)生幻覺或做出錯(cuò)誤推斷，但發(fā)生率低于現(xiàn)有的ChatGPT模型。

展望未來，OpenAI表示AI代理體驗(yàn)將融入ChatGPT用于異步、現(xiàn)實(shí)世界的研究和執(zhí)行。深度研究（可執(zhí)行異步在線調(diào)查）與Operator（可采取現(xiàn)實(shí)世界的行動(dòng)）相結(jié)合，使ChatGPT能夠執(zhí)行越來越復(fù)雜的任務(wù)。

可預(yù)見的顛覆性

Sam Altman表示，深度研究功能計(jì)算密集且速度慢，可能需要5到30分鐘才能完成一項(xiàng)任務(wù)，但它是第一個(gè)能夠完成多種復(fù)雜、有價(jià)值任務(wù)的AI系統(tǒng)。

用他的話說性價(jià)比非常高：“投入50美分的計(jì)算成本，創(chuàng)造500美元的價(jià)值。”

杰克遜實(shí)驗(yàn)室教授、生物醫(yī)學(xué)科學(xué)家Derya Unutmaz試用深度研究后表示：“從我的測(cè)試來看，它絕對(duì)改變了科學(xué)研究、出版、法律文件、醫(yī)學(xué)、教育等領(lǐng)域的游戲規(guī)則?！?/p>

Derya Unutmaz介紹了自己搶先體驗(yàn)的一些用例，發(fā)現(xiàn)一些實(shí)在好處：AI比人類更有耐心，不會(huì)像人類那樣經(jīng)常抱怨；“深度研究”就像一個(gè)24/7全天候的助手，而且可以立即成為任何主題的專家，專業(yè)度甚至超越人類教授；他請(qǐng)“深度研究”協(xié)助處理兩例癌癥病例，生成的兩份報(bào)告幾乎無可挑剔，就像只有專科醫(yī)生才能寫出來的東西。

值得關(guān)注的是，谷歌在去年12月份推出Gemini 2.0 Flash模型的時(shí)候也介紹過一個(gè)名為“Deep Research”的類似AI代理功能，不過經(jīng)網(wǎng)友對(duì)比發(fā)現(xiàn)OpenAI做到了更進(jìn)一步。

谷歌的類似功能像是對(duì)眾多信息源的匯總，而OpenAI的這個(gè)功能更像是讓一位見解獨(dú)到且能緊跟思路的研究員（近乎博士水平）來操作工作。

此外，谷歌的方法搜索性強(qiáng)（檢查了更多的來源），但探索性較差，如果你想要一個(gè)概述，谷歌的版本可能還不錯(cuò)。但如果你想讓AI深入細(xì)節(jié)研究，但又非常有主見，那你就可能需要OpenAI的Deep Research了。不過目前，他們都無法訪問太多付費(fèi)研究和出版物。

有人用OpenAI的深度研究功能去寫專業(yè)級(jí)論文，效果也令人驚嘆。多倫多大學(xué)羅特曼管理學(xué)院戰(zhàn)略管理學(xué)副教授Kevin A. Bryan展示了一個(gè)案例，通過一次性提示，在無反復(fù)修改的情況下，“深度研究”經(jīng)過10分鐘創(chuàng)作完成一篇論文。

他感慨，鑒于技術(shù)的進(jìn)步，AI已經(jīng)不再是“抄襲引擎”，未來如何進(jìn)行教育改革或是首要任務(wù)，因?yàn)槿祟惻cAI協(xié)作進(jìn)行知識(shí)工作已成必然趨勢(shì)。

OpenAI研究人員Jason Wei認(rèn)為，深度研究不僅是一個(gè)令人驚嘆的智能體，還可以被視為互聯(lián)網(wǎng)的全新交互界面。我們正步入這樣一個(gè)時(shí)代：原本人類需要花費(fèi)數(shù)小時(shí)整理的任何信息，人工智能幾分鐘就能為你綜合整理分析出謀劃策。

無需再翻閱數(shù)百條評(píng)論來挑選酒店、餐廳或產(chǎn)品，AI會(huì)為我們?cè)u(píng)估所有維度相關(guān)信息；旅行時(shí)，我們能從網(wǎng)絡(luò)的各個(gè)角落，甚至是小眾論壇中獲取最佳攻略。

對(duì)于任何新的科學(xué)構(gòu)想，我們能迅速得到所有相關(guān)文獻(xiàn)、相關(guān)理念以及可聯(lián)系人員的清單。

這基本上就像是為用戶想了解的內(nèi)容量身定制的互聯(lián)網(wǎng)，這種模式的商業(yè)潛力可能無比強(qiáng)大，以至于在未來，通過瀏覽器手動(dòng)搜索整理資料會(huì)像用手進(jìn)行算術(shù)而不使用計(jì)算器一樣，成為 “老派” 做法。

布局AI硬件和芯片

除了AI模型和功能的更新，OpenAI今天也被媒體爆料出可能會(huì)進(jìn)行人工智能專用硬件和芯片的開發(fā)，或許將是自2007年推出iPhone以來對(duì)技術(shù)硬件的又一輪顛覆。

Sam Altman在采訪中回應(yīng)稱：“可能與蘋果前首席設(shè)計(jì)官喬尼·艾維合作”、“人工智能對(duì)我們與計(jì)算機(jī)交互方式的改變非常大，應(yīng)該有一種新的硬件”。

在半導(dǎo)體方面，當(dāng)被問及OpenAI是否會(huì)開發(fā)自己的半導(dǎo)體時(shí)，Altman表示團(tuán)隊(duì)正在開發(fā)定制芯片，以提供更快、更高效的人工智能，但AI原型機(jī)或?qū)⑿枰皫啄辍睍r(shí)間才能面世，其中語音交互應(yīng)該是一個(gè)關(guān)鍵功能。

類似于iPhone通過觸摸屏徹底改變用戶界面設(shè)計(jì)的方式，具備高智商的“專家級(jí)AI代理”相關(guān)硬件開發(fā)或?qū)⒂瓉硪徊v史性發(fā)展機(jī)會(huì)。

GPU算力按需租用

A100/H100 GPU算力按需租用，

秒級(jí)計(jì)費(fèi)，平均節(jié)省開支30%以上！

掃碼了解詳情?

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.