大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自頭部科技
文丨譚梓馨
在性價(jià)比推理模型o3-mini發(fā)布后不久,OpenAI創(chuàng)始人Sam Altman曾透露團(tuán)隊(duì)還準(zhǔn)備了一個(gè)驚喜,網(wǎng)友好奇:到底什么是驚喜?
今天,第一個(gè)驚喜就拋出來了,OpenAI重磅發(fā)布了全新的ChatGPT代理功能:Deep Research(深度研究)。
官方介紹,你給它一個(gè)提示,它就會(huì)自動(dòng)查找、分析和綜合數(shù)百個(gè)在線資源,以研究分析師的水平創(chuàng)建一份綜合報(bào)告,僅需數(shù)十分鐘就能完成人類需要數(shù)小時(shí)才能完成的工作。
此外,深度研究由即將面世的OpenAI o3模型的一個(gè)版本驅(qū)動(dòng),借助推理功能,能夠智能且廣泛地瀏覽互聯(lián)網(wǎng)上的文本、圖像和PDF文件,并可根據(jù)遇到的信息做出必要調(diào)整。
Sam Altman將Deep Research稱之為“一個(gè)瘋狂的里程碑”、“一種超能力“,并表示這還不是o3-mini發(fā)布后提到的那個(gè)“one-more-thing”,驚喜還在后面。一夜之間,人類就要大步邁進(jìn)AGI時(shí)代了么?
刷新AI代理智商高度
綜合知識(shí)的能力是創(chuàng)造新知識(shí)的先決條件。OpenAI官方介紹說,深度研究是為從事金融、科學(xué)、政策和工程等領(lǐng)域密集知識(shí)工作并需要全面、精確和可靠研究的人員而打造的。
此外,它對(duì)于尋找高度個(gè)性化推薦的挑剔購(gòu)物者同樣有用,這些推薦通常需要仔細(xì)研究才能購(gòu)買,例如汽車、家電和家具。
從即日起,ChatGPT Pro用戶就可使用 “深度研究” 功能,每月限100次查詢。隨后Plus和Team用戶也將獲得該功能支持,企業(yè)用戶會(huì)在之后跟進(jìn)。并且,此次功能推出按地域進(jìn)行,OpenAI尚未公布針對(duì)英國(guó)、瑞士及歐洲經(jīng)濟(jì)區(qū)ChatGPT用戶的發(fā)布時(shí)間安排。
那么,深度研究的“智商”目前達(dá)到了什么程度?
“Humanity's Last Exam” (人類的終極測(cè)試)是由Scale AI和人工智能安全中心(CAIS)聯(lián)合推出的針對(duì)AI的多模態(tài)基準(zhǔn)測(cè)試,該評(píng)估在專家級(jí)問題上對(duì)廣泛學(xué)科的人工智能進(jìn)行了測(cè)試,包括各個(gè)學(xué)術(shù)領(lǐng)域的3000多個(gè)專家級(jí)問題,深度研究以26.6%的準(zhǔn)確性創(chuàng)下了行業(yè)新高。
GAIA是一個(gè)針對(duì)現(xiàn)實(shí)世界問題評(píng)估AI的公共基準(zhǔn),深度研究達(dá)到了目前最先進(jìn)水平 (SOTA)躍升榜首,該測(cè)試基準(zhǔn)涵蓋三個(gè)難度級(jí)別的問題,需要AI具備推理、多模式流暢性、網(wǎng)頁(yè)瀏覽和工具使用熟練等能力。
OpenAI展示了好多個(gè)實(shí)用場(chǎng)景,比如制作商業(yè)報(bào)告表格,大海撈針(根據(jù)片段場(chǎng)景描述找到影視劇出處),醫(yī)學(xué)研究分析,用戶體驗(yàn)設(shè)計(jì),個(gè)性化需求購(gòu)物推薦和常識(shí)的解讀參考等等。
在對(duì)各個(gè)領(lǐng)域的專家級(jí)任務(wù)進(jìn)行的內(nèi)部評(píng)估中,人類專家們認(rèn)為“深度研究”可以自動(dòng)化完成數(shù)小時(shí)的艱難手動(dòng)調(diào)查,但需要給AI更多的時(shí)間,此外,AI模型瀏覽的內(nèi)容越多,對(duì)所瀏覽內(nèi)容思考得越深入,其表現(xiàn)就越好。
下圖為任務(wù)通過率與最大工具調(diào)用次數(shù)曲線,基本上是成正比的狀態(tài):
另一個(gè)有趣的發(fā)現(xiàn)是,任務(wù)的經(jīng)濟(jì)價(jià)值與通過率的相關(guān)性比與人類花費(fèi)的小時(shí)數(shù)的相關(guān)性更高。也就是說,模型覺得困難的事情,和人類覺得耗時(shí)的事情并不完全相同。
OpenAI官方表示,深度研究現(xiàn)已在ChatGPT網(wǎng)頁(yè)上推出,并將在本月內(nèi)推廣到移動(dòng)和桌面應(yīng)用,目前,深度研究可以訪問開放網(wǎng)絡(luò)和任何上傳的文件,未來,則能夠連接到更專業(yè)的數(shù)據(jù)源上(擴(kuò)大其對(duì)基于訂閱或內(nèi)部資源的訪問),從而使其輸出更加可靠和個(gè)性化。
由于深度研究處于早期階段,它也存在局限性。根據(jù)內(nèi)部評(píng)估,它有時(shí)會(huì)在響應(yīng)中產(chǎn)生幻覺或做出錯(cuò)誤推斷,但發(fā)生率低于現(xiàn)有的ChatGPT模型。
展望未來,OpenAI表示AI代理體驗(yàn)將融入ChatGPT用于異步、現(xiàn)實(shí)世界的研究和執(zhí)行。深度研究(可執(zhí)行異步在線調(diào)查)與Operator(可采取現(xiàn)實(shí)世界的行動(dòng))相結(jié)合,使ChatGPT能夠執(zhí)行越來越復(fù)雜的任務(wù)。
可預(yù)見的顛覆性
Sam Altman表示,深度研究功能計(jì)算密集且速度慢,可能需要5到30分鐘才能完成一項(xiàng)任務(wù),但它是第一個(gè)能夠完成多種復(fù)雜、有價(jià)值任務(wù)的AI系統(tǒng)。
用他的話說性價(jià)比非常高:“投入50美分的計(jì)算成本,創(chuàng)造500美元的價(jià)值。”
杰克遜實(shí)驗(yàn)室教授、生物醫(yī)學(xué)科學(xué)家Derya Unutmaz試用深度研究后表示:“從我的測(cè)試來看,它絕對(duì)改變了科學(xué)研究、出版、法律文件、醫(yī)學(xué)、教育等領(lǐng)域的游戲規(guī)則?!?/p>
Derya Unutmaz介紹了自己搶先體驗(yàn)的一些用例,發(fā)現(xiàn)一些實(shí)在好處:AI比人類更有耐心,不會(huì)像人類那樣經(jīng)常抱怨;“深度研究”就像一個(gè)24/7全天候的助手,而且可以立即成為任何主題的專家,專業(yè)度甚至超越人類教授;他請(qǐng)“深度研究”協(xié)助處理兩例癌癥病例,生成的兩份報(bào)告幾乎無可挑剔,就像只有專科醫(yī)生才能寫出來的東西。
?
值得關(guān)注的是,谷歌在去年12月份推出Gemini 2.0 Flash模型的時(shí)候也介紹過一個(gè)名為“Deep Research”的類似AI代理功能,不過經(jīng)網(wǎng)友對(duì)比發(fā)現(xiàn)OpenAI做到了更進(jìn)一步。
谷歌的類似功能像是對(duì)眾多信息源的匯總,而OpenAI的這個(gè)功能更像是讓一位見解獨(dú)到且能緊跟思路的研究員(近乎博士水平)來操作工作。
此外,谷歌的方法搜索性強(qiáng)(檢查了更多的來源),但探索性較差,如果你想要一個(gè)概述,谷歌的版本可能還不錯(cuò)。但如果你想讓AI深入細(xì)節(jié)研究,但又非常有主見,那你就可能需要OpenAI的Deep Research了。不過目前,他們都無法訪問太多付費(fèi)研究和出版物。
有人用OpenAI的深度研究功能去寫專業(yè)級(jí)論文,效果也令人驚嘆。多倫多大學(xué)羅特曼管理學(xué)院戰(zhàn)略管理學(xué)副教授Kevin A. Bryan展示了一個(gè)案例,通過一次性提示,在無反復(fù)修改的情況下,“深度研究”經(jīng)過10分鐘創(chuàng)作完成一篇論文。
他感慨,鑒于技術(shù)的進(jìn)步,AI已經(jīng)不再是“抄襲引擎”,未來如何進(jìn)行教育改革或是首要任務(wù),因?yàn)槿祟惻cAI協(xié)作進(jìn)行知識(shí)工作已成必然趨勢(shì)。
OpenAI研究人員Jason Wei認(rèn)為,深度研究不僅是一個(gè)令人驚嘆的智能體,還可以被視為互聯(lián)網(wǎng)的全新交互界面。我們正步入這樣一個(gè)時(shí)代:原本人類需要花費(fèi)數(shù)小時(shí)整理的任何信息,人工智能幾分鐘就能為你綜合整理分析出謀劃策。
無需再翻閱數(shù)百條評(píng)論來挑選酒店、餐廳或產(chǎn)品,AI會(huì)為我們?cè)u(píng)估所有維度相關(guān)信息;旅行時(shí),我們能從網(wǎng)絡(luò)的各個(gè)角落,甚至是小眾論壇中獲取最佳攻略。
對(duì)于任何新的科學(xué)構(gòu)想,我們能迅速得到所有相關(guān)文獻(xiàn)、相關(guān)理念以及可聯(lián)系人員的清單。
這基本上就像是為用戶想了解的內(nèi)容量身定制的互聯(lián)網(wǎng),這種模式的商業(yè)潛力可能無比強(qiáng)大,以至于在未來,通過瀏覽器手動(dòng)搜索整理資料會(huì)像用手進(jìn)行算術(shù)而不使用計(jì)算器一樣,成為 “老派” 做法。
布局AI硬件和芯片
除了AI模型和功能的更新,OpenAI今天也被媒體爆料出可能會(huì)進(jìn)行人工智能專用硬件和芯片的開發(fā),或許將是自2007年推出iPhone以來對(duì)技術(shù)硬件的又一輪顛覆。
Sam Altman在采訪中回應(yīng)稱:“可能與蘋果前首席設(shè)計(jì)官喬尼·艾維合作”、“人工智能對(duì)我們與計(jì)算機(jī)交互方式的改變非常大,應(yīng)該有一種新的硬件”。
在半導(dǎo)體方面,當(dāng)被問及OpenAI是否會(huì)開發(fā)自己的半導(dǎo)體時(shí),Altman表示團(tuán)隊(duì)正在開發(fā)定制芯片,以提供更快、更高效的人工智能,但AI原型機(jī)或?qū)⑿枰皫啄辍睍r(shí)間才能面世,其中語音交互應(yīng)該是一個(gè)關(guān)鍵功能。
類似于iPhone通過觸摸屏徹底改變用戶界面設(shè)計(jì)的方式,具備高智商的“專家級(jí)AI代理”相關(guān)硬件開發(fā)或?qū)⒂瓉硪徊v史性發(fā)展機(jī)會(huì)。
GPU算力按需租用
A100/H100 GPU算力按需租用,
秒級(jí)計(jì)費(fèi),平均節(jié)省開支30%以上!
掃碼了解詳情?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.