OpenAI deep research意圖突破“人類(lèi)的最后考試”。
作者|王博
北京時(shí)間今天上午,OpenAI突然發(fā)布了一款全新的Agent(智能體)——deep research。
Deep research是一款利用推理合成大量在線信息并為用戶(hù)完成多步驟研究任務(wù)的Agent,目前已整合到ChatGPT中。目前,ChatGPT Pro用戶(hù)已可使用相關(guān)功能,接下來(lái)deep research也將對(duì)Plus和Team用戶(hù)開(kāi)放使用。
簡(jiǎn)單來(lái)說(shuō),用戶(hù)只需要告訴ChatGPT需要一份怎樣的報(bào)告,并在對(duì)話框中勾選deep research,ChatGPT就將查找、分析并綜合數(shù)百個(gè)線上資料,創(chuàng)建一份相當(dāng)于分析師水平的綜合報(bào)告,而用時(shí)只需要5~30分鐘。
這已經(jīng)是OpenAI近兩周的第三次發(fā)布了,之前OpenAI發(fā)布了首款A(yù)I Agent——Operator和最新推理模型o3-mini。
這三次發(fā)布都在DeepSeek-R1發(fā)布之后。
圖片來(lái)源:OpenAI
Youtube網(wǎng)友看熱鬧不嫌事大,一位網(wǎng)友在deep research發(fā)布視頻下評(píng)論:“Deepseek應(yīng)該發(fā)布R2,這樣我們下周就能接觸到GPT5。”
圖片來(lái)源:OpenAI Youtube賬號(hào)
OpenAI的確也在想著DeepSeek,在OpenAI發(fā)布deep research的直播演示畫(huà)面中,歷史聊天記錄中有一個(gè)問(wèn)題是:“Is Deeper Seeker a good name?(Deeper Seeker是一個(gè)好名字嗎?)”
不知道這是“無(wú)心之失”,還是“有意為之”,但OpenAI很有可能最開(kāi)始沒(méi)想給這個(gè)新Agent起名deep research,而是想“碰瓷”DeepSeek,至少想留個(gè)“彩蛋”。
圖片來(lái)源:OpenAI
Deep research由即將推出的OpenAI o3模型中的一個(gè)版本驅(qū)動(dòng),該版本經(jīng)過(guò)優(yōu)化以進(jìn)行網(wǎng)絡(luò)瀏覽和數(shù)據(jù)分析,可以利用推理來(lái)搜索、解釋和分析互聯(lián)網(wǎng)上的大量文本、圖像和PDF文件,并根據(jù)搜集的信息進(jìn)行靈活調(diào)整。
OpenAI展示了很多deep research的應(yīng)用案例,比如在商業(yè)、大海撈針(Needle in a Haystack)、醫(yī)學(xué)研究、用戶(hù)體驗(yàn)設(shè)計(jì)、購(gòu)物等領(lǐng)域的應(yīng)用,并稱(chēng)Deep research可提供“全面、精確、可靠的研究”“超個(gè)性化購(gòu)買(mǎi)建議”“小眾的、非直觀的信息”。
通過(guò)deep research生成的市場(chǎng)分析報(bào)告,有數(shù)據(jù)、圖表、來(lái)源,圖片來(lái)源:OpenAI
Deep research處理大海撈針問(wèn)題演示,圖片來(lái)源:OpenAI
這不禁讓我們這些搞行業(yè)分析的人倒吸了一口涼氣,“年還沒(méi)過(guò)完,工作就要沒(méi)了?”
我們把deep research的事情跟DeepSeek和Kimi都說(shuō)了,DeepSeek-R1安慰道:“這種變革本質(zhì)上不是替代,而是將人類(lèi)智慧從信息處理的‘體力勞動(dòng)’中解放,轉(zhuǎn)向更高維的價(jià)值創(chuàng)造。”而Kimi 1.5則更為直接地說(shuō):“盡管AI在生成研究報(bào)告方面展現(xiàn)出了驚人的效率和能力,但人類(lèi)分析師在理解復(fù)雜問(wèn)題、與客戶(hù)溝通以及提供專(zhuān)業(yè)建議等方面仍然具有不可替代的優(yōu)勢(shì)。”
“AI是否能替代人類(lèi)分析師”的話題還有待討論,但是這次OpenAI o3模型通過(guò)deep research展現(xiàn)出的回答專(zhuān)業(yè)、復(fù)雜問(wèn)題能力非常值得關(guān)注。
它使用了類(lèi)似人類(lèi)的方法,創(chuàng)造了在“人類(lèi)的最后考試”(Humanity's Last Exam)中的最佳成績(jī)。
1.什么是“人類(lèi)的最后考試”?
“人類(lèi)的最后考試”是由Center for AI Safety(CAIS)和Scale AI共同推出的一項(xiàng)新的基準(zhǔn)測(cè)試(benchmark),旨在評(píng)估大語(yǔ)言模型(LLMs)的深度推理能力,并確定專(zhuān)家級(jí)人工智能(expert-level AI)何時(shí)真正到來(lái)。
基準(zhǔn)測(cè)試是評(píng)估大模型能力的重要工具,但是基準(zhǔn)測(cè)試的難度并未與時(shí)俱進(jìn)。
比如熱門(mén)的基準(zhǔn)測(cè)試MMLU(Massive Multitask Language Understanding),其在2021年被提出,包含了57個(gè)學(xué)科領(lǐng)域,覆蓋從基礎(chǔ)到高級(jí)的不同難度級(jí)別,涉及 STEM(科學(xué)、技術(shù)、工程、數(shù)學(xué))、社會(huì)科學(xué)、人文、醫(yī)學(xué)、法律等多個(gè)領(lǐng)域。
很多大模型在MMLU基準(zhǔn)測(cè)試上實(shí)現(xiàn)了超過(guò)90%的準(zhǔn)確率,這限制了對(duì)最先進(jìn)的大模型能力的有效測(cè)量。
智源研究院副院長(zhǎng)兼總工程師林詠華曾公開(kāi)表示,有一些測(cè)評(píng)榜單完全可以靠定向的訓(xùn)練數(shù)據(jù)來(lái)拔高分?jǐn)?shù)。
“C-Eval、MMLU以及CMMLU,這幾個(gè)類(lèi)似的測(cè)評(píng)集已經(jīng)有點(diǎn)被各個(gè)模型過(guò)度訓(xùn)練。”林詠華說(shuō),“所以,觀察大模型能力時(shí),我建議大家不用過(guò)度關(guān)注這幾個(gè)測(cè)試集的評(píng)分。”
時(shí)代呼喚新的基準(zhǔn)測(cè)試。
2024年9月,就在OpenAI發(fā)布o(jì)1模型后,CAIS和Scale AI就在籌劃新的基準(zhǔn)測(cè)試——“人類(lèi)的最后考試”。2025年1月,“人類(lèi)的最后考試”基準(zhǔn)測(cè)試正式推出,相關(guān)論文也發(fā)到了arXiv上了。
在“人類(lèi)的最后考試”的組織團(tuán)隊(duì)中,「甲子光年」發(fā)現(xiàn)了一個(gè)熟人——丹·亨德里克斯(Dan Hendrycks)。
“人類(lèi)的最后考試”組織團(tuán)隊(duì),圖片來(lái)源:arXiv
Dan Hendrycks,圖片來(lái)源:UC Berkeley
他是一位在機(jī)器學(xué)習(xí)、深度學(xué)習(xí)魯棒性以及人工智能安全領(lǐng)域頗有影響力的研究者,目前擔(dān)任非營(yíng)利性組織CAIS的主任,同時(shí)他也是xAI和Scale AI的顧問(wèn)。
更值得一提的是,他是當(dāng)年MMLU基準(zhǔn)測(cè)試論文的一作。
《MEASURING MASSIVE MULTITASK LANGUAGE UNDERSTANDING》論文,圖片來(lái)源:arXiv
讓亨德里克斯下定決心發(fā)起“人類(lèi)的最后考試”的是OpenAI o1,他認(rèn)為該模型“摧毀了最受歡迎的推理基準(zhǔn)”。
與他有相同想法的還有Scale AI CEO亞歷山大·王(Alexandr Wang),去年9月,他就呼吁:“我們迫切需要更嚴(yán)格的測(cè)試來(lái)評(píng)估專(zhuān)家級(jí)模型,以衡量人工智能的快速進(jìn)展。”
大約四個(gè)月后,CAIS和Scale AI推出了“人類(lèi)的最后考試”基準(zhǔn)測(cè)試,這是一個(gè)處于人類(lèi)知識(shí)前沿的多模態(tài)基準(zhǔn)測(cè)試。
“人類(lèi)的最后考試”共有3000道題目,不要小看這3000道題目,它們是從70000道題目中經(jīng)過(guò)重重篩選而來(lái)。
題目篩選過(guò)程,圖片來(lái)源:“人類(lèi)的最后考試”
這些題目涉及數(shù)學(xué)、人文、自然科學(xué)等100多個(gè)學(xué)科,由來(lái)自全球500多所機(jī)構(gòu)的近1000名專(zhuān)家、學(xué)者精心設(shè)計(jì),包含多項(xiàng)選擇題和簡(jiǎn)答題,適用于自動(dòng)評(píng)分。另外,這些題目都有明確且易于驗(yàn)證的標(biāo)準(zhǔn)答案,但大模型無(wú)法通過(guò)簡(jiǎn)單的互聯(lián)網(wǎng)搜索快速得出結(jié)果。
“人類(lèi)的最后考試”題目學(xué)科類(lèi)型占比,圖片來(lái)源:“人類(lèi)的最后考試”
之所以命名為“人類(lèi)的最后考試”,是因?yàn)樗氤蔀椤白罱K的”封閉式學(xué)術(shù)能力評(píng)估基準(zhǔn)。
「甲子光年」找到了一些“人類(lèi)的最后考試”題目,可以看出這些專(zhuān)家、學(xué)者為了難住AI大模型真的是“絞盡腦汁”。
比如,牛津大學(xué)墨頓學(xué)院Henry T出了一道題:“這是一段羅馬銘文,最初是在墓碑上發(fā)現(xiàn)的,請(qǐng)?zhí)峁┡翣柮桌淖值淖g文。”
圖片來(lái)源:“人類(lèi)的最后考試”
還有一道題是:“在希臘神話中,伊阿宋(希臘神話中奪取金羊毛的主要英雄,英文譯名為Jason)的外曾祖父是誰(shuí)?”
圖片來(lái)源:“人類(lèi)的最后考試”
另外,還有來(lái)自各大知名大學(xué)的數(shù)學(xué)、物理、化學(xué)、計(jì)算機(jī)科學(xué)等學(xué)科的題目。
從上至下為數(shù)學(xué)、物理、化學(xué)、計(jì)算機(jī)科學(xué)的題目,圖片來(lái)源:“人類(lèi)的最后考試”
這些題目一出,一眾大模型就“撲街”了。和以往的基準(zhǔn)測(cè)試相比,包括OpenAI的GPT-4o、o1,以及Anthropic的Claude 3.5 Sonnet、谷歌的Gemini 1.5在“人類(lèi)的最后考試”中的準(zhǔn)確率呈“斷崖式下降”。
大模型在不同基準(zhǔn)測(cè)試中的準(zhǔn)確率,HLE指的是“人類(lèi)的最后考試”,圖片來(lái)源:“人類(lèi)的最后考試”
可以看出,“人類(lèi)的最后考試”相比以往的基準(zhǔn)測(cè)試(例如MMLU),更專(zhuān)注于通過(guò)原創(chuàng)且高難度的題目,尤其是數(shù)學(xué)和深度推理題,來(lái)考察模型的極限推理和解決復(fù)雜問(wèn)題的能力。“人類(lèi)的最后考試”中有10%題目還考察了模型的多模態(tài)能力(比如理解圖片),這也為測(cè)試增加了難度。
“人類(lèi)的最后考試”團(tuán)隊(duì)在介紹文檔中“有些得意”地寫(xiě)道:“這表明它在測(cè)量高級(jí)、封閉式學(xué)術(shù)能力方面非常有效。”
但是今天,OpenAI deep research刷新了大模型在“人類(lèi)的最后考試”中的最佳成績(jī),幾乎是之前o1準(zhǔn)確率的三倍。
2.OpenAI deep research是如何做到的?
根據(jù)OpenAI發(fā)布的數(shù)據(jù),在deep research這款A(yù)gent的加持下,OpenAI o3模型在“人類(lèi)的最后考試”中取得了26.6%的準(zhǔn)確率,與o1相比,該模型化學(xué)、人文和社會(huì)科學(xué)、數(shù)學(xué)領(lǐng)域的進(jìn)步最為明顯,而且OpenAI deep research展示了類(lèi)人化的方式,在必要時(shí)會(huì)高效找到專(zhuān)業(yè)信息。
OpenAI deep research在“人類(lèi)的最后考試”中取得了26.6%的準(zhǔn)確率,創(chuàng)下新高,圖片來(lái)源:OpenAI
值得注意的是,DeepSeek-R1在“人類(lèi)的最后考試”中的準(zhǔn)確率要略高于o1,這也是對(duì)DeepSeek-R1推理能力的認(rèn)可。
表格中也寫(xiě)明,DeepSeek-R1和OpenAI o3-mini不是多模態(tài)模型,僅在文本子集進(jìn)行了評(píng)估。
OpenAI deep research是如何做到的?
這張表格的**號(hào)部分透露了玄機(jī)——瀏覽和Python工具。
Deep Research通過(guò)端到端強(qiáng)化學(xué)習(xí)在多個(gè)領(lǐng)域的復(fù)雜瀏覽和推理任務(wù)上進(jìn)行了訓(xùn)練。通過(guò)這種訓(xùn)練,它學(xué)會(huì)了如何規(guī)劃和執(zhí)行多步驟的操作流程,以找到它需要的數(shù)據(jù),并在必要時(shí)進(jìn)行回溯和對(duì)實(shí)時(shí)信息做出反應(yīng)。
該模型還能夠?yàn)g覽用戶(hù)上傳的文件,使用Python工具繪制和迭代圖表,將生成的圖表和網(wǎng)站上的圖像嵌入其回答中,并引用其來(lái)源中的特定句子或段落。
由于這種訓(xùn)練,它在多個(gè)針對(duì)現(xiàn)實(shí)世界問(wèn)題的公開(kāi)評(píng)估中達(dá)到了新的高度。
不過(guò)OpenAI也客觀表示,deep Research解鎖了新能力,但它仍處于早期階段,存在一些局限性。根據(jù)內(nèi)部評(píng)估,它有時(shí)會(huì)在響應(yīng)中產(chǎn)生幻覺(jué)或做出錯(cuò)誤推斷,但發(fā)生率明顯低于現(xiàn)有的ChatGPT。
它可能難以區(qū)分權(quán)威信息和謠言,目前在信心校準(zhǔn)(confidence calibration)方面表現(xiàn)較弱,常常無(wú)法準(zhǔn)確傳達(dá)不確定性。在發(fā)布時(shí),報(bào)告和引用中可能會(huì)出現(xiàn)輕微的格式錯(cuò)誤,任務(wù)的啟動(dòng)時(shí)間也可能更長(zhǎng)。
不過(guò),OpenAI預(yù)計(jì)所有這些問(wèn)題都會(huì)隨著使用和時(shí)間的推移而迅速改善。
這不禁讓人會(huì)思考一些問(wèn)題,“人類(lèi)的最后考試”真的是人類(lèi)給AI大模型的“最后一場(chǎng)考試”嗎?如果新的大模型取得了更高的準(zhǔn)確率,這就意味著AGI的到來(lái)嗎?
“人類(lèi)的最后考試”團(tuán)隊(duì)認(rèn)為,雖然當(dāng)前的大模型在“人類(lèi)的最后考試”上的準(zhǔn)確率還比較低,但根據(jù)歷史經(jīng)驗(yàn),基準(zhǔn)測(cè)試會(huì)很快飽和。
他們直截了當(dāng)?shù)卣f(shuō):“‘人類(lèi)的最后考試’可能是我們需要給模型進(jìn)行的最后一次學(xué)術(shù)考試,但它遠(yuǎn)非針對(duì)AI的最后一個(gè)基準(zhǔn)測(cè)試。(HLE may be the last academic exam we need to give to models, but it is far from the last benchmark for AI.)”
團(tuán)隊(duì)預(yù)計(jì),到2025年底,大模型有可能在“人類(lèi)的最后考試”上實(shí)現(xiàn)超過(guò)50%的準(zhǔn)確率。在“人類(lèi)的最后考試”實(shí)現(xiàn)高準(zhǔn)確率將證明模型在封閉式、可驗(yàn)證的問(wèn)題以及尖端科學(xué)知識(shí)方面達(dá)到專(zhuān)家級(jí)水平,“但這并不意味著它具有自主研究能力或者AGI。”
“人類(lèi)的最后考試”團(tuán)隊(duì)發(fā)表這些觀點(diǎn)的時(shí)間是1月24日,但是現(xiàn)在,剛剛過(guò)去不到兩周,OpenAI deep research就展現(xiàn)了“大模型+Agent”具有一定自主研究能力。
那么,AGI呢?
OpenAI首席研究員Mark Chen在deep research發(fā)布會(huì)直播的最后說(shuō):“Deep research對(duì)我們的AGI路線圖非常重要。”
*參考資料:
Introducing deep research,OpenAI
Humanity's Last Exam,CAIS&Scale AI
AI experts ready 'Humanity's Last Exam' to stump powerful tech,Reuters
(封面圖來(lái)源:電影《指環(huán)王3:王者無(wú)敵》)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.