網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

7個月翻一番！AI agent能力飆升，METR報告揭示指數(shù)級進(jìn)化規(guī)律

2025-07-16 16:25:23　來源: 量子位

北京舉報

分享至

henry 發(fā)自凹非寺
量子位 | 公眾號 QbitAI

Agent能力每7個月翻一番！

根據(jù)非營利研究機(jī)構(gòu)METR最新發(fā)布的報告，這一規(guī)律已在9項基準(zhǔn)測試中得到了驗證。

這些任務(wù)涉及編程、數(shù)學(xué)、計算機(jī)使用、自動駕駛等領(lǐng)域，表明大模型正在不斷向著高度自動化邁進(jìn)。

報告指出：在軟件開發(fā)、數(shù)學(xué)競賽、科學(xué)問答等任務(wù)中，agent已能完成相當(dāng)于人類花費50–200分鐘才能完成的任務(wù)，并且這種能力還在快速提升——大約每2–6個月就能翻一番

在計算機(jī)操作任務(wù)中，雖然任務(wù)時長較短，但增長率與軟件開發(fā)等任務(wù)一致。

Agent在自動駕駛?cè)蝿?wù)的性能增長速度則較慢，約20個月翻一番。

在視頻理解任務(wù)中，模型能夠在時長1小時的視頻上取得50%的成功率。

作為一家致力于研究前沿人工智能系統(tǒng)能力及其風(fēng)險的研究團(tuán)隊，METR此次的報告又進(jìn)一步拉近了AI自主化的時間線，快來和我們看看報告有哪些內(nèi)容吧。

Agent的摩爾定律

在此前的測試中，METR將評估范圍聚焦于軟件開發(fā)和研究類任務(wù)，并發(fā)現(xiàn)AI agent的能力呈現(xiàn)出一種“摩爾定律”式的增長趨勢——平均每七個月，其可完成任務(wù)的time horizon就會翻一番。

而在最新報告中，METR將這一評估方法拓展至更廣泛的領(lǐng)域，并繼續(xù)追問一個關(guān)鍵問題：AI的能力，是否能在更廣泛的任務(wù)中，以time horizon翻倍的方式不斷躍升？

不過我們首先要問的是，什么是time horizon？

舉例來說，人類平均花30分鐘完成一個任務(wù)，AI如果能在這類任務(wù)上有一半成功的概率，那就說它的time horizon是30分鐘。如果它成功率還遠(yuǎn)高于一半，例如達(dá)到80%，那說明它其實能勝任更長、更復(fù)雜的任務(wù)。

概括地說，time horizon就是agent在任務(wù)上可穩(wěn)定完成的時間跨度。

由于time horizon越長≈任務(wù)越難≈需要更多策略推理與計劃能力≈智能體的智能水平越高，所以time horizon的翻倍也被稱為agent的摩爾定律。

由于AI在不同任務(wù)中的能力差別極大，所以現(xiàn)在的問題是：這個指數(shù)級增長規(guī)律，會在其他領(lǐng)域也成立嗎？

如何跨領(lǐng)域衡量time horizon？

為了證明上面的問題，報告選取了9個benchmark，包括軟件開發(fā)（METR?HRS、SWE?bench）、計算機(jī)使用（OSWorld、WebArena）、數(shù)學(xué)競賽（Mock?AIME、MATH）、編程競賽（LiveCode-Bench)、科學(xué)問答（GPQADiamond）、視頻理解（Video?MME）、自動駕駛（Tesla?FSD）和機(jī)器人仿真（RLBench）。

對每個benchmark，METR構(gòu)造了概率模型來估算agent的time horizon。報告采用最大似然估計（MLE）或簡化估計方法，處理不同benchmark的標(biāo)簽粒度以估算出每個領(lǐng)域AI隨時間的time horizon增長曲線。

值得注意的是，不同基準(zhǔn)測試的time horizon邊界相差超過100倍。許多推理和編碼基準(zhǔn)測試的集群時間都在1小時或以上，但在計算機(jī)的使用時間（OSWorld、WebArena）僅為約2分鐘，而這可能源于agent在使用鼠標(biāo)時發(fā)生的誤觸。

研究發(fā)現(xiàn)：智能體能力按月翻番

除了我們開頭提到的智能體的能力變化，報告還測試了當(dāng)前主流的幾家大模型的能力。例如，像o3這樣的前沿模型在METR任務(wù)上的表現(xiàn)一直高于趨勢水平，翻倍時間快于7個月，在9個基準(zhǔn)測試的翻倍時間中位數(shù)約為4個月（范圍為2.5至17個月）。

最后，time horizon并非對于所有的基礎(chǔ)測試中都重要。由于有些基準(zhǔn)中難題的難度要遠(yuǎn)大于簡單題，而在另一些基準(zhǔn)中，難題卻和簡單題相差無幾。因此，對于agent來說，在這些基準(zhǔn)測試中time horizon并不能完全反映其性能。

例如，LeetCode（LiveCodeBench）和數(shù)學(xué)問題（AIME）的難度要遠(yuǎn)高于簡單問題，但長視頻上的Video-MME問題并不比短視頻上的難多少。

可見，agent的性能并不只是看“會更多技巧”，而是看是否能處理更長、更復(fù)雜任務(wù)

從幾秒、幾分鐘，到幾十分鐘、幾小時，agent的可處理范圍正在跨越級別提升；如果翻倍趨勢持續(xù)，未來幾年內(nèi)可能看到AI完成“幾天→幾周”的任務(wù)成為可能。

總結(jié)這一研究可以看到一個很清楚的規(guī)律：從代碼推理到數(shù)學(xué)競賽，從GUI控制到自動駕駛，沒有一個任務(wù)域顯示出智能增長的“乏力”。在多數(shù)場景中，AI正全速向更大跨度、更深記憶、更復(fù)雜規(guī)劃演進(jìn)。

[1]https://arxiv.org/abs/2503.14499
[2]https://metr.org/blog/2025-07-14-how-does-time-horizon-vary-across-domains/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.