99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

7個月翻一番!AI agent能力飆升,METR報告揭示指數級進化規律

0
分享至

  • henry 發自 凹非寺
    量子位 | 公眾號 QbitAI

Agent能力每7個月翻一番!

根據非營利研究機構METR最新發布的報告,這一規律已在9項基準測試中得到了驗證。

這些任務涉及編程、數學、計算機使用、自動駕駛等領域,表明大模型正在不斷向著高度自動化邁進。



報告指出:在軟件開發、數學競賽、科學問答等任務中,agent已能完成相當于人類花費50–200分鐘才能完成的任務,并且這種能力還在快速提升——大約每2–6個月就能翻一番

在計算機操作任務中,雖然任務時長較短,但增長率與軟件開發等任務一致。

Agent在自動駕駛任務的性能增長速度則較慢,約20個月翻一番。

在視頻理解任務中,模型能夠在時長1小時的視頻上取得50%的成功率。

作為一家致力于研究前沿人工智能系統能力及其風險的研究團隊,METR此次的報告又進一步拉近了AI自主化的時間線,快來和我們看看報告有哪些內容吧。

Agent的摩爾定律

在此前的測試中,METR將評估范圍聚焦于軟件開發和研究類任務,并發現AI agent的能力呈現出一種“摩爾定律”式的增長趨勢——平均每七個月,其可完成任務的time horizon就會翻一番。

而在最新報告中,METR將這一評估方法拓展至更廣泛的領域,并繼續追問一個關鍵問題:AI的能力,是否能在更廣泛的任務中,以time horizon翻倍的方式不斷躍升?

不過我們首先要問的是,什么是time horizon?

舉例來說,人類平均花30分鐘完成一個任務,AI如果能在這類任務上有一半成功的概率,那就說它的time horizon是30分鐘。如果它成功率還遠高于一半,例如達到80%,那說明它其實能勝任更長、更復雜的任務。

概括地說,time horizon就是agent在任務上可穩定完成的時間跨度。

由于time horizon越長≈任務越難≈需要更多策略推理與計劃能力≈智能體的智能水平越高,所以time horizon的翻倍也被稱為agent的摩爾定律。

由于AI在不同任務中的能力差別極大,所以現在的問題是:這個指數級增長規律,會在其他領域也成立嗎?

如何跨領域衡量time horizon?

為了證明上面的問題,報告選取了9個benchmark,包括軟件開發(METR?HRS、SWE?bench)、計算機使用(OSWorld、WebArena)、數學競賽(Mock?AIME、MATH)、編程競賽(LiveCode-Bench)、科學問答(GPQADiamond)、視頻理解(Video?MME)、自動駕駛(Tesla?FSD)和機器人仿真(RLBench)。



對每個benchmark,METR構造了概率模型來估算agent的time horizon。報告采用最大似然估計(MLE)或簡化估計方法,處理不同benchmark的標簽粒度以估算出每個領域AI隨時間的time horizon增長曲線。



值得注意的是,不同基準測試的time horizon邊界相差超過100倍。許多推理和編碼基準測試的集群時間都在1小時或以上,但在計算機的使用時間(OSWorld、WebArena)僅為約2分鐘,而這可能源于agent在使用鼠標時發生的誤觸。



研究發現:智能體能力按月翻番

除了我們開頭提到的智能體的能力變化,報告還測試了當前主流的幾家大模型的能力。例如,像o3這樣的前沿模型在METR任務上的表現一直高于趨勢水平,翻倍時間快于7個月,在9個基準測試的翻倍時間中位數約為4個月(范圍為2.5至17個月)。



最后,time horizon并非對于所有的基礎測試中都重要。由于有些基準中難題的難度要遠大于簡單題,而在另一些基準中,難題卻和簡單題相差無幾。因此,對于agent來說,在這些基準測試中time horizon并不能完全反映其性能。

例如,LeetCode(LiveCodeBench)和數學問題(AIME)的難度要遠高于簡單問題,但長視頻上的Video-MME問題并不比短視頻上的難多少。



可見,agent的性能并不只是看“會更多技巧”,而是看是否能處理更長、更復雜任務

從幾秒、幾分鐘,到幾十分鐘、幾小時,agent的可處理范圍正在跨越級別提升;如果翻倍趨勢持續,未來幾年內可能看到AI完成“幾天→幾周”的任務成為可能。

總結這一研究可以看到一個很清楚的規律:從代碼推理到數學競賽,從GUI控制到自動駕駛,沒有一個任務域顯示出智能增長的“乏力”。在多數場景中,AI正全速向更大跨度、更深記憶、更復雜規劃演進。


[1]https://arxiv.org/abs/2503.14499
[2]https://metr.org/blog/2025-07-14-how-does-time-horizon-vary-across-domains/


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
陳佩斯要哭了!本來看到幾萬的預售老爺子已經泄氣了!結果逆襲了

陳佩斯要哭了!本來看到幾萬的預售老爺子已經泄氣了!結果逆襲了

心靜物娛
2025-07-20 11:27:44
杜建英這個人,完全不經扒!當年協議中,拿到的實際好處相當豐厚

杜建英這個人,完全不經扒!當年協議中,拿到的實際好處相當豐厚

查爾菲的筆記
2025-07-19 16:34:21
官僚作風挖坑女籃,宮魯鳴們揭底中國體育的盲目自大

官僚作風挖坑女籃,宮魯鳴們揭底中國體育的盲目自大

小嵩
2025-07-20 08:01:18
“白天陪玩,晚上陪睡”,私人伴游交易的背后,誰是主力軍?

“白天陪玩,晚上陪睡”,私人伴游交易的背后,誰是主力軍?

書畫藝術收藏
2025-07-18 19:20:02
S媽希望具俊曄回韓國的時候,把遺產送給她,這一天可能等不到了

S媽希望具俊曄回韓國的時候,把遺產送給她,這一天可能等不到了

小娛樂悠悠
2025-07-20 12:19:12
新加坡已經預測中美沖突:一旦爆發,美國稱中國不能攻打美本土

新加坡已經預測中美沖突:一旦爆發,美國稱中國不能攻打美本土

時尚的弄潮
2025-07-20 15:42:06
從特斯拉車主到總統候選人,馬斯克逆轉戰局,兩黨大佬連夜求和

從特斯拉車主到總統候選人,馬斯克逆轉戰局,兩黨大佬連夜求和

小怪吃美食
2025-07-18 05:52:33
每體:弗里克將擁有7名進攻型球員,他們上賽季共打進144球

每體:弗里克將擁有7名進攻型球員,他們上賽季共打進144球

懂球帝
2025-07-20 17:20:06
港媒爆料趙雅芝日子挺苦的,被3個兒子長期啃老,71歲還不能老!

港媒爆料趙雅芝日子挺苦的,被3個兒子長期啃老,71歲還不能老!

木子愛娛樂大號
2025-07-05 09:37:33
盤點NBA歷史上那些虧到吐血的交易

盤點NBA歷史上那些虧到吐血的交易

茅塞盾開本尊
2025-07-18 14:26:19
看哭!卡友帶16歲兒子跑車,父子車禍死亡,剛買新車,第一次出車

看哭!卡友帶16歲兒子跑車,父子車禍死亡,剛買新車,第一次出車

恪守原則和底線
2025-07-20 05:10:03
曝杜建英并未與原配離婚,兩人恩愛至今 還生了一個36歲兒子

曝杜建英并未與原配離婚,兩人恩愛至今 還生了一個36歲兒子

查爾菲的筆記
2025-07-18 22:43:58
臺風“韋帕”已加強為臺風級

臺風“韋帕”已加強為臺風級

界面新聞
2025-07-20 07:04:05
日本這次玩大了,徹底激怒中國,就在剛剛,中方罕見發火傳新消息

日本這次玩大了,徹底激怒中國,就在剛剛,中方罕見發火傳新消息

小lu侃侃而談
2025-07-19 19:21:01
“撞出很大聲響”!美傳奇航母被“偷襲”

“撞出很大聲響”!美傳奇航母被“偷襲”

政知新媒體
2025-07-20 13:32:54
最高級警告!港澳掛出十號風球,廣東將承接“韋帕”最強風雨

最高級警告!港澳掛出十號風球,廣東將承接“韋帕”最強風雨

澎湃新聞
2025-07-20 13:53:05
重返國乒?罕見亮相,蔡振華發聲,亮相新崗位,多年努力獲回報

重返國乒?罕見亮相,蔡振華發聲,亮相新崗位,多年努力獲回報

東球弟
2025-07-20 16:03:11
馬加特有望成為國足新帥,蒿俊閔重返教練組!

馬加特有望成為國足新帥,蒿俊閔重返教練組!

小明侃文體
2025-07-20 10:59:50
總理去世,毛遠新問:誰當總理合適?毛主席說:還是他比較好一些

總理去世,毛遠新問:誰當總理合適?毛主席說:還是他比較好一些

冰雅憶史
2025-07-19 10:38:01
宗慶后DNA被調取,3個私生子力證血緣關系,宗慶后72歲生小兒子?

宗慶后DNA被調取,3個私生子力證血緣關系,宗慶后72歲生小兒子?

削桐作琴
2025-07-14 20:20:04
2025-07-20 18:11:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10893文章數 176192關注度
往期回顧 全部

科技要聞

Manus"跑路新加坡"后,創始人首次復盤

頭條要聞

極氪被指賣"0公里二手車"虛增銷量 官方:正常商業行為

頭條要聞

極氪被指賣"0公里二手車"虛增銷量 官方:正常商業行為

體育要聞

零成本搞定艾頓斯馬特 湖人還有大動作?

娛樂要聞

肖戰改名官宣!徹底不裝了,要自由

財經要聞

夾縫中的芯片之王:黃仁勛能守住4萬億嗎?

汽車要聞

輔助駕駛五維測評 蔚來世界模型:大智小糙

態度原創

游戲
藝術
房產
旅游
數碼

《馬里奧賽車:世界》制作人員名單暗示DLC可能性

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

房產要聞

海南中學江東校區學區劃片重磅出爐!這些項目贏麻了!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

數碼要聞

RTX 5050 Ti首次現身!可惜只是個誤會

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 抚远县| 邻水| 会理县| 左贡县| 历史| 柘荣县| 江阴市| 吴堡县| 且末县| 托克托县| 涿州市| 会同县| 米脂县| 裕民县| 佛学| 和顺县| 扬州市| 阳曲县| 漳平市| 云霄县| 大连市| 泽库县| 新野县| 鲁甸县| 云阳县| 清丰县| 连云港市| 菏泽市| 抚远县| 和田县| 宜丰县| 定襄县| 巴塘县| 芜湖县| 华宁县| 乐亭县| 肃南| 澜沧| 嘉荫县| 舞阳县| 综艺|