99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

7個月翻一番!AI agent能力飆升,METR報告揭示指數(shù)級進(jìn)化規(guī)律

0
分享至

  • henry 發(fā)自 凹非寺
    量子位 | 公眾號 QbitAI

Agent能力每7個月翻一番!

根據(jù)非營利研究機(jī)構(gòu)METR最新發(fā)布的報告,這一規(guī)律已在9項基準(zhǔn)測試中得到了驗證。

這些任務(wù)涉及編程、數(shù)學(xué)、計算機(jī)使用、自動駕駛等領(lǐng)域,表明大模型正在不斷向著高度自動化邁進(jìn)。



報告指出:在軟件開發(fā)、數(shù)學(xué)競賽、科學(xué)問答等任務(wù)中,agent已能完成相當(dāng)于人類花費50–200分鐘才能完成的任務(wù),并且這種能力還在快速提升——大約每2–6個月就能翻一番

在計算機(jī)操作任務(wù)中,雖然任務(wù)時長較短,但增長率與軟件開發(fā)等任務(wù)一致。

Agent在自動駕駛?cè)蝿?wù)的性能增長速度則較慢,約20個月翻一番。

在視頻理解任務(wù)中,模型能夠在時長1小時的視頻上取得50%的成功率。

作為一家致力于研究前沿人工智能系統(tǒng)能力及其風(fēng)險的研究團(tuán)隊,METR此次的報告又進(jìn)一步拉近了AI自主化的時間線,快來和我們看看報告有哪些內(nèi)容吧。

Agent的摩爾定律

在此前的測試中,METR將評估范圍聚焦于軟件開發(fā)和研究類任務(wù),并發(fā)現(xiàn)AI agent的能力呈現(xiàn)出一種“摩爾定律”式的增長趨勢——平均每七個月,其可完成任務(wù)的time horizon就會翻一番。

而在最新報告中,METR將這一評估方法拓展至更廣泛的領(lǐng)域,并繼續(xù)追問一個關(guān)鍵問題:AI的能力,是否能在更廣泛的任務(wù)中,以time horizon翻倍的方式不斷躍升?

不過我們首先要問的是,什么是time horizon?

舉例來說,人類平均花30分鐘完成一個任務(wù),AI如果能在這類任務(wù)上有一半成功的概率,那就說它的time horizon是30分鐘。如果它成功率還遠(yuǎn)高于一半,例如達(dá)到80%,那說明它其實能勝任更長、更復(fù)雜的任務(wù)。

概括地說,time horizon就是agent在任務(wù)上可穩(wěn)定完成的時間跨度。

由于time horizon越長≈任務(wù)越難≈需要更多策略推理與計劃能力≈智能體的智能水平越高,所以time horizon的翻倍也被稱為agent的摩爾定律。

由于AI在不同任務(wù)中的能力差別極大,所以現(xiàn)在的問題是:這個指數(shù)級增長規(guī)律,會在其他領(lǐng)域也成立嗎?

如何跨領(lǐng)域衡量time horizon?

為了證明上面的問題,報告選取了9個benchmark,包括軟件開發(fā)(METR?HRS、SWE?bench)、計算機(jī)使用(OSWorld、WebArena)、數(shù)學(xué)競賽(Mock?AIME、MATH)、編程競賽(LiveCode-Bench)、科學(xué)問答(GPQADiamond)、視頻理解(Video?MME)、自動駕駛(Tesla?FSD)和機(jī)器人仿真(RLBench)。



對每個benchmark,METR構(gòu)造了概率模型來估算agent的time horizon。報告采用最大似然估計(MLE)或簡化估計方法,處理不同benchmark的標(biāo)簽粒度以估算出每個領(lǐng)域AI隨時間的time horizon增長曲線。



值得注意的是,不同基準(zhǔn)測試的time horizon邊界相差超過100倍。許多推理和編碼基準(zhǔn)測試的集群時間都在1小時或以上,但在計算機(jī)的使用時間(OSWorld、WebArena)僅為約2分鐘,而這可能源于agent在使用鼠標(biāo)時發(fā)生的誤觸。



研究發(fā)現(xiàn):智能體能力按月翻番

除了我們開頭提到的智能體的能力變化,報告還測試了當(dāng)前主流的幾家大模型的能力。例如,像o3這樣的前沿模型在METR任務(wù)上的表現(xiàn)一直高于趨勢水平,翻倍時間快于7個月,在9個基準(zhǔn)測試的翻倍時間中位數(shù)約為4個月(范圍為2.5至17個月)。



最后,time horizon并非對于所有的基礎(chǔ)測試中都重要。由于有些基準(zhǔn)中難題的難度要遠(yuǎn)大于簡單題,而在另一些基準(zhǔn)中,難題卻和簡單題相差無幾。因此,對于agent來說,在這些基準(zhǔn)測試中time horizon并不能完全反映其性能。

例如,LeetCode(LiveCodeBench)和數(shù)學(xué)問題(AIME)的難度要遠(yuǎn)高于簡單問題,但長視頻上的Video-MME問題并不比短視頻上的難多少。



可見,agent的性能并不只是看“會更多技巧”,而是看是否能處理更長、更復(fù)雜任務(wù)

從幾秒、幾分鐘,到幾十分鐘、幾小時,agent的可處理范圍正在跨越級別提升;如果翻倍趨勢持續(xù),未來幾年內(nèi)可能看到AI完成“幾天→幾周”的任務(wù)成為可能。

總結(jié)這一研究可以看到一個很清楚的規(guī)律:從代碼推理到數(shù)學(xué)競賽,從GUI控制到自動駕駛,沒有一個任務(wù)域顯示出智能增長的“乏力”。在多數(shù)場景中,AI正全速向更大跨度、更深記憶、更復(fù)雜規(guī)劃演進(jìn)。


[1]https://arxiv.org/abs/2503.14499
[2]https://metr.org/blog/2025-07-14-how-does-time-horizon-vary-across-domains/


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
7年賠光2個億,中年返貧的鄒市明,終究還是向生活低頭了

7年賠光2個億,中年返貧的鄒市明,終究還是向生活低頭了

娛小北
2025-07-10 08:54:33
中國稀土太子爺?shù)纳菝疑睿?0萬一頓飯,父子聯(lián)手揮霍上百億資產(chǎn)

中國稀土太子爺?shù)纳菝疑睿?0萬一頓飯,父子聯(lián)手揮霍上百億資產(chǎn)

混沌錄
2025-06-27 22:48:15
TA:由于參加世俱杯,切爾西大部分球員將不會有正常的季前賽

TA:由于參加世俱杯,切爾西大部分球員將不會有正常的季前賽

直播吧
2025-07-17 13:51:15
德國開始交付金牛座遠(yuǎn)程導(dǎo)彈,數(shù)百枚地堡粉碎機(jī)抵達(dá),俄擔(dān)心成真

德國開始交付金牛座遠(yuǎn)程導(dǎo)彈,數(shù)百枚地堡粉碎機(jī)抵達(dá),俄擔(dān)心成真

流年拾光
2025-07-14 21:46:15
網(wǎng)友網(wǎng)戀一個月奔現(xiàn),花千元、見了親戚,房事時摸到男性生殖器

網(wǎng)友網(wǎng)戀一個月奔現(xiàn),花千元、見了親戚,房事時摸到男性生殖器

社會醬
2025-07-13 17:33:17
楊儀曝父親隨禮名單,郭德綱真香了!娛樂圈的人情世故也大抵如此

楊儀曝父親隨禮名單,郭德綱真香了!娛樂圈的人情世故也大抵如此

山山視角
2025-07-15 15:32:32
娃哈哈老員工爆料:宗馥莉與杜建英都不算太厲害,真正厲的還是她

娃哈哈老員工爆料:宗馥莉與杜建英都不算太厲害,真正厲的還是她

南南說娛
2025-07-16 15:10:38
今年的劇王來了?我看它不行!

今年的劇王來了?我看它不行!

小片片說大片
2025-07-16 15:37:55
手段真高!宗慶后老員工曝更多內(nèi)情,原來宗馥莉早就掀桌了

手段真高!宗慶后老員工曝更多內(nèi)情,原來宗馥莉早就掀桌了

果娛
2025-07-17 11:58:12
立訊精密的44萬股東,終于翻身了

立訊精密的44萬股東,終于翻身了

看財經(jīng)show
2025-07-17 16:06:25
賽道爆發(fā)!滿屏漲停

賽道爆發(fā)!滿屏漲停

新浪財經(jīng)
2025-07-17 12:54:45
美軍學(xué)毒販建造半潛無人艇,專向菲律賓偷運,號稱沉幾十艘都不怕

美軍學(xué)毒販建造半潛無人艇,專向菲律賓偷運,號稱沉幾十艘都不怕

陶慕劍地球觀察
2025-07-16 14:32:36
喬丹排第一只是表達(dá)敬意?BR專家:更全能更持久的老詹已經(jīng)是GOAT

喬丹排第一只是表達(dá)敬意?BR專家:更全能更持久的老詹已經(jīng)是GOAT

直播吧
2025-07-16 20:53:22
美考慮援烏射程1000公里巡航導(dǎo)彈,特朗普:莫斯科不能打

美考慮援烏射程1000公里巡航導(dǎo)彈,特朗普:莫斯科不能打

文匯報
2025-07-16 23:54:20
已下架!七大著名酸奶全軍覆沒,實為科技糖水,以后別再被騙了

已下架!七大著名酸奶全軍覆沒,實為科技糖水,以后別再被騙了

好賢觀史記
2025-07-15 21:02:07
12比0壓倒性通過,中國選擇棄權(quán),只能“幫”胡塞武裝到這了

12比0壓倒性通過,中國選擇棄權(quán),只能“幫”胡塞武裝到這了

素年文史
2025-07-17 10:20:45
在上海街頭,一個法國游客為成功解鎖共享單車而落淚

在上海街頭,一個法國游客為成功解鎖共享單車而落淚

隨申Hi
2025-07-16 16:52:13
蔣介石私生活有多混亂?貼身秘書晚年才敢說破,宋美齡的做法絕了

蔣介石私生活有多混亂?貼身秘書晚年才敢說破,宋美齡的做法絕了

回京歷史夢
2025-03-27 18:21:52
內(nèi)馬爾復(fù)出就絕殺!一頭臟辮跪地慶祝,星二代首秀,親爹入獄9年

內(nèi)馬爾復(fù)出就絕殺!一頭臟辮跪地慶祝,星二代首秀,親爹入獄9年

念洲
2025-07-17 09:17:25
八卦往事!1995年帶宗、杜到香港洽談,預(yù)訂2間套房,宗說1間就夠

八卦往事!1995年帶宗、杜到香港洽談,預(yù)訂2間套房,宗說1間就夠

火山詩話
2025-07-17 08:54:26
2025-07-17 17:07:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
10877文章數(shù) 176188關(guān)注度
往期回顧 全部

科技要聞

沒有老黃不夸的中國公司了吧??

頭條要聞

愛康國賓CEO曾揭行業(yè)造假黑幕:抽血后不檢測直接倒掉

頭條要聞

愛康國賓CEO曾揭行業(yè)造假黑幕:抽血后不檢測直接倒掉

體育要聞

過去一年的頭號贏家,他說偶像永遠(yuǎn)是媽媽

娛樂要聞

又相信愛情了,董璇二婚現(xiàn)場照曝光!

財經(jīng)要聞

探究萬億市場的休閑零食

汽車要聞

有望年內(nèi)上市 奧迪A6L e-tron申報信息曝光

態(tài)度原創(chuàng)

旅游
教育
數(shù)碼
家居
公開課

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

教育要聞

“有高分,可惜沒腦子”,670分男生兼職被抓,到手的浙大夢碎了

數(shù)碼要聞

飛利浦推出 24M2N5200X 顯示器:610Hz 超快 Fast TN

家居要聞

空間分明 時尚風(fēng)格并存

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 温州市| 襄汾县| 法库县| 鞍山市| 赤城县| 莒南县| 桃园市| 安丘市| 兰考县| 嘉峪关市| 德安县| 漠河县| 揭阳市| 巫山县| 武汉市| 九台市| 汝州市| 昭通市| 云南省| 鄂托克前旗| 新余市| 石渠县| 裕民县| 日土县| 通海县| 沅陵县| 无为县| 开阳县| 廊坊市| 大宁县| 共和县| 玉屏| 桐庐县| 华容县| 甘肃省| 彭阳县| 皋兰县| 松滋市| 定边县| 开原市| 高州市|