99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

AI進化時間表已現!LLM每7個月能力翻倍,2030年職場不復存在?

0
分享至


新智元報道

編輯:海貍

【新智元導讀】LLM正以前所未有的速度進化:METR發現,它們的智能每7個月就翻一番。到了2030年,一個模型可能只需幾小時,就能搞定人類工程師幾個月的工作。別眨眼,你的崗位或許已在倒計時中。

隨著大模型能力一路狂飆,各路測評基準也遍地開花。

從經典的MMLU、HellaSwag,到多模態方向的MMMU、MathVista,再到AGI風格的Arena對決、Agent任務、Tool-use測試。

如何科學地衡量LLM在長時、復雜、真實世界任務中的能力,至關重要。

今年3月,METR發布重磅研究《MeasuringAIAbility to Complete Long Tasks》,首次提出令人眼前一亮的新指標:

50%任務完成時間視野(50%-task-completion time horizon)

——也就是:AI能以50%成功率完成的任務,人類通常需要花多久?


論文鏈接:https://arxiv.org/pdf/2503.14499

據此,METR展開了一系列研究,包括任務復雜度設定、人類基準時間測量、多模型對比實驗到層層統計回歸建模。

最終,團隊精準量化了AI智力演進速度,并拋出驚人預測:

按照目前增長速度,5年之后,大模型可能就能在一天內自動完成原本需要人類數月才能完成的復雜任務。

別眨眼,LLM每7個月實力翻倍!

METR團隊選出每一時間段的最強模型,建立了一個精確的「大事年表」,進一步定量分析模型能力隨時間的增長情況。


結果顯示出清晰的指數增長趨勢:在過去的六年中,模型能力每7個月翻一番

圖中的陰影區域表示通過在任務家族、任務以及任務嘗試之間進行分層自助法(hierarchical bootstrap),計算得出95%的置信區間

不過,這個指數增長趨勢非常陡峭,所以于對誤差有很高的容忍度。

即便絕對測量誤差達到10倍,能力到來的時間也僅會改變大約2年左右。

因此,團隊對不同能力何時出現的預測基本不會出錯。

模型vs人類:用「人類耗時」測量大模型智力

METR這項研究的核心就是他們提出的這項指標:「任務完成時間視野」(task-completion time horizon)。

這個指標相當于給分別完成任務的人和AI加了個映射:

想象一組各不相同的任務,人類完成這些任務分別需要不同的時間。

把這些任務交給AI模型去做,然后找出AI能以50%成功率完成的那一檔任務(但不考慮AI用的時間)。

然后對應去看人類完成這一檔任務通常需要多長時間。

這個人類所需的時間,就是該模型的50%-task-completion time horizon,也即「任務完成時間視野」。


為了證明這個基準的有效性,METR團隊做了翔實的統計分析。

結果顯示,人類基線完成某項任務所需時間,與各模型在該任務上的平均成功率之間存在負相關關系

簡而言之,人做起來越慢,模型做起來越容易失敗。

并且,用指數模型擬合這個負相關趨勢效果很好

用模型成功率對人類完成時間的對數做回歸分析,算出的R2約為0.83,相關系數為0.91,這比不同模型之間平均成功率的相關系數還高。


因此,「以人類時間衡量任務難度」,這個指標非常合理。

模型越新,任務越難:能力進化有跡可循

證明了這個指標的有效性,接下來還要看看各個模型在這個指標上的表現。

團隊進一步檢驗了不同模型能完成的任務所對應的人類耗時。

結果相當符合直覺:

2023年之前的模型(如GPT-2和GPT-3)只能完成那些只需寫幾句話的簡單任務。

而對于人類耗時超過1分鐘的任務,它們則迅速敗下陣來。


相比之下,最新的前沿模型(如Claude 3.5 Sonnet和o1)則可以完成一些人類要花數小時的任務,甚至在十幾小時的超長程任務上還能保持一定的成功率。


效率碾壓人類:2030年警告已拉響

按照「7個月翻一番」的這個速度下去,METR團隊得到了一個驚人結論:

到2030年,最先進的LLM有望以50%的可靠性,完成一個每周工作40小時的人類工程師花一個月才能完成的任務。

更令人毛骨悚然的是, LLM的速度可能遠超人類——也許只需幾天,甚至幾小時。

到2030年,LLM可能已經能輕松創辦一家公司、寫出一部像樣的小說,或是大幅改進已有的大模型。

AI研究員Zach Stein-Perlman在博客中寫道,擁有此類能力的LLM的問世將帶來巨大的影響,無論是潛在好處還是潛在風險」。


Kinniment承認,LLM能力翻倍的速度讓人害怕,仿佛科幻片災難前奏。

但她也表示,在現實中也可能有很多因素影響和減緩這種進展。AI再聰明,仍然可能受到硬件、機器人技術等瓶頸的掣肘。

參考資料:

https://spectrum.ieee.org/large-language-model-performance


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
特朗普突然給C919開綠燈,發動機繼續敞開賣,這個教訓中國記下了

特朗普突然給C919開綠燈,發動機繼續敞開賣,這個教訓中國記下了

boss外傳
2025-07-14 01:45:03
剛剛,美軍發動空襲!

剛剛,美軍發動空襲!

都市快報橙柿互動
2025-07-14 19:15:32
賺麻了?江蘇收下鋒衛搖擺,上海拿下強力后衛

賺麻了?江蘇收下鋒衛搖擺,上海拿下強力后衛

體育籃球弟
2025-07-14 01:35:03
曝宗婕莉在杭州當老師,學生家長稱贊其很優秀,曬上課照片!

曝宗婕莉在杭州當老師,學生家長稱贊其很優秀,曬上課照片!

古希臘掌管松餅的神
2025-07-14 18:08:46
隊記:楊瀚森是首輪中段上限最高的新秀之一 開拓者押寶這次能中

隊記:楊瀚森是首輪中段上限最高的新秀之一 開拓者押寶這次能中

直播吧
2025-07-14 15:18:08
叔叔宗繼昌律師發聲:宗慶后晚年承認外有三孩子,說不會虧待他們

叔叔宗繼昌律師發聲:宗慶后晚年承認外有三孩子,說不會虧待他們

興史興談
2025-07-14 15:41:56
氣象局真的不敢預報40℃嗎?權威回應來了

氣象局真的不敢預報40℃嗎?權威回應來了

閃電新聞
2025-07-14 15:35:04
特朗普裁掉1350人,焦點轉向中國,魯比奧見到王毅,提起中美合作

特朗普裁掉1350人,焦點轉向中國,魯比奧見到王毅,提起中美合作

博覽歷史
2025-07-14 20:16:32
中央層面整治形式主義為基層減負專項工作機制辦公室 中央紀委辦公廳公開通報3起整治形式主義為基層減負典型問題

中央層面整治形式主義為基層減負專項工作機制辦公室 中央紀委辦公廳公開通報3起整治形式主義為基層減負典型問題

新華社
2025-07-14 10:50:26
“沖之鳥礁”被正式端上桌!日本炒作南海問題,終于求錘得錘了

“沖之鳥礁”被正式端上桌!日本炒作南海問題,終于求錘得錘了

這里是東京
2025-07-14 18:53:01
113-42狂勝71分!創世界杯又一“慘案”!中國女籃被歐洲弱旅打崩

113-42狂勝71分!創世界杯又一“慘案”!中國女籃被歐洲弱旅打崩

老吳說體育
2025-07-14 11:30:13
國資委原副部長級干部駱玉林受賄2.2億被判死緩,終身監禁不得減刑

國資委原副部長級干部駱玉林受賄2.2億被判死緩,終身監禁不得減刑

界面新聞
2025-07-14 17:26:50
杜建英年輕時老照片,她曾是娃哈哈“二當家”,宗慶后的得力助手

杜建英年輕時老照片,她曾是娃哈哈“二當家”,宗慶后的得力助手

尋墨閣
2025-07-14 09:59:27
宗慶后:我們全家都沒有入外國籍,也沒外國綠卡,也沒有移民計劃

宗慶后:我們全家都沒有入外國籍,也沒外國綠卡,也沒有移民計劃

李昕言溫度空間
2025-07-14 20:56:05
環衛工翻8噸垃圾找手表后續:女家長身份被扒,她很感動,不奇怪

環衛工翻8噸垃圾找手表后續:女家長身份被扒,她很感動,不奇怪

娜烏和西卡
2025-07-14 17:01:33
業務水平堪憂!國航客機險些與順豐貨機空中相撞,駕駛員事后頻繁爆粗口,并推卸責任

業務水平堪憂!國航客機險些與順豐貨機空中相撞,駕駛員事后頻繁爆粗口,并推卸責任

小蘿卜絲
2025-07-14 15:40:55
加速下跌,廣州樓市房價跌破2.5萬元

加速下跌,廣州樓市房價跌破2.5萬元

風向觀察
2025-07-14 16:51:35
楊議怎么也沒想到,剛把老爺子葬禮辦完,條子就把事做得這么絕!

楊議怎么也沒想到,剛把老爺子葬禮辦完,條子就把事做得這么絕!

卷史
2025-07-14 17:38:16
已確認!是知名演員韓雪

已確認!是知名演員韓雪

武漢潮生活
2025-07-14 16:29:10
2分絕殺!女籃亞洲杯險爆大冷,前冠軍球隊0.5秒險勝,中國迎硬戰

2分絕殺!女籃亞洲杯險爆大冷,前冠軍球隊0.5秒險勝,中國迎硬戰

知軒體育
2025-07-14 17:34:08
2025-07-15 04:07:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
13060文章數 66093關注度
往期回顧 全部

科技要聞

DeepSeek流量下滑,這半年梁文鋒都干了啥

頭條要聞

20天超2000次地震 日本一地被震麻了

頭條要聞

20天超2000次地震 日本一地被震麻了

體育要聞

高考數學滿分的他,說要成為1/3個鄧肯

娛樂要聞

秦嵐辛芷蕾聚餐熱聊 結束直奔魏大勛家

財經要聞

探究新茶飲賽道爆發的“內核”

汽車要聞

余承東親發預告:鴻蒙智行首款旅行車享界S9T來了

態度原創

健康
藝術
教育
游戲
軍事航空

呼吸科專家破解呼吸道九大謠言!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

哈工大附中走下神壇?搖二代中考成績對比,高分段考生比例下降?

生化奇兵之父新作《猶大》為純粹單機!拒絕在線服務

軍事要聞

烏軍:史上首次 俄軍向機器人部隊投降

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 大竹县| 蒲城县| 徐州市| 湘潭市| 罗甸县| 湖州市| 江安县| 靖州| 济源市| 射洪县| 威信县| 灌南县| 临湘市| 津市市| 固镇县| 古田县| 济南市| 龙海市| 浦北县| 连平县| 电白县| 确山县| 沂水县| 阜南县| 深水埗区| 富川| 华阴市| 新郑市| 桐庐县| 车致| 朝阳市| 顺平县| 吴堡县| 舟曲县| 始兴县| 进贤县| 措勤县| 高要市| 连南| 招远市| 平利县|