99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

智能體“摩爾定律”,人類程序員最晚2031年下崗嗎

0
分享至

讓智能體先通往AGI,已經(jīng)成為共識(shí)。OpenAI連番推出昂貴的新功能,o1-Pro比普通版貴了10倍,比R1貴了上百倍。Grok則悄悄上線了DeeperSearch。讓它們率先替代碼農(nóng)和研究員,似乎正在成為大模型兌現(xiàn)商業(yè)價(jià)值最現(xiàn)實(shí)的方向;其他行業(yè)可以踩在他們的肩上。

也許人類員工可以稍微松口氣。盡管今年Meta和微軟再次開(kāi)啟規(guī)模裁員,但被裁的都是績(jī)效考核不如人類同事的。被AI智能體同事大面積地頂替下去,至少要到2028年,更可能是2031年。

如果有一個(gè)智能體的“摩爾定律”,用來(lái)衡量智能體所能解決的任務(wù)的復(fù)雜程度——以人類專家完成相同任務(wù)所需時(shí)長(zhǎng)來(lái)量化——為人類完成工作所節(jié)省的時(shí)間越來(lái)越長(zhǎng),準(zhǔn)確率越來(lái)越高,這個(gè)摩爾定律,終有一天會(huì)通向完全替代人類完成復(fù)雜問(wèn)題。

最近,研究機(jī)構(gòu)METR發(fā)現(xiàn),目前的智能體,還沒(méi)辦法替代人類,去完成那些本該人類花1小時(shí)以上的時(shí)間才能完成的軟件任務(wù)。不過(guò),智能體解決復(fù)雜任務(wù)的能力在進(jìn)步,相當(dāng)于為人類專家節(jié)省的時(shí)間,平均每7個(gè)月翻一番 。 2028年后,它們就有50%的成功率,完成人類本該在1個(gè)月內(nèi)(約160工作時(shí))完成的任務(wù)了。


這與最近OpenAI和Anthropic的說(shuō)法不同,從奧特曼到阿莫迪,都在說(shuō)今年內(nèi)智能體編程可以勝過(guò)人類。但研究認(rèn)為,AI只能勝任人類不用4分鐘就能完成的任務(wù),也就是說(shuō)最簡(jiǎn)單的任務(wù)。

METR(模型評(píng)估與風(fēng)險(xiǎn)研究)是美國(guó)人工智能安全研究所聯(lián)盟(AISIC)的成員機(jī)構(gòu),為OpenAI、Anthropic等提供部署前的非正式評(píng)估。創(chuàng)始人Beth Barnes之前在OpenAI研究對(duì)齊問(wèn)題,“圖靈三巨頭”之一的本吉奧(Yoshua Bengio)是該機(jī)構(gòu)顧問(wèn)。

為什么從1個(gè)月算起?這家機(jī)構(gòu)解釋說(shuō),那是新員工入職后可以為公司創(chuàng)造經(jīng)濟(jì)價(jià)值的時(shí)間。當(dāng)前,各種大模型的測(cè)試基準(zhǔn)正在迅速飽和,更要命的是,它無(wú)法準(zhǔn)確反映真實(shí)社會(huì)經(jīng)濟(jì)價(jià)值。

不滿于此,METR提出了HCAST(人類校準(zhǔn)自主軟件任務(wù))。這是一個(gè)包含 189 項(xiàng)機(jī)器學(xué)習(xí)工程、 網(wǎng)絡(luò)安全、軟件工程和一般推理任務(wù)的基準(zhǔn)測(cè)試集,分別由人類專家(擁有全球排名前100大學(xué)學(xué)位,具有5年以上相關(guān)專業(yè)經(jīng)驗(yàn))與智能體去執(zhí)行。人類專家與智能體在相同的條件下工作,然后再比一比,人類完成這些任務(wù)需要多少時(shí)間,智能體完成這些任務(wù)的成功率有多高。HCAST的任務(wù)主要覆蓋了數(shù)分鐘到幾小時(shí)的人類任務(wù),為覆蓋需要更短(對(duì)應(yīng)早期大模型)與更長(zhǎng)時(shí)間的任務(wù),研究又引入了單步任務(wù)SWAA與長(zhǎng)時(shí)任務(wù)RE-Bench。

結(jié)論是,人類專家耗時(shí)不到4分鐘的任務(wù),目前的智能體幾乎100%都能成功;但是連人類專家都要耗時(shí)4個(gè)小時(shí)以上的,那么成功率就降到了10%以下。不過(guò),智能體的進(jìn)步也很顯著。GPT-3時(shí)代的模型,在超過(guò)1分鐘任務(wù)上全部失敗;GPT-4能以50%的成功率完成4分鐘的任務(wù);Claude 3.7 Sonnet在相同的成功率下,把上限推高到了59分鐘,但要提升到80%成功率,就只能完成15分鐘左右的任務(wù)。

簡(jiǎn)言之,把它們放到真實(shí)世界,想要完全自主地完成多步驟長(zhǎng)時(shí)序的現(xiàn)實(shí)任務(wù),還不夠穩(wěn)定和好用。也就是說(shuō),至少在今年內(nèi),不能對(duì)智能體完成多步驟的任務(wù)抱有太高的預(yù)期。

前EleutherAI研究員Herbie Bradley大量試用了Operator和Anthropic的computer-use后,非常認(rèn)同METR這種簡(jiǎn)單的衡量方法。他認(rèn)為“t-AGI”(智能體能夠自主可靠地完成本該由人類t時(shí)間內(nèi)完成的任務(wù))的擴(kuò)展,是評(píng)估AGI經(jīng)濟(jì)效用的重要標(biāo)準(zhǔn)。

METR發(fā)現(xiàn),如果以50%的成功率為基準(zhǔn),那么,過(guò)去6年來(lái)前沿大模型的t-AGI平均每7個(gè)月翻倍。遵循這個(gè)趨勢(shì),到2027年或2028年左右,智能體有50%的成功率完成人類本該1個(gè)月完成的任務(wù)。會(huì)有雇主去使用這樣的智能體省下一名碼農(nóng)的月薪成本嗎?

但是,現(xiàn)實(shí)情況會(huì)更復(fù)雜,且追求更高的成功率,如果要讓智能體真正自主做到這一切,METR認(rèn)為更可能是2031年前。

但是,即使這一天還沒(méi)有來(lái)臨,硅谷的碼農(nóng)也該瑟瑟發(fā)抖了。如果將谷歌L4級(jí)別的工程師的平均年薪,除以每年2000小時(shí),則每小時(shí)薪酬約144美元。目前超過(guò)80%由智能體成功完成的任務(wù),它們的推理成本低于人類專家的10%;它們?cè)诒驹撚扇祟悓<以?0秒內(nèi)完成的任務(wù)上,性價(jià)比顯著。幸虧目前的智能體,想要完成現(xiàn)實(shí)世界的任務(wù),尤其是長(zhǎng)時(shí)序任務(wù),還離不開(kāi)人類留在在整個(gè)工作循環(huán)中。


(說(shuō)明:對(duì)應(yīng)1460個(gè)成功完成的任務(wù),縱坐標(biāo)代表任務(wù)的復(fù)雜度,即人類完成該任務(wù)的時(shí)長(zhǎng),橫坐標(biāo)代表任務(wù)由智能體完成任務(wù)的性價(jià)比,即模型成本與人類薪酬的比例。)

今年,卡帕西(Andr ej Karpathy)就已經(jīng)很享受了Vibe coding了,即一種依靠直覺(jué)和創(chuàng)意用自然語(yǔ)言調(diào)動(dòng)代碼的編程方式。 他只需要偶爾花點(diǎn)時(shí)間通讀一下他一時(shí)間沒(méi)看懂的代碼; 有時(shí)候針對(duì)模型無(wú)法自己解決的Bug,動(dòng)手修改一下。

但是,也許對(duì)智能體來(lái)說(shuō),更重要的是通過(guò)類似Vibe coding趨勢(shì),幾乎削平了必須構(gòu)筑于編程之上的其他領(lǐng)域的陡峭的初始學(xué)習(xí)曲線。谷歌最新的人形機(jī)器人通用模型Gemini Robotics-ER,也是通過(guò)現(xiàn)場(chǎng)寫(xiě)代碼來(lái)完成物理世界任務(wù)的。

R1落后4個(gè)月

METR在論文中測(cè)試的模型,幾乎都來(lái)自它的合作方OpenAI與Anthropic。不過(guò),該機(jī)構(gòu)也額外測(cè)試了基于第三方托管的DeepSeek的V3與R1等模型。研究也承認(rèn)可能自己沒(méi)有完全激發(fā)R1的最高性能。


在測(cè)試中,DeepSeek-R1能夠以50%的成功率,完成人類專家需要35分鐘才能完成的任務(wù),略高于V3的33分鐘的成績(jī),低于早于其發(fā)布的新版Claude 3.5 Sonnet和o1模型。從這個(gè)基準(zhǔn)上看,R1大概處于全球最前沿的大模型在9月份時(shí)的水平,差距約為4個(gè)月。

該機(jī)構(gòu)還發(fā)現(xiàn),在引入思維鏈后,DeepSeek旗下基礎(chǔ)模型V3到推理模型R1,對(duì)完成人類任務(wù)時(shí)長(zhǎng)的提升,跨度不及OpenAI從GPT-4o到o1-preview。

也許要等R2發(fā)布的時(shí)候再試試,在追求性價(jià)比的同時(shí),中國(guó)企業(yè)能否把t-AGI的提升速度也一起擴(kuò)展了。

參考論文:

Measuring AI Ability to Complete Long Tasks

HCAST:Human-Calibrated Autonomy Software Tasks

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
萬(wàn)達(dá)喜迎長(zhǎng)公主!閃閃喊完?duì)敔斀邪职?黃一鳴的獠牙,終于露出來(lái)了

萬(wàn)達(dá)喜迎長(zhǎng)公主!閃閃喊完?duì)敔斀邪职?黃一鳴的獠牙,終于露出來(lái)了

扒星人
2025-06-25 10:35:03
“老泄殘精,人窮壽盡”,提醒:60歲以后,牢記三不要

“老泄殘精,人窮壽盡”,提醒:60歲以后,牢記三不要

有故事的人
2025-06-25 06:32:14
開(kāi)播第一晚熱度破22000!好評(píng)如潮,觀眾放話:“一集就淪陷!”

開(kāi)播第一晚熱度破22000!好評(píng)如潮,觀眾放話:“一集就淪陷!”

夢(mèng)涵說(shuō)體育
2025-06-27 08:50:49
涉問(wèn)界沈陽(yáng)車展謠言,賽力斯最新回應(yīng):三人被公安機(jī)關(guān)處罰!

涉問(wèn)界沈陽(yáng)車展謠言,賽力斯最新回應(yīng):三人被公安機(jī)關(guān)處罰!

每日經(jīng)濟(jì)新聞
2025-06-27 12:13:10
什么是211,什么是985?一定要讓孩子早知道

什么是211,什么是985?一定要讓孩子早知道

尚曦讀史
2025-06-26 09:54:28
山東2025高考狀元疑似曝光,來(lái)自“勝利一中”,濟(jì)南名校全軍覆沒(méi)

山東2025高考狀元疑似曝光,來(lái)自“勝利一中”,濟(jì)南名校全軍覆沒(méi)

男女那點(diǎn)事兒兒
2025-06-27 12:08:09
恭喜!印度首次入駐國(guó)際空間站,印網(wǎng)友:我們是開(kāi)拓者

恭喜!印度首次入駐國(guó)際空間站,印網(wǎng)友:我們是開(kāi)拓者

粵語(yǔ)音樂(lè)噴泉
2025-06-27 10:52:02
突然天黑!南京發(fā)布預(yù)警:強(qiáng)降水!8級(jí)大風(fēng)!

突然天黑!南京發(fā)布預(yù)警:強(qiáng)降水!8級(jí)大風(fēng)!

揚(yáng)子晚報(bào)
2025-06-27 13:23:00
外媒:新月為梅西報(bào)價(jià)年薪2.15億美元且完全免稅

外媒:新月為梅西報(bào)價(jià)年薪2.15億美元且完全免稅

雷速體育
2025-06-27 07:41:13
75萬(wàn)元采購(gòu)防火墻實(shí)為普通路由器 校方最新回應(yīng):上級(jí)部門在調(diào)查,在等結(jié)果

75萬(wàn)元采購(gòu)防火墻實(shí)為普通路由器 校方最新回應(yīng):上級(jí)部門在調(diào)查,在等結(jié)果

極目新聞
2025-06-26 23:16:56
韓國(guó)正式逮捕兩名中國(guó)留學(xué)生,所判罪名前所未有:叛國(guó)罪

韓國(guó)正式逮捕兩名中國(guó)留學(xué)生,所判罪名前所未有:叛國(guó)罪

阿傖說(shuō)事
2025-06-27 08:07:15
傅首爾與兒子合拍,瘦了有20斤狀態(tài)真好,15歲多樂(lè)180個(gè)頭高又帥

傅首爾與兒子合拍,瘦了有20斤狀態(tài)真好,15歲多樂(lè)180個(gè)頭高又帥

八怪娛
2025-06-27 09:55:06
莫迪飄了,因?yàn)橛《染芙^簽字,上合組織防長(zhǎng)峰會(huì)未能發(fā)表聯(lián)合聲明

莫迪飄了,因?yàn)橛《染芙^簽字,上合組織防長(zhǎng)峰會(huì)未能發(fā)表聯(lián)合聲明

大歪歪
2025-06-26 17:42:55
浙江很可能會(huì)成為第一個(gè)耗盡養(yǎng)老金結(jié)余的經(jīng)濟(jì)大省。

浙江很可能會(huì)成為第一個(gè)耗盡養(yǎng)老金結(jié)余的經(jīng)濟(jì)大省。

流蘇晚晴
2025-06-26 18:05:37
緊急避雷!“毒兒童牙膏”相繼曝光,絕非危言聳聽(tīng),家長(zhǎng)速自查!

緊急避雷!“毒兒童牙膏”相繼曝光,絕非危言聳聽(tīng),家長(zhǎng)速自查!

阿傖說(shuō)事
2025-06-26 08:02:00
媽呀!范曉萱也胖成張惠妹了!這是要退出歌壇?

媽呀!范曉萱也胖成張惠妹了!這是要退出歌壇?

動(dòng)物奇奇怪怪
2025-06-27 11:37:30
大陸要在抗戰(zhàn)紀(jì)念日為國(guó)民黨老兵頒勛章,臺(tái)軍方一把手坐不住了!

大陸要在抗戰(zhàn)紀(jì)念日為國(guó)民黨老兵頒勛章,臺(tái)軍方一把手坐不住了!

李博世財(cái)經(jīng)
2025-06-26 12:32:19
印度上下一片失望,拒絕特朗普訪美邀請(qǐng)后,莫迪將派人來(lái)中國(guó)參會(huì)

印度上下一片失望,拒絕特朗普訪美邀請(qǐng)后,莫迪將派人來(lái)中國(guó)參會(huì)

boss外傳
2025-06-27 15:40:03
河北網(wǎng)紅公司1.1億元深圳“搶樓”后悔拍,業(yè)內(nèi)認(rèn)為“成交總價(jià)過(guò)高”,有何隱情?

河北網(wǎng)紅公司1.1億元深圳“搶樓”后悔拍,業(yè)內(nèi)認(rèn)為“成交總價(jià)過(guò)高”,有何隱情?

每日經(jīng)濟(jì)新聞
2025-06-27 08:19:13
嚴(yán)查泄密:稀土禁令后中國(guó)多名專家神秘離職,直接就職外國(guó)機(jī)構(gòu)?

嚴(yán)查泄密:稀土禁令后中國(guó)多名專家神秘離職,直接就職外國(guó)機(jī)構(gòu)?

振華觀史
2025-06-27 08:23:55
2025-06-27 16:16:49
未盡研究 incentive-icons
未盡研究
新能源、人工智能、合成生物、地緣X
134文章數(shù) 38關(guān)注度
往期回顧 全部

科技要聞

雷軍:小米汽車成功沒(méi)靠營(yíng)銷,靠的是能力

頭條要聞

27歲"李福貴"賣貨吸粉600多萬(wàn) 面對(duì)流量哭稱壓力太大

頭條要聞

27歲"李福貴"賣貨吸粉600多萬(wàn) 面對(duì)流量哭稱壓力太大

體育要聞

曼城“庫(kù)里”連線,送尤文晚安好夢(mèng)

娛樂(lè)要聞

網(wǎng)傳白玉蘭最佳男女主獎(jiǎng)將“爆冷”

財(cái)經(jīng)要聞

1萬(wàn)就能刪行政處罰?信用修復(fù)江湖起底

汽車要聞

配置升級(jí)/貴賓座椅 全新GL8陸上公務(wù)艙售22.99萬(wàn)

態(tài)度原創(chuàng)

健康
教育
游戲
家居
旅游

呼吸科專家破解呼吸道九大謠言!

教育要聞

小升初重難點(diǎn):正方形面積是2,求圓的面積?

AL無(wú)敵了!MSI還沒(méi)開(kāi)打先發(fā)紀(jì)錄片,網(wǎng)友:訓(xùn)練賽五勝GEN是真的?

家居要聞

明亮寬敞 空間合理安排

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 靖江市| 洛阳市| 宜州市| 和政县| 威信县| 招远市| 樟树市| 锦屏县| 堆龙德庆县| 澄迈县| 高唐县| 汉沽区| 剑川县| 涟水县| 峨眉山市| 咸宁市| 宿迁市| 重庆市| 梅河口市| 肇东市| 合江县| 吴川市| 措美县| 呼和浩特市| 灌阳县| 江油市| 格尔木市| 油尖旺区| 吉林省| 宣城市| 南陵县| 萍乡市| 绍兴市| 安远县| 中牟县| 伊金霍洛旗| 棋牌| 丰镇市| 专栏| 刚察县| 遂平县|