網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

智能體“摩爾定律”，人類程序員最晚2031年下崗嗎

2025-03-21 00:25:11　來(lái)源: 未盡研究

上海舉報(bào)

分享至

讓智能體先通往AGI，已經(jīng)成為共識(shí)。OpenAI連番推出昂貴的新功能，o1-Pro比普通版貴了10倍，比R1貴了上百倍。Grok則悄悄上線了DeeperSearch。讓它們率先替代碼農(nóng)和研究員，似乎正在成為大模型兌現(xiàn)商業(yè)價(jià)值最現(xiàn)實(shí)的方向；其他行業(yè)可以踩在他們的肩上。

也許人類員工可以稍微松口氣。盡管今年Meta和微軟再次開(kāi)啟規(guī)模裁員，但被裁的都是績(jī)效考核不如人類同事的。被AI智能體同事大面積地頂替下去，至少要到2028年，更可能是2031年。

如果有一個(gè)智能體的“摩爾定律”，用來(lái)衡量智能體所能解決的任務(wù)的復(fù)雜程度——以人類專家完成相同任務(wù)所需時(shí)長(zhǎng)來(lái)量化——為人類完成工作所節(jié)省的時(shí)間越來(lái)越長(zhǎng)，準(zhǔn)確率越來(lái)越高，這個(gè)摩爾定律，終有一天會(huì)通向完全替代人類完成復(fù)雜問(wèn)題。

最近，研究機(jī)構(gòu)METR發(fā)現(xiàn)，目前的智能體，還沒(méi)辦法替代人類，去完成那些本該人類花1小時(shí)以上的時(shí)間才能完成的軟件任務(wù)。不過(guò)，智能體解決復(fù)雜任務(wù)的能力在進(jìn)步，相當(dāng)于為人類專家節(jié)省的時(shí)間，平均每7個(gè)月翻一番。 2028年后，它們就有50%的成功率，完成人類本該在1個(gè)月內(nèi)（約160工作時(shí)）完成的任務(wù)了。

這與最近OpenAI和Anthropic的說(shuō)法不同，從奧特曼到阿莫迪，都在說(shuō)今年內(nèi)智能體編程可以勝過(guò)人類。但研究認(rèn)為，AI只能勝任人類不用4分鐘就能完成的任務(wù)，也就是說(shuō)最簡(jiǎn)單的任務(wù)。

METR（模型評(píng)估與風(fēng)險(xiǎn)研究）是美國(guó)人工智能安全研究所聯(lián)盟（AISIC）的成員機(jī)構(gòu)，為OpenAI、Anthropic等提供部署前的非正式評(píng)估。創(chuàng)始人Beth Barnes之前在OpenAI研究對(duì)齊問(wèn)題，“圖靈三巨頭”之一的本吉奧（Yoshua Bengio）是該機(jī)構(gòu)顧問(wèn)。

為什么從1個(gè)月算起？這家機(jī)構(gòu)解釋說(shuō)，那是新員工入職后可以為公司創(chuàng)造經(jīng)濟(jì)價(jià)值的時(shí)間。當(dāng)前，各種大模型的測(cè)試基準(zhǔn)正在迅速飽和，更要命的是，它無(wú)法準(zhǔn)確反映真實(shí)社會(huì)經(jīng)濟(jì)價(jià)值。

不滿于此，METR提出了HCAST（人類校準(zhǔn)自主軟件任務(wù)）。這是一個(gè)包含 189 項(xiàng)機(jī)器學(xué)習(xí)工程、網(wǎng)絡(luò)安全、軟件工程和一般推理任務(wù)的基準(zhǔn)測(cè)試集，分別由人類專家（擁有全球排名前100大學(xué)學(xué)位，具有5年以上相關(guān)專業(yè)經(jīng)驗(yàn)）與智能體去執(zhí)行。人類專家與智能體在相同的條件下工作，然后再比一比，人類完成這些任務(wù)需要多少時(shí)間，智能體完成這些任務(wù)的成功率有多高。HCAST的任務(wù)主要覆蓋了數(shù)分鐘到幾小時(shí)的人類任務(wù)，為覆蓋需要更短（對(duì)應(yīng)早期大模型）與更長(zhǎng)時(shí)間的任務(wù)，研究又引入了單步任務(wù)SWAA與長(zhǎng)時(shí)任務(wù)RE-Bench。

結(jié)論是，人類專家耗時(shí)不到4分鐘的任務(wù)，目前的智能體幾乎100%都能成功；但是連人類專家都要耗時(shí)4個(gè)小時(shí)以上的，那么成功率就降到了10%以下。不過(guò)，智能體的進(jìn)步也很顯著。GPT-3時(shí)代的模型，在超過(guò)1分鐘任務(wù)上全部失敗；GPT-4能以50%的成功率完成4分鐘的任務(wù)；Claude 3.7 Sonnet在相同的成功率下，把上限推高到了59分鐘，但要提升到80%成功率，就只能完成15分鐘左右的任務(wù)。

簡(jiǎn)言之，把它們放到真實(shí)世界，想要完全自主地完成多步驟長(zhǎng)時(shí)序的現(xiàn)實(shí)任務(wù)，還不夠穩(wěn)定和好用。也就是說(shuō)，至少在今年內(nèi)，不能對(duì)智能體完成多步驟的任務(wù)抱有太高的預(yù)期。

前EleutherAI研究員Herbie Bradley大量試用了Operator和Anthropic的computer-use后，非常認(rèn)同METR這種簡(jiǎn)單的衡量方法。他認(rèn)為“t-AGI”（智能體能夠自主可靠地完成本該由人類t時(shí)間內(nèi)完成的任務(wù)）的擴(kuò)展，是評(píng)估AGI經(jīng)濟(jì)效用的重要標(biāo)準(zhǔn)。

METR發(fā)現(xiàn)，如果以50%的成功率為基準(zhǔn)，那么，過(guò)去6年來(lái)前沿大模型的t-AGI平均每7個(gè)月翻倍。遵循這個(gè)趨勢(shì)，到2027年或2028年左右，智能體有50%的成功率完成人類本該1個(gè)月完成的任務(wù)。會(huì)有雇主去使用這樣的智能體省下一名碼農(nóng)的月薪成本嗎？

但是，現(xiàn)實(shí)情況會(huì)更復(fù)雜，且追求更高的成功率，如果要讓智能體真正自主做到這一切，METR認(rèn)為更可能是2031年前。

但是，即使這一天還沒(méi)有來(lái)臨，硅谷的碼農(nóng)也該瑟瑟發(fā)抖了。如果將谷歌L4級(jí)別的工程師的平均年薪，除以每年2000小時(shí)，則每小時(shí)薪酬約144美元。目前超過(guò)80%由智能體成功完成的任務(wù)，它們的推理成本低于人類專家的10%；它們?cè)诒驹撚扇祟悓＜以?0秒內(nèi)完成的任務(wù)上，性價(jià)比顯著。幸虧目前的智能體，想要完成現(xiàn)實(shí)世界的任務(wù)，尤其是長(zhǎng)時(shí)序任務(wù)，還離不開(kāi)人類留在在整個(gè)工作循環(huán)中。

（說(shuō)明：對(duì)應(yīng)1460個(gè)成功完成的任務(wù)，縱坐標(biāo)代表任務(wù)的復(fù)雜度，即人類完成該任務(wù)的時(shí)長(zhǎng)，橫坐標(biāo)代表任務(wù)由智能體完成任務(wù)的性價(jià)比，即模型成本與人類薪酬的比例。）

今年，卡帕西（Andr ej Karpathy）就已經(jīng)很享受了Vibe coding了，即一種依靠直覺(jué)和創(chuàng)意用自然語(yǔ)言調(diào)動(dòng)代碼的編程方式。他只需要偶爾花點(diǎn)時(shí)間通讀一下他一時(shí)間沒(méi)看懂的代碼；有時(shí)候針對(duì)模型無(wú)法自己解決的Bug，動(dòng)手修改一下。

但是，也許對(duì)智能體來(lái)說(shuō)，更重要的是通過(guò)類似Vibe coding趨勢(shì)，幾乎削平了必須構(gòu)筑于編程之上的其他領(lǐng)域的陡峭的初始學(xué)習(xí)曲線。谷歌最新的人形機(jī)器人通用模型Gemini Robotics-ER，也是通過(guò)現(xiàn)場(chǎng)寫(xiě)代碼來(lái)完成物理世界任務(wù)的。

R1落后4個(gè)月

METR在論文中測(cè)試的模型，幾乎都來(lái)自它的合作方OpenAI與Anthropic。不過(guò)，該機(jī)構(gòu)也額外測(cè)試了基于第三方托管的DeepSeek的V3與R1等模型。研究也承認(rèn)可能自己沒(méi)有完全激發(fā)R1的最高性能。

在測(cè)試中，DeepSeek-R1能夠以50%的成功率，完成人類專家需要35分鐘才能完成的任務(wù)，略高于V3的33分鐘的成績(jī)，低于早于其發(fā)布的新版Claude 3.5 Sonnet和o1模型。從這個(gè)基準(zhǔn)上看，R1大概處于全球最前沿的大模型在9月份時(shí)的水平，差距約為4個(gè)月。

該機(jī)構(gòu)還發(fā)現(xiàn)，在引入思維鏈后，DeepSeek旗下基礎(chǔ)模型V3到推理模型R1，對(duì)完成人類任務(wù)時(shí)長(zhǎng)的提升，跨度不及OpenAI從GPT-4o到o1-preview。

也許要等R2發(fā)布的時(shí)候再試試，在追求性價(jià)比的同時(shí)，中國(guó)企業(yè)能否把t-AGI的提升速度也一起擴(kuò)展了。

參考論文：

Measuring AI Ability to Complete Long Tasks

HCAST:Human-Calibrated Autonomy Software Tasks

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.