讓智能體先通往AGI,已經(jīng)成為共識(shí)。OpenAI連番推出昂貴的新功能,o1-Pro比普通版貴了10倍,比R1貴了上百倍。Grok則悄悄上線了DeeperSearch。讓它們率先替代碼農(nóng)和研究員,似乎正在成為大模型兌現(xiàn)商業(yè)價(jià)值最現(xiàn)實(shí)的方向;其他行業(yè)可以踩在他們的肩上。
也許人類員工可以稍微松口氣。盡管今年Meta和微軟再次開(kāi)啟規(guī)模裁員,但被裁的都是績(jī)效考核不如人類同事的。被AI智能體同事大面積地頂替下去,至少要到2028年,更可能是2031年。
如果有一個(gè)智能體的“摩爾定律”,用來(lái)衡量智能體所能解決的任務(wù)的復(fù)雜程度——以人類專家完成相同任務(wù)所需時(shí)長(zhǎng)來(lái)量化——為人類完成工作所節(jié)省的時(shí)間越來(lái)越長(zhǎng),準(zhǔn)確率越來(lái)越高,這個(gè)摩爾定律,終有一天會(huì)通向完全替代人類完成復(fù)雜問(wèn)題。
最近,研究機(jī)構(gòu)METR發(fā)現(xiàn),目前的智能體,還沒(méi)辦法替代人類,去完成那些本該人類花1小時(shí)以上的時(shí)間才能完成的軟件任務(wù)。不過(guò),智能體解決復(fù)雜任務(wù)的能力在進(jìn)步,相當(dāng)于為人類專家節(jié)省的時(shí)間,平均每7個(gè)月翻一番 。 2028年后,它們就有50%的成功率,完成人類本該在1個(gè)月內(nèi)(約160工作時(shí))完成的任務(wù)了。
這與最近OpenAI和Anthropic的說(shuō)法不同,從奧特曼到阿莫迪,都在說(shuō)今年內(nèi)智能體編程可以勝過(guò)人類。但研究認(rèn)為,AI只能勝任人類不用4分鐘就能完成的任務(wù),也就是說(shuō)最簡(jiǎn)單的任務(wù)。
METR(模型評(píng)估與風(fēng)險(xiǎn)研究)是美國(guó)人工智能安全研究所聯(lián)盟(AISIC)的成員機(jī)構(gòu),為OpenAI、Anthropic等提供部署前的非正式評(píng)估。創(chuàng)始人Beth Barnes之前在OpenAI研究對(duì)齊問(wèn)題,“圖靈三巨頭”之一的本吉奧(Yoshua Bengio)是該機(jī)構(gòu)顧問(wèn)。
為什么從1個(gè)月算起?這家機(jī)構(gòu)解釋說(shuō),那是新員工入職后可以為公司創(chuàng)造經(jīng)濟(jì)價(jià)值的時(shí)間。當(dāng)前,各種大模型的測(cè)試基準(zhǔn)正在迅速飽和,更要命的是,它無(wú)法準(zhǔn)確反映真實(shí)社會(huì)經(jīng)濟(jì)價(jià)值。
不滿于此,METR提出了HCAST(人類校準(zhǔn)自主軟件任務(wù))。這是一個(gè)包含 189 項(xiàng)機(jī)器學(xué)習(xí)工程、 網(wǎng)絡(luò)安全、軟件工程和一般推理任務(wù)的基準(zhǔn)測(cè)試集,分別由人類專家(擁有全球排名前100大學(xué)學(xué)位,具有5年以上相關(guān)專業(yè)經(jīng)驗(yàn))與智能體去執(zhí)行。人類專家與智能體在相同的條件下工作,然后再比一比,人類完成這些任務(wù)需要多少時(shí)間,智能體完成這些任務(wù)的成功率有多高。HCAST的任務(wù)主要覆蓋了數(shù)分鐘到幾小時(shí)的人類任務(wù),為覆蓋需要更短(對(duì)應(yīng)早期大模型)與更長(zhǎng)時(shí)間的任務(wù),研究又引入了單步任務(wù)SWAA與長(zhǎng)時(shí)任務(wù)RE-Bench。
結(jié)論是,人類專家耗時(shí)不到4分鐘的任務(wù),目前的智能體幾乎100%都能成功;但是連人類專家都要耗時(shí)4個(gè)小時(shí)以上的,那么成功率就降到了10%以下。不過(guò),智能體的進(jìn)步也很顯著。GPT-3時(shí)代的模型,在超過(guò)1分鐘任務(wù)上全部失敗;GPT-4能以50%的成功率完成4分鐘的任務(wù);Claude 3.7 Sonnet在相同的成功率下,把上限推高到了59分鐘,但要提升到80%成功率,就只能完成15分鐘左右的任務(wù)。
簡(jiǎn)言之,把它們放到真實(shí)世界,想要完全自主地完成多步驟長(zhǎng)時(shí)序的現(xiàn)實(shí)任務(wù),還不夠穩(wěn)定和好用。也就是說(shuō),至少在今年內(nèi),不能對(duì)智能體完成多步驟的任務(wù)抱有太高的預(yù)期。
前EleutherAI研究員Herbie Bradley大量試用了Operator和Anthropic的computer-use后,非常認(rèn)同METR這種簡(jiǎn)單的衡量方法。他認(rèn)為“t-AGI”(智能體能夠自主可靠地完成本該由人類t時(shí)間內(nèi)完成的任務(wù))的擴(kuò)展,是評(píng)估AGI經(jīng)濟(jì)效用的重要標(biāo)準(zhǔn)。
METR發(fā)現(xiàn),如果以50%的成功率為基準(zhǔn),那么,過(guò)去6年來(lái)前沿大模型的t-AGI平均每7個(gè)月翻倍。遵循這個(gè)趨勢(shì),到2027年或2028年左右,智能體有50%的成功率完成人類本該1個(gè)月完成的任務(wù)。會(huì)有雇主去使用這樣的智能體省下一名碼農(nóng)的月薪成本嗎?
但是,現(xiàn)實(shí)情況會(huì)更復(fù)雜,且追求更高的成功率,如果要讓智能體真正自主做到這一切,METR認(rèn)為更可能是2031年前。
但是,即使這一天還沒(méi)有來(lái)臨,硅谷的碼農(nóng)也該瑟瑟發(fā)抖了。如果將谷歌L4級(jí)別的工程師的平均年薪,除以每年2000小時(shí),則每小時(shí)薪酬約144美元。目前超過(guò)80%由智能體成功完成的任務(wù),它們的推理成本低于人類專家的10%;它們?cè)诒驹撚扇祟悓<以?0秒內(nèi)完成的任務(wù)上,性價(jià)比顯著。幸虧目前的智能體,想要完成現(xiàn)實(shí)世界的任務(wù),尤其是長(zhǎng)時(shí)序任務(wù),還離不開(kāi)人類留在在整個(gè)工作循環(huán)中。
(說(shuō)明:對(duì)應(yīng)1460個(gè)成功完成的任務(wù),縱坐標(biāo)代表任務(wù)的復(fù)雜度,即人類完成該任務(wù)的時(shí)長(zhǎng),橫坐標(biāo)代表任務(wù)由智能體完成任務(wù)的性價(jià)比,即模型成本與人類薪酬的比例。)
今年,卡帕西(Andr ej Karpathy)就已經(jīng)很享受了Vibe coding了,即一種依靠直覺(jué)和創(chuàng)意用自然語(yǔ)言調(diào)動(dòng)代碼的編程方式。 他只需要偶爾花點(diǎn)時(shí)間通讀一下他一時(shí)間沒(méi)看懂的代碼; 有時(shí)候針對(duì)模型無(wú)法自己解決的Bug,動(dòng)手修改一下。
但是,也許對(duì)智能體來(lái)說(shuō),更重要的是通過(guò)類似Vibe coding趨勢(shì),幾乎削平了必須構(gòu)筑于編程之上的其他領(lǐng)域的陡峭的初始學(xué)習(xí)曲線。谷歌最新的人形機(jī)器人通用模型Gemini Robotics-ER,也是通過(guò)現(xiàn)場(chǎng)寫(xiě)代碼來(lái)完成物理世界任務(wù)的。
R1落后4個(gè)月
METR在論文中測(cè)試的模型,幾乎都來(lái)自它的合作方OpenAI與Anthropic。不過(guò),該機(jī)構(gòu)也額外測(cè)試了基于第三方托管的DeepSeek的V3與R1等模型。研究也承認(rèn)可能自己沒(méi)有完全激發(fā)R1的最高性能。
在測(cè)試中,DeepSeek-R1能夠以50%的成功率,完成人類專家需要35分鐘才能完成的任務(wù),略高于V3的33分鐘的成績(jī),低于早于其發(fā)布的新版Claude 3.5 Sonnet和o1模型。從這個(gè)基準(zhǔn)上看,R1大概處于全球最前沿的大模型在9月份時(shí)的水平,差距約為4個(gè)月。
該機(jī)構(gòu)還發(fā)現(xiàn),在引入思維鏈后,DeepSeek旗下基礎(chǔ)模型V3到推理模型R1,對(duì)完成人類任務(wù)時(shí)長(zhǎng)的提升,跨度不及OpenAI從GPT-4o到o1-preview。
也許要等R2發(fā)布的時(shí)候再試試,在追求性價(jià)比的同時(shí),中國(guó)企業(yè)能否把t-AGI的提升速度也一起擴(kuò)展了。
參考論文:
Measuring AI Ability to Complete Long Tasks
HCAST:Human-Calibrated Autonomy Software Tasks
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.