網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

看似加速，實(shí)則拖慢：AI 寫代碼讓開發(fā)者效率倒退19%

2025-07-14 12:36:32　來源: 大數(shù)據(jù)文摘

北京舉報(bào)

分享至

大數(shù)據(jù)文摘出品

美國METR研究所完成了一項(xiàng)針對(duì)AI編程工具影響的實(shí)驗(yàn)研究。他們發(fā)現(xiàn)，經(jīng)驗(yàn)豐富的開源開發(fā)者在使用AI編程工具時(shí)，完成任務(wù)的時(shí)間平均增長了19%。

這與開發(fā)者自己的感知完全相反。畢竟，參與研究的開發(fā)者普遍都相信，AI將提升他們的效率。

在任務(wù)開始前，他們預(yù)測AI能讓自己提速24%。可現(xiàn)實(shí)數(shù)據(jù)冷冷地指出：AI讓他們“看似飛快，實(shí)則拖慢”。

圖注：當(dāng)研究參與者可以使用像 Cursor Pro 這樣的AI工具時(shí)，任務(wù)實(shí)際上耗時(shí)增加了19%。

研究團(tuán)隊(duì)通過隨機(jī)對(duì)照實(shí)驗(yàn)（RCT），在真實(shí)環(huán)境中測試AI工具的使用效果。值得一提的是，這是目前公認(rèn)的衡量因果關(guān)系最嚴(yán)格的方法。

實(shí)驗(yàn)如何進(jìn)行？

圖注：實(shí)驗(yàn)設(shè)計(jì)。在分配條件前定義任務(wù)，通過屏幕錄制驗(yàn)證執(zhí)行情況，并利用專家與開發(fā)者的預(yù)測衡量預(yù)期與實(shí)際結(jié)果的差距。

實(shí)驗(yàn)共追蹤了16名高級(jí)開發(fā)者，這些開發(fā)者在各自的開源項(xiàng)目中完成了246個(gè)實(shí)際任務(wù)，任務(wù)涵蓋復(fù)雜模塊的開發(fā)與修復(fù)，工作負(fù)載真實(shí)而具體。

每個(gè)任務(wù)被隨機(jī)分配到兩個(gè)組：一組使用AI工具，另一組不使用。

AI組開發(fā)者主要使用的是Cursor Pro，集成了Claude 3.5和Claude 3.7 Sonnet等主流大模型。

開發(fā)者在整個(gè)過程中錄屏，并記錄完成每個(gè)任務(wù)所花費(fèi)的時(shí)間。為了剔除任務(wù)難度差異的干擾，研究人員采用了統(tǒng)計(jì)方法，引入開發(fā)者對(duì)任務(wù)時(shí)間的預(yù)估值作為參考。

換句話說，他們不僅測量“花了多長時(shí)間”，還測量“比預(yù)期多了多少”。

最終結(jié)果顯示：AI用戶完成任務(wù)的平均用時(shí)比非AI用戶長出19%。

諷刺的是，哪怕在任務(wù)完成后，那些用過AI的開發(fā)者仍然堅(jiān)信，自己“節(jié)省了20%的時(shí)間”。

即便現(xiàn)實(shí)已經(jīng)反轉(zhuǎn)，他們依然覺得自己在加速。

研究者指出，這種“快感錯(cuò)覺”可能來自AI協(xié)助下的新型流程分布。研究結(jié)果表明，AI并沒有真正提升核心產(chǎn)出環(huán)節(jié)的效率，只是重新分配了注意力和勞動(dòng)方式。

具體來說，當(dāng)AI工具被啟用后，開發(fā)者在“主動(dòng)編碼”上的時(shí)間反而減少了。

他們花了更多時(shí)間在提示設(shè)計(jì)、AI產(chǎn)出審查、等待響應(yīng)、閑置，以及理解生成內(nèi)容上。

研究顯示，開發(fā)者不是在寫代碼，而是在“與AI溝通如何寫代碼”。這種交互過程看起來很“充實(shí)”，但最終產(chǎn)出并不一定更快。

圖注：在使用AI的情況下，開發(fā)者減少了編碼和查找信息的時(shí)間，更多時(shí)間用于與AI交互和等待

對(duì)新項(xiàng)目或快速原型開發(fā)，AI確實(shí)能提供幫助。但在面對(duì)成熟的大型項(xiàng)目，特別是開源社區(qū)中常見的、結(jié)構(gòu)復(fù)雜、規(guī)則隱含、質(zhì)量要求高的工程時(shí)，AI反而成為新的負(fù)擔(dān)。

它需要大量的補(bǔ)充說明、更頻繁的審查，甚至還會(huì)引發(fā)語義誤解。

開發(fā)者不再是在解決問題，而是在解釋問題、矯正AI、并試圖相信AI有幫助。

此外，開發(fā)者的“心理節(jié)奏”也發(fā)生了變化。他們頻繁切換任務(wù)：提示生成、回顧產(chǎn)出、人工修正、重復(fù)嘗試，這種流程非常碎片化。

當(dāng)一個(gè)人忙于各種小動(dòng)作時(shí)，他自然會(huì)覺得自己很“快”。但數(shù)據(jù)不會(huì)說謊：他只是“動(dòng)了很多”，并沒有“前進(jìn)很遠(yuǎn)”。

還有哪些發(fā)現(xiàn)？

METR的研究不僅揭示了AI工具在實(shí)際工作中的真實(shí)效率，還對(duì)目前主流AI評(píng)估體系提出了質(zhì)疑。

他們指出，當(dāng)前業(yè)界廣泛采用的基準(zhǔn)測試，如SWE-Bench和RE-Bench，存在嚴(yán)重偏差。這些測試通常是人工設(shè)置的小型題目，情境孤立，完全不反映真實(shí)項(xiàng)目的復(fù)雜性。

開發(fā)者在其中只需解決一小段代碼問題，不用考慮上下文、不用和團(tuán)隊(duì)協(xié)作，也沒有歷史遺留負(fù)擔(dān)。

這種測試環(huán)境高度理想化，與開源項(xiàng)目、企業(yè)代碼庫、或大型框架開發(fā)的日常工作完全不同。

于是，我們就得到了一個(gè)錯(cuò)誤的結(jié)論：AI表現(xiàn)得非常強(qiáng)大。

而METR的隨機(jī)對(duì)照實(shí)驗(yàn)，則是在現(xiàn)實(shí)中運(yùn)行、在項(xiàng)目中嵌入、在流程中測量。研究人員將AI直接部署到開發(fā)者的真實(shí)任務(wù)中，不干預(yù)流程，只記錄結(jié)果。

這是對(duì)“AI助力”的最直接檢驗(yàn)。

而且，這種實(shí)驗(yàn)還能揭示“感知偏差”：即人們?cè)谑褂肁I之后，對(duì)效果的主觀判斷如何偏離客觀現(xiàn)實(shí)。這才是真正有價(jià)值的測試方法。

所以，如果AI讓人“覺得自己更快”，卻“實(shí)際上更慢”，那么其價(jià)值評(píng)估將被全面高估。

企業(yè)、教育機(jī)構(gòu)、平臺(tái)服務(wù)商，乃至政策制定者，都可能被誤導(dǎo)。

研究還暗示，AI工具的價(jià)值可能不是“提高效率”，而是“改造流程”。它改變了工作的節(jié)奏、重構(gòu)了問題表達(dá)方式、干擾了注意力分配。

地址：https://metr.org/Early_2025_AI_Experienced_OS_Devs_Study.pdf

作者長期關(guān)注 AI 產(chǎn)業(yè)與學(xué)術(shù)，歡迎對(duì)這些方向感興趣的朋友添加微信Q1yezi，共同交流行業(yè)動(dòng)態(tài)與技術(shù)趨勢！

GPU 訓(xùn)練特惠！

H100/H200 GPU算力按秒計(jì)費(fèi)，平均節(jié)省開支30%以上！

掃碼了解詳情?

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.