大數(shù)據(jù)文摘出品
美國METR研究所完成了一項(xiàng)針對(duì)AI編程工具影響的實(shí)驗(yàn)研究。他們發(fā)現(xiàn),經(jīng)驗(yàn)豐富的開源開發(fā)者在使用AI編程工具時(shí),完成任務(wù)的時(shí)間平均增長了19%。
這與開發(fā)者自己的感知完全相反。畢竟,參與研究的開發(fā)者普遍都相信,AI將提升他們的效率。
在任務(wù)開始前,他們預(yù)測AI能讓自己提速24%。可現(xiàn)實(shí)數(shù)據(jù)冷冷地指出:AI讓他們“看似飛快,實(shí)則拖慢”。
圖注:當(dāng)研究參與者可以使用像 Cursor Pro 這樣的AI工具時(shí),任務(wù)實(shí)際上耗時(shí)增加了19%。
研究團(tuán)隊(duì)通過隨機(jī)對(duì)照實(shí)驗(yàn)(RCT),在真實(shí)環(huán)境中測試AI工具的使用效果。值得一提的是,這是目前公認(rèn)的衡量因果關(guān)系最嚴(yán)格的方法。
實(shí)驗(yàn)如何進(jìn)行?
圖注:實(shí)驗(yàn)設(shè)計(jì)。在分配條件前定義任務(wù),通過屏幕錄制驗(yàn)證執(zhí)行情況,并利用專家與開發(fā)者的預(yù)測衡量預(yù)期與實(shí)際結(jié)果的差距。
實(shí)驗(yàn)共追蹤了16名高級(jí)開發(fā)者,這些開發(fā)者在各自的開源項(xiàng)目中完成了246個(gè)實(shí)際任務(wù),任務(wù)涵蓋復(fù)雜模塊的開發(fā)與修復(fù),工作負(fù)載真實(shí)而具體。
每個(gè)任務(wù)被隨機(jī)分配到兩個(gè)組:一組使用AI工具,另一組不使用。
AI組開發(fā)者主要使用的是Cursor Pro,集成了Claude 3.5和Claude 3.7 Sonnet等主流大模型。
開發(fā)者在整個(gè)過程中錄屏,并記錄完成每個(gè)任務(wù)所花費(fèi)的時(shí)間。為了剔除任務(wù)難度差異的干擾,研究人員采用了統(tǒng)計(jì)方法,引入開發(fā)者對(duì)任務(wù)時(shí)間的預(yù)估值作為參考。
換句話說,他們不僅測量“花了多長時(shí)間”,還測量“比預(yù)期多了多少”。
最終結(jié)果顯示:AI用戶完成任務(wù)的平均用時(shí)比非AI用戶長出19%。
諷刺的是,哪怕在任務(wù)完成后,那些用過AI的開發(fā)者仍然堅(jiān)信,自己“節(jié)省了20%的時(shí)間”。
即便現(xiàn)實(shí)已經(jīng)反轉(zhuǎn),他們依然覺得自己在加速。
研究者指出,這種“快感錯(cuò)覺”可能來自AI協(xié)助下的新型流程分布。研究結(jié)果表明,AI并沒有真正提升核心產(chǎn)出環(huán)節(jié)的效率,只是重新分配了注意力和勞動(dòng)方式。
具體來說,當(dāng)AI工具被啟用后,開發(fā)者在“主動(dòng)編碼”上的時(shí)間反而減少了。
他們花了更多時(shí)間在提示設(shè)計(jì)、AI產(chǎn)出審查、等待響應(yīng)、閑置,以及理解生成內(nèi)容上。
研究顯示,開發(fā)者不是在寫代碼,而是在“與AI溝通如何寫代碼”。這種交互過程看起來很“充實(shí)”,但最終產(chǎn)出并不一定更快。
圖注:在使用AI的情況下,開發(fā)者減少了編碼和查找信息的時(shí)間,更多時(shí)間用于與AI交互和等待
對(duì)新項(xiàng)目或快速原型開發(fā),AI確實(shí)能提供幫助。但在面對(duì)成熟的大型項(xiàng)目,特別是開源社區(qū)中常見的、結(jié)構(gòu)復(fù)雜、規(guī)則隱含、質(zhì)量要求高的工程時(shí),AI反而成為新的負(fù)擔(dān)。
它需要大量的補(bǔ)充說明、更頻繁的審查,甚至還會(huì)引發(fā)語義誤解。
開發(fā)者不再是在解決問題,而是在解釋問題、矯正AI、并試圖相信AI有幫助。
此外,開發(fā)者的“心理節(jié)奏”也發(fā)生了變化。他們頻繁切換任務(wù):提示生成、回顧產(chǎn)出、人工修正、重復(fù)嘗試,這種流程非常碎片化。
當(dāng)一個(gè)人忙于各種小動(dòng)作時(shí),他自然會(huì)覺得自己很“快”。但數(shù)據(jù)不會(huì)說謊:他只是“動(dòng)了很多”,并沒有“前進(jìn)很遠(yuǎn)”。
還有哪些發(fā)現(xiàn)?
METR的研究不僅揭示了AI工具在實(shí)際工作中的真實(shí)效率,還對(duì)目前主流AI評(píng)估體系提出了質(zhì)疑。
他們指出,當(dāng)前業(yè)界廣泛采用的基準(zhǔn)測試,如SWE-Bench和RE-Bench,存在嚴(yán)重偏差。這些測試通常是人工設(shè)置的小型題目,情境孤立,完全不反映真實(shí)項(xiàng)目的復(fù)雜性。
開發(fā)者在其中只需解決一小段代碼問題,不用考慮上下文、不用和團(tuán)隊(duì)協(xié)作,也沒有歷史遺留負(fù)擔(dān)。
這種測試環(huán)境高度理想化,與開源項(xiàng)目、企業(yè)代碼庫、或大型框架開發(fā)的日常工作完全不同。
于是,我們就得到了一個(gè)錯(cuò)誤的結(jié)論:AI表現(xiàn)得非常強(qiáng)大。
而METR的隨機(jī)對(duì)照實(shí)驗(yàn),則是在現(xiàn)實(shí)中運(yùn)行、在項(xiàng)目中嵌入、在流程中測量。研究人員將AI直接部署到開發(fā)者的真實(shí)任務(wù)中,不干預(yù)流程,只記錄結(jié)果。
這是對(duì)“AI助力”的最直接檢驗(yàn)。
而且,這種實(shí)驗(yàn)還能揭示“感知偏差”:即人們?cè)谑褂肁I之后,對(duì)效果的主觀判斷如何偏離客觀現(xiàn)實(shí)。這才是真正有價(jià)值的測試方法。
所以,如果AI讓人“覺得自己更快”,卻“實(shí)際上更慢”,那么其價(jià)值評(píng)估將被全面高估。
企業(yè)、教育機(jī)構(gòu)、平臺(tái)服務(wù)商,乃至政策制定者,都可能被誤導(dǎo)。
研究還暗示,AI工具的價(jià)值可能不是“提高效率”,而是“改造流程”。它改變了工作的節(jié)奏、重構(gòu)了問題表達(dá)方式、干擾了注意力分配。
地址:https://metr.org/Early_2025_AI_Experienced_OS_Devs_Study.pdf
作者長期關(guān)注 AI 產(chǎn)業(yè)與學(xué)術(shù),歡迎對(duì)這些方向感興趣的朋友添加微信Q1yezi,共同交流行業(yè)動(dòng)態(tài)與技術(shù)趨勢!
GPU 訓(xùn)練特惠!
H100/H200 GPU算力按秒計(jì)費(fèi),平均節(jié)省開支30%以上!
掃碼了解詳情?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.