作者 | Daniel Dominguez
譯者 | 明知山
策劃 | 丁曉昀
OpenAI 發(fā)布 SWE-Lancer 基準(zhǔn)測試,用于評估 AI 大語言模型在現(xiàn)實(shí)世界自由職業(yè)軟件工程任務(wù)中的表現(xiàn)。該基準(zhǔn)測試的數(shù)據(jù)集包含來自 Upwork 的 1400 多個(gè)任務(wù),總價(jià)值高達(dá) 100 萬美元。這些任務(wù)既包括獨(dú)立的編碼活動(dòng),也包括管理決策,復(fù)雜程度和報(bào)酬各有不同,充分模擬了現(xiàn)實(shí)世界中的自由職業(yè)場景。
SWE-Lancer 通過嚴(yán)格的評估方法來反映軟件工程的經(jīng)濟(jì)價(jià)值和復(fù)雜性。它采用經(jīng)過專業(yè)工程師驗(yàn)證的先進(jìn)的端到端測試方法來評估模型在實(shí)際環(huán)境中的表現(xiàn)。盡管 AI 大語言模型近期取得了顯著進(jìn)展,但初步結(jié)果顯示,這些模型在應(yīng)對基準(zhǔn)測試中的多數(shù)任務(wù)時(shí)仍然面臨嚴(yán)峻挑戰(zhàn)。
基準(zhǔn)測試涵蓋了多種任務(wù),如應(yīng)用程序邏輯開發(fā)、UI/UX 設(shè)計(jì)以及服務(wù)器端邏輯實(shí)現(xiàn),確保能夠?qū)δP湍芰M(jìn)行全面的評估。SWE-Lancer 還為研究人員提供了一個(gè)統(tǒng)一的 Docker 鏡像和公共評估拆分,用以促進(jìn) AI 模型評估過程中的協(xié)作和透明度。
該項(xiàng)目旨在推動(dòng)對 AI 在軟件工程領(lǐng)域經(jīng)濟(jì)影響的研究,特別是潛在的生產(chǎn)力提升和對勞動(dòng)力市場的影響。通過將模型性能與貨幣價(jià)值聯(lián)系起來,SWE-Lancer 展現(xiàn)了 AI 在軟件工程中的實(shí)際影響,并凸顯了持續(xù)優(yōu)化 AI 技術(shù)的重要性。
在基準(zhǔn)測試中表現(xiàn)最好的模型是 Claude 3.5 Sonnet,在獨(dú)立編碼任務(wù)中的成功率為 26.2%,這表明 AI 能力仍有很大的提升空間。許多模型在需要深度上下文理解或評估多個(gè)提案的任務(wù)方面表現(xiàn)不佳,這表明未來的模型可能需要更復(fù)雜的推理能力。
一些評論表示對 SWE-Lancer 的實(shí)際應(yīng)用表示懷疑,認(rèn)為可能只對特定群體有吸引力,另一些人則認(rèn)為這是理解 AI 對軟件工程社會(huì)經(jīng)濟(jì)影響的關(guān)鍵一步,與行業(yè)向 AI 驅(qū)動(dòng)的生產(chǎn)力工具發(fā)展的整體趨勢相契合,正如 Gartner 2027 所預(yù)測的軟件工程智能平臺(tái)的廣泛采用。
用戶 Alex Bon 表示:
終于有機(jī)會(huì)讓 AI 證明它也能在零工經(jīng)濟(jì)中生存下來了!
獨(dú)立黑客 Jason Leow 則表示:
我喜歡這個(gè)發(fā)展方向。用全棧問題進(jìn)行測試,將其與市場價(jià)值聯(lián)系起來,這正是日常開發(fā)工作所面臨的東西。我一直覺得舊的基準(zhǔn)測試有些不太對勁。
SWE-Lancer 為評估 AI 在自由職業(yè)軟件工程中的應(yīng)用提供了一個(gè)重要的框架,揭示了 AI 在實(shí)際應(yīng)用中的挑戰(zhàn)與機(jī)遇。基準(zhǔn)測試的結(jié)果凸顯了進(jìn)一步研究和開發(fā)的必要性,以便提升 AI 模型在現(xiàn)實(shí)世界軟件工程任務(wù)中的表現(xiàn)。
查看英文原文:
https://www.infoq.com/news/2025/03/openai-swe-benchmark/
聲明:本文為 AI 前線整理,不代表平臺(tái)觀點(diǎn),未經(jīng)許可禁止轉(zhuǎn)載。
會(huì)議推薦
AICon 2025 強(qiáng)勢來襲,5 月上海站、6 月北京站,雙城聯(lián)動(dòng),全覽 AI 技術(shù)前沿和行業(yè)落地。大會(huì)聚焦技術(shù)與應(yīng)用深度融合,匯聚 AI Agent、多模態(tài)、場景應(yīng)用、大模型架構(gòu)創(chuàng)新、智能數(shù)據(jù)基建、AI 產(chǎn)品設(shè)計(jì)和出海策略等話題。即刻掃碼購票,一同探索 AI 應(yīng)用邊界!
今日薦文
你也「在看」嗎?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.