網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

100行代碼打造迷你編程Agent：修復65%真項目bug，適配所有大模型

2025-07-27 20:32:11　來源: 量子位

北京舉報

分享至

只用100行代碼，打造最強輕量編程agent。

SWE-bench、SWE-agent原班人馬再出手，推出全新開源項目——

mini-SWE-agent。

它不依賴任何額外插件，僅通過基礎(chǔ)命令即可運行。而且對模型沒有限制，幾乎兼容所有主流語言模型，支持直接在本地終端中部署和使用。

而在如此精簡的架構(gòu)下，僅憑100行核心代碼輕松解決SWE-bench上65%的問題。

這個65%是啥水平呢？

也就和原版差不多吧～（關(guān)鍵人家還輕量啊）

網(wǎng)友：厲害

百行代碼，實力不打折

SWE-agent是一個開源項目（16.8k GitHub Star），它的目標是讓agent自動修復GitHub上真實項目中的代碼Bug。

不過，原版的SWE-agent基于LangChain構(gòu)建，從接受issue、理解問題、編輯代碼、到提交PR，涉及多工具、多輪對話管理，任務(wù)流程繁瑣。

除此之外，開發(fā)者要跑通還需要安裝多個依賴，精調(diào)工具調(diào)用邏輯，而且項目代碼動輒上千行，對模型、環(huán)境的耦合也比較強。

而隨著語言模型性能越來越強大，構(gòu)建一個有用的代理已經(jīng)不再需要這些工具和接口了。

由此，團隊開始思考：能否讓SWE-agent小100倍，并保持原有的性能。

mini-SWE-agent由此而來。

那么，相較于SWE-agent，mini-SWE-agent有什么不同呢？

極簡代碼和依賴：mini-SWE-agent本身僅約100行Python代碼，加上環(huán)境、模型、腳本才共約200行，沒有復雜的依賴關(guān)系。

取消工具調(diào)用接口:mini版本不集成專用的代碼編輯、搜索等工具；它只使用操作系統(tǒng)的Bash環(huán)境執(zhí)行命令。每一步由語言模型輸出一個完整的shell命令，不通過獨立的“tool call”協(xié)議，從而可兼容任何語言模型。

線性歷史記錄：agent的每一步都只是附加到消息中。

獨立單步執(zhí)行：每條命令通過Python獨立執(zhí)行，并非保持一個持續(xù)的shell會話，這使得在沙盒中執(zhí)行操作變得非常簡單，并且可以輕松擴展。

簡化配置與接口:取消了SWE-agent依賴的復雜YAML配置；mini-swe-agent采用代碼內(nèi)置模板，并提供直觀的命令行工具。用戶可以通過mini命令快速啟動代理，或使用mini-v啟動可視化界面。

多樣的運行環(huán)境支持:除了本地Shell，mini-swe-agent還內(nèi)置支持多種容器與虛擬化環(huán)境（如Docker、Podman、Singularity、Apptainer等），這意味著開發(fā)者可以在不同平臺和容器中輕松部署，而無需額外修改代碼。

保留高性能和工具：雖然架構(gòu)極簡，mini-swe-agent在SWE-bench驗證集上仍能解決約65%的問題。同時，它附帶批量推理（batchinference）、軌跡瀏覽器（trajectorybrowser）等工具，幫助用戶進行大規(guī)模評測和決策分析。代理還提供可視化界面，方便開發(fā)者交互式地觀察執(zhí)行過程

此外，對于應在何種場景下使用 SWE-agent 或 mini-SWE-agent，團隊也根據(jù)不同的需求給出了建議：

mini-swe-agent更適合希望快速本地運行、追求簡潔控制流和更穩(wěn)定評估環(huán)境的用戶。它非常輕量，適合用于微調(diào)（FT）或強化學習（RL）等實驗，不容易陷入對復雜框架的過擬合。

如果你需要高度可配置的工具鏈、更復雜的歷史狀態(tài)管理，或希望通過修改YAML文件自由切換組件而無需動代碼，那么功能更豐富的SWE-agent會是更合適的選擇。

總體而言，mini-swe-agent體現(xiàn)了可讀、方便、易擴展的開發(fā)理念。

對于日常開發(fā)者而言，它既可以作為簡單的命令行工具使用。如在本地終端快速解決問題），也可以作為庫被集成到其他Python應用中。

相比于重型框架，它降低了上手成本，讓開發(fā)者可以像使用腳本一樣靈活地“駕馭”智能代理。

One more thing

SWE-bench和SWE-agent是由John Yang、Carlos E. Jimenez、Alexander Wettig、Kilian Lieret、姚順雨（OpenAI研究員，2015年畢業(yè)清華姚班）、Karthik Narasimhan和Ofir Press于2024年在普林斯頓大學發(fā)起的開源項目。

該項目推動了基于大型語言模型的軟件工程代理（Software Engineering Agent）研究。

其中，SWE-bench一經(jīng)發(fā)布后，就成為了評估大語言模型編程的經(jīng)典benchmark，伴隨SWE-agent一同提出的Agent?Computer-Interface（ACI）則進一步定義了“智能體如何與計算機交互”的標準接口方式。

而這一杰出的想法最初僅僅來自一次20多分鐘的討論。

在Matthew Berman的播客節(jié)目上，Carlos E. Jimenez分享道：SWE-bench最初的想法源自他和John Yang在閑逛時的一次頭腦風暴：

他們意識到，GitHub不只是一個存儲代碼的地方，更是一個活躍的協(xié)作開發(fā)平臺，充滿了真實的軟件工程過程：用戶報告bug，開發(fā)者提交修復，社區(qū)公開審核和合入。

相比傳統(tǒng)的編程競賽，這些交互和修改才是真正代表“現(xiàn)實世界編程”的任務(wù)。于是他們設(shè)想，能否把這種開源協(xié)作的過程結(jié)構(gòu)化下來，變成一種評估語言模型能力的標準流程？

這便催生了SWE-bench，一個基于GitHub上真實Issue與PullRequest構(gòu)建的benchmark，用來測試LLM是否能像人類開發(fā)者一樣，理解bug報告并修復代碼。

這個系統(tǒng)不僅更接近現(xiàn)實，也讓模型的“開發(fā)能力”變得可觀察、可比較，而SWE-agent則是他們?yōu)檫@一評估任務(wù)設(shè)計的開源agent，目標就是成為能在SWE-bench上“修最多bug”的AI程序員。

項目主頁：
[1]https://github.com/SWE-agent/mini-swe-agent
[2]https://github.com/SWE-agent/mini-swe-agent?tab=readme-ov-file

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.