99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

100行代碼打造迷你編程Agent:修復65%真項目bug,適配所有大模型

0
分享至

只用100行代碼,打造最強輕量編程agent。

SWE-bench、SWE-agent原班人馬再出手,推出全新開源項目——

mini-SWE-agent



不依賴任何額外插件,僅通過基礎(chǔ)命令即可運行。而且對模型沒有限制,幾乎兼容所有主流語言模型,支持直接在本地終端中部署和使用。

而在如此精簡的架構(gòu)下,僅憑100行核心代碼輕松解決SWE-bench上65%的問題。

這個65%是啥水平呢?

也就和原版差不多吧~(關(guān)鍵人家還輕量啊)



網(wǎng)友:厲害



百行代碼,實力不打折

SWE-agent是一個開源項目(16.8k GitHub Star),它的目標是讓agent自動修復GitHub上真實項目中的代碼Bug



不過,原版的SWE-agent基于LangChain構(gòu)建,從接受issue、理解問題、編輯代碼、到提交PR,涉及多工具、多輪對話管理,任務(wù)流程繁瑣。

除此之外,開發(fā)者要跑通還需要安裝多個依賴,精調(diào)工具調(diào)用邏輯,而且項目代碼動輒上千行,對模型、環(huán)境的耦合也比較強。

而隨著語言模型性能越來越強大,構(gòu)建一個有用的代理已經(jīng)不再需要這些工具和接口了。

由此,團隊開始思考:能否讓SWE-agent小100倍,并保持原有的性能。

mini-SWE-agent由此而來。



那么,相較于SWE-agent,mini-SWE-agent有什么不同呢?

極簡代碼和依賴:mini-SWE-agent本身僅約100行Python代碼,加上環(huán)境、模型、腳本才共約200行,沒有復雜的依賴關(guān)系。

取消工具調(diào)用接口:mini版本不集成專用的代碼編輯、搜索等工具;它只使用操作系統(tǒng)的Bash環(huán)境執(zhí)行命令。每一步由語言模型輸出一個完整的shell命令,不通過獨立的“tool call”協(xié)議,從而可兼容任何語言模型。

線性歷史記錄:agent的每一步都只是附加到消息中。

獨立單步執(zhí)行:每條命令通過Python獨立執(zhí)行,并非保持一個持續(xù)的shell會話,這使得在沙盒中執(zhí)行操作變得非常簡單,并且可以輕松擴展。

簡化配置與接口:取消了SWE-agent依賴的復雜YAML配置;mini-swe-agent采用代碼內(nèi)置模板,并提供直觀的命令行工具。用戶可以通過mini命令快速啟動代理,或使用mini-v啟動可視化界面。



多樣的運行環(huán)境支持:除了本地Shell,mini-swe-agent還內(nèi)置支持多種容器與虛擬化環(huán)境(如Docker、Podman、Singularity、Apptainer等),這意味著開發(fā)者可以在不同平臺和容器中輕松部署,而無需額外修改代碼。

保留高性能和工具:雖然架構(gòu)極簡,mini-swe-agent在SWE-bench驗證集上仍能解決約65%的問題。同時,它附帶批量推理(batchinference)、軌跡瀏覽器(trajectorybrowser)等工具,幫助用戶進行大規(guī)模評測和決策分析。代理還提供可視化界面,方便開發(fā)者交互式地觀察執(zhí)行過程



此外,對于應在何種場景下使用 SWE-agent 或 mini-SWE-agent,團隊也根據(jù)不同的需求給出了建議:

mini-swe-agent更適合希望快速本地運行、追求簡潔控制流和更穩(wěn)定評估環(huán)境的用戶。它非常輕量,適合用于微調(diào)(FT)或強化學習(RL)等實驗,不容易陷入對復雜框架的過擬合。

如果你需要高度可配置的工具鏈、更復雜的歷史狀態(tài)管理,或希望通過修改YAML文件自由切換組件而無需動代碼,那么功能更豐富的SWE-agent會是更合適的選擇。

總體而言,mini-swe-agent體現(xiàn)了可讀、方便、易擴展的開發(fā)理念。

對于日常開發(fā)者而言,它既可以作為簡單的命令行工具使用。如在本地終端快速解決問題),也可以作為庫被集成到其他Python應用中。

相比于重型框架,它降低了上手成本,讓開發(fā)者可以像使用腳本一樣靈活地“駕馭”智能代理。

One more thing

SWE-bench和SWE-agent是由John Yang、Carlos E. Jimenez、Alexander Wettig、Kilian Lieret、姚順雨(OpenAI研究員,2015年畢業(yè)清華姚班)、Karthik Narasimhan和Ofir Press于2024年在普林斯頓大學發(fā)起的開源項目。

該項目推動了基于大型語言模型的軟件工程代理(Software Engineering Agent)研究。

其中,SWE-bench一經(jīng)發(fā)布后,就成為了評估大語言模型編程的經(jīng)典benchmark,伴隨SWE-agent一同提出的Agent?Computer-Interface(ACI)則進一步定義了“智能體如何與計算機交互”的標準接口方式。

而這一杰出的想法最初僅僅來自一次20多分鐘的討論。

在Matthew Berman的播客節(jié)目上,Carlos E. Jimenez分享道:SWE-bench最初的想法源自他和John Yang在閑逛時的一次頭腦風暴:



他們意識到,GitHub不只是一個存儲代碼的地方,更是一個活躍的協(xié)作開發(fā)平臺,充滿了真實的軟件工程過程:用戶報告bug,開發(fā)者提交修復,社區(qū)公開審核和合入。

相比傳統(tǒng)的編程競賽,這些交互和修改才是真正代表“現(xiàn)實世界編程”的任務(wù)。于是他們設(shè)想,能否把這種開源協(xié)作的過程結(jié)構(gòu)化下來,變成一種評估語言模型能力的標準流程?

這便催生了SWE-bench,一個基于GitHub上真實Issue與PullRequest構(gòu)建的benchmark,用來測試LLM是否能像人類開發(fā)者一樣,理解bug報告并修復代碼。

這個系統(tǒng)不僅更接近現(xiàn)實,也讓模型的“開發(fā)能力”變得可觀察、可比較,而SWE-agent則是他們?yōu)檫@一評估任務(wù)設(shè)計的開源agent,目標就是成為能在SWE-bench上“修最多bug”的AI程序員。

項目主頁:
[1]https://github.com/SWE-agent/mini-swe-agent
[2]https://github.com/SWE-agent/mini-swe-agent?tab=readme-ov-file

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
宗慶后再被曝猛料,魔爪伸向多名女員工,還有浙大高材生為他生子

宗慶后再被曝猛料,魔爪伸向多名女員工,還有浙大高材生為他生子

八斗小先生
2025-07-17 15:12:37
懂車帝把36輛車逼上“絕命高速”后車企集體破防:到底在怕什么?

懂車帝把36輛車逼上“絕命高速”后車企集體破防:到底在怕什么?

艾米手工作品
2025-07-26 09:43:35
搞勞民傷財?shù)摹靶蜗蠊こ獭保∩轿饕豢h委原書記被雙開,任內(nèi)違規(guī)使用資金建仿真椰子樹

搞勞民傷財?shù)摹靶蜗蠊こ獭保∩轿饕豢h委原書記被雙開,任內(nèi)違規(guī)使用資金建仿真椰子樹

瀟湘晨報
2025-07-27 09:47:06
他去世后,被做成游戲NPC與母親“重逢”,令全網(wǎng)淚奔

他去世后,被做成游戲NPC與母親“重逢”,令全網(wǎng)淚奔

世界音樂公號
2025-07-20 23:29:19
中國網(wǎng)球大捷!2-0奪冠,張帥勇奪女雙冠軍,王欣瑜豪奪3連勝

中國網(wǎng)球大捷!2-0奪冠,張帥勇奪女雙冠軍,王欣瑜豪奪3連勝

全能體育柳號
2025-07-27 09:14:31
同樣14億人口,為什么中國滿世界買糧食,印度卻能大量出口?

同樣14億人口,為什么中國滿世界買糧食,印度卻能大量出口?

壹知眠羊
2025-07-23 07:57:43
今年是中國文壇羞恥年

今年是中國文壇羞恥年

不正確
2025-07-26 21:40:36
娃哈哈家族大戰(zhàn)終于真相大白了!原來從頭到尾都是場鬧劇

娃哈哈家族大戰(zhàn)終于真相大白了!原來從頭到尾都是場鬧劇

史書無明
2025-07-26 08:01:47
鄭智或下課,國足中方教練或敲定,50歲,年薪200萬,或9月上任

鄭智或下課,國足中方教練或敲定,50歲,年薪200萬,或9月上任

東球弟
2025-07-27 11:22:23
全市預警升級!大到暴雨+雷暴大風+37℃今明殺到天津!一區(qū)啟動暴雨Ⅲ級應急響應!

全市預警升級!大到暴雨+雷暴大風+37℃今明殺到天津!一區(qū)啟動暴雨Ⅲ級應急響應!

天津人
2025-07-27 17:41:42
9000萬歐元先生遭巴黎棄用,即將離隊

9000萬歐元先生遭巴黎棄用,即將離隊

星耀國際足壇
2025-07-27 12:59:25
佛山5200只“滅蚊魚”上崗,應對基孔肯雅熱:不挑食、一天滅蚊438只

佛山5200只“滅蚊魚”上崗,應對基孔肯雅熱:不挑食、一天滅蚊438只

魯中晨報
2025-07-27 07:50:02
青樓出身,無法生育被休,改嫁上將連生11子,人人敬重的廣東之母

青樓出身,無法生育被休,改嫁上將連生11子,人人敬重的廣東之母

柳絮憶史
2025-07-21 11:30:50
美國猶太人資本巨頭貝萊德,已經(jīng)全面滲透中國市場!

美國猶太人資本巨頭貝萊德,已經(jīng)全面滲透中國市場!

華人星光
2025-07-20 14:19:00
韓紅說得真沒錯!這一次,誰也救不了“偷雞不成蝕把米”的張碧晨

韓紅說得真沒錯!這一次,誰也救不了“偷雞不成蝕把米”的張碧晨

南南說娛
2025-07-26 09:29:57
世錦賽游泳第1日綜述:李冰潔破亞洲紀錄,覃海洋、張雨霏晉級

世錦賽游泳第1日綜述:李冰潔破亞洲紀錄,覃海洋、張雨霏晉級

燒體壇
2025-07-27 21:34:07
俄媒:一旦開戰(zhàn),中方只靠解放軍難以取勝,必須調(diào)動另一股力量!

俄媒:一旦開戰(zhàn),中方只靠解放軍難以取勝,必須調(diào)動另一股力量!

健身狂人
2025-07-05 13:40:32
金正男妻兒下落曝光:經(jīng)臺灣逃亡至荷蘭,后卻被美國中情局帶走

金正男妻兒下落曝光:經(jīng)臺灣逃亡至荷蘭,后卻被美國中情局帶走

混沌錄
2025-07-26 21:40:05
深圳中考分析:整體穩(wěn)定,六大重構(gòu),走讀實惠!

深圳中考分析:整體穩(wěn)定,六大重構(gòu),走讀實惠!

師說君
2025-07-27 16:08:36
李霄鵬:所有隊員都付出了百分之二百的努力,這讓我比較感動

李霄鵬:所有隊員都付出了百分之二百的努力,這讓我比較感動

懂球帝
2025-07-27 22:45:09
2025-07-27 23:28:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
10945文章數(shù) 176197關(guān)注度
往期回顧 全部

科技要聞

77歲諾獎得主,用15條句話把AI圈鎮(zhèn)住了!

頭條要聞

14歲輟學女生簽MCN 因"無法忍受"強行解約被起訴索賠

頭條要聞

14歲輟學女生簽MCN 因"無法忍受"強行解約被起訴索賠

體育要聞

約克雷斯身邊的男人,才是阿森納的最佳引援

娛樂要聞

X玖少年團9成員現(xiàn)狀揭秘:2人成頂流

財經(jīng)要聞

陳文輝:為什么耐心資本這么重要?

汽車要聞

搭載華為乾崑智駕 一汽奧迪Q6L e-tron預售35.3萬起

態(tài)度原創(chuàng)

數(shù)碼
房產(chǎn)
游戲
旅游
時尚

數(shù)碼要聞

盧偉冰曬小米空調(diào)拆機:2026年新品競爭力很強

房產(chǎn)要聞

分數(shù)線集體飆漲!海中867分!2025海南中招格局大變!

LPL第三階段:還能不能好了?WBG讓一追二,戰(zhàn)勝AL

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

蕭亞軒的時髦,是老天追著喂飯吃

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 洪江市| 冕宁县| 嘉义市| 清新县| 靖西县| 津南区| 凤台县| 庐江县| 兴国县| 上杭县| 广饶县| 辽宁省| 观塘区| 韶山市| 昌吉市| 建始县| 垣曲县| 南城县| 阿拉善左旗| 两当县| 余江县| 平罗县| 合肥市| 南澳县| 乌鲁木齐县| 托克托县| 类乌齐县| 新干县| 广饶县| 汉寿县| 永宁县| 台中县| 阿城市| 金乡县| 六盘水市| 蚌埠市| 连江县| 镇平县| 驻马店市| 博白县| 云安县|