99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

OpenAI很看好!首個SWE-1模型發布,軟件開發或將提速99%

0
分享至


新智元報道

編輯:定慧

【新智元導讀】Windsurf發布首個前沿模型SWE-1,AI編程領域風起云涌,目標是將開發效率提升99%。SWE-1不僅能寫代碼,更能理解并協助整個軟件工程流程。核心創新在于「流動感知」系統,即AI與用戶共享操作時間線,實現高效協作。

Windsurf首秀終于來了!

在Cursor火爆全網,,Windsurf不甘寂寞,終于出手!

Windsurf發布首個前沿模型SWE-1,目標是將軟件開發提速99%!


SWE-1不只是一個「會寫代碼」的模型,而是一個理解、參與、并協助整個工程過程的協作伙伴。

目前這個系列包含三個模型:

  • SWE-1:具備與Claude 3.5 Sonnet類似的工具調用推理能力,但運行成本更低。在推廣期內,所有付費用戶可免費使用。

  • SWE-1-lite:一個更小但質量更高的模型,全面取代Cascade Base,對所有用戶(包括免費用戶)開放。

  • SWE-1-mini:更小、更快,專為Windsurf Tab中的低延遲被動體驗而設計,適用于所有用戶。


剛剛,SWE-1已經上線Windsurf,且處于免費使用階段。

AI編程發展「快閃」

近幾年,「會寫代碼」的模型取得了巨大進步,已經能從簡單的自動補全發展到一次性構建出完整的小型應用。

但這種能力仍然存在明顯的上限:

其一,軟件開發不僅僅是寫代碼。

開發者要做的事情遠不止編碼,還要操作終端、獲取知識、調試產品、理解用戶反饋等。因此需要的是更全面的模型,能覆蓋整個開發流程。

其二,工程過程是跨階段的、持續變化的。

目前主流的基礎模型仍然是基于「代碼能否編譯」和「是否通過單元測試」來訓練的。但現實中,這只是更大工程任務中的一小部分。

真正需要的是能處理「尚未完成的狀態」、理解模糊目標的模型。

否則,即使模型寫出了能運行的功能,后續維護與擴展性可能會非常差。

因此,僅僅提高「寫代碼」的能力,無法真正提升整個工程效率。需要打造的是支持完整軟件工程流程的模型——簡稱SWE模型。

SWE-1的開發過程

SWE-1的開發靈感來自廣受歡迎的Windsurf編輯器,構建了全新的數據結構(共享時間線)和訓練方法,能夠理解未完成的狀態、長周期任務以及多種交互界面。

其初衷是在資源有限的情況下,通過這種方法做出一流性能的模型。

SWE-1是這個目標的第一個驗證成果。

在整體表現上,SWE-1接近最前沿的基礎模型,在多個維度上超過了所有非前沿模型和開源對手。可以通過離線評估與線上實測兩種方式進行驗證。

離線評估

評估將SWE-1與Anthropic系列(Cascade中使用最頻繁的模型之一)以及Deepseek、Qwen等主流開源模型對比,主要有兩個基準測試:

會話式SWE任務基準

從一個正在進行中的Cascade會話中截取,任務尚未完成。評估模型如何響應用戶的下一步請求,打分標準綜合考慮幫助程度、效率、正確性以及目標文件編輯的準確率。這項測試關注模型在「人機協作」環境中的表現。


端到端SWE任務基準

從會話一開始就評估模型是否能完全獨立解決問題,并通過一組單元測試。得分基于測試通過率和專家打分。這項測試衡量模型自主完成任務的能力。


評估結果表明,SWE-1在這些任務上接近頂級實驗室的前沿模型,遠超中等體量和開源的對手。雖然還不是絕對領先,但非常有潛力。

線上實測(生產實驗)

Windsurf有大量用戶,因此也通過盲測實驗評估真實使用中的表現。

Windsurf將用戶分組,分別使用不同模型,在不告知模型類型的前提下觀察行為和效果。

Windsurf主要看兩個指標:

每位用戶每天接受的代碼行數

即Cascade編寫、用戶實際接受并保留的代碼行數,反映模型的實際幫助程度、響應質量和用戶粘性。


Cascade代碼貢獻率

對于被Cascade修改過的文件,模型所做的代碼改動所占比例。這是一個反映模型「主動性」以及「用戶信任程度」的指標。

SWE-1專為Cascade場景設計和優化,因此在這些指標上表現幾乎是行業領先,效果優于所有非前沿模型。


其他模型分析

你可能在上面的圖表中注意到SWE-1-lite,這是SWE-1的中型版本,使用相同訓練方式,在非前沿模型中表現最佳,現已取代Cascade Base,向所有用戶開放。

Windsurf還開發了SWE-1-mini,體積更小,速度更快,適用于Windsurf Tab這種對延遲要求極高的被動預測場景。

需要說明的是,這只是一個起點。

Windsurf不僅希望趕上最前沿實驗室的水平,最終目標是全面超越它們

Windsurf堅信自己已經具備了實現這個目標的引擎,并將持續加大投入。

流動感知系統(Flow-Aware System)

Windsurf提到SWE-1的靈感來源于Windsurf編輯器。

關鍵在于Windsurf獨特的設計理念:流動感知(Flow Awareness)

什么是流動感知?

Windsurf打造的Windsurf編輯器實現了用戶與AI的「共識時間線」:AI的每一步用戶都能看到并干預,反過來,AI也能理解并跟進用戶的行為。

這種「共享時間線」的感知能力,Windsurf稱之為Flow Awareness(流動感知),也因此Windsurf一直把這種人機協作的體驗稱為「AI flows」。

為什么流動感知很重要?

因為短時間內,沒有模型能完全獨立完成所有開發任務。

流動感知允許模型和人類之間「自然交接」:AI做一部分,用戶校正,AI再繼續,形成順暢銜接。

借助共享時間線,Windsurf可以持續追蹤當前模型的能力邊界,觀察哪些任務需要用戶介入、哪些能完全自動完成。

這是SWE-1能快速成長為當前水平的關鍵原因之一。

共享時間線在Windsurf中的演進

構建共享時間線是Windsurf許多功能背后的核心理念:

  • 初代Cascade就支持「你在編輯器改完內容后輸入continue,AI就能繼續理解你改了什么」——這是對編輯器的感知。

  • 后來Windsurf加入了終端輸出感知——AI能理解你執行命令時出現的錯誤。

  • Wave 4中加入了「預覽」功能——AI開始理解你看到的前端組件和錯誤。

  • Wave 5和 Wave 6中,Tab增加了對終端命令、剪貼板內容、IDE搜索內容等的感知。

這不是一堆隨機新功能,而是Windsurf構建「最全面軟件工程時間線」的一部分。

即便使用的是通用模型,只要Windsurf記錄和利用好了這些上下文信息,AI的表現就會大幅提升。

而現在Windsurf有了自研的SWE系列模型,這個正反饋循環將真正開始加速:模型能更好地理解時間線并參與其中更多部分。

接下來會發生什么?

SWE-1只是開始。它是由一個小而專注的團隊打造的,利用Windsurf在產品和基礎設施方面的優勢,展示了Windsurf完全有能力打造接近最前沿的模型。

未來,Windsurf將持續改進SWE系列模型,在保證低成本的同時不斷提升性能,讓開發者能用Windsurf構建更大、更強的軟件項目。

隨著SWE-1的發布和OpenAI對Windsurf的收購,AI編程工具正迎來一個新的時代。

從簡單的代碼補全到全面的工程協作,AI正在深刻改變軟件開發的方式。

對于開發者來說,這是一個充滿機遇和挑戰的時代,如何利用這些新工具提升開發效率,將成為他們需要思考的重要問題。

參考資料:

https://windsurf.com/blog/windsurf-wave-9-swe-1

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
曾認為國內已滅絕!144年后一只瘸腿一只被困,再現廈門

曾認為國內已滅絕!144年后一只瘸腿一只被困,再現廈門

萬象硬核本尊
2025-05-14 20:00:45
《向往的生活》10月初回歸讓彭昱暢破防?何炅黃磊換成這對夫妻?

《向往的生活》10月初回歸讓彭昱暢破防?何炅黃磊換成這對夫妻?

漓說新娛
2025-05-16 11:40:47
庫里:對于G6一切都已經準備就緒,我只能說這是一個美好的假設

庫里:對于G6一切都已經準備就緒,我只能說這是一個美好的假設

懂球帝
2025-05-16 07:47:08
智庫報告:建議將中國大腹地建設上升為國家戰略層級!核心是成都重慶西安,成都未來或超越重慶成“全國人口第一城”

智庫報告:建議將中國大腹地建設上升為國家戰略層級!核心是成都重慶西安,成都未來或超越重慶成“全國人口第一城”

和訊網
2025-05-16 13:17:02
周薪36.5萬?衛報:拉什福德不想降薪,曼聯可能因此補償數百萬鎊

周薪36.5萬?衛報:拉什福德不想降薪,曼聯可能因此補償數百萬鎊

直播吧
2025-05-16 18:14:48
AI記者 | AI預測《歌手2025》首期競演排名!TA有65%概率被淘汰

AI記者 | AI預測《歌手2025》首期競演排名!TA有65%概率被淘汰

瀟湘晨報
2025-05-16 15:54:08
浙江海警局查處一起無人島違建案

浙江海警局查處一起無人島違建案

中國日報網
2025-05-16 18:01:03
美媒更新奪冠概率:綠軍已經跌至第五,森林狼暴漲,第一高達55%

美媒更新奪冠概率:綠軍已經跌至第五,森林狼暴漲,第一高達55%

你的籃球頻道
2025-05-16 07:38:45
佟麗婭把吊帶岔開掉兩側,怪不得有那么多的忠實粉絲!

佟麗婭把吊帶岔開掉兩側,怪不得有那么多的忠實粉絲!

草莓解說體育
2025-05-16 05:52:34
淚流滿面的發帖!爺爺每多活一天,就能為家里帶來566元的收入…

淚流滿面的發帖!爺爺每多活一天,就能為家里帶來566元的收入…

火山詩話
2025-05-09 14:23:17
定了: 互免簽證!游客已呈倍數增長,上海能直飛!

定了: 互免簽證!游客已呈倍數增長,上海能直飛!

上海徐匯
2025-05-16 11:36:57
和人交往,只要你表現唯唯諾諾,膽怯卑微,對方就會看不上你

和人交往,只要你表現唯唯諾諾,膽怯卑微,對方就會看不上你

富書
2025-05-15 14:06:43
中國信守承諾,關稅降到10%,但壞消息傳來,特朗普根本沒想談?

中國信守承諾,關稅降到10%,但壞消息傳來,特朗普根本沒想談?

閆樹軍論評
2025-05-16 08:52:54
《絕密較量》四位國安人結局:黎劍成大贏家,趙亞苧目標是大老板

《絕密較量》四位國安人結局:黎劍成大贏家,趙亞苧目標是大老板

宇林網絡
2025-05-16 12:26:35
中國這個時候為什么突然重提藏南地區的歸屬問題?

中國這個時候為什么突然重提藏南地區的歸屬問題?

現代春秋
2025-05-16 01:53:56
最貴新股跌落神壇!連續下跌三年,從1338跌到89,坑慘股民!

最貴新股跌落神壇!連續下跌三年,從1338跌到89,坑慘股民!

八百者也
2025-05-16 10:04:34
原來如此!“黑粉”噤聲不是因為良心發現,而是汪小菲律師太給力

原來如此!“黑粉”噤聲不是因為良心發現,而是汪小菲律師太給力

八斗小先生
2025-05-16 11:48:42
趕在中美會面前,27國向全球宣布:已制定對美報復清單

趕在中美會面前,27國向全球宣布:已制定對美報復清單

鐵血論古今
2025-05-15 22:00:09
追夢-格林:這賽季我一直在打五號位,我愿意為勇士做出自我犧牲

追夢-格林:這賽季我一直在打五號位,我愿意為勇士做出自我犧牲

稻谷與小麥
2025-05-17 00:12:04
印度這次比1962年慘多了!

印度這次比1962年慘多了!

談芯說科技
2025-05-14 08:27:31
2025-05-17 00:39:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12711文章數 66034關注度
往期回顧 全部

科技要聞

雷軍:一場事故讓我們受到狂風暴雨般的質疑

頭條要聞

特朗普稱有意在本周末同中國領導人通電話 中方回應

頭條要聞

特朗普稱有意在本周末同中國領導人通電話 中方回應

體育要聞

退役8個月后喜提3冠,人生的轉折如此突然

娛樂要聞

嘉行回應黃楊鈿甜風波翻車,引發眾怒

財經要聞

一船難求,又要開始了?

汽車要聞

吉利發布最強一季報后,繼續整合、補短板是關鍵

態度原創

親子
藝術
旅游
公開課
軍事航空

親子要聞

專家:應打破觀念壁壘,提升男性在生育健康中的參與意識

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

沒等到普京 澤連斯基走了

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 茂名市| 大埔县| 涿州市| 祥云县| 江永县| 泾源县| 武胜县| 三都| 衡东县| 晋江市| 临沂市| 彭山县| 甘德县| 迁西县| 五常市| 安达市| 天长市| 边坝县| 临西县| 舟曲县| 阿克| 太保市| 温泉县| 拜城县| 马龙县| 绥江县| 永定县| 额尔古纳市| 徐闻县| 含山县| 睢宁县| 晋州市| 上饶市| 南皮县| 商洛市| 青神县| 克山县| 军事| 南充市| 信丰县| 新巴尔虎左旗|