99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

怎么回事?剛被OpenAI收購,Windsurf就發了個自己的模型

0
分享至

文章轉載自「新智元」

5 月初,

AI 編程熱門公司 Windsurf 又有了新的動作。Windsurf 發布了其 AI 編程模型SWE-1。官方介紹稱,SWE-1 針對整個軟件工程過程,而不僅僅是編碼任務。

SWE-1 的核心關鍵為流動感知(Flow Awareness),涉及到軟件開發過程的全流程,強調實現 模型和人類之間「自然交接」:AI做一部分,用戶校正,AI再繼續,形成順暢銜接。

SWE-1系列包含三個模型:

  • SWE-1:具備與Claude 3.5 Sonnet類似的工具調用推理能力,但運行成本更低。在推廣期內,所有付費用戶可免費使用。

  • SWE-1-lite:一個更小但質量更高的模型,全面取代Cascade Base,對所有用戶(包括免費用戶)開放。

  • SWE-1-mini:更小、更快,專為Windsurf Tab中的低延遲被動體驗而設計,適用于所有用戶。


目前,SWE-1 模型已在 Windsurf 中上線,用戶可以免費使用。

Founder Park 正在搭建「AI 產品市集」社群,邀請從業者、開發人員和創業者,掃碼加群:

進群后,你有機會得到:

  • 最新、最值得關注的 AI 新品資訊;

  • 不定期贈送熱門新品的邀請碼、會員碼;

  • 最精準的AI產品曝光渠道

01

AI編程發展「快閃」

近幾年,「會寫代碼」的模型取得了巨大進步,已經能從簡單的自動補全發展到一次性構建出完整的小型應用。

但這種能力仍然存在明顯的上限:

其一,軟件開發不僅僅是寫代碼。

開發者要做的事情遠不止編碼,還要操作終端、獲取知識、調試產品、理解用戶反饋等。因此需要的是更全面的模型,能覆蓋整個開發流程。

其二,工程過程是跨階段的、持續變化的。

目前主流的基礎模型仍然是基于「代碼能否編譯」和「是否通過單元測試」來訓練的。但現實中,這只是更大工程任務中的一小部分。

真正需要的是能處理「尚未完成的狀態」、理解模糊目標的模型。

否則,即使模型寫出了能運行的功能,后續維護與擴展性可能會非常差。

因此,僅僅提高「寫代碼」的能力,無法真正提升整個工程效率。需要打造的是支持完整軟件工程流程的模型——簡稱SWE模型。


02

SWE-1的開發過程

SWE-1的開發靈感來自廣受歡迎的Windsurf編輯器,構建了全新的數據結構(共享時間線)和訓練方法,能夠理解未完成的狀態、長周期任務以及多種交互界面。

其初衷是在資源有限的情況下,通過這種方法做出一流性能的模型。

SWE-1是這個目標的第一個驗證成果。

在整體表現上,SWE-1接近最前沿的基礎模型,在多個維度上超過了所有非前沿模型和開源對手。可以通過離線評估與線上實測兩種方式進行驗證。

離線評估

評估將SWE-1與Anthropic系列(Cascade中使用最頻繁的模型之一)以及Deepseek、Qwen等主流開源模型對比,主要有兩個基準測試:

  • 會話式SWE任務基準

從一個正在進行中的Cascade會話中截取,任務尚未完成。評估模型如何響應用戶的下一步請求,打分標準綜合考慮幫助程度、效率、正確性以及目標文件編輯的準確率。這項測試關注模型在「人機協作」環境中的表現。


  • 端到端SWE任務基準

從會話一開始就評估模型是否能完全獨立解決問題,并通過一組單元測試。得分基于測試通過率和專家打分。這項測試衡量模型自主完成任務的能力。


評估結果表明,SWE-1在這些任務上接近頂級實驗室的前沿模型,遠超中等體量和開源的對手。雖然還不是絕對領先,但非常有潛力。

線上實測(生產實驗)

Windsurf有大量用戶,因此也通過盲測實驗評估真實使用中的表現。

Windsurf將用戶分組,分別使用不同模型,在不告知模型類型的前提下觀察行為和效果。

Windsurf主要看兩個指標:

  • 每位用戶每天接受的代碼行數

即Cascade編寫、用戶實際接受并保留的代碼行數,反映模型的實際幫助程度、響應質量和用戶粘性。


  • Cascade代碼貢獻率

對于被Cascade修改過的文件,模型所做的代碼改動所占比例。這是一個反映模型「主動性」以及「用戶信任程度」的指標。

SWE-1專為Cascade場景設計和優化,因此在這些指標上表現幾乎是行業領先,效果優于所有非前沿模型。


其他模型分析

你可能在上面的圖表中注意到SWE-1-lite,這是SWE-1的中型版本,使用相同訓練方式,在非前沿模型中表現最佳,現已取代Cascade Base,向所有用戶開放。

Windsurf還開發了SWE-1-mini,體積更小,速度更快,適用于Windsurf Tab這種對延遲要求極高的被動預測場景。

需要說明的是,這只是一個起點。

Windsurf不僅希望趕上最前沿實驗室的水平,最終目標是全面超越它們

Windsurf堅信自己已經具備了實現這個目標的引擎,并將持續加大投入。

03

流動感知系統(Flow-Aware System)

Windsurf提到SWE-1的靈感來源于Windsurf編輯器。

關鍵在于Windsurf獨特的設計理念:流動感知(Flow Awareness)

什么是流動感知?

Windsurf打造的Windsurf編輯器實現了用戶與AI的「共識時間線」:AI的每一步用戶都能看到并干預,反過來,AI也能理解并跟進用戶的行為。

這種「共享時間線」的感知能力,Windsurf稱之為Flow Awareness(流動感知),也因此Windsurf一直把這種人機協作的體驗稱為「AI flows」。

為什么流動感知很重要?

因為短時間內,沒有模型能完全獨立完成所有開發任務。

流動感知允許模型和人類之間「自然交接」:AI做一部分,用戶校正,AI再繼續,形成順暢銜接。

借助共享時間線,Windsurf可以持續追蹤當前模型的能力邊界,觀察哪些任務需要用戶介入、哪些能完全自動完成。

這是SWE-1能快速成長為當前水平的關鍵原因之一。

共享時間線在Windsurf中的演進

構建共享時間線是Windsurf許多功能背后的核心理念:

  • 初代Cascade就支持「你在編輯器改完內容后輸入continue,AI就能繼續理解你改了什么」——這是對編輯器的感知。

  • 后來Windsurf加入了終端輸出感知——AI能理解你執行命令時出現的錯誤。

  • Wave 4中加入了「預覽」功能——AI開始理解你看到的前端組件和錯誤。

  • Wave 5和 Wave 6中,Tab增加了對終端命令、剪貼板內容、IDE搜索內容等的感知。

這不是一堆隨機新功能,而是Windsurf構建「最全面軟件工程時間線」的一部分。

即便使用的是通用模型,只要Windsurf記錄和利用好了這些上下文信息,AI的表現就會大幅提升。

而現在Windsurf有了自研的SWE系列模型,這個正反饋循環將真正開始加速:模型能更好地理解時間線并參與其中更多部分。

接下來會發生什么?

SWE-1只是開始。它是由一個小而專注的團隊打造的,利用Windsurf在產品和基礎設施方面的優勢,展示了Windsurf完全有能力打造接近最前沿的模型。

未來,Windsurf將持續改進SWE系列模型,在保證低成本的同時不斷提升性能,讓開發者能用Windsurf構建更大、更強的軟件項目。

隨著SWE-1的發布和OpenAI對Windsurf的收購,AI編程工具正迎來一個新的時代。

從簡單的代碼補全到全面的工程協作,AI正在深刻改變軟件開發的方式。

對于開發者來說,這是一個充滿機遇和挑戰的時代,如何利用這些新工具提升開發效率,將成為他們需要思考的重要問題。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
男性最“耗陽”行為,煙酒未上榜,排第一的,多數人不重視!

男性最“耗陽”行為,煙酒未上榜,排第一的,多數人不重視!

深度知局
2025-05-20 17:47:03
2-0!不懼連續高強度作戰,橫掃美國華裔名將,王祉怡晉級八強

2-0!不懼連續高強度作戰,橫掃美國華裔名將,王祉怡晉級八強

釘釘陌上花開
2025-05-29 20:31:21
美方剛宣布“500美軍進駐臺島”,解放軍直接貼臉開大,麻煩大了

美方剛宣布“500美軍進駐臺島”,解放軍直接貼臉開大,麻煩大了

影孖看世界
2025-05-28 14:09:18
李宗盛,戳穿了林志炫被淘汰的真正原因,也給華語樂壇敲響了警鐘

李宗盛,戳穿了林志炫被淘汰的真正原因,也給華語樂壇敲響了警鐘

簡讀視覺
2025-05-27 22:20:02
把公權力當作謀取私利的工具,廣東省政協機關原一級巡視員張廣寧被“雙開”

把公權力當作謀取私利的工具,廣東省政協機關原一級巡視員張廣寧被“雙開”

界面新聞
2025-05-29 17:03:00
就在明天!西安知名商超重新開業

就在明天!西安知名商超重新開業

愛看劇的阿峰
2025-05-29 17:04:49
印媒推翻一個月前的觀點,罕見承認一個事實,果然還是低估了中國

印媒推翻一個月前的觀點,罕見承認一個事實,果然還是低估了中國

錦然蒼穹
2025-05-28 18:41:24
魯比奧放話:“狠狠”拒簽中國學生

魯比奧放話:“狠狠”拒簽中國學生

觀察者網
2025-05-29 09:38:11
請周知!明天起,東莞這些高速入口全封閉!

請周知!明天起,東莞這些高速入口全封閉!

東莞紀實
2025-05-29 17:44:40
李忠任湖南省司法廳廳長

李忠任湖南省司法廳廳長

魯中晨報
2025-05-29 19:09:36
單位里40以上的中年人,最好的狀態不是級別高權力大,而是這4種

單位里40以上的中年人,最好的狀態不是級別高權力大,而是這4種

細說職場
2025-05-27 07:39:06
每體:克洛普已與法布雷加斯會面,試圖說服他加盟萊比錫

每體:克洛普已與法布雷加斯會面,試圖說服他加盟萊比錫

直播吧
2025-05-29 00:37:11
印度到處炫耀“戰功”,法國突然戳破窟窿

印度到處炫耀“戰功”,法國突然戳破窟窿

新民周刊
2025-05-29 09:05:20
蔚來孤注一擲

蔚來孤注一擲

華爾街見聞官方
2025-05-27 15:59:56
多次撞擊空間站真兇鎖定,神二十已攜帶“裝甲”,為天宮加防護罩

多次撞擊空間站真兇鎖定,神二十已攜帶“裝甲”,為天宮加防護罩

答案在這兒
2025-05-28 15:53:13
突發!全線暴跌!特朗普被裁定越權!

突發!全線暴跌!特朗普被裁定越權!

福州晚報
2025-05-29 11:02:42
著名車評人顏宇鵬飛坡測試問界M8,是真實體驗還是重蹈袁啟聰覆轍

著名車評人顏宇鵬飛坡測試問界M8,是真實體驗還是重蹈袁啟聰覆轍

沙雕小琳琳
2025-05-29 04:54:46
上海知名腫瘤醫院將擴建,有望成“全球最大”

上海知名腫瘤醫院將擴建,有望成“全球最大”

鬼菜生活
2025-05-29 12:10:38
3114元入手Switch2馬車同捆:價格真香還含稅

3114元入手Switch2馬車同捆:價格真香還含稅

游民星空
2025-05-29 15:09:16
77歲梁小龍現身深圳,和小20歲妻子低調坐地鐵

77歲梁小龍現身深圳,和小20歲妻子低調坐地鐵

安山客
2025-05-28 17:46:32
2025-05-29 22:16:49
FounderPark incentive-icons
FounderPark
關注AI創業,專注和創業者聊真問題
762文章數 133關注度
往期回顧 全部

科技要聞

英偉達財報炸裂 黃仁勛卻嘆退出中國太可惜

頭條要聞

疑因2年前的一句"阿姨" 男子遭電話短信騷擾不敢回家

頭條要聞

疑因2年前的一句"阿姨" 男子遭電話短信騷擾不敢回家

體育要聞

納達爾,法網,漫長告別

娛樂要聞

辛柏青沉默8天后,這些事還是發生了

財經要聞

若對等關稅叫停,特朗普還能怎么加關稅

汽車要聞

換上高爾夫GTI同款2.0T動力 新凌渡L GTS實車曝光

態度原創

教育
數碼
健康
時尚
軍事航空

教育要聞

剛剛發布:南京市開始啟動!

數碼要聞

vivo TWS Air3 半入耳無線耳機發布,售價 99 元

唇皰疹和口腔潰瘍是"同伙"嗎?

鞋子專場|| 舒服到能暴走的鞋,我幫你們找到了!

軍事要聞

以軍承認使用激光武器攔截無人機

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 明溪县| 阜新| 孟津县| 蓬溪县| 板桥市| 五家渠市| 美姑县| 邢台市| 托里县| 获嘉县| 方城县| 合肥市| 同仁县| 岳阳县| 萨嘎县| 扬州市| 广水市| 临洮县| 馆陶县| 玉屏| 沭阳县| 洛宁县| 萨嘎县| 迭部县| 邢台市| 铁力市| 磐安县| 清丰县| 九江县| 沅陵县| 洛扎县| 美姑县| 五大连池市| 无棣县| 汝阳县| 松江区| 定州市| 贞丰县| 孟村| 南华县| 普格县|