整理 | 核子可樂、褚杏娟
當地時間 5 月 16 日,專為軟件工程師開發熱門 AI 工具的初創公司 Windsurf 宣布推出了其首個 AI 軟件工程模型家族:SWE-1。除了編碼任務之外,本系列模型還針對完整軟件工程流程進行了優化。
此系列目前包含三款具體模型:
SWE-1:工具調用推理能力約相當于 Claude 3.5 Sonnet 級別,但服務成本更低。所有付費用戶均可使用,推廣期內用戶可免費通過提示詞使用。
SWE-1-lite:一款更小巧的模型,取代原有 Cascade Base 且質量更佳。所有用戶(免費或付費)均可無限次使用。
SWE-1-mini:一款強調速度的小型模型,負責為所有用戶(免費或付費)Windsurf Tab 被動體驗。
這是繼 30 億美元被 OpenAI 收購消息后,Windsurf 的首次技術產品向動態,鑒于此,人們對 Windsurf 推出自研 AI 模型感到意外。然而,這次模型的發布表明,Windsurf 正在嘗試從單純開發應用程序,擴展到同時研發支撐這些應用的底層模型。
SWE-1 系列發布后,開發者 Arif 立馬上手構建一個 Flutter 應用演示,評價稱“目前為止很棒!”
Ian Nuttall 在 Windsurf 上快速試用了 SWE-1,表示有以下幾點感受:
響應非常迅速、高效
不廢話,直接動手做事
跑完指令后不會像 Cursor 那樣卡住
寫出來的代碼整體大概相當于 Sonnet 3.5 的水平
不過,Nuttall 也指出,如果沒有給出明確的規則,它還是會產生不少幻覺,比如它完全搞錯了該如何在應用中添加路由。另外,和它一起寫代碼時,最好把功能拆分成小任務,并盡可能一開始就提供足夠多的上下文信息,以避免陷入 AI 死循環。
“總體來說,我個人還是更傾向于在大多數場景下使用 Gemini 2.5,但這是個不錯的開始,后續的迭代值得關注。”Nuttall 總結道。
為什么要發布大模型
為什么要打造 SWE-1?Windsurf 的解釋是,想要將軟件開發速度提升 99%。畢竟編寫代碼在軟件工程中只占很小一部分,“能夠編碼”的模型并不能滿足所有需求。
過去幾年,能夠編寫代碼的模型已經取得了長足進步。開發者對模型的期待已經從提供簡短的自動補全建議,提升到了要能一次性、更加可靠地構建簡單應用程序等。然而,Windsurf 認為,這些模型在其他一些層面似乎停滯不前:
首先,相信各位軟件開發者都有共識,開發中有相當一部分時間并不是花在編寫代碼上。執行的任務類型越來越多、涉及的層面也更多,因此需要對模型抱有更高的期望。這些模型不僅要能夠讀寫代碼,還要能夠在終端中工作,訪問其他知識和互聯網資源、測試并使用軟件產品,乃至理解用戶反饋。總之,軟件開發者在代碼編寫之外需要完成的工作,大模型也應當盡量接管。
其次,每位軟件開發者都很清楚,上述各個層面的工作推進起來極其耗時,而且整個過程就是由一個個未完成的狀態構成的。如今,最強大的基座編碼模型仍然以戰術目標為切入點進行訓練,即最終代碼能否編譯并通過單元測試。但對實際開發者而言,單元測試只是整體工程問題中的組成部分。當下,實現某項特定功能的方法有很多,但能保證一項功能可在未來多年內穩定使用的好辦法卻少之又少。正因為如此,Cascade 模型在用戶主動指導下表現優異,但獨立運行時間越長則其性能越差。要實現更多工作流程的自動化,就必須打破這一限制。這要求對工程流程的完整復雜性進行建模:包括對未完成狀態進行推理,并且可能會得出模棱兩可的結果。
“在某種程度上,單純提高編碼水平并不足以讓開發者或者模型在軟件工程方面更上一層樓。我們的終極目標在于幫助軟件工程師加速處理所有工作,換句話說,我們很早就意識到需要打造“軟件工程”模型——即 SWE 模型家族。”Windsurf 表示。
基于對 Windsurf 編輯器使用方式的觀察,Windsurf 著手打造出一套全新的數據模型(共享時間線,the shared timeline)和一套包含未完成狀態、長時間運行任務及多個接口的訓練方案。
“我們的初始目標是希望證明,即使對于規模較小、計算資源遠低于研究實驗室的工程師團隊,同樣可以通過這種方式獲得前沿水平模型的性能。而 SWE-1 就是我們的初步概念驗證。”Windsurf 表示。
SWE-1 測評:雖未“遙遙領先”但有一戰之力
對于 SWE-1 的表現,Windsurf 的評價是“接近所有前沿基礎模型。更重要的是,它的表現優于所有非前沿模型以及開放權重類模型。”
為了摸清實際性能表現,Windsurf 在基準測試中進行了離線評估與生產實驗盲測。
離線評估
Windsurf 將 SWE-1 的性能與 Anthropic 模型家庭(Cascade 中廣泛使用的模型之一)以及 DeepSeek 與 Qwen 中領先的開放權重編碼模型進行了比較。
對話式 SWE 任務基準測試:以現有 Cascade 會話的中間為起點,使用完成一半的任務,Cascade 對下一用戶查詢的處理效果如何?根據有用性、效率、正確性以及目標文件的編輯準確率等指標的混合平均值打出的得分(10 分制),即代表可比較的性能結果。
Windsurf 認為,這項基準測試抓住了其率先在 Cascade 中提出的“人機交互”代理式編碼的獨特本質。畢竟模型本身還不完美,Windsurf 認為能否在已經完成了一部分的任務中與用戶輸入實現無縫對接,應當成為衡量模型實用性的重要指標。
端到端 SWE 任務基準測試:從對話開頭介入,Cascade 使用一組選定的單元測試,評估其在多大程度上實現了輸入意圖。根據測試通過率與評委評分的混合平均值得出最終成績(10 分制)。
這項基準測試旨在衡量模型獨立端到端解決問題的能力。隨著各類模型越來越多地在無人干預的情況下運行,這已經成為一類日益重要的用例。
從離線評估結果來看,Windsurf 認為 SWE-1 在這些任務上的表現與各大模型實驗室的前沿成果相當,而且優于各領先中型及前沿開放權重模型。雖然還達不到“遙遙領先”,但 SWE-1 與這些領先成果完全擁有一戰之力。
生產實驗
由于已經擁有龐大的用戶社區,因此 Windsurf 決定配合生產實驗來補充離線評估結論。
為了計算這些每日指標,Windsurf 開展了一項盲測,實驗對象是一定比例的用戶,且用戶并不清楚自己正在使用的是哪種模型。用戶被分配到的模型在整個測試階段保持不變,確保能夠衡量其隨時間推移的重復使用情況。
Windsurf 選擇 Claude 模型作為基準,原因是 Claude 一直是 Cascade 中使用頻率最高的模型。
每用戶每日貢獻行數:指 Cascade 在固定時長內編寫并被用戶主動接受和保留的平均代碼行數。選擇它作為衡量整體實用性的指標,是因為它既反映了模型每次調用時生成貢獻的實用性,也體現了用戶持續重復使用該模型的意愿。
Windsurf 認為這是一項非常具有指導意義的指標,不僅反映出主動性與建議質量之間的平均,也體現了輸出速度和對反饋的響應能力,即能否促使用戶成為“回頭客”。
Cascade 貢獻率:對于至少由 Cascade 編輯過一次的文件,這項指標代表的是 Cascade 生成的變更占文件總體變更中的百分比。
這是一項衡量實用性的指標,根據用戶使用模型的頻率以及認可模型貢獻代碼的意愿進行了歸一化。由于此指標僅衡量模型編輯的文件,因此能夠更好地體現使用頻率與模型編輯傾向。
SWE-1 是根據用戶與 Cascade 的交互類構建并過擬合而業,因此 Windsurf 表示對其在上述生產實驗中擁有接近行業領先水平的表現并不感到意外。
在以上圖表中還出現了 SWE-1-lite,這是 SWE-1 模型的中型版本,采用同樣的訓練方法構建而成。它將取代之前的 Cascade Base 模型,成為面向全體用戶的無限次使用選項。
Windsurf 還構建了第三個模型:SWE-1-mini。它與 SWE-1-lite 采用多種相同圍繞流程感知的訓練方法,但規模更小、能夠在被動預測系統的延遲限制之內運行,且針對預測操作任務(而非工具調用)進行進一步訓練。
“需要明確的是,這一切僅僅只是開始。我們在軟件工程領域的最終目標不是要追平其他研究實驗室前沿模型的性能,而是要有所超越。我們比以往任何時候都有加相信,實現這一目標的驅力已經存在,而且我們未來將大力投資于這項戰略。”Windsurf 表示。
Windsurf 編輯器如何賦能 SWE-1
Windsurf 此前提到了“基于對 Windsurf 編輯器使用方式的觀察”,官方也在博文里解釋了 Windsurf 編輯器如何為 SWE-1 賦能,又為何確信自己的模型最終能夠實現性能超越。
“歸根結底,關鍵在于其如何逐步迭代‘流程感知(flow awareness)’這個核心概念。”Windsurf 表示。
什么是流程感知?構建 Windsurf 編輯器的目的,是為了在用戶和 AI 的綜合狀態之間建立起無縫銜接。AI 所做的一切,都應該能為人類所觀察到并據此行動;人類所做的一切,也應為 AI 所觀察到并據此行動。Windsurf 將這種對共享時間線的感知稱為“流程感知”,并據此將此類協作式智能體稱為“AI 心流(AI flows)”。
為什么編輯器必要要支持流程感知?簡而言之,SWE 模型想要獨立完成所有工作還需要一段時間。流程感知能夠在這個過渡階段實現正確的交互方式——即充分利用模型功能,并在大模型出錯時讓人類介入糾正,之后模型繼續在人類基礎上進行構建。整個過程必須能夠無縫且自然切換。
“也就是說,我們一直在關注模型立足共享時間線內在有 / 無用戶干預的情況下能夠完成哪些步驟,借此了解當前模型的能力邊界。這種持續跟進,讓我們得以了解用戶整體最希望在模型中看到的下一步改進是什么。正因如此,Windsurf 才能快速構建模型,最終讓 SWE-1 達到了目前的水平。”Windsurf 表示,“基于同樣的理由,我們完全有信心打造出絕對性能最佳的 SWE 模型。”
Windsurf 還提到,構建共享時間線一直是 Cascade 在設計各項主要功能時的指導性愿景:
在 Cascade 發布之初,Windsurf 就強調用戶可以在文本編輯器中執行操作,而后在 Cascade 中輸入“繼續”來由其自動接手。這就是文本編輯器感知。
不久之后,Windsurf 將終端輸出整合到流程感知當中,以便 Cascade 能夠無縫感知用戶在運行代碼時遇到的錯誤。這就是所謂終端感知。
在 Wave 4 中,Windsurf 添加了“預覽”的概念,以便 Cascade 能夠了解用戶正在交互且關注的前端組件或者錯誤類型。這就是瀏覽器基礎感知。
不止于 Cascade,Windsurf 所構建的一切全部建立在流程感知的理念之上。Tab 也基于同樣的共享時間線概念。當 Windsurf 向 Cascade 中添加上下文時,也會將其添加至 Tab,而且并不是隨意將更多信息塞進固定的上下文窗口,而是精心構建共享時間線,以期更好地反映用戶的行動和目標。正因為如此,Windsurf 在 Tab 版本中引入了以下功能:
感知終端命令(Wave 5);
感知剪貼板中復制的內容(Wave 5);
感知當前 Cascade 對話(Wave 5);
感知 IDE 內用戶搜索(Wave 6)。
Windsurf 表示,不會隨意發布新功能。“我們一直致力于構建現有軟件工程中共享時間線的理想呈現方式。即使使用現成模型,我們的工具也得到了顯著改進,這主要得益于共享時間線中的信息。如今我們有了自己的 SWE 模型,能夠真正讓整個飛輪運轉起來,讓模型能夠吸納時間線并針對更多時間線進行操作。”
“我們一直重視自己獨特的應用程序、系統與模型飛輪的強大力量,如果沒有如此廣泛的應用范圍和基于實際活動的洞察規模作為基礎,即使是實力雄厚的研究實驗室也無法獲得這樣的飛輪效應。”
毋庸置疑,SWE 系列模型將持續改進和更新,Windsurf 表示還將繼續加大投入、以最低成本為用戶提供最佳性能。
“SWE-1 由我們規模不大但高度專注的團隊開發而成,模型家族充分發揮了我們作為產品及基礎設施廠商的優勢。這是我們首次嘗試構建真正具備領先質量的模型。雖然我們對成果感到自豪,但也深知這僅僅只是開始。”Windsurf 表示。
https://windsurf.com/blog/windsurf-wave-9-swe-1
聲明:本文為 AI 前線翻譯整理,不代表平臺觀點,未經許可禁止轉載。
AICon 2025 強勢來襲,5 月上海站、6 月北京站,雙城聯動,全覽 AI 技術前沿和行業落地。大會聚焦技術與應用深度融合,匯聚 AI Agent、多模態、場景應用、大模型架構創新、智能數據基建、AI 產品設計和出海策略等話題。即刻掃碼購票,一同探索 AI 應用邊界!!
今日薦文
你也「在看」嗎?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.