99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

AI編程“真相”:硬核測試全部0分,AI寫代碼到底行不行?| 深度

0
分享至


圖片來源@pixabay

AI能力落地是當下最熱門的話題,從走下技術神壇,到真正賦能場景和業務,撥開輿論的重重迷霧,真實情況如何?我們將以“真相”為主線,持續推出系列稿件,理性觀察AI技術應用落地的現狀和未來,也歡迎產業各方參與話題討論。

“AI替代程序員”的言論甚囂,AI編程(AI Coding)也正被多方共同塑造為“大幅提升企業開發效率潛力”的形象。但在大廠和創企產品競賽、企業內部應用不甘落后之外,仍處在探索期的AI編程,自面世至今備受質疑。

近日,一支由國際算法奧賽金牌得主組成的科研團隊推出了 LiveCodeBench Pro 基準測試,結果讓人大跌眼鏡:GPT-4o、DeepSeek R1、Claude 3等20個頂級大模型,在來自頂級賽事的最新584道編程賽題上展開對決,在高難度題目上,所有AI的通過率是——0%。(相關報道《AI替代程序員?一項最新測試的結果恰恰相反 | 企服國際觀察》)

可以說,脫離了網絡信息作為訓練數據,不能“作弊”,AI的編程能力遠沒有外界吹捧的那么神乎其神。

而且,在關于AI編程的熱議中,作為最卷也最容易接受創新事物的程序員群體,隨著更多實際應用,對AI編程工具也在祛魅。

“出于信息安全的考慮,安全部門會禁止使用AI大模型,即便是本地部署。但同時,業務部門經理會要求所有開發人員必須使用大模型以提高性能。每個部門都矛盾,但又認為自己的做法正確。公司裁員后,我們將績效提高了1倍多,但事實上沒有任何工具能夠幫我們實現這一目標?!?“大多數出于數據合規保密不讓用外部商業化成型的AI工具,內部的IDE插件又不太好用,加上大廠上下游太多,潛在業務知識太多,‘屎山’(結構混亂、難以理解和維護的代碼)太多,導致很多時候也要自己將業務知識翻譯成Prompt時間也多,所以總的來說性價比不太高?!?“去年Claude推出編程功能時,我興奮得不行。想象一下:描述想法,代碼自動生成,效率提升10倍。半年下來,有驚喜也有血淚教訓。最大的收獲是:AI很強,但需要人類劃清邊界。” “此前完全沒碰過Cursor,focus可能還在傳統的完成一些task,但殊不知在外面的世界,現在提升的技能或知識已經完全不重要了。以我的視角來看,現在非常需要使用AI的經驗,我想說AI是個工具,如何合適的使用它來幫助到自己才是本事。” “人用AI寫代碼和自己寫代碼的唯一區別是,用AI寫代碼你意識不到自己是在用自然語言編程,即使是自然語言,也不能只給出需求,自然語言編程也需要編程的邏輯和規范設計?!?/blockquote>

在筆者與多位業內從業者交流中,一個共識越來越清晰:AI尚無法取代人類,只是在重塑開發者的角色定位。基于大模型本質和產品成熟度的因素,部分開發人員依然對AI編程無法接受,這類工具還未能快速普及。

是否值得信任是關鍵考量。根據 Cloudsmith 的《2025 Artifact管理報告》,三分之一的開發人員在每次部署之前并未審查AI生成的代碼,這意味著“很大一部分”代碼未經審查,這給供應鏈帶來了越來越大的漏洞。AI將成為軟件堆棧的關鍵貢獻者,而信任模型、工具和策略尚未跟上。而且,依靠人工審查代碼是不可持續的。

更現實的問題是,AI編程產品并不便宜,說服讓先一步用上AI編程的企業花更多錢,特別是已經達到IT預算上限的客戶,其實并不容易。

高盛作為微軟GitHub Copilot的早期客戶,為其約1.2萬名開發人員每人購買了該工具的月度訂閱,每年花費數百萬美元。該客戶最近同樣在關注Copilot之外的競品,這也迫使微軟調整定價策略:也可以基于用戶的使用量,而不是純訂閱模式,同時推出Agent等新功能產品以說服客戶追加預算。

反觀國內,雖然大廠和不少創企也在紛紛入局,無論是爭論原生IDE還是插件,Agent是實時還是異步,除了技術產品的差距需要跟進外,商業化就當前的國內市場環境而言,其實更為艱難。

在好用之前,先考慮安全設計

AI編程核心支撐在于大語言模型,或由微調模型如OpenAI的Codex提供支持,能夠自動補全代碼、提供調試建議、根據自然語言提示編寫完整腳本。正因如此,越來越多的AI編程工具如GitHub Copilot、Cursor出現,并被納入企業日常開發工作流程之中。

但一些企業已經意識到現階段AI編程助手存在的弊端。

2023年,GitHub Copilot因訓練數據合法性陷入訴訟,原因在于AI生成的代碼可能包含來自MTL、GPL等開源協議的下的代碼,而這些代碼并未經GitHub Copilot屬性聲明。同年,武漢大學等六所高校針對GitHub Copilot生成代碼的安全性提出質疑,并指出Copilot生成的代碼可能包含安全漏洞,開發人員在接受Copilot生成的代碼之前,應進行嚴格的安全審查。

今年3月,AI編程軟件Lovable被發現存在重大漏洞:使用Lovable構建的應用存在泄露用戶個人信息的情況,同時還會泄露Lovable客戶用于訪問其他服務的密碼。隨后這類問題被Lovable解釋為“并非自家獨有,任何面向非專業開發者的AI編程產品都面臨類似的問題?!盠ovable為此推出了一款“安全掃描”的新功能,旨在檢測漏洞,才將此事平息。

筆者注意到,不少海外企業公開表示,AI生成的代碼有時并不能按預期運行,甚至更糟的是,可能使其更易受黑客攻擊或數據泄露。如果將AI編程生成的軟件直接用作系統運行,很可能會給企業留下一個缺陷性產品。

原因在于,AI并不能真正理解代碼邏輯,而是基于概率模型生成看似合理的代碼,這意味著,AI編程可能存在潛在的錯誤或安全漏洞。

為了防范AI生成代碼中潛伏的風險,一些企業已開始明確提醒其工程師不要發布任何未經人工審核的軟件。

營銷分析軟件公司Amplitude制定了一項政策,要求所有AI生成的代碼在客戶使用前都要經過審核。同時,Amplitude更傾向于使用托管在自有服務器上的模型,而不是基于云端數據中心運行。此外,Amplitude也會事先提示模型有限考慮其生成的代碼安全性,或者要求模型事后檢查自身代碼是否存在缺陷。

國內企業市場,這種情況也正在上演。

對于具備強大自研團隊及能力的互聯網企業,或出于安全和內部研發訴求的因素,會首先考慮自研工具。

字節跳動公開表示,目前超過80%的工程師在使用其開發的TRAE產品輔助開發。但此前5月,字節跳動安全與風控部門曾發布內部郵件稱,出于對防范數據泄露風險的考慮,自6月30日起,將在內部分批次禁用第三方AI開發軟件,包括AI編程工具Cursor、Windsurf等,并將Trae作為替代方案。

美團在6月初發布AI編程類工具NoCode,集成了美團自研千億參數規模的模型LongCat。作為一款服務于內部員工,并希望將能力進一步開放給外部人員的軟件工具,美團基礎研發平臺智能開發工具負責人俞超對筆者解釋,“大公司自研工具往往源自于自身訴求,而多數純商業軟件無法滿足企業內部研發場景,企業自身研發流程進行深度優化?!?/strong>

對于企業而言,一些需要通過外部采購快速構建的業務系統領域,要在保證數據安全的前提下,考慮整個研發流程及系統運維的便捷性。

“大家都知道汽車行業競爭非常激烈,對于功能的快速開發有強烈訴求。同時,維護周期也非常長。所以車企對于效率有要求,對質量要求更高?!蔽祦砥囐Y深工程師揭曉表示。近兩年,蔚來汽車開始逐步將AI編程工具用于模板生成、單元測試自動生成等內部研發場景。

2024年初,蔚來汽車從微軟Github Copilot切換到了阿里云通義靈碼。談及當時為什么會最終選擇通義靈碼,揭曉指出,核心就是代碼安全問題,“雖然在此之前內部曾小范圍使用過一段時間Copilot,但出于數據跨境風險的考慮,標準化的海外產品其實并不適合于在全公司內大范圍推廣?!?/p>

回顧此次國內選型,其實能夠在AI編程領域投入資源的廠商并不多,背靠大廠資源的通義靈碼,在產品及模型層面更接近于海外產品,且工程化層面成熟度高,“不可否認,國外模型會有一定優勢,回答的更簡潔,準確性一定場景下會更好。但我們也會看重一些產品功能上的細節點,在產品設計尤其是安全性層面的前瞻性?!?/strong>揭曉指出。

蔚來汽車用上了通義靈碼,但目前并未采用其提供的私有化部署解決方案,即大模型、服務部署在企業內網,與外網形成隔離。

揭曉告訴筆者,“雖然這種方案可以實現100%安全,但當前來看沒有采取的核心原因有兩點:一是貴,二是升級和維護非常麻煩,網絡隔絕就是需要廠商時刻派人進行升級維護?!?/p>

拿工具的人也要轉型

對于技術自信的開發人而言,AI編程如同無法了解代碼來源及工作原理的“黑箱”,如何推動他們深層次使用?

幾個月前,微軟高管就一直在鼓勵內部員工更多地使用AI編程以加快軟件開發。據悉,微軟幾個負責研發提效的團隊已經設置一些監測工具,用于追蹤基于Copilot生成的代碼量。

而與此同時,微軟最新一項6000名員工的裁員計劃中,有一部分員工來自軟件工程師。盡管微軟發言人在一份聲明中表示,公司并非用AI取代現有人員崗位,而是利用技術來提高效率,但其明顯意圖在于,工程師需要轉型成為“人工智能提示工程師”,向AI編程助手發出指令,而不是從頭開始編寫代碼的傳統程序員。

基于近段時間服務銀行業客戶的實踐,神州信息新動力數字金融研究院副院長薛春雨向筆者分析表示,“目前銀行業對科技驅動這件事情是積極的,但在實際推行過程中同樣面臨問題:一是設計文檔的問題,大模型訓練所需的上下文數據明顯不足;二是開發人員接受度,以及銀行內部降本增效帶來的抵觸因素;三是銀行特有的業務場景,比如數據的開發跟交易的開發并不一樣?!?/p>

俞超認為,“當前(國內)整體的AI編程的滲透率還不夠高,大部分人還沒有用好?!?/strong>從他目前的觀察來看,主要有兩類群體對AI編程存在消極態度:一類是工作時間長且認為自身代碼能力強的不愿意嘗試;還有一類是雖然愿意嘗試,但本身這類程序員的代碼可讀性就差,連注釋都沒有,都是文件上建補丁,其實這類群體也不見得能用好AI。

基于對AI編程未來的樂觀態度,俞超認為,“未來具備良好編程基礎、有強烈意愿且動手能力強的程序員,在AI編程時代將具備明顯的核心競爭力。同時,模型能力也在發展,可能未來開發者也不需要具備特別強的編程素質,就能夠完成一些端到端的開發。”

在美團內部,NoCode 去年年底就上線了,產品、設計用來畫原型,HR、行政團隊等非技術人員也開始利用該產品解決工作中遇到的問題,甚至有人通過對話幾百輪構建出完整的系統,而在此之前他們毫無編程經驗。

而很多人可能會忽略工具平臺的統一性問題。在揭曉看來,“至少要保證在同一個部門或公司內部實現AI編程工具的統一。”比如寫一份培訓文檔,就很難在另一個工具上進行復現,自定義Prompt、項目規范、RAG等,維護起來也非常麻煩。

“即便AI能夠產生結果上的代碼,但并不意味著這種質量和效果,是可以滿足公司的迭代演進和維護訴求,往往還需要優秀程序員對整個架構做把關?!?/strong>揭曉表示。

開發者需要對工具有信心

能夠看到,企業客戶現在很熱情的擁抱大模型,但能不能節省開發人員,以及生成的代碼可不可用,都還是問題。

一位開發人員則對筆者表示,在使用AI的過程中,發現最頭疼的就是AI不太適合做高層級抽象的設計,而更適合做具體的任務。此外,從價值角度判斷,很難準確說明AI編程對企業研發效率和質量的提升,只能說“部分場景的價值比較明顯,但距離理想狀態還有一定差距?!?/strong>

AI編程的落地速度加快,一些共識已潛移默化中達成。筆者整理并結合訪談發現,業內多數專家提及了基礎模型能力提升對AI編程工具的影響。

去年,Cursor的開發商Anysphere發布了自研模型Cursor-Fast,OpenAI計劃以30億美金收購AI編程助手開發商Windsurf,后者隨后發布SWE-1模型,被認為其核心目的是提高模型自主能力,并控制成本。

騰訊云開發者產品總經理劉毅在解釋其代碼助手CodeBuddy時提到,下一段研發提效的瓶頸有三方面:大模型對人輸入的指令感知不夠精確、對復雜工程的理解與處理能力不足,以及軟件工程各階段的協作工具與信息傳遞仍然割裂。

5月末,通義靈碼產品技術負責人陳鑫(神秀)在關于通義靈碼AI IDE升級的交流中指出,“在未來AI編程領域,一定是端到端的競爭,即應用+模型+AI infra的整體能力,這樣才能實現更好的性價比和自主優勢。”

俞超也對筆者表示,“業內普遍共識是2027年之前會實現完整的端到端自動化。回顧過去兩年,AI編程的進步,更多也是底層模型的能力帶來的。隨著模型能力的提升,模型出錯的概率會越來越小,當前很多的技術方案、架構可能會隨著技術進步而逐步過時?!?/p>

比如,Cognition公司的Devin很早就做出來了,但效果沒有跟上,也是因為模型能力提升不足。當每個階段模型的窗口和推理能力、推理速度等沒有達到時,就需要通過大量的工程去解決問題。

俞超的判斷是,“可能剛開始模型能力不強時,需要做大量工程化技術去做優化,但未來隨著模型發展和推理能力的提升,未來的應用架構可能會變得更為簡單,不再依賴大量工程優化來彌補模型問題。”

國產工具“上牌桌”

如今,AI編程在海外市場已進入一番纏斗狀態:

大模型公司Anthropic在2月推出了自己的AI編程工具Claude Code,隨后又在近日突然切斷了Windsurf對Claude系列模型的訪問。 而在Anthropic和Windsurf的PK之外,Cursor已經在大肆攻城略地,與GitHub Copilot不相上下,前者的年化收入已突破5億美元。 同樣,微軟試圖繞開OpenAI,選擇Anthropic的Claude模型,而OpenAI不希望微軟獲得Windsurf的知識產權,指控微軟反競爭。

與海外正面搏斗相反的是,在國內,很多AI編程產品或迫于生態與產品的不成熟,競爭關系較為緩和,且沒有明確的商業化指向。

國內頭部云廠商推出了自己的AI編程工具,AI大模型廠商也推出了微調模型或AI代碼工具,部分AI編程初創公司則在挖掘Agent創新應用。

在初創陣營中,尤為引人矚目的是聚焦海外市場的YouWare,該公司已籌集2000萬美元融資,其投資者包括五源資本、真格基金、高瓴資本等風投,截至去年11月,其估值已達8000萬美元。YouWare創始人明超平是月之暗面前核心產品負責人。

他在一次訪談中提到,“Cursor、Windsurf等公司在服務專業程序員方面做得很好,但半專業人士的需求還有很大的待開發空間,這些人一行代碼都不會寫,但出于需要或創造力,他們渴望進行開發。”

YouWare基于Claude 3.7 Sonnet模型,并向Claude 4 Sonnet過渡。目前對于該公司而言,核心問題是用于支撐模型的計算資源的成本支出卻不菲,其每天處理數千項任務,處理用戶每項任務的平均成本為1.5美元至2美元。

目前看來,國產工具的一個優勢變化在于,中美雙方在模型上的差距,以及產品上的差距在逐步縮小。

神秀指出,“目前AI編程的市場滲透率在快速提高。那么在這個差距逐漸縮小的背景下,國產的AI編程工具不僅存在數據安全隱私合規的保證,還有性價比,以及IDE生態的選擇性上的優勢。

俞超在對比使用了幾款海外AI編程工具后得出的結論是:“除了模型之外,海外產品同樣有兩點值得參考:一是速度,尤其是Cursor的產品迭代速度非常快,甚至一天有幾版本迭代;二是對產品細節的打磨?!边@一點在Cursor身上就體現非常明顯,比如UI、操作流程上,都能讓開發者實現沉浸式編程。對比之下,國內產品不僅要打磨好產品,提升模型能力,在此前提之下進一步培養用戶的付費意愿。

就在半月前,Cursor CEO Michael Truell在接受Y Combinator的訪談中提到一點,AI編程工具的護城河在于用戶規模和產品快速迭代。

競爭可能才剛開始。但可以肯定的是,AI編程需要先解決核心的技術工程化難題,才有上牌桌的機會。(本文首發于鈦媒體APP,作者 | 楊麗,編輯 | 蓋虹達,張申宇、張帥對本文亦有貢獻。)

AI落地的真相是什么?鼓吹派和保守派都說了很多,我們想多聽到實干派的聲音。 如果你是AI編碼的使用者、部署者,亦或是受害者,你的第一現場感受和體驗都是我們非常歡迎的。 如果你也有話要說,歡迎聯系我們,參與話題討論,發表你的見解。 如果你的觀點足夠獨到、精彩,我們也想邀請你9月來三亞,在數字價值年會上講一講。你也將有機會遇到更多和你一樣的實干派。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
別了,馬英九

別了,馬英九

愛下廚的阿釃
2025-06-27 15:49:45
安徽一女子網購5斤荔枝,一口氣剝完后僅退款,網友:氣死了

安徽一女子網購5斤荔枝,一口氣剝完后僅退款,網友:氣死了

大笑江湖史
2025-06-26 17:55:06
央視撤檔僅7天后,人民日報的發文,沒有給易建聯留“一絲體面”

央視撤檔僅7天后,人民日報的發文,沒有給易建聯留“一絲體面”

悠閑歷史
2025-06-27 16:57:31
不想被電車背刺的人,都去搶小米YU7了

不想被電車背刺的人,都去搶小米YU7了

源Auto
2025-06-26 21:57:28
A股重磅改革,ST股將告別5%漲跌幅限制,與主板保持一致!滬深交易所大動作,劍指微盤股連板炒作,ST股炒作邏輯徹底被顛覆

A股重磅改革,ST股將告別5%漲跌幅限制,與主板保持一致!滬深交易所大動作,劍指微盤股連板炒作,ST股炒作邏輯徹底被顛覆

金融界
2025-06-27 18:25:17
83歲蔡瀾去世,在新加坡安葬,無兒女繼承遺產,自曝有61個女友

83歲蔡瀾去世,在新加坡安葬,無兒女繼承遺產,自曝有61個女友

180視角
2025-06-27 17:40:07
正式宣布落選!CBA得分王無人問津,連現場都沒去

正式宣布落選!CBA得分王無人問津,連現場都沒去

德譯洋洋
2025-06-27 12:24:26
伊朗外長:以色列目前擁有90枚核彈頭,除以之外中東其他國家沒有一個擁核;外界估計以色列掌握核武器介于90-200枚之間

伊朗外長:以色列目前擁有90枚核彈頭,除以之外中東其他國家沒有一個擁核;外界估計以色列掌握核武器介于90-200枚之間

揚子晚報
2025-06-27 08:08:24
1棵樹采購價近80萬!福州煙臺山公園“天價樹”調查:已有多棵死亡

1棵樹采購價近80萬!福州煙臺山公園“天價樹”調查:已有多棵死亡

揚子晚報
2025-06-27 10:38:28
蔚來沈斐:看完YU7發布會,可以放心買樂道L60了

蔚來沈斐:看完YU7發布會,可以放心買樂道L60了

三言科技
2025-06-27 13:53:07
山航SC4667航班,飛機故障備降南京

山航SC4667航班,飛機故障備降南京

極目新聞
2025-06-27 20:26:02
史上“最嚴禁酒令”之后,各地深入“查擺”,即將升級為一次變革

史上“最嚴禁酒令”之后,各地深入“查擺”,即將升級為一次變革

17譚
2025-06-27 08:17:53
李尚福烈士家屬可享受哪些撫恤政策?

李尚福烈士家屬可享受哪些撫恤政策?

世界有奇事
2025-05-24 09:30:36
選秀總評:開拓者豪賭楊瀚森全明星潛力C- 湖人向上交易摘阿杜B+

選秀總評:開拓者豪賭楊瀚森全明星潛力C- 湖人向上交易摘阿杜B+

直播吧
2025-06-27 18:58:40
美軍公開B-2駕駛艙,中控換上大屏幕,落后轟-20一個時代

美軍公開B-2駕駛艙,中控換上大屏幕,落后轟-20一個時代

科羅廖夫
2025-06-27 15:02:15
核談判幕后細節首曝光!美政府“開秘密條款”

核談判幕后細節首曝光!美政府“開秘密條款”

大象新聞
2025-06-27 20:15:15
海軍參謀長李漢軍,被罷免全國人大代表職務

海軍參謀長李漢軍,被罷免全國人大代表職務

觀察者網
2025-06-27 17:03:08
小米回應馮某包養200人大瓜,馮某曾是食堂切菜工,因曠工被開除

小米回應馮某包養200人大瓜,馮某曾是食堂切菜工,因曠工被開除

180視角
2025-06-27 15:09:53
開拓者知名球迷網站發布聲明:關于楊瀚森選秀的澄清與立場

開拓者知名球迷網站發布聲明:關于楊瀚森選秀的澄清與立場

羅說NBA
2025-06-27 16:49:52
下半生的社交劇本,Ta告訴你答案

下半生的社交劇本,Ta告訴你答案

Live智
2025-06-27 18:04:57
2025-06-27 21:51:00
鈦媒體APP incentive-icons
鈦媒體APP
獨立財經科技媒體
120091文章數 860679關注度
往期回顧 全部

科技要聞

雷軍:小米汽車成功沒靠營銷,靠的是能力

頭條要聞

美國打擊伊朗核設施后 美軍一將領進入特朗普核心圈

頭條要聞

美國打擊伊朗核設施后 美軍一將領進入特朗普核心圈

體育要聞

曼城“庫里”連線,送尤文晚安好夢

娛樂要聞

炸裂!榜一大姐深夜怒錘頂流

財經要聞

合新鐵路建設材料以次充好 多家單位被罰

汽車要聞

配置升級/貴賓座椅 全新GL8陸上公務艙售22.99萬

態度原創

手機
藝術
教育
本地
公開課

手機要聞

小米MIX Flip2線下上手:體驗后,說說真實感受

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

昌平感知覺統合培訓班結業式暨鞏華中心小學一體化生態課間研討會

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 星子县| 万安县| 改则县| 偃师市| 卓资县| 平顺县| 万荣县| 河北省| 长治市| 时尚| 滦南县| 尚义县| 临潭县| 满洲里市| 阿荣旗| 丘北县| 隆回县| 德兴市| 巴林右旗| 榆中县| 龙井市| 和顺县| 田阳县| 广德县| 冀州市| 安徽省| 绥化市| 威信县| 泰宁县| 米易县| 长丰县| 湘潭市| 五原县| 海阳市| 德令哈市| 乐至县| 民勤县| 邓州市| 高邑县| 通州市| 凤庆县|