網易首頁 > 網易號 > 正文申請入駐

人類擊敗AI編程奪冠！奧特曼點贊，16個頂級碼農實測揭秘：AI編程竟是「效率幻覺」

2025-07-17 15:07:28　來源: AppSo

廣東舉報

分享至

Humanity has prevailed (for now!)
人類暫時取得了勝利！

昨天，在東京舉行的 AtCoder 2025 世界巡回賽中，一位人類選手 Psyho 以較大差距暫時擊敗了 OpenAI 提交的自動化程序 OpenAIAHC，拿下榜首。

AtCoder World Tour Finals 是 AtCoder 主辦的一年一度的賽事，旨在決出競技編程的世界冠軍。第一是來自波蘭的 Psyho，OpenAIAHC 排在第二。

消息一出，連 OpenAI CEO 奧特曼都親自轉發了，配文「干得好，Psyho！」

這場勝利確實值得歡呼，但它始終是暫時的。OpenAIAHC 排在第二名緊追不舍，AI 參與編程競賽的實力越來越強，從零調試的程序已經逼近人類頂尖選手。

正如當年 AlphaGo 「大戰」李世石那樣，AI 編程的優勢也正在一點點顯現，逐步占據主導地位。

今天的開發者，正在被 Claude Code、Gemini CLI、Cursor 等工具團團圍住，不再是「用不用」的問題，而是「怎么用」。

最近 Kimi K2 發布，讓 Claude Code 又火了一把。很多人第一時間注意到的，除了 K2 跑得多快、模型多大，還有它的 API 接入了 Claude Code。

啟動 Claude Code，寫上一段 prompt，回車，一大段結構清晰的函數就寫好了。Gemini CLI，Cursor，同樣如此。

編程從一個人對抗 bug 的痛苦過程，變成了一個跟 AI 一起搭積木的創意游戲。甚至有個很好聽的名字叫 Vibe Coding（氛圍編程，通過提示詞與 AI 協作編程）。

非常多的人在社交媒體上分享自己 Vibe Coding 的經歷，有人表示 Claude 是「目前用過最強的代碼助手」，不過也有經驗豐富的開發者分享使用 Claude 的痛苦經歷。

AI 寫的代碼也被一些經驗豐富的開發者感覺到「惡心」

Vibe Coding 到底行不行？是編程大賽勇奪第二的智能，還是在日常編程里一次次的「被惡心」。就在不久前，一項新的研究給 AI 編程潑了一盆冷水。

一項反直覺的研究：AI 編程，可能更低效

最近，美國 AI 安全機構 METR 公布了一項針對 Claude 3.5/3.7 的實測研究。他們找來了 16 名經驗豐富的開源開發者，讓他們在熟悉的項目中使用 Claude Code 輔助編程。

16 名經驗豐富的開發者參與實驗的結果（紅色），以及從左到右經濟學家、機器學習專家、和開發者在參與研究過程中和之后的預測結果（綠色）。

結果讓很多人驚訝：

開發者使用 AI 后，完成任務的時間平均增加了 19%。

更有趣的是，雖然結果是變慢了，但參與者自我報告的感覺是變快了！他們覺得 AI 幫了很大的忙，寫得更順了，效率提升了 20%。

「AI 幻覺」好像轉移到了人類身上，變成一種「效率幻覺」，你以為你變快了，但其實你只是感覺變快了。

為什么會這樣？研究總結了下面幾個原因，

寫 prompt 很花時間，而且經常要改來改去；

Claude 給出的代碼大多不能直接用，需要手動改邏輯、查 bug；

你在「提示 - 等待 - 修改」的循環中，陷入了一種「被打斷的狀態」。

看到這兒，我們也開始好奇，那我們自己用這些工具寫點東西，會不會也遇到同樣的問題？

于是我們做了一個小實驗。

Vibe Coding 真的能讓你飛起來嗎？

我們設計了一個看起來不難、但邏輯不算太簡單的小任務：

寫一個命令行工具，輸入關鍵詞，返回知乎熱榜中含該關鍵詞的帖子標題，限制輸出條數。

這個任務包含了網絡請求、HTML 解析、字符串匹配、命令行參數解析，剛好可以試試 Claude Code 和 Gemini CLI 的能力。

這里我們使用 Gemini CLI 來完成這個任務，雖然在命令行里面使用中文真的很違和，但是 Gemini CLI 和 Claude Code 都能支持中文的輸入。

動作還是非常快的，可能因為任務比較簡單，代碼生成的過程并不需要等待很久。它首先自動生成了需要安裝哪些庫，可以用來爬取網頁，接著生成了 main.py，核心的代碼文件。

中間遇到的問題是知乎需要登錄，它還自動使用 Google 幫我搜索了一個公開的 API，以及嘗試使用其他的工具，但是仍然沒有用。最后它告訴我需要我自己輸入 Cookie。

雖然短時間內它沒有幫我完成這個任務，但整個體驗的過程確實很舒適。像是指揮實習生去完成工作，實習生做得不好不可以罵，但是 Vibe Coding 里面能直接罵 Gemini CLI。

在使用 Kimi K2 的 Claude Code 時，同樣的，我們嘗試讓他從零開始完成一個科研任務。在一個空文件夾中，我告訴 Claude Code 說，我要發一篇 CVPR（計算機視覺頂級會議）的文章，我有一個具體的方向，你需要幫我寫代碼完成這個實驗。

結果是，等到我把 Kimi K2 的免費 API Token 都用完了，整個項目還是約等于一個零。他先是自信的給我生成了全部的訓練代碼、網絡結構代碼、數據集代碼、測試代碼等等，然后告訴我說可以運行了。

我說你這個方法根本不 Novelty（創新），他說確實是。然后我要他去找最近兩年的論文，接下來他就把我的 Token 全部消耗完了。

由于整個過程還是比較短的時間，我沒有做太多的人為干預，完全交給 AI 去處理。即便是中間遇到了問題，我也是讓 AI 自己去解決。

我覺得，他有一個最大的好處，它幾乎可以完全控制這臺電腦，不需要我去給他提供額外的上下文信息。

爽感 vs 效率，AI 編程可以魚熊掌兼得嗎？

這次小測試，讓我印象最深的是，AI 給我的更多是「爽感」，而不是「效率」。

你會感到自己像個編程高手，代碼像魔法一樣自動冒出來，但一旦報錯或邏輯不通，會發現你其實沒有真正理解這段代碼，也不太知道怎么改。

但我仍然覺得工具本身沒有問題，如何使用工具才是決定能否發揮它潛力的重要因素。

來自 OpenAI 的 Sean Grove 在 AIEWF2025 上發表「新的代碼」演講

在 OpenAI 從事對齊推理工作的 Sean Grove 在最近的一個演講里面則提到，在使用 AI 編程工具時重要的不是提示工程，而是「規范」。

當前的「Vibe Coding」存在一個問題，我們保留了 AI 生成的代碼，卻丟棄了包含我們原始意圖的提示詞。這就像「把源代碼撕掉，只對編譯后的二進制文件進行版本控制」一樣，是不可持續的。

編程的未來不再僅僅是編寫代碼，而是通過規范（Specification）來定義和傳達意圖。真正的瓶頸和價值在于結構化的溝通，而「規范」正是這種溝通的最終體現。

有一位參與了文章開頭提到的那項研究的開發者，在 X 上分享了自己參與的經歷，他說自己就是那個用了 Vibe Coding，效率降低了 38% 的人。

他認為 LLM 只是工具，不要期待它是一顆「萬能靈丹」。除了只有特定類型的編程任務，才擁有大量干凈的訓練數據這一缺點之外，還有像是上下文退化、在等待生成的過程中分心、以及 LLM 代碼工具沒有準確的成功衡量標準等「長尾問題」。

不過最后他也提到「如果我們想用好這個新工具，就必須理解它（以及我們自己）的短板，并主動去適應。」

那么，真的可以有一種方法，讓所有人在使用這些 AI 編程工具的時候，同時收獲效率和爽感嗎？

除了這些「糟心」的體驗分享，X 上也有非常多的用戶分享自己使用這些 AI 編程工具提高生產力效率。

有人說 Claude Code 可以像你一樣去使用你的電腦，他創建了一個 Claude.md 文檔，在這個文檔里，告訴 Claude 如何訪問他文件夾中的重要目錄。像是用于回憶、日記、想法、代碼、待辦事項、便簽和腳本等不同的文件夾。

此外，他還創建一些自定義命令，用于創建日志的 /journal 命令，還有用于創建待辦事項的 /todos 命令。Claude Code 能夠在這些文件里面添加內容時，自動檢索它的電腦文件，做到真正的智能助手。

他還分享了使用 MCP 連接到除了電腦本地資源以外的更多網絡信息，能連接 Notion、地圖軟件、在線辦公應用等等來進一步提升效率。他說 Claude Code 幾乎能高效的幫助他，完成所有的工作。

對我來說，很明顯我們遇到的瓶頸不是模型能力，而是創造力和理解力。

還是忍不住感慨，AI 編程的發展實在太快了……

2025 年最佳編程 AI：6款必備頂級 AI 工具，圖片來自：pragmaticcoders.com，2025-06-24

從一開始還是只能在側邊欄里調用 GitHub Copilot，到后來豐富的 Agentic AI 編程工具，像是「Tab」一下的 Cursor、WindSurf、Trae，還有亞馬遜也在最近推出了 Kiro，等等。

今年，再來到了從 GUI（圖形用戶界面）到 CLI（命令行界面）的轉變，有了 Claude Code 和 Gemini CLI……而這一切竟然就是發生在最近兩三年的時間里。

所以，我想對于這樣一個飛速發展的技術，我們更多的應該關注它的趨勢，而不應該是瑕疵。而趨勢的意義從來不在于它今天多成熟，而在于我們是否愿意早點動手試一試，摸清它的邊界，找到自己的使用方式。

甚至，推動它變得更好。

歡迎加入 APPSO AI 社群，一起暢聊 AI 產品，獲取，解鎖更多 AI 新知

我們正在招募伙伴

簡歷投遞郵箱hr@ifanr.com

?? 郵件標題「姓名+崗位名稱」（請隨簡歷附上項目/作品或相關鏈接）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

剛剛，奧特曼放出ChatGPT「統一智能體」！驚呼真AGI，最卷打工人來了

新智元 2025-07-18 06:31:16
4 跟貼 4
比爾蓋茨曾是熊孩子：16歲徒步數百英里，邊走腦中邊寫BASIC代碼

量子位 2025-02-13 14:31:27
81 跟貼 81

所有AI工具共享記憶！MCP協議無需云端，Cursor、Claude都能用

量子位 2025-05-14 14:00:47
0 跟貼 0

Jason Wei火速被挖走，奧特曼哭暈！OpenAI龍脈被挖，一億刀偷走思維鏈之父？

新智元 2025-07-16 14:13:30
15 跟貼 15
云計算一哥，剛剛重新定義了AI Agent的玩法

量子位 2025-07-17 15:26:31
3 跟貼 3

思維鏈之父跳槽Meta，不只因為1億美元！離開OpenAI前泄天機

新智元 2025-07-18 06:30:06
0 跟貼 0

會「進化」的合成數據！無需上傳隱私，也能生成高質量垂域數據

機器之心Pro 2025-07-11 18:44:13
3 跟貼 3
專訪得帆信息CEO張桐：AI Coding To B，小公司搞不了

36氪 2025-06-11 11:11:12
0 跟貼 0

Transformer終結者！谷歌DeepMind全新MoR架構問世，新一代魔王來了

新智元 2025-07-17 12:54:17
15 跟貼 15
你的模型評測搭子上線：Evaluation Agent懂你更懂AI

機器之心Pro 2025-07-17 19:07:55
0 跟貼 0
垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0
大模型轉行土木工程！首個「打灰人」評估基準：檢驗讀、改工程圖紙能力

新智元 2025-07-18 06:27:15
0 跟貼 0
OpenAI放“王炸”！ChatGPT Agent重磅發布：能上網搜、會做PPT、精通Excel，甚至能規劃全美看球路線！但炒股？它說“NO”！

每日經濟新聞 2025-07-18 07:31:03
0 跟貼 0
誰是開源界的杠把子？

虎嗅APP 2025-04-11 23:29:08
0 跟貼 0
用AI找回面子，成功把大侄子看得目瞪口呆

量子位 2025-07-01 14:31:29
0 跟貼 0
飛書一個聊天框，激活了機器之心編輯部的知識資產

機器之心Pro 2025-05-21 15:39:31
0 跟貼 0
統一框架下的具身多模態推理

機器之心Pro 2025-06-18 14:49:46
0 跟貼 0
免剪輯直出！AI生成多角色同框對話視頻，動態路由精準綁定音頻

新智元 2025-07-17 12:54:31
0 跟貼 0
超算互聯網上線開源AI社區！模型+數據+算力，一站式解決

量子位 2025-06-23 20:07:47
0 跟貼 0
滿車奧特曼飛馳桂林高速，現實版“光之集結”，小孩：我爸爸拉過奧特曼

南陽日報 2025-07-17 14:04:37
0 跟貼 0
貨車拉了一車奧特曼，又是誰的童年回憶，網友：不說其他我真的也想拉一車奧特曼

重慶觀資訊 2025-07-17 14:32:39
0 跟貼 0
在家用二寸照片軟件免費版，幾分鐘搞定高質量二寸照

風聽芝愛事 2025-07-16 09:23:59
0 跟貼 0
神了！OpenAI宮斗戲將拍電影，主演系二代蜘蛛俠

鞭牛士 2025-07-16 09:27:10
0 跟貼 0
當你迷茫的時候，來聽聽奧特戰士怎么說

聽風剪影 2025-07-16 22:23:18
1 跟貼 1
英媒曾曝光俄絕密文件：若俄與北約開戰，普京先打中國的兩個鄰國

小雪有話說 2025-07-16 11:53:17
0 跟貼 0
奧特曼盲盒，太好玩了

爆笑辦公室 2025-07-13 19:34:34
0 跟貼 0
大廠“畢業”回鄉創業，失業碼農轉行“絕命毒師”獲刑七年半

三人成虎V5 2025-07-16 12:54:23
1 跟貼 1
平樂縣涉文件抄襲，啥議論

弓立軍 2025-07-15 17:53:19
0 跟貼 0
上海最貴？一碗面1588元，另收10%服務費，網友直呼：太瘋狂

環球網資訊 2025-07-16 09:10:08
13137 跟貼 13137
財政部調整超豪華小汽車消費稅政策

財聯社 2025-07-17 17:53:18
11831 跟貼 11831
民進黨禁止公職人員使用5款大陸軟件,國臺辦回應

蚌埠日報 2025-07-16 21:28:04
0 跟貼 0
河北邯鄲初中數學求值題，構造零零模型來解題！

三樂大掌柜 2025-07-17 07:48:11
2 跟貼 2
敘利亞德魯茲人歡迎以色列軍隊進城人山人海夾道歡迎

軍武大狼 2025-07-17 22:30:36
8293 跟貼 8293
7月16日，上海網友發視頻稱，一群老人在麥當勞打牌。網友：用餐的人都沒地方坐。（編輯：琳琳）#麥當勞

中安在線 2025-07-17 11:55:36
11628 跟貼 11628
高中數學求2025項函數值的和，仔細觀察題干很重要！

三樂大掌柜 2025-07-15 08:58:41
1 跟貼 1
開除個不合群的員工,項目組直接癱瘓？看完網友分享,這事一點不冤

墻頭草 2025-07-15 10:50:30
93 跟貼 93
當媽媽學會了使用AI軟件，女兒高價買的名牌包再也瞞不住了，網友：真的是好“和諧”的一家人

逛吃青島 2025-07-14 21:55:20
0 跟貼 0
高一數學學霸進階之路：函數不等式解法大公開，秒變解題高手！

六維坐標系 2025-07-15 18:01:44
1 跟貼 1
特朗普稱無人關心愛潑斯坦案，馬斯克敦促公布文件！

主持人老崔 2025-07-15 16:15:17
1 跟貼 1
1萬tokens是檢驗長文本的新基準，超過后18款大模型集體失智

量子位 2025-07-17 14:34:39
4 跟貼 4

AppSo

讓智能手機更好用的秘密

5484文章數 26582關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

藝術

手機

教育

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
你到底該和什么樣的人做朋友？
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

人類擊敗AI編程奪冠！奧特曼點贊，16個頂級碼農實測揭秘：AI編程竟是「效率幻覺」

沒有老黃不夸的中國公司了吧？？

馮德萊恩預算提案引發罕見內部阻力 歐爾班:她該走了

馮德萊恩預算提案引發罕見內部阻力 歐爾班:她該走了

楊力維和楊舒予，是姐妹，也是戰友

又相信愛情了，董璇二婚現場照曝光！

杭州成立專班介入宗慶后遺產糾紛

有望年內上市 奧迪A6L e-tron申報信息曝光

態度原創

熱聞|清明假期將至，熱門目的地有哪些?

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

曝三星Galaxy S26 Ultra屏幕更大，三折疊10月發

看著孩子們發射自制的二級水火箭感動得熱淚盈眶

馮德萊恩預算提案引發罕見內部阻力歐爾班:她該走了

馮德萊恩預算提案引發罕見內部阻力歐爾班:她該走了

有望年內上市奧迪A6L e-tron申報信息曝光