作者丨鯨哥
最近鯨哥有個事感受挺深,就是鯨哥有個同學,他以前寫代碼經常借助sider,每年一千多元的費用,說是工作中已經離不開了。
Claude3.7發布后,他驚呼自己工作都要不保了,他所在的外包公司近一年中,也因為AI等復雜因素裁員了一些人;
另一件事就是鯨哥前陣子和知名AI獨立開發者作者陳云飛,一起做客36氪直播節目。
他現場演示了用自然語言操作了一個『小紅薯博主吐槽器』,生成吐槽36氪的內容還挺搞笑的;而他的成名作『小貓補光燈』,發布后曾在APP Store付費排行榜第一。
一方面是傳統的程序員生態被沖擊,一方面是新興的代碼智能生成被矚目。Anthropic首席執行官Dario Amodei更在近日直言:未來3到6個月,AI將編寫90%的代碼,而在12個月內,幾乎所有的代碼都可能由AI編寫。
之所以敢于如此預言,是隨著最近一系列重磅AI 產品的發布,程序員這個群體的危機感越來越強。AI進化,導致代碼中很多工作都可以被代替了。
尤其編碼能力再次打破天花板的Claude3.7,以及Windsurf’s Wave 4。此前大火的OpenAI o3大模型,以及已經成為獨立開發者口中經典的Cursor,都是標桿型產品,以至于有人驚呼:程序員飯碗要不保了。
重點提及下,最新的Agentic Coding Evalution榜單中,Sonnet 3.7 以67%的得分率,在初級人員開發評估達成度中位列所有模型第一。第二三名中GPT-4.5和Sonnet 3.5也相差相差無幾,都超過了60%。顯示了這幾款模型的編程能力強大。
實際上,兩大模型在編程方面略有側重, GPT-4.5 在涉及架構和跨系統交互的任務上峰值更高,而 Claude 3.7 Sonnet 在原始編碼和代碼編輯上的峰值更高。
可能單純說分數,并不好直觀理解大模型的能力,換個方式用實際案例來講述。
此前,o3 模型在 Elo 得分(2727 分)所對應的排名高居175 名。這是個人類編程測試比賽,類似高考前大家都不知道考試題內容,所以不存在大模型已經刷過題的可能。
這個競賽一共有全球 168076 名程序員參賽,175名是前0.1%選手(1-175/168076=99.9%),換句話說:o3 已經在編程競技中擊敗了世界上 99.9% 的程序員,Claude 3.7 sonnet應該還會更好一點。
不只在模型層AI Coding實現了巨大的跨越,在產品開發層面也有了重大的升級。
字節跳動的Trae海外版就接入了 Claude-3.7-Sonnet、GPT-4o 等國際大模型,也具備IDE的能力。小白也能編程的目的接近實現,程序員的門檻被進一步降低。
最最重要的是,Trae 海外版完全免費,用戶可以無成本地使用其所有功能。而 Cursor 需要付費訂閱,價格為每月 20 美元。
國外就有網友利用Trae和里面內置的Claude3.7,只需一個設計草圖和一個超級簡單的提示,它就會自動生成 3D 動畫地球的代碼。 Prompt:
構建一個 3D 地球,讓用戶可以改變視點、使用衛星圖像地圖并突出顯示南極洲。 這個 3D 地球包含以下功能:使用 Three.js 構建了一個交互式 3D 地球模型。
也有人靠此賺到了真金白銀的收益。海外一位叫 Pieter Levels 的大神只用了 3 個小時,完全依靠 AI 開發了一款游戲。上線 13 天已經賺了 67,000 美元,折合人民幣接近 50 萬元,馬斯克都為此點贊!
是不是有這么神奇,鯨哥自己也做了個Case 。 鑒于我是完全的小白,我打算做一個不是特別難,但是蘋果和國內軟件企業都沒做好的產品—“To do日歷”(個人認為我做的最好,可能是我用的日歷產品比較少)。
Trae編寫程序頁面
我們使用字節剛剛推出的AI Coding產品Trae,具體是用Trae的Builder模式,這個模式支持一鍵從0到1生成應用;Chat模式適合不斷修改的模式。我們輸入了如下Prompt:
生成一個To do list小程序,要求結合日歷。左側是日歷,日歷上每天可以添加簡單事項,右側是這天的詳細To do list。每件事后面可以打對勾或者叉,表示每件事已經完成或者未完成,未完成事項自動進下一天list,并且可以編輯。
幾分鐘就生成了應用代碼,而在預覽的過程中,Trae最牛的地方還是幫你缺啥補啥,開發環境一步步幫你部署到電腦上,運行監測一步步落實。
最終呈現的效果大家可以看看,我個人想要的幾個邏輯都復現了。
鯨哥用自然語言編寫出的程序
第一 是右側list完成的打對勾,事項就會被畫橫線,顯示已經完成;未完成的事項打叉,會自動加入到第二天的To do list。
第二是每件事可以任務分類,寫的時候選擇是工作還是生活學習類的標簽;然后單獨點擊工作等某個標簽,會顯示這個月內要做的工作list。
第三是長短期任務結合,都可以添加和顯示,尤其長期任務是每天顯示進度,起到很好的督促作用。
而實現以上完整邏輯,鯨哥也是和Trae連續對話一下午,期間Trae調用Claude 3.7模型,動不動就要排隊200多名,以及復雜任務還經常報錯,鯨哥最開始想做AI版陌陌,太復雜最終沒能完成。
盡管仍有很多不完美的地方,但是只花了一下午 就做出了成品,無論效率還是效果還是挺驚人的。當然這款程序可能無法推向市場,因為代碼水平達不到商用的水平。
但我們要知道,大模型代碼的水平正快速提高, 從幾方面正在接近人類:
Sonnet 3.5 可以輸出 200 行,而 Sonnet 3.7 已經可以輸出 1000-1500 行代碼,是第一個可靠代碼長度上千行的模型。
以后大量繁雜枯燥的編程就不需要一行行打了,大量初級程序員的位置被取代。刷Leetcode也不再有意義,如鯨哥的同學一樣,都買個大模型會員,大家編程實力就會變高。
還有Action scaling的關鍵能力,能夠連續做 function call 和 tool use ,并持續根據環境的反饋迭代,直到把一個開放式問題解決,這在未來的進化能力不可小覷。
當然有朋友說,AI能和客戶對需求嗎?AI會和PM吵架嗎?AI能背鍋嗎?
不可否認的是,現在還不行,但Devin等產品正在呈現一定的AI Agent能力,理解并執行的能力快速提高,人人都是產品經理的時代就會到來。
視頻內容推薦:
主理人交流:
加入AI鯨英社群,和上千CEO、投資人和行業大牛一起共話未來!
拒絕字節3000萬美金收購,Manus是DeepSeek級創新嗎?
42條關于AI的職場信息差|36氪職場BonusX鯨選AI 春季人才活動
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.