機(jī)器之心報(bào)道
編輯:+0、澤南
AI 就像一頭野驢,跑起來(lái)就不停。人類花了幾百萬(wàn)年才走上食物鏈頂端,而大模型只用了不到十年時(shí)間,已經(jīng)能把你和劉亦菲 P 進(jìn)一張自拍了。奧!最新進(jìn)展是已經(jīng)能自己生成音畫同步的超真實(shí)脫口秀了。
不過(guò)等人類回過(guò)味來(lái),發(fā)現(xiàn)海的那邊好像是敵人,AI 導(dǎo)致的失業(yè)潮仿佛近在咫尺。還記得七年前(那時(shí)候 ChatGPT 都還沒(méi)發(fā)布)本科第一次班會(huì)上,老師問(wèn)為什么要選這個(gè)專業(yè),有同學(xué)回答因?yàn)檫@是最不容易被 AI 替代的職業(yè)之一(PS. 我學(xué)的是建筑,大家別笑得太大聲)。
不知是不是預(yù)料之內(nèi),AI 最先波及的,竟然是寫程序這件事本身。Anthropic 的創(chuàng)始人、CEO Dario Amodei 就曾預(yù)測(cè),很快 90% 的代碼可能都會(huì)由 AI 來(lái)編寫。
先不說(shuō)這個(gè)預(yù)言什么時(shí)候會(huì)實(shí)現(xiàn),至少他家的產(chǎn)品確實(shí)在往這個(gè)方向發(fā)展。請(qǐng)問(wèn)編程最厲害的大模型是哪個(gè)?雖然沒(méi)有定論,但 Claude 肯定榜上有名。
BigCodeBench 榜單
上個(gè)星期剛發(fā)布的 Claude 4,讓人們的「刻板印象」又加深了一層。
5 月 22 日,Anthropic 推出了全新一代 Claude 4 系列大模型,為代碼生成、高級(jí)推理和 AI 智能體樹立了全新標(biāo)準(zhǔn)。其中,Claude Opus 4 是一款全球領(lǐng)先的編碼模型,它在復(fù)雜、長(zhǎng)時(shí)間運(yùn)行任務(wù)和智能體工作流中擁有持續(xù)的高性能。
Anthropic 展示了 Claude 4 如何無(wú)縫融入人們整個(gè)工作日。它擁有三大高級(jí)功能:通過(guò) Claude 應(yīng)用中自定義集成進(jìn)行深入研究,管理項(xiàng)目,并能在 Claude Code 中獨(dú)立解決代碼任務(wù)。
新版本的大模型已經(jīng)上線,立即吸引了大量程序員前去使用,很多人表示效果出奇的好。
昨天,Reddit 上一位擁有 30 多年經(jīng)驗(yàn)的前 FAANG 高級(jí)工程師發(fā)帖表示,他被一個(gè) C++ 的 Bug 困擾了 4 年,花了約 200 小時(shí)卻毫無(wú)進(jìn)展。而 Claude Opus 4 竟然成功地解決了這個(gè)問(wèn)題,并且是唯一能做到的 AI 智能體。
這篇帖子在 X 和 Reddit 引起了熱烈的討論,Anthropic 工程師 Alex Albert 表示,這樣的故事可能會(huì)越來(lái)越多。
有人展開(kāi)了技術(shù)討論。
也有人認(rèn)為,這根本就是個(gè) Claude 推廣軟文。
假如這個(gè)故事是真的,我們?cè)撊绾蝸?lái)看待這件事呢?
大家先別激動(dòng),等一等外行的朋友們,我們先來(lái)梳理一下要點(diǎn),這里邀請(qǐng) Gemini 老師場(chǎng)外援助(因?yàn)槲乙彩峭庑校?/p>
Bug 的來(lái)源和難度
這個(gè) Bug 是在四年前一次大規(guī)模的代碼重構(gòu)(Re-architecting refactor)中產(chǎn)生的。
- 代碼重構(gòu):你可以把它想象成對(duì)一棟老房子進(jìn)行徹底的重新設(shè)計(jì)和裝修。原來(lái)的房子可能有很多問(wèn)題(比如布局不合理、管道老化),裝修后解決了這些問(wèn)題,但可能因?yàn)楦淖兞私Y(jié)構(gòu),導(dǎo)致某個(gè)角落里以前能用的某個(gè)特殊電器(比如某個(gè)特定型號(hào)的燈,只有在特定開(kāi)關(guān)下才用)現(xiàn)在用不了了。
- 6 萬(wàn)行代碼:這說(shuō)明這次「裝修」的規(guī)模非常大,非常復(fù)雜。
- 邊緣案例(Edge case):這指的是一個(gè)非常特殊、不常出現(xiàn)的情況。就像上面說(shuō)的那個(gè)特殊電器,平時(shí)很少用,只有在特定條件下才會(huì)用到。
- 著色器(Shader):這是一種專門處理圖形和視覺(jué)效果的代碼。你可以理解為那個(gè)「特定型號(hào)的燈」。
- 問(wèn)題所在:在這次大規(guī)模「裝修」后,那個(gè)「特定型號(hào)的燈」在「特定開(kāi)關(guān)下」就不亮了。
Bug 的真正原因
AI 發(fā)現(xiàn),這個(gè)問(wèn)題不是因?yàn)椤秆b修」時(shí)工人犯了個(gè)簡(jiǎn)單的錯(cuò)誤(比如接錯(cuò)了一根線,這叫邏輯 Bug)。而是因?yàn)椋?/p>
- 那個(gè)「特定型號(hào)的燈」以前之所以能亮,僅僅是因?yàn)槔戏孔优f結(jié)構(gòu)下的一個(gè)「巧合」。可能有一根電線無(wú)意中搭在了某個(gè)地方,正好給它供電了。
- 在重新設(shè)計(jì)和裝修(改變了架構(gòu))時(shí),大家并沒(méi)有意識(shí)到這個(gè)「巧合」的存在,也就沒(méi)有在新的設(shè)計(jì)里考慮進(jìn)去。所以,當(dāng)舊結(jié)構(gòu)消失后,那個(gè)「巧合」也消失了,燈自然就不亮了。
- AI 的厲害之處在于,它不僅看懂了新舊兩套復(fù)雜的「圖紙」,還理解了那個(gè)「巧合」是怎么回事,并指出了新設(shè)計(jì)沒(méi)有考慮到這個(gè)隱藏的依賴關(guān)系。
很好!那我們現(xiàn)在來(lái)分析一下,AI 在這個(gè)過(guò)程中起到了什么作用呢?
首先,AI 可以輕松地加載、分析和比較新舊兩個(gè)版本共計(jì)數(shù)萬(wàn)甚至數(shù)十萬(wàn)行的代碼。它不會(huì)像人類那樣感到疲勞或遺忘細(xì)節(jié),可以同時(shí)「看到」整個(gè) picture。
像 Claude Opus 4 這樣的先進(jìn)模型擁有巨大的「上下文窗口」,這意味著它可以一次性考慮非常多的信息,并追蹤它們之間的復(fù)雜關(guān)系。
同時(shí),AI 不會(huì)帶有「它應(yīng)該如何工作」的偏見(jiàn)。它只是客觀地分析舊代碼如何運(yùn)行并產(chǎn)生結(jié)果,以及新代碼如何運(yùn)行并產(chǎn)生不同結(jié)果,它能發(fā)現(xiàn)兩者之間最細(xì)微的差異。
別忘了,這個(gè)過(guò)程還需要人類的指導(dǎo)。程序員通過(guò)超過(guò) 30 個(gè) prompt 來(lái)引導(dǎo) AI。這說(shuō)明人類的經(jīng)驗(yàn)和直覺(jué)與 AI 強(qiáng)大的分析能力相結(jié)合,才能發(fā)揮最大效果。人類設(shè)定目標(biāo)、提供背景,AI 則執(zhí)行繁重的分析工作。
https://www.reddit.com/r/ClaudeAI/comments/1kvgg7s/claude_opus_solved_my_white_whale_bug_today_that/?share_id=-Y9J9Hna8rIemyMsG8Jp9&utm_content=1&utm_medium=ios_app&utm_name=ioscss&utm_source=share&utm_term=1
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.