白交 衡宇 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
AI圈子好熱鬧。今天凌晨,Claude終于迎來了它的重大版本升級(jí)——
Claude 4來了!
此次主要發(fā)布的有兩個(gè)模型:Claude Opus 4和Claude Sonnet 4。
一經(jīng)面世,就在編碼、高級(jí)推理和AI Agent重新定義了新的標(biāo)準(zhǔn),直接實(shí)現(xiàn)SOTA。
GitHub已經(jīng)宣布,將使用Claude Sonnet 4作為 GitHub Copilot新編碼Agent的基礎(chǔ)模型。
而兩個(gè)模型里最為人所津津樂道的是旗艦?zāi)P虲laude Opus 4,它最引人注目的就是持續(xù)的干活,一身用不完的牛勁。
比如,它可以在連續(xù)24小時(shí)暢玩寶可夢(mèng),而之前版本Claude 3.7 Sonnet只能連續(xù)玩 45 分鐘。
其客戶之一,日本樂天集團(tuán)(Rakuten)使用Claude Opus 4進(jìn)行了一個(gè)高強(qiáng)度的開源代碼重構(gòu)任務(wù)。
誰(shuí)也沒想到,Opus 4直接吭哧吭哧獨(dú)立運(yùn)行并持續(xù)編寫代碼長(zhǎng)達(dá)7小時(shí),而且性能極、其、穩(wěn)、定。
單這一個(gè)例子,就能看出它非常強(qiáng)的持久工作能力,以及上下文理解能力。
看遍評(píng)論區(qū),發(fā)現(xiàn)使用過Claude 4幾乎都給予了它高度評(píng)價(jià),尤其是對(duì)Opus 4(不愧是旗艦?zāi)P屯郏?/em>。
有人說,“Opus 4是我用上的第一個(gè)不用自己動(dòng)手改,就生成高質(zhì)量?jī)?nèi)容的第一個(gè)大模型”。
此外,有位最近一直用Opus搞編程的網(wǎng)友表示,Benchmark上的成績(jī)完全不能代表Claude 4的成就:
它在保持進(jìn)度、編寫可維護(hù)的代碼以及按照我的意愿和期望進(jìn)行工作方面,帶來了徹底的變革。
這不是簡(jiǎn)單的極客行為。團(tuán)隊(duì)做得非常出色!
已經(jīng)有網(wǎng)友開始直接用Claude 4來做了個(gè)俄羅斯方塊,一次性就完成的那種。
值得關(guān)注的一點(diǎn),今天起,所有付費(fèi)用戶都可以開始使用Claude 4系列模型了。
免費(fèi)用戶也不要慌,Anthropic給大家準(zhǔn)備了Claude Sonnet 4。
值得一提的是,伴隨Claude 4的問世,為了讓開發(fā)者們能構(gòu)建更強(qiáng)大的AI Agent,Anthropic在自家API方面上新了3個(gè)新功能,分別是:代碼執(zhí)行工具、MCP連接器、文件API,以及長(zhǎng)達(dá)一小時(shí)的緩存提示能力。
至于API的定價(jià)也沒變,和之前系列的Opus和Sonnet一樣:
- Claude Opus 4:每百萬(wàn)Token,輸入為15美元,輸出為75美元
- Claude Sonnet 4:每百萬(wàn)Token,輸入為3美元,輸出為5美元
全球最強(qiáng)編碼模型Claude 4:可獨(dú)立運(yùn)行7小時(shí)
此次發(fā)布兩個(gè)模型Opus 4和Sonnet 4,升級(jí)的重點(diǎn)各有側(cè)重。
Opus 4針對(duì)編碼和長(zhǎng)期運(yùn)行的Agent工作流進(jìn)行了優(yōu)化。
Sonnet 4與Opus 4類似,但針對(duì)推理進(jìn)行了優(yōu)化,并在效率方面進(jìn)行了平,這意味著它的運(yùn)行成本更低。作為Sonnet 3.7的重大升級(jí),它能精準(zhǔn)地響應(yīng)你的指令。
他們倆都是混合模型,提供兩種操作模式:一種用于快速響應(yīng),另一種用于“更深層次的推理”。
旗艦?zāi)P蚈pus 4,在SWE-bench(72.5%)和 Terminal-bench(43.2%)上均實(shí)現(xiàn)領(lǐng)先。它在需要專注投入和數(shù)千個(gè)步驟的長(zhǎng)時(shí)間運(yùn)行任務(wù)中表現(xiàn)出色,能夠連續(xù)工作數(shù)小時(shí),其性能遠(yuǎn)超所有 Sonnet 模型,并顯著擴(kuò)展了 AI Agent的功能。
Claude Sonnet 4其實(shí)也不差,它在SWE-bench 上實(shí)現(xiàn)了 72.7% 的得分。
兩個(gè)模型在編碼、推理、多模態(tài)能力和Agent任務(wù)方面均表現(xiàn)出色。
那新模型到底怎么強(qiáng)?以旗艦?zāi)P蜑槔纯锤鞣N前沿Agent產(chǎn)品咋說——
Cursor稱其為編碼領(lǐng)域的最新技術(shù),并在復(fù)雜代碼庫(kù)理解方面實(shí)現(xiàn)了飛躍。
Block稱其為第一個(gè)在其Agent(代號(hào) goose)中在編輯和調(diào)試過程中提高代碼質(zhì)量,同時(shí)保持完整性能和可靠性的模型。
Rakuten通過獨(dú)立運(yùn)行 7 小時(shí)且性能穩(wěn)定的高要求開源重構(gòu)驗(yàn)證了其功能。
除了模型本身強(qiáng)大,他們還提供了一些新的功能和改進(jìn):
工具使用、并行工具執(zhí)行和內(nèi)存改進(jìn),以及思維摘要功能,內(nèi)存能力的提升。
工具使用(Beta版):兩種模型都可以在擴(kuò)展思考過程中使用工具(例如網(wǎng)絡(luò)搜索),這樣Claude一邊思考推理一邊使用工具交替進(jìn)行。
并行工具使用,這樣一來,模型可以更精確地遵循指令,并且在開發(fā)人員允許訪問本地文件時(shí),能顯著提高記憶能力,提取并保存關(guān)鍵事實(shí),以保持連續(xù)性并隨著時(shí)間的推移建立隱性知識(shí)。
他們還引入思維摘要功能,使用較小的模型來濃縮冗長(zhǎng)的思考過程。不過只有大約 5%的情況下需要這種總結(jié),大多數(shù)思維過程都很短,足以完整顯示。
內(nèi)存能力方面,Claude Opus 4顯著超越之前所有的模型。當(dāng)開發(fā)者構(gòu)建允許 Claude 訪問本地文件的應(yīng)用程序時(shí),Opus 4 能夠熟練地創(chuàng)建和維護(hù)“內(nèi)存文件”來存儲(chǔ)關(guān)鍵信息,以幫助改進(jìn)游戲體驗(yàn)。
這能夠提升代理在長(zhǎng)期任務(wù)中的感知能力、連貫性和執(zhí)行性能——例如,Opus 4在玩寶可夢(mèng)時(shí)能夠創(chuàng)建“導(dǎo)航指南”。
幾個(gè)月前,Anthropic推出了一場(chǎng)名為“Claude Plays Pokémon”的直播,以展示Claude 3.7 Sonnet 在《寶可夢(mèng)紅版》中的能力。
該演示旨在秀肌肉,比如在極少量的人類干預(yù)下,Claude如何分析游戲,并逐步做出決策。
Anthropic技術(shù)團(tuán)隊(duì)的成員表示,選擇《寶可夢(mèng)紅版》來搞事情,是因?yàn)檫@個(gè)游戲“是一個(gè)簡(jiǎn)單的游樂場(chǎng)”,回合制,且不需要及時(shí)反映。終極目標(biāo)則為了研究如何讓Claude像Agent一樣,獨(dú)立地為用戶執(zhí)行復(fù)雜任務(wù)。
Claude 3.7 Sonnet玩這款游戲時(shí)遇到了不少的困難,比如在一個(gè)城市中困了幾十個(gè)小時(shí),并且難以識(shí)別非玩家角色,這極大地阻礙了它在游戲中的進(jìn)展。
但Opus 4就不一樣了,它在長(zhǎng)期記憶和規(guī)劃能力上有所提高。與此同時(shí),當(dāng)Opus 4意識(shí)到需要某種特定的能力才能繼續(xù)前進(jìn)后,它花了兩天時(shí)間提升它的技能,然后繼續(xù)玩游戲。
此外,他們還顯著減少了模型使用捷徑或漏洞完成任務(wù)的行為。在處理一些容易受到捷徑和漏洞影響的Agent任務(wù)中,這兩個(gè)模型出現(xiàn)此類行為的可能性都比 Sonnet 3.7 低 65%。
智能代碼助手Claude Code正式全面開放
除此之外,Anthropic還正式發(fā)布了Claude Code。
這是一個(gè)智能代碼助手工具,旨在幫助開發(fā)者通過自然語(yǔ)言命令理解、瀏覽和修改整個(gè)代碼庫(kù),讓你能夠?qū)⑿迯?fù)bug、實(shí)現(xiàn)新功能、代碼重構(gòu)、編寫測(cè)試、跨文件修改等大量工程任務(wù)交給AI完成。
今年2月時(shí),Anthropic曾在首屆“Code with Claude”開發(fā)者大會(huì)上宣布推出Claude Code。
現(xiàn)在,它正式上線,
并且已經(jīng)集成進(jìn)更多開發(fā)工作流程中:終端,IDE,或者使用Claude Code SDK在后臺(tái)運(yùn)行。
我們?cè)敿?xì)來看——
首先是Claude Code集成到IDE。
此次,Anthropic推出了新的VS Code和 JetBrains Beta擴(kuò)展。
這一舉措直接把Claude Code集成到了IDE里,也就是說,它已經(jīng)和開發(fā)者們熟悉的代碼編輯器無縫結(jié)對(duì)。
至此,大家對(duì)著Claude提出的修改內(nèi)容會(huì)被直接嵌入到文件里,從而簡(jiǎn)化了代碼審查和跟蹤過程。
其次,Anthropic還發(fā)布了一個(gè)可擴(kuò)展的Claude Code SDK。
利用Claude Code SDK,朋友們可以用和Claude Code相同的核心Agent來構(gòu)建自己的Agent和應(yīng)用程序啥的。
目前,Claude Code在GitHub上放出了Beta版本。
在GitHub上Pull Request的時(shí)候,只需要「@Claude Code」,就可以回應(yīng)評(píng)審人員的反饋、修復(fù)持續(xù)集成錯(cuò)誤或修改代碼。
如果想安裝它的話,大家記得運(yùn)行“/install-github-app”,就可以安裝Beta版的插件了。
Anthropic產(chǎn)品負(fù)責(zé)人Scott White表示,Claude Code不僅適合公司——它們希望旗下的軟件工程師們使用AI來提高自身專業(yè)技能,也適合個(gè)人——包括那些不懂編程的人。
如果一位產(chǎn)品經(jīng)理想出了一個(gè)新點(diǎn)子,就不用費(fèi)勁地用文字來解釋概念了。
直接找Claude Code,就能創(chuàng)造關(guān)于這個(gè)新點(diǎn)子的雛形。
“去年年底就停止了對(duì)聊天機(jī)器人的投資”
之所以能在編程能力上如此驚艷,與Anthropic戰(zhàn)略轉(zhuǎn)向有關(guān)。
Anthropic首席科學(xué)官Jared Kaplan接受采訪時(shí)表示,該公司于去年年底停止對(duì)聊天機(jī)器人的投資。
現(xiàn)在的重點(diǎn)很明確——
專注于提高Claude執(zhí)行復(fù)雜任務(wù)的能力,例如研究和編程,甚至編寫整個(gè)代碼庫(kù)。
去年起,Anthropic就開始訓(xùn)練Claude 4系列,“訓(xùn)練過程中,內(nèi)部確實(shí)存在一些困難。因?yàn)槲覀冊(cè)谟?xùn)練這些模型時(shí)使用的一些新基礎(chǔ)設(shè)施,使得團(tuán)隊(duì)在啟動(dòng)所有系統(tǒng)方面非常緊張。”
Jared Kaplan承認(rèn),任務(wù)越復(fù)雜,模型脫軌的風(fēng)險(xiǎn)就越大。
因此他們真正致力于解決這個(gè)問題,以便人們可以一次性將大量工作委托給給Claude。
不過,首席產(chǎn)品官M(fèi)ike Krieger此前也表示過,Anthropic沒有僅僅針對(duì)編程來進(jìn)行迭代。
他的原話是這樣說的:
- 我們?cè)趦蓚€(gè)方面都在不斷開拓創(chuàng)新。
一方面涉及到編程部分以及整體的自主行為,這為許多編程初創(chuàng)企業(yè)提供了強(qiáng)大的動(dòng)力。
另一方面,我們也在探索這些模型如何能夠真正從經(jīng)驗(yàn)中學(xué)習(xí),并且能夠成為非常有用的寫作伙伴。
Mike Krieger表示,Claude 4之前,他僅僅是把大模型作為一個(gè)思考伙伴,大部分寫作還是他自己親自上手的。
但現(xiàn)在,Claude 4出現(xiàn)后,他幾乎已經(jīng)把寫東西這個(gè)事完全委托給Claude Opus 4了,并且“難以辨認(rèn)是我寫的還是AI寫的”。
華爾街等方面應(yīng)該是對(duì)Anthropic的選擇表示了滿意與支持——
上周,Anthropic獲得了一筆25億美元、為期五年的循環(huán)信貸額度,用來增強(qiáng)AI競(jìng)爭(zhēng)的底氣,畢竟研究和訓(xùn)練真的非常花錢。
同樣也是上周,Anthropic公開了營(yíng)收額:
其第一季度年化營(yíng)收達(dá)到20億美元,較上一季度的10億美元增長(zhǎng)了一倍多。
而Anthropic年度消費(fèi)超過10萬(wàn)美元的客戶數(shù)量,較去年同期增長(zhǎng)了八倍。
Opus 4最喜歡的emoji是……
模型剛發(fā)布,人類就發(fā)現(xiàn)了它有一些特殊的「愛好」,比如熟練地使用一些表情符號(hào)。
在 Anthropic技術(shù)報(bào)告中,他們研究了Opus 4 在“開放式自我互動(dòng)”中的表現(xiàn)——也就是與自己對(duì)話,結(jié)果發(fā)現(xiàn),一對(duì)Opus 4 模型進(jìn)行了 200 次、每次 30 輪的互動(dòng),模型使用了數(shù)千個(gè)表情符號(hào)。
根據(jù)報(bào)告,Opus 4 使用“頭暈”表情符號(hào)最多(占 29.5%),其次是“閃亮的星星”和“雙手合十”。
不過,模型還是對(duì)“旋風(fēng)”表情符號(hào)很感興趣。一份記錄顯示,它們輸入了2725次。
在幾乎每一次開放式的自我互動(dòng)中,Opus 4最終都會(huì)開始進(jìn)行“意識(shí)的哲學(xué)探索”以及“抽象而愉悅的精神或冥想表達(dá)”。
而“旋風(fēng)”表情符號(hào)最能捕捉到,它想要表達(dá)的意思。(Doge)
參考鏈接:
[1]https://www.anthropic.com/news/claude-4
[2]https://arstechnica.com/ai/2025/05/anthropic-calls-new-claude-4-worlds-best-ai-coding-model/
[3]https://www.techmeme.com/250522/p30#a250522p30
[4]https://techcrunch.com/2025/05/22/anthropics-latest-flagship-ai-sure-seems-to-love-using-the-cyclone-emoji/
[5]https://www.cnbc.com/2025/05/22/claude-4-opus-sonnet-anthropic.html
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.