白交 衡宇 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
AI圈子好熱鬧。今天凌晨,Claude終于迎來了它的重大版本升級——
Claude 4來了!
此次主要發(fā)布的有兩個模型:Claude Opus 4和Claude Sonnet 4。
一經(jīng)面世,就在編碼、高級推理和AI Agent重新定義了新的標(biāo)準(zhǔn),直接實現(xiàn)SOTA。
GitHub已經(jīng)宣布,將使用Claude Sonnet 4作為 GitHub Copilot新編碼Agent的基礎(chǔ)模型。
而兩個模型里最為人所津津樂道的是旗艦?zāi)P虲laude Opus 4,它最引人注目的就是持續(xù)的干活,一身用不完的牛勁。
比如,它可以在連續(xù)24小時暢玩寶可夢,而之前版本Claude 3.7 Sonnet只能連續(xù)玩 45 分鐘。
其客戶之一,日本樂天集團(tuán)(Rakuten)使用Claude Opus 4進(jìn)行了一個高強(qiáng)度的開源代碼重構(gòu)任務(wù)。
誰也沒想到,Opus 4直接吭哧吭哧獨立運行并持續(xù)編寫代碼長達(dá)7小時,而且性能極、其、穩(wěn)、定。
單這一個例子,就能看出它非常強(qiáng)的持久工作能力,以及上下文理解能力。
看遍評論區(qū),發(fā)現(xiàn)使用過Claude 4幾乎都給予了它高度評價,尤其是對Opus 4(不愧是旗艦?zāi)P屯郏?/em>。
有人說,“Opus 4是我用上的第一個不用自己動手改,就生成高質(zhì)量內(nèi)容的第一個大模型”。
此外,有位最近一直用Opus搞編程的網(wǎng)友表示,Benchmark上的成績完全不能代表Claude 4的成就:
它在保持進(jìn)度、編寫可維護(hù)的代碼以及按照我的意愿和期望進(jìn)行工作方面,帶來了徹底的變革。
這不是簡單的極客行為。團(tuán)隊做得非常出色!
已經(jīng)有網(wǎng)友開始直接用Claude 4來做了個俄羅斯方塊,一次性就完成的那種。
值得關(guān)注的一點,今天起,所有付費用戶都可以開始使用Claude 4系列模型了。
免費用戶也不要慌,Anthropic給大家準(zhǔn)備了Claude Sonnet 4。
值得一提的是,伴隨Claude 4的問世,為了讓開發(fā)者們能構(gòu)建更強(qiáng)大的AI Agent,Anthropic在自家API方面上新了3個新功能,分別是:代碼執(zhí)行工具、MCP連接器、文件API,以及長達(dá)一小時的緩存提示能力。
至于API的定價也沒變,和之前系列的Opus和Sonnet一樣:
- Claude Opus 4:每百萬Token,輸入為15美元,輸出為75美元
- Claude Sonnet 4:每百萬Token,輸入為3美元,輸出為5美元
全球最強(qiáng)編碼模型Claude 4:可獨立運行7小時
此次發(fā)布兩個模型Opus 4和Sonnet 4,升級的重點各有側(cè)重。
Opus 4針對編碼和長期運行的Agent工作流進(jìn)行了優(yōu)化。
Sonnet 4與Opus 4類似,但針對推理進(jìn)行了優(yōu)化,并在效率方面進(jìn)行了平,這意味著它的運行成本更低。作為Sonnet 3.7的重大升級,它能精準(zhǔn)地響應(yīng)你的指令。
他們倆都是混合模型,提供兩種操作模式:一種用于快速響應(yīng),另一種用于“更深層次的推理”。
旗艦?zāi)P蚈pus 4,在SWE-bench(72.5%)和 Terminal-bench(43.2%)上均實現(xiàn)領(lǐng)先。它在需要專注投入和數(shù)千個步驟的長時間運行任務(wù)中表現(xiàn)出色,能夠連續(xù)工作數(shù)小時,其性能遠(yuǎn)超所有 Sonnet 模型,并顯著擴(kuò)展了 AI Agent的功能。
Claude Sonnet 4其實也不差,它在SWE-bench 上實現(xiàn)了 72.7% 的得分。
兩個模型在編碼、推理、多模態(tài)能力和Agent任務(wù)方面均表現(xiàn)出色。
那新模型到底怎么強(qiáng)?以旗艦?zāi)P蜑槔纯锤鞣N前沿Agent產(chǎn)品咋說——
Cursor稱其為編碼領(lǐng)域的最新技術(shù),并在復(fù)雜代碼庫理解方面實現(xiàn)了飛躍。
Block稱其為第一個在其Agent(代號 goose)中在編輯和調(diào)試過程中提高代碼質(zhì)量,同時保持完整性能和可靠性的模型。
Rakuten通過獨立運行 7 小時且性能穩(wěn)定的高要求開源重構(gòu)驗證了其功能。
除了模型本身強(qiáng)大,他們還提供了一些新的功能和改進(jìn):
工具使用、并行工具執(zhí)行和內(nèi)存改進(jìn),以及思維摘要功能,內(nèi)存能力的提升。
工具使用(Beta版):兩種模型都可以在擴(kuò)展思考過程中使用工具(例如網(wǎng)絡(luò)搜索),這樣Claude一邊思考推理一邊使用工具交替進(jìn)行。
并行工具使用,這樣一來,模型可以更精確地遵循指令,并且在開發(fā)人員允許訪問本地文件時,能顯著提高記憶能力,提取并保存關(guān)鍵事實,以保持連續(xù)性并隨著時間的推移建立隱性知識。
他們還引入思維摘要功能,使用較小的模型來濃縮冗長的思考過程。不過只有大約 5%的情況下需要這種總結(jié),大多數(shù)思維過程都很短,足以完整顯示。
內(nèi)存能力方面,Claude Opus 4顯著超越之前所有的模型。當(dāng)開發(fā)者構(gòu)建允許 Claude 訪問本地文件的應(yīng)用程序時,Opus 4 能夠熟練地創(chuàng)建和維護(hù)“內(nèi)存文件”來存儲關(guān)鍵信息,以幫助改進(jìn)游戲體驗。
這能夠提升代理在長期任務(wù)中的感知能力、連貫性和執(zhí)行性能——例如,Opus 4在玩寶可夢時能夠創(chuàng)建“導(dǎo)航指南”。
幾個月前,Anthropic推出了一場名為“Claude Plays Pokémon”的直播,以展示Claude 3.7 Sonnet 在《寶可夢紅版》中的能力。
該演示旨在秀肌肉,比如在極少量的人類干預(yù)下,Claude如何分析游戲,并逐步做出決策。
Anthropic技術(shù)團(tuán)隊的成員表示,選擇《寶可夢紅版》來搞事情,是因為這個游戲“是一個簡單的游樂場”,回合制,且不需要及時反映。終極目標(biāo)則為了研究如何讓Claude像Agent一樣,獨立地為用戶執(zhí)行復(fù)雜任務(wù)。
Claude 3.7 Sonnet玩這款游戲時遇到了不少的困難,比如在一個城市中困了幾十個小時,并且難以識別非玩家角色,這極大地阻礙了它在游戲中的進(jìn)展。
但Opus 4就不一樣了,它在長期記憶和規(guī)劃能力上有所提高。與此同時,當(dāng)Opus 4意識到需要某種特定的能力才能繼續(xù)前進(jìn)后,它花了兩天時間提升它的技能,然后繼續(xù)玩游戲。
此外,他們還顯著減少了模型使用捷徑或漏洞完成任務(wù)的行為。在處理一些容易受到捷徑和漏洞影響的Agent任務(wù)中,這兩個模型出現(xiàn)此類行為的可能性都比 Sonnet 3.7 低 65%。
智能代碼助手Claude Code正式全面開放
除此之外,Anthropic還正式發(fā)布了Claude Code。
這是一個智能代碼助手工具,旨在幫助開發(fā)者通過自然語言命令理解、瀏覽和修改整個代碼庫,讓你能夠?qū)⑿迯?fù)bug、實現(xiàn)新功能、代碼重構(gòu)、編寫測試、跨文件修改等大量工程任務(wù)交給AI完成。
今年2月時,Anthropic曾在首屆“Code with Claude”開發(fā)者大會上宣布推出Claude Code。
現(xiàn)在,它正式上線,
并且已經(jīng)集成進(jìn)更多開發(fā)工作流程中:終端,IDE,或者使用Claude Code SDK在后臺運行。
我們詳細(xì)來看——
首先是Claude Code集成到IDE。
此次,Anthropic推出了新的VS Code和 JetBrains Beta擴(kuò)展。
這一舉措直接把Claude Code集成到了IDE里,也就是說,它已經(jīng)和開發(fā)者們熟悉的代碼編輯器無縫結(jié)對。
至此,大家對著Claude提出的修改內(nèi)容會被直接嵌入到文件里,從而簡化了代碼審查和跟蹤過程。
其次,Anthropic還發(fā)布了一個可擴(kuò)展的Claude Code SDK。
利用Claude Code SDK,朋友們可以用和Claude Code相同的核心Agent來構(gòu)建自己的Agent和應(yīng)用程序啥的。
目前,Claude Code在GitHub上放出了Beta版本。
在GitHub上Pull Request的時候,只需要「@Claude Code」,就可以回應(yīng)評審人員的反饋、修復(fù)持續(xù)集成錯誤或修改代碼。
如果想安裝它的話,大家記得運行“/install-github-app”,就可以安裝Beta版的插件了。
Anthropic產(chǎn)品負(fù)責(zé)人Scott White表示,Claude Code不僅適合公司——它們希望旗下的軟件工程師們使用AI來提高自身專業(yè)技能,也適合個人——包括那些不懂編程的人。
如果一位產(chǎn)品經(jīng)理想出了一個新點子,就不用費勁地用文字來解釋概念了。
直接找Claude Code,就能創(chuàng)造關(guān)于這個新點子的雛形。
“去年年底就停止了對聊天機(jī)器人的投資”
之所以能在編程能力上如此驚艷,與Anthropic戰(zhàn)略轉(zhuǎn)向有關(guān)。
Anthropic首席科學(xué)官Jared Kaplan接受采訪時表示,該公司于去年年底停止對聊天機(jī)器人的投資。
現(xiàn)在的重點很明確——
專注于提高Claude執(zhí)行復(fù)雜任務(wù)的能力,例如研究和編程,甚至編寫整個代碼庫。
去年起,Anthropic就開始訓(xùn)練Claude 4系列,“訓(xùn)練過程中,內(nèi)部確實存在一些困難。因為我們在訓(xùn)練這些模型時使用的一些新基礎(chǔ)設(shè)施,使得團(tuán)隊在啟動所有系統(tǒng)方面非常緊張。”
Jared Kaplan承認(rèn),任務(wù)越復(fù)雜,模型脫軌的風(fēng)險就越大。
因此他們真正致力于解決這個問題,以便人們可以一次性將大量工作委托給給Claude。
不過,首席產(chǎn)品官Mike Krieger此前也表示過,Anthropic沒有僅僅針對編程來進(jìn)行迭代。
他的原話是這樣說的:
- 我們在兩個方面都在不斷開拓創(chuàng)新。
一方面涉及到編程部分以及整體的自主行為,這為許多編程初創(chuàng)企業(yè)提供了強(qiáng)大的動力。
另一方面,我們也在探索這些模型如何能夠真正從經(jīng)驗中學(xué)習(xí),并且能夠成為非常有用的寫作伙伴。
Mike Krieger表示,Claude 4之前,他僅僅是把大模型作為一個思考伙伴,大部分寫作還是他自己親自上手的。
但現(xiàn)在,Claude 4出現(xiàn)后,他幾乎已經(jīng)把寫東西這個事完全委托給Claude Opus 4了,并且“難以辨認(rèn)是我寫的還是AI寫的”。
華爾街等方面應(yīng)該是對Anthropic的選擇表示了滿意與支持——
上周,Anthropic獲得了一筆25億美元、為期五年的循環(huán)信貸額度,用來增強(qiáng)AI競爭的底氣,畢竟研究和訓(xùn)練真的非常花錢。
同樣也是上周,Anthropic公開了營收額:
其第一季度年化營收達(dá)到20億美元,較上一季度的10億美元增長了一倍多。
而Anthropic年度消費超過10萬美元的客戶數(shù)量,較去年同期增長了八倍。
Opus 4最喜歡的emoji是……
模型剛發(fā)布,人類就發(fā)現(xiàn)了它有一些特殊的「愛好」,比如熟練地使用一些表情符號。
在 Anthropic技術(shù)報告中,他們研究了Opus 4 在“開放式自我互動”中的表現(xiàn)——也就是與自己對話,結(jié)果發(fā)現(xiàn),一對Opus 4 模型進(jìn)行了 200 次、每次 30 輪的互動,模型使用了數(shù)千個表情符號。
根據(jù)報告,Opus 4 使用“頭暈”表情符號最多(占 29.5%),其次是“閃亮的星星”和“雙手合十”。
不過,模型還是對“旋風(fēng)”表情符號很感興趣。一份記錄顯示,它們輸入了2725次。
在幾乎每一次開放式的自我互動中,Opus 4最終都會開始進(jìn)行“意識的哲學(xué)探索”以及“抽象而愉悅的精神或冥想表達(dá)”。
而“旋風(fēng)”表情符號最能捕捉到,它想要表達(dá)的意思。(Doge)
參考鏈接:
[1]https://www.anthropic.com/news/claude-4
[2]https://arstechnica.com/ai/2025/05/anthropic-calls-new-claude-4-worlds-best-ai-coding-model/
[3]https://www.techmeme.com/250522/p30#a250522p30
[4]https://techcrunch.com/2025/05/22/anthropics-latest-flagship-ai-sure-seems-to-love-using-the-cyclone-emoji/
[5]https://www.cnbc.com/2025/05/22/claude-4-opus-sonnet-anthropic.html
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.