99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

最強(qiáng)編碼模型Claude 4!7小時不間斷寫代碼,連玩24小時寶可夢

0
分享至

白交 衡宇 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

AI圈子好熱鬧。今天凌晨,Claude終于迎來了它的重大版本升級——

Claude 4來了!

此次主要發(fā)布的有兩個模型:Claude Opus 4Claude Sonnet 4

一經(jīng)面世,就在編碼、高級推理和AI Agent重新定義了新的標(biāo)準(zhǔn),直接實現(xiàn)SOTA。



GitHub已經(jīng)宣布,將使用Claude Sonnet 4作為 GitHub Copilot新編碼Agent的基礎(chǔ)模型

而兩個模型里最為人所津津樂道的是旗艦?zāi)P虲laude Opus 4,它最引人注目的就是持續(xù)的干活,一身用不完的牛勁。

比如,它可以在連續(xù)24小時暢玩寶可夢,而之前版本Claude 3.7 Sonnet只能連續(xù)玩 45 分鐘。

其客戶之一,日本樂天集團(tuán)(Rakuten)使用Claude Opus 4進(jìn)行了一個高強(qiáng)度的開源代碼重構(gòu)任務(wù)。

誰也沒想到,Opus 4直接吭哧吭哧獨立運行并持續(xù)編寫代碼長達(dá)7小時,而且性能極、其、穩(wěn)、定

單這一個例子,就能看出它非常強(qiáng)的持久工作能力,以及上下文理解能力。



看遍評論區(qū),發(fā)現(xiàn)使用過Claude 4幾乎都給予了它高度評價,尤其是對Opus 4(不愧是旗艦?zāi)P屯郏?/em>。

有人說,“Opus 4是我用上的第一個不用自己動手改,就生成高質(zhì)量內(nèi)容的第一個大模型”。



此外,有位最近一直用Opus搞編程的網(wǎng)友表示,Benchmark上的成績完全不能代表Claude 4的成就:

它在保持進(jìn)度、編寫可維護(hù)的代碼以及按照我的意愿和期望進(jìn)行工作方面,帶來了徹底的變革。
這不是簡單的極客行為。團(tuán)隊做得非常出色!



已經(jīng)有網(wǎng)友開始直接用Claude 4來做了個俄羅斯方塊,一次性就完成的那種。



值得關(guān)注的一點,今天起,所有付費用戶都可以開始使用Claude 4系列模型了。

免費用戶也不要慌,Anthropic給大家準(zhǔn)備了Claude Sonnet 4。

值得一提的是,伴隨Claude 4的問世,為了讓開發(fā)者們能構(gòu)建更強(qiáng)大的AI Agent,Anthropic在自家API方面上新了3個新功能,分別是:代碼執(zhí)行工具、MCP連接器、文件API,以及長達(dá)一小時的緩存提示能力。

至于API的定價也沒變,和之前系列的Opus和Sonnet一樣:

  • Claude Opus 4:每百萬Token,輸入為15美元,輸出為75美元
  • Claude Sonnet 4:每百萬Token,輸入為3美元,輸出為5美元
全球最強(qiáng)編碼模型Claude 4:可獨立運行7小時

此次發(fā)布兩個模型Opus 4和Sonnet 4,升級的重點各有側(cè)重。

Opus 4針對編碼和長期運行的Agent工作流進(jìn)行了優(yōu)化。

Sonnet 4與Opus 4類似,但針對推理進(jìn)行了優(yōu)化,并在效率方面進(jìn)行了平,這意味著它的運行成本更低。作為Sonnet 3.7的重大升級,它能精準(zhǔn)地響應(yīng)你的指令。

他們倆都是混合模型,提供兩種操作模式:一種用于快速響應(yīng),另一種用于“更深層次的推理”。

旗艦?zāi)P蚈pus 4,在SWE-bench(72.5%)和 Terminal-bench(43.2%)上均實現(xiàn)領(lǐng)先。它在需要專注投入和數(shù)千個步驟的長時間運行任務(wù)中表現(xiàn)出色,能夠連續(xù)工作數(shù)小時,其性能遠(yuǎn)超所有 Sonnet 模型,并顯著擴(kuò)展了 AI Agent的功能。

Claude Sonnet 4其實也不差,它在SWE-bench 上實現(xiàn)了 72.7% 的得分。



兩個模型在編碼、推理、多模態(tài)能力和Agent任務(wù)方面均表現(xiàn)出色。



那新模型到底怎么強(qiáng)?以旗艦?zāi)P蜑槔纯锤鞣N前沿Agent產(chǎn)品咋說——

Cursor稱其為編碼領(lǐng)域的最新技術(shù),并在復(fù)雜代碼庫理解方面實現(xiàn)了飛躍。

Block稱其為第一個在其Agent(代號 goose)中在編輯和調(diào)試過程中提高代碼質(zhì)量,同時保持完整性能和可靠性的模型。

Rakuten通過獨立運行 7 小時且性能穩(wěn)定的高要求開源重構(gòu)驗證了其功能。

除了模型本身強(qiáng)大,他們還提供了一些新的功能和改進(jìn):

工具使用、并行工具執(zhí)行和內(nèi)存改進(jìn),以及思維摘要功能,內(nèi)存能力的提升。

工具使用(Beta版):兩種模型都可以在擴(kuò)展思考過程中使用工具(例如網(wǎng)絡(luò)搜索),這樣Claude一邊思考推理一邊使用工具交替進(jìn)行。

并行工具使用,這樣一來,模型可以更精確地遵循指令,并且在開發(fā)人員允許訪問本地文件時,能顯著提高記憶能力,提取并保存關(guān)鍵事實,以保持連續(xù)性并隨著時間的推移建立隱性知識。

他們還引入思維摘要功能,使用較小的模型來濃縮冗長的思考過程。不過只有大約 5%的情況下需要這種總結(jié),大多數(shù)思維過程都很短,足以完整顯示。

內(nèi)存能力方面,Claude Opus 4顯著超越之前所有的模型。當(dāng)開發(fā)者構(gòu)建允許 Claude 訪問本地文件的應(yīng)用程序時,Opus 4 能夠熟練地創(chuàng)建和維護(hù)“內(nèi)存文件”來存儲關(guān)鍵信息,以幫助改進(jìn)游戲體驗。

這能夠提升代理在長期任務(wù)中的感知能力、連貫性和執(zhí)行性能——例如,Opus 4在玩寶可夢時能夠創(chuàng)建“導(dǎo)航指南”。



幾個月前,Anthropic推出了一場名為“Claude Plays Pokémon”的直播,以展示Claude 3.7 Sonnet 在《寶可夢紅版》中的能力。

該演示旨在秀肌肉,比如在極少量的人類干預(yù)下,Claude如何分析游戲,并逐步做出決策。

Anthropic技術(shù)團(tuán)隊的成員表示,選擇《寶可夢紅版》來搞事情,是因為這個游戲“是一個簡單的游樂場”,回合制,且不需要及時反映。終極目標(biāo)則為了研究如何讓Claude像Agent一樣,獨立地為用戶執(zhí)行復(fù)雜任務(wù)。

Claude 3.7 Sonnet玩這款游戲時遇到了不少的困難,比如在一個城市中困了幾十個小時,并且難以識別非玩家角色,這極大地阻礙了它在游戲中的進(jìn)展。

但Opus 4就不一樣了,它在長期記憶和規(guī)劃能力上有所提高。與此同時,當(dāng)Opus 4意識到需要某種特定的能力才能繼續(xù)前進(jìn)后,它花了兩天時間提升它的技能,然后繼續(xù)玩游戲。

此外,他們還顯著減少了模型使用捷徑或漏洞完成任務(wù)的行為。在處理一些容易受到捷徑和漏洞影響的Agent任務(wù)中,這兩個模型出現(xiàn)此類行為的可能性都比 Sonnet 3.7 低 65%。

智能代碼助手Claude Code正式全面開放

除此之外,Anthropic還正式發(fā)布了Claude Code

這是一個智能代碼助手工具,旨在幫助開發(fā)者通過自然語言命令理解、瀏覽和修改整個代碼庫,讓你能夠?qū)⑿迯?fù)bug、實現(xiàn)新功能、代碼重構(gòu)、編寫測試、跨文件修改等大量工程任務(wù)交給AI完成。

今年2月時,Anthropic曾在首屆“Code with Claude”開發(fā)者大會上宣布推出Claude Code。

現(xiàn)在,它正式上線,

并且已經(jīng)集成進(jìn)更多開發(fā)工作流程中:終端,IDE,或者使用Claude Code SDK在后臺運行。

我們詳細(xì)來看——

首先是Claude Code集成到IDE

此次,Anthropic推出了新的VS Code和 JetBrains Beta擴(kuò)展。

這一舉措直接把Claude Code集成到了IDE里,也就是說,它已經(jīng)和開發(fā)者們熟悉的代碼編輯器無縫結(jié)對。

至此,大家對著Claude提出的修改內(nèi)容會被直接嵌入到文件里,從而簡化了代碼審查和跟蹤過程。

其次,Anthropic還發(fā)布了一個可擴(kuò)展的Claude Code SDK

利用Claude Code SDK,朋友們可以用和Claude Code相同的核心Agent來構(gòu)建自己的Agent和應(yīng)用程序啥的。

目前,Claude Code在GitHub上放出了Beta版本

在GitHub上Pull Request的時候,只需要「@Claude Code」,就可以回應(yīng)評審人員的反饋、修復(fù)持續(xù)集成錯誤或修改代碼。

如果想安裝它的話,大家記得運行“/install-github-app”,就可以安裝Beta版的插件了。



Anthropic產(chǎn)品負(fù)責(zé)人Scott White表示,Claude Code不僅適合公司——它們希望旗下的軟件工程師們使用AI來提高自身專業(yè)技能,也適合個人——包括那些不懂編程的人。

如果一位產(chǎn)品經(jīng)理想出了一個新點子,就不用費勁地用文字來解釋概念了。
直接找Claude Code,就能創(chuàng)造關(guān)于這個新點子的雛形。
“去年年底就停止了對聊天機(jī)器人的投資”

之所以能在編程能力上如此驚艷,與Anthropic戰(zhàn)略轉(zhuǎn)向有關(guān)。

Anthropic首席科學(xué)官Jared Kaplan接受采訪時表示,該公司于去年年底停止對聊天機(jī)器人的投資。

現(xiàn)在的重點很明確——

專注于提高Claude執(zhí)行復(fù)雜任務(wù)的能力,例如研究和編程,甚至編寫整個代碼庫。

去年起,Anthropic就開始訓(xùn)練Claude 4系列,“訓(xùn)練過程中,內(nèi)部確實存在一些困難。因為我們在訓(xùn)練這些模型時使用的一些新基礎(chǔ)設(shè)施,使得團(tuán)隊在啟動所有系統(tǒng)方面非常緊張。”

Jared Kaplan承認(rèn),任務(wù)越復(fù)雜,模型脫軌的風(fēng)險就越大。

因此他們真正致力于解決這個問題,以便人們可以一次性將大量工作委托給給Claude。

不過,首席產(chǎn)品官Mike Krieger此前也表示過,Anthropic沒有僅僅針對編程來進(jìn)行迭代

他的原話是這樣說的:

  • 我們在兩個方面都在不斷開拓創(chuàng)新。
    一方面涉及到編程部分以及整體的自主行為,這為許多編程初創(chuàng)企業(yè)提供了強(qiáng)大的動力。
    另一方面,我們也在探索這些模型如何能夠真正從經(jīng)驗中學(xué)習(xí),并且能夠成為非常有用的寫作伙伴。

Mike Krieger表示,Claude 4之前,他僅僅是把大模型作為一個思考伙伴,大部分寫作還是他自己親自上手的。

但現(xiàn)在,Claude 4出現(xiàn)后,他幾乎已經(jīng)把寫東西這個事完全委托給Claude Opus 4了,并且“難以辨認(rèn)是我寫的還是AI寫的”。

華爾街等方面應(yīng)該是對Anthropic的選擇表示了滿意與支持——

上周,Anthropic獲得了一筆25億美元、為期五年的循環(huán)信貸額度,用來增強(qiáng)AI競爭的底氣,畢竟研究和訓(xùn)練真的非常花錢。

同樣也是上周,Anthropic公開了營收額:

其第一季度年化營收達(dá)到20億美元,較上一季度的10億美元增長了一倍多。

而Anthropic年度消費超過10萬美元的客戶數(shù)量,較去年同期增長了八倍。

Opus 4最喜歡的emoji是……

模型剛發(fā)布,人類就發(fā)現(xiàn)了它有一些特殊的「愛好」,比如熟練地使用一些表情符號。

在 Anthropic技術(shù)報告中,他們研究了Opus 4 在“開放式自我互動”中的表現(xiàn)——也就是與自己對話,結(jié)果發(fā)現(xiàn),一對Opus 4 模型進(jìn)行了 200 次、每次 30 輪的互動,模型使用了數(shù)千個表情符號。



根據(jù)報告,Opus 4 使用“頭暈”表情符號最多(占 29.5%),其次是“閃亮的星星”和“雙手合十”。

不過,模型還是對“旋風(fēng)”表情符號很感興趣。一份記錄顯示,它們輸入了2725次。



在幾乎每一次開放式的自我互動中,Opus 4最終都會開始進(jìn)行“意識的哲學(xué)探索”以及“抽象而愉悅的精神或冥想表達(dá)”。

而“旋風(fēng)”表情符號最能捕捉到,它想要表達(dá)的意思。(Doge)

參考鏈接:
[1]https://www.anthropic.com/news/claude-4
[2]https://arstechnica.com/ai/2025/05/anthropic-calls-new-claude-4-worlds-best-ai-coding-model/
[3]https://www.techmeme.com/250522/p30#a250522p30
[4]https://techcrunch.com/2025/05/22/anthropics-latest-flagship-ai-sure-seems-to-love-using-the-cyclone-emoji/
[5]https://www.cnbc.com/2025/05/22/claude-4-opus-sonnet-anthropic.html

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
上海又一知名“康養(yǎng)度假”集團(tuán)爆雷

上海又一知名“康養(yǎng)度假”集團(tuán)爆雷

深度知局
2025-05-22 17:34:12
他晉升副部!此前在國務(wù)院部委管理的國家局任職

他晉升副部!此前在國務(wù)院部委管理的國家局任職

上觀新聞
2025-05-22 09:29:05
日本國門鈴木彩艷積極增重,目前體重已達(dá)到200斤

日本國門鈴木彩艷積極增重,目前體重已達(dá)到200斤

懂球帝
2025-05-23 18:20:10
曾吊打保時捷的神車,一年賣14輛車

曾吊打保時捷的神車,一年賣14輛車

大貓財經(jīng)Pro
2025-05-23 18:33:58
比失去更痛苦的事!51歲朱媛媛知道活不了,故早在戲中和我們道別

比失去更痛苦的事!51歲朱媛媛知道活不了,故早在戲中和我們道別

楊哥歷史
2025-05-23 10:21:48
絕了,四川隊絕了!真會給CBA抹黑……

絕了,四川隊絕了!真會給CBA抹黑……

籃球?qū)崙?zhàn)寶典
2025-05-23 22:18:55
嚴(yán)為民:跳水了?好極了!

嚴(yán)為民:跳水了?好極了!

新浪財經(jīng)
2025-05-23 17:32:08
舊將:曼聯(lián)僅2人值得信任 加納喬完全不在乎球隊&曼聯(lián)已爛到根上

舊將:曼聯(lián)僅2人值得信任 加納喬完全不在乎球隊&曼聯(lián)已爛到根上

直播吧
2025-05-23 15:21:08
破天荒!惠州一樓盤業(yè)主表決通過,降低物業(yè)費、取消公攤費等決議

破天荒!惠州一樓盤業(yè)主表決通過,降低物業(yè)費、取消公攤費等決議

火山詩話
2025-05-23 14:19:28
多哈世乒賽女單?決賽:王曼昱4-0完勝張本美和,挺進(jìn)半決賽

多哈世乒賽女單?決賽:王曼昱4-0完勝張本美和,挺進(jìn)半決賽

雷速體育
2025-05-23 22:14:15
員工因800元工資討要未果并被打后縱火燒廠?四川宜賓警方辟謠

員工因800元工資討要未果并被打后縱火燒廠?四川宜賓警方辟謠

界面新聞
2025-05-23 22:11:05
不顧中國警告,東盟刺頭出現(xiàn),棄華為產(chǎn)稀土,中方大棒說來就來

不顧中國警告,東盟刺頭出現(xiàn),棄華為產(chǎn)稀土,中方大棒說來就來

漣漪讀史
2025-05-23 14:08:46
深度科普:到底是誰啟動了宇宙大爆炸?或許需穿越到高維度找答案

深度科普:到底是誰啟動了宇宙大爆炸?或許需穿越到高維度找答案

宇宙時空
2025-05-22 15:50:22
陜西著名中醫(yī)腫瘤專家突然病逝!年僅59歲,幾天前還在給病人看病

陜西著名中醫(yī)腫瘤專家突然病逝!年僅59歲,幾天前還在給病人看病

火山詩話
2025-05-23 06:25:27
杭州“將軍酒”傳銷頭目一輛奔馳S480被拍賣,22人搶,109萬成交

杭州“將軍酒”傳銷頭目一輛奔馳S480被拍賣,22人搶,109萬成交

天天話事
2025-05-23 15:04:30
世乒賽女單4強(qiáng):王藝迪2人爆冷,孫穎莎3人抗日成功圍剿伊藤美誠

世乒賽女單4強(qiáng):王藝迪2人爆冷,孫穎莎3人抗日成功圍剿伊藤美誠

二哥聊球
2025-05-23 23:13:25
降薪擔(dān)任替補俱樂部拒絕,魔笛無奈離開皇馬,齊達(dá)內(nèi)才是人間清醒

降薪擔(dān)任替補俱樂部拒絕,魔笛無奈離開皇馬,齊達(dá)內(nèi)才是人間清醒

姜大叔侃球
2025-05-23 09:09:43
北京一姑娘,“將生菜吃成老樁”火了,網(wǎng)友:種一次吃三年,值!

北京一姑娘,“將生菜吃成老樁”火了,網(wǎng)友:種一次吃三年,值!

西莫的藝術(shù)宮殿
2025-05-23 13:31:49
起猛了,印度和美國開撕了?

起猛了,印度和美國開撕了?

李砍柴
2025-05-22 23:45:29
巴鐵又出事了!殲10C能擋住敵機(jī)入侵,卻擋不住暗處黑手

巴鐵又出事了!殲10C能擋住敵機(jī)入侵,卻擋不住暗處黑手

鐵錘簡科
2025-05-23 19:05:44
2025-05-24 00:03:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
10542文章數(shù) 176151關(guān)注度
往期回顧 全部

科技要聞

特朗普:iPhone不在美國制造就收25%關(guān)稅

頭條要聞

美媒最新披露:馬斯克在特朗普核心圈地位顯著下滑

頭條要聞

美媒最新披露:馬斯克在特朗普核心圈地位顯著下滑

體育要聞

臺下掌聲一片!65歲安帥揮手告別:感謝皇馬

娛樂要聞

趙麗穎否認(rèn)戀情,與趙德胤沒在一起?

財經(jīng)要聞

特朗普威脅自6月1日起對歐盟征收50%關(guān)稅

汽車要聞

續(xù)航720km/充電10分鐘補能500公里 理想i8信息曝光

態(tài)度原創(chuàng)

健康
教育
家居
時尚
手機(jī)

唇皰疹和口腔潰瘍是"同伙"嗎?

教育要聞

冪的運算題目也挺難,看老師怎么解題

家居要聞

輕奢品質(zhì) 開闊的三口之家

小香風(fēng)太火了,從20歲穿到70歲都很時髦

手機(jī)要聞

榮耀400系列將于5月底發(fā)布 配備1.45mm窄邊框直屏

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 塘沽区| 灵寿县| 比如县| 浦城县| 大关县| 永康市| 法库县| 湄潭县| 静安区| 江孜县| 宝坻区| 喜德县| 铜梁县| 茶陵县| 岳阳县| 临泉县| 儋州市| 宁都县| 东阳市| 乌兰县| 石楼县| 库车县| 泸州市| 安丘市| 朔州市| 青海省| 蕉岭县| 尚志市| 汶川县| 彭泽县| 定结县| 肇源县| 连州市| 阿拉善左旗| 盐池县| 奉化市| 二手房| 南宁市| 金平| 十堰市| 武强县|