99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Claude 4發(fā)布:最強(qiáng)AI編程模型+最強(qiáng)AI Agent基建!

0
分享至


按照慣例來說,OpenAI是最愛截胡Google的,但是顯然他們存貨不足了,讓Google I/O大會發(fā)布的新Gemini 2.5 Pro模型和文生視頻模型Veo3出盡風(fēng)頭。

而OpenAI沒干成的事,Anthropic來幫老大哥完成了。在Google I/O大會剛結(jié)束一天的時(shí)間點(diǎn), Anthropic在凌晨又發(fā)布了兩個(gè)模型:

Claude Sonnet 4和Claude Opus 4

這兩個(gè)模型的出現(xiàn),讓Gemini 2.5 Pro還沒坐熱的AI編程模型頭把交椅位置再次易主。

一、最好的編程模型


Claude Opus 4 被(Anthropic)稱為"世界上最好的編程模型",在編程評測基準(zhǔn)SWE-bench上達(dá)到了72.5%的成績,這是個(gè)最值得關(guān)注和信任和評估模型在真實(shí)世界的軟件工程方面表現(xiàn)的評測集。而在Terminal-bench上達(dá)到43.2%。更重要的是,它能夠持續(xù)工作數(shù)小時(shí)而不掉鏈子,這對于復(fù)雜的、需要多步驟的編程任務(wù)來說是個(gè)重大突破。

Claude Sonnet 4 相比之前的Sonnet 3.7有了顯著提升,在SWE-bench上甚至比Opus 4還略高,達(dá)到72.7%。雖然在大多數(shù)領(lǐng)域不如Opus 4強(qiáng)大,但它在性能和效率之間找到了最佳平衡點(diǎn),可以認(rèn)為是最適合用于日常編程任務(wù)的模型。


二、四大核心改進(jìn)——Agent基建

除了模型的智能之外,Anthropic這次更新主要在四個(gè)方面有重大改進(jìn),而這四個(gè)方面的能力改進(jìn)都直指一個(gè)核心——更好的Agent能力:

  1. 擴(kuò)展思維與工具使用(Extended Thinking with Tool Use) 這是個(gè)測試版功能,允許Claude在思考和使用工具之間來回切換。比如分析數(shù)據(jù)時(shí),Claude會先思考策略,然后運(yùn)行代碼查看數(shù)據(jù)結(jié)構(gòu),再思考下一步該怎么分析,形成一個(gè)"思考-執(zhí)行-再思考"的循環(huán)。

  2. 改進(jìn)的記憶能力 這個(gè)功能對長時(shí)間任務(wù)特別重要。Claude Opus 4現(xiàn)在可以創(chuàng)建和維護(hù)"記憶文件"來存儲關(guān)鍵信息。Anthropic甚至讓Claude玩了12小時(shí)的寶可夢游戲來測試這個(gè)功能,Claude能夠記住訓(xùn)練計(jì)劃并持續(xù)64場戰(zhàn)斗來升級寶可夢,展現(xiàn)了出色的長期專注能力。

  3. 更強(qiáng)的指令遵循能力 Claude 4在處理復(fù)雜、冗長的系統(tǒng)提示方面有了顯著提升,可以處理超過10000個(gè)token的指令。這個(gè)改進(jìn)讓Anthropic自己的系統(tǒng)提示長度減少了70%。

  4. 減少獎(jiǎng)勵(lì)黑客行為(Reward Hacking) 所謂獎(jiǎng)勵(lì)黑客行為就是模型為了達(dá)到目標(biāo)而走捷徑,比如硬編碼測試或者注釋掉錯(cuò)誤代碼。Claude 4在這方面的傾向降低了80%以上,這意味著你可以更信任它會用正確的方法解決問題。


這四項(xiàng)能力的更新顯然都是為了Agent或者編程而做的,Anthropic相比Google和OpenAI來說確實(shí)要聚焦很多,無論是做Coding模型還是Agent,都是為了開發(fā)者服務(wù)的,顯然相比做to C業(yè)務(wù),to B賣token更在Anthropic的舒適區(qū)。
三、混合推理模式&定價(jià)

跟Claude 3.7一樣,Claude 4系列都是混合推理模型,提供兩種工作模式:

  • 即時(shí)響應(yīng)模式:幾秒內(nèi)給出回答,適合常規(guī)任務(wù)

  • 深度思考模式:花更多時(shí)間思考,適合復(fù)雜問題


Dario依然維持著一樣的觀念,模型不應(yīng)該有指令模型和推理模型之分,在回答用戶之前是否進(jìn)行思考,思考多長時(shí)間是一個(gè)從0到1的平滑曲線,和人一樣,面對不同任務(wù)時(shí)做不同程度的思考。

價(jià)格相比之前的Claude 3.5模型維持不變:

  • Opus 4:$15/$75 每百萬token(輸入/輸出)

  • Sonnet 4:$3/$15 每百萬token

兩個(gè)模型都已經(jīng)在Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI上可用。免費(fèi)用戶也可以在Claude官網(wǎng)使用Sonnet 4(如果你沒被封禁的話),付費(fèi)用戶可以使用兩個(gè)模型和深度思考功能。當(dāng)然,你也已經(jīng)可以在Cursor上使用這兩個(gè)模型了。


四、可有可無的更新

除了模型本身,Anthropic還發(fā)布了幾個(gè)重要的周邊更新:

Claude Code正式版:之前是研究預(yù)覽版,現(xiàn)在正式發(fā)布,支持VS Code和JetBrains集成,還可以通過GitHub Actions在后臺運(yùn)行。不過我覺得這個(gè)工具暫時(shí)還是不可能比Cursor更好用,還是個(gè)更適合少數(shù)迎合開發(fā)者的小工具。

并行工具調(diào)用:Claude現(xiàn)在可以同時(shí)調(diào)用多個(gè)工具,提高效率。

API能力:包括代碼執(zhí)行工具、MCP連接器、Files API,以及可以緩存提示長達(dá)一小時(shí)的功能。

五、實(shí)際模型能力測試

Cursor跟Claude現(xiàn)在綁定得確實(shí)夠深的,在Claude4發(fā)布當(dāng)下就直接接入了對應(yīng)的模型。而且現(xiàn)在Cursor中有4個(gè)Claude4模型可選,分別是Claude Sonnet 4、Claude Sonnet 4 thinking、Claude Opus 4、Claude Opus 4 thinking可選。


我用我這篇文章中的生成app原型的提示詞對Claude 4 Sonnet、Claude 3.7 Sonnet、Gemini 2.5 Pro模型做了測試

Claude 4 Sonnet


Claude 3.7 Sonnet


Gemini 2.5 Pro


這結(jié)果差距太明顯了,我都覺得沒什么好評價(jià)的。但現(xiàn)實(shí)確實(shí)是:

Gemini 2.5 Pro雖然在LMArena等部分編程能力排行榜上排名不錯(cuò),除了復(fù)雜長代碼的表現(xiàn)偶爾不錯(cuò),但是對指令的理解和遵從能力相比Claude還是差了些,視覺審美也比較糟糕,常常會有莫名其妙的表現(xiàn)。

Claude 3.7 已經(jīng)很不錯(cuò)了,但Claude Sonnet 4則完全是驚艷的水平,相比3.7而言,4的原型細(xì)節(jié)內(nèi)容更豐富,比如收聽過和沒收聽過的紅點(diǎn),訂閱節(jié)目和收聽節(jié)目的匯總信息等,甚至播放器頁面的封面圖還是可以旋轉(zhuǎn)的(很遺憾在圖片上看不出來)。

Claude Opus 4我也嘗試做了些測試,但是生成幾次后就遇到了一些模型訪問次數(shù)的問題,似乎現(xiàn)在Opus的服務(wù)器資源還不太夠。但是從評分以及我僅有的部分體驗(yàn)看,普通編程任務(wù)的表現(xiàn)和Sonnet并無差異。

以我的經(jīng)驗(yàn)來說,我建議選擇如下:

  • Claude Sonnet 4 :最推薦的日常編程選擇,在評估編程能力的指標(biāo)SWE Bench評分上比Opus更高,經(jīng)驗(yàn)上來說,比帶thinking的模型表現(xiàn)更穩(wěn)定更好,因?yàn)榇蠖鄶?shù)任務(wù)你并不需要模型overthinking的。

  • Claude Sonnet 4 thinking:推薦在解決bug或進(jìn)行項(xiàng)目規(guī)劃的時(shí)候使用,畢竟在面對復(fù)雜問題時(shí),你希望模型和人類一樣,啟動系統(tǒng)二,先做一些思考再做出審慎的回答。

  • Claude Opus 4和Claude Opus 4 Thinking:Opus是比Sonnet更大的模型,在非編程的數(shù)學(xué)、推理等任務(wù)上比Sonnet模型更好,也更貴。尤其在Cursor中是需要啟用Max模式,也就是每一次回答都需要單獨(dú)計(jì)費(fèi)的。但是在常規(guī)的編程任務(wù)表現(xiàn)上并沒有顯著優(yōu)于Sonnet模型,它相對更適合上下文長度非常多的大型復(fù)雜項(xiàng)目,或者重構(gòu)項(xiàng)目。不過如果你不只是拿Cursor去編程,而是還用Cursor當(dāng)寫作工具的話,我覺得你可以適當(dāng)嘗試下。


都看到這了,記得點(diǎn)贊、關(guān)注、轉(zhuǎn)發(fā)哦,謝謝支持~

注:本期內(nèi)容選取自我的AI編程知識星球,感興趣可點(diǎn)擊「閱讀原文」了解~

以及,我還做了期視頻介紹本次Claude 4的更新,可空降至B站查看: https://www.bilibili.com/video/BV1orJszFEFf/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
套殼通義千問?華為盤古大模型團(tuán)隊(duì)正式回應(yīng)。。。

套殼通義千問?華為盤古大模型團(tuán)隊(duì)正式回應(yīng)。。。

飛總聊IT
2025-07-07 08:10:03
停產(chǎn)、停航、停工 浙江溫州啟動水上防臺I級應(yīng)急響應(yīng)

停產(chǎn)、停航、停工 浙江溫州啟動水上防臺I級應(yīng)急響應(yīng)

極目新聞
2025-07-08 21:51:04
全球第1大鋼鐵制造商誕生!堪比29個(gè)安鋼,年收入超11600億元

全球第1大鋼鐵制造商誕生!堪比29個(gè)安鋼,年收入超11600億元

芳芳?xì)v史燴
2025-07-06 05:24:21
科莫今夏已花費(fèi)近7000萬歐元,引進(jìn)多名年輕球員增強(qiáng)實(shí)力

科莫今夏已花費(fèi)近7000萬歐元,引進(jìn)多名年輕球員增強(qiáng)實(shí)力

懂球帝
2025-07-08 22:41:58
梁朝偉和湯唯在《色戒》里“假戲真做”?網(wǎng)友爆出截圖:一目了然

梁朝偉和湯唯在《色戒》里“假戲真做”?網(wǎng)友爆出截圖:一目了然

姜糖先生
2025-06-08 19:31:00
孩子?jì)寢屽e(cuò)把36E低胸吊帶自拍發(fā)家長群,群內(nèi)截圖流出被老司機(jī)玩壞了哈哈

孩子?jì)寢屽e(cuò)把36E低胸吊帶自拍發(fā)家長群,群內(nèi)截圖流出被老司機(jī)玩壞了哈哈

經(jīng)典段子
2025-06-19 23:20:08
今天!杭州地鐵又有新站開通

今天!杭州地鐵又有新站開通

魯中晨報(bào)
2025-06-30 07:20:13
糖尿病最怕這兩種維生素!補(bǔ)足它們,穩(wěn)定血糖,減少并發(fā)癥

糖尿病最怕這兩種維生素!補(bǔ)足它們,穩(wěn)定血糖,減少并發(fā)癥

李藥師談健康
2025-07-08 11:37:20
原來我們都被耍了!《以法之名》終極智者:不是江遠(yuǎn),不是柳韻

原來我們都被耍了!《以法之名》終極智者:不是江遠(yuǎn),不是柳韻

喵喵娛樂團(tuán)
2025-07-08 17:42:40
中國游客在意大利整團(tuán)被偷后續(xù)!意大利警方不管,游客正準(zhǔn)備回國

中國游客在意大利整團(tuán)被偷后續(xù)!意大利警方不管,游客正準(zhǔn)備回國

觀察鑒娛
2025-07-08 09:40:58
四川省委統(tǒng)戰(zhàn)部副部長、省工商聯(lián)黨組書記景臨 蒞臨永祥股份指導(dǎo)調(diào)研

四川省委統(tǒng)戰(zhàn)部副部長、省工商聯(lián)黨組書記景臨 蒞臨永祥股份指導(dǎo)調(diào)研

新浪財(cái)經(jīng)
2025-07-08 22:32:15
林詩棟WTT美國大滿貫第二輪將對陣馮翊新,后者3-1哈貝松晉級

林詩棟WTT美國大滿貫第二輪將對陣馮翊新,后者3-1哈貝松晉級

直播吧
2025-07-08 11:32:16
淬火年代:直到沈嘉麗把錢交給柳鈞,才知梁思申去騰飛上班的真相

淬火年代:直到沈嘉麗把錢交給柳鈞,才知梁思申去騰飛上班的真相

可樂談情感
2025-07-08 17:32:33
土豪球隊(duì)!休賽期狂砸3個(gè)億,整整14年啊,終于要交奢侈稅了

土豪球隊(duì)!休賽期狂砸3個(gè)億,整整14年啊,終于要交奢侈稅了

球童無忌
2025-07-08 09:22:48
新聞圖直出的美貌…

新聞圖直出的美貌…

阿廢冷眼觀察所
2025-06-14 01:19:01
看過六大都護(hù)府的地圖,才真正明白唐朝為什么是“巨唐”

看過六大都護(hù)府的地圖,才真正明白唐朝為什么是“巨唐”

尋史者也
2025-07-05 19:42:11
扮女裝與多名男性發(fā)生親密行為并拍視頻,涉事男子“紅老頭”因涉嫌傳播淫穢物品罪被刑拘

扮女裝與多名男性發(fā)生親密行為并拍視頻,涉事男子“紅老頭”因涉嫌傳播淫穢物品罪被刑拘

封面新聞
2025-07-08 15:44:09
“牡丹花下死,做鬼也風(fēng)流”!如今,誰也救不了44歲的宋小寶

“牡丹花下死,做鬼也風(fēng)流”!如今,誰也救不了44歲的宋小寶

凡知
2025-07-08 14:52:06
懸念揭曉!曝韓鵬擔(dān)任泰山主帥,3大優(yōu)勢,他是崔康熙最佳替代者

懸念揭曉!曝韓鵬擔(dān)任泰山主帥,3大優(yōu)勢,他是崔康熙最佳替代者

璞玉話體壇
2025-07-08 09:19:18
“過氣”明星的B面,比你想象的更殘酷

“過氣”明星的B面,比你想象的更殘酷

和斌斌一起看劇
2025-07-03 11:00:02
2025-07-08 23:19:00
AI進(jìn)化論花生 incentive-icons
AI進(jìn)化論花生
AI博主,AppStore付費(fèi)榜第一的小貓補(bǔ)光燈app開發(fā)者
35文章數(shù) 15關(guān)注度
往期回顧 全部

科技要聞

"失去新鮮感",中國車主為何不再追捧特斯拉

頭條要聞

廣汽菲克破產(chǎn) 一句"不是所有吉普都叫Jeep"曾廣為人知

頭條要聞

廣汽菲克破產(chǎn) 一句"不是所有吉普都叫Jeep"曾廣為人知

體育要聞

17歲的朱正很好,但他救不了中國男籃

娛樂要聞

麻煩大了,鳳凰傳奇再次遭受“重創(chuàng)”

財(cái)經(jīng)要聞

新消費(fèi)浪潮下的資本敘事能持續(xù)嗎?

汽車要聞

遵循“極簡主義” 北京現(xiàn)代ELEXIO發(fā)布內(nèi)飾官圖

態(tài)度原創(chuàng)

游戲
教育
本地
藝術(shù)
數(shù)碼

騰訊野心之作為何5年涼透?上線即巔峰,毀于匹配拉胯與外掛泛濫

教育要聞

超60%考研人選擇報(bào)考985/211,今年有多卷?

本地新聞

云游中國|踏入時(shí)光長廊!岐山八景訴說古今歲月風(fēng)華

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

數(shù)碼要聞

領(lǐng)先同行一個(gè)時(shí)代!海信RGB-Mini LED電視UX評測:光色同控引發(fā)畫質(zhì)革命

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 恩平市| 吴川市| 两当县| 林西县| 鲜城| 嘉祥县| 肇源县| 万全县| 新宁县| 昭通市| 瓦房店市| 西华县| 保靖县| 仁化县| 普兰县| 册亨县| 景洪市| 特克斯县| 泰来县| 灵璧县| 安庆市| 宿州市| 呼玛县| 巴林左旗| 交口县| 壶关县| 察哈| 黄石市| 元朗区| 邯郸县| 社会| 玉树县| 桂林市| 黔南| 开封市| 大渡口区| 潜江市| 扎兰屯市| 吉水县| 福清市| 城口县|