99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Claude 4系列模型正式發(fā)布,號稱“世界上最好的”AI編程模型

0
分享至

當?shù)貢r間5 月 22 日,Anthropic 在其首次開發(fā)者大會上,正式發(fā)布了其下一代 Claude 模型系列:Claude Opus 4 和 Claude Sonnet 4。該公司在公告中高調(diào)宣稱,新的旗艦模型 Claude Opus 4 是“世界上最好的編程模型”,在編程、高級推理和AI 智能體(AI agents)方面樹立了全新標準,旨在處理復雜、長時間運行的任務(wù)和智能體工作流程。與此同時,Claude Sonnet 4 作為對 Claude Sonnet 3.7 的重大升級,也提供了在編程和推理能力等方面,也取得了相當大的進步。

Anthropic 表示,Claude Opus 4 是其迄今為止最強大的模型,尤其在編碼領(lǐng)域表現(xiàn)突出。根據(jù) Anthropic 提供的數(shù)據(jù),Opus 4 在 SWE-bench(一個評估真實軟件工程任務(wù)性能的基準)上達到了 72.5% 的準確率(使用并行測試時計算可達 79.4%),在 Terminal-bench(一個測試 AI 模型在終端環(huán)境中執(zhí)行編碼任務(wù)能力的基準)上達到了 43.2%(并行測試時計算可達 50.0%)。各項數(shù)據(jù)均超過了 Gemini 2.5 Pro 等其他競品模型。Claude Sonnet 4 同樣表現(xiàn)出色,在 SWE-bench 上實現(xiàn)了 72.7% 的準確率(并行測試時計算可達 80.2%),在某些特定配置下甚至略高于 Opus 4。


圖丨基準測試結(jié)果(來源:Anthrpoic)

一些早期測試用戶在社交媒體上分享了他們的體驗,從側(cè)面印證了Claude 4 的強大。

例如,知名AI 博主 Ethan Mollick 僅用一句簡單的提示:“the book Piranesi as a p5js 3d space. do it for me”(將《皮拉內(nèi)西》這本書創(chuàng)作成一個p5.js 的 3D 空間,幫我實現(xiàn)它),沒有提供任何其他提示,Claude 4 便生成了一個令人印象深刻的 3D 空間演示,其中包含了鳥、水和光照效果,效果看起來相當不錯。

還有用戶僅用單次提示就生成了復雜的雙擺模擬系統(tǒng),表現(xiàn)非常出色。

另一位知名博主Peter Yang 也獲得了早期訪問權(quán)限,他總結(jié)道:“1. 它在寫作和編輯方面仍然是同類最佳。2. 它的編碼能力和 Gemini 2.5 一樣好。”還展示了Claude 4 一次性構(gòu)建了一個功能齊全的俄羅斯方塊游戲。


圖丨相關(guān)推文(來源:X)

除了強大的編碼能力,新一代Claude 模型在推理和 AI 智能體功能方面也邁出了重要一步。Anthropic 推出了“工具使用下的擴展思考”(extended thinking with tool use)測試版功能。這意味著兩個模型都能在進行擴展思考時使用工具(如網(wǎng)絡(luò)搜索),允許 Claude 在推理和工具使用之間交替進行,以改進響應質(zhì)量。

此外,新模型具備并行使用工具的能力,能更精確地遵循指令,并且在開發(fā)者授予本地文件訪問權(quán)限時,展現(xiàn)出顯著改進的記憶能力,能夠提取和保存關(guān)鍵事實,以保持連續(xù)性并逐步建立隱性知識。

Anthropic 特別提到,新模型顯著減少了模型使用“捷徑”或“漏洞”來完成任務(wù)的行為。與Sonnet 3.7 相比,Opus 4 和 Sonnet 4 在這類易受影響的智能體任務(wù)中,發(fā)生此類行為的可能性降低了 65%。


(來源:iGent AI)

記憶能力的提升也是Claude 4 系列的一大看點。Anthropic 的首席產(chǎn)品官 Mike Krieger 在接受 WIRED 采訪時提到,Claude Opus 4 能夠“在《寶可夢》游戲中以智能體方式工作長達24 小時”,而此前模型最長只能玩45 分鐘。Anthropic 甚至進行了一個名為“Claude Plays Pokémon”的Twitch 直播,展示了 Claude 3.7 Sonnet 在《寶可夢》游戲中的表現(xiàn)。


圖丨Opus 4 在玩寶可夢時記下的真實筆記(來源:Anthropic)

Claude 4 Opus 則在此基礎(chǔ)上更進一步,當它在游戲中導航一個復雜的任務(wù)時,研究人員注意到其長期記憶和規(guī)劃能力的改進。例如,當 AI 意識到需要特定能力才能前進時,它會花兩天時間提升技能,然后再繼續(xù)游戲。這種多步驟推理且無需立即反饋的能力,所反映的正是模型在保持任務(wù)連貫性和追蹤目標方面的進步。

Anthropic 的研究員 David Hershey 解釋說,這項研究的目的是探索 Claude 如何作為智能體獨立完成復雜任務(wù)。當開發(fā)者構(gòu)建允許 Claude 訪問本地文件的應用程序時,Opus 4 能夠熟練地創(chuàng)建和維護“記憶文件”來存儲關(guān)鍵信息。這解鎖了更好的長期任務(wù)感知、連貫性和智能體任務(wù)性能,就像Opus 4 在玩《寶可夢》時創(chuàng)建了一個“導航指南”一樣。這種能力對于需要長時間保持上下文的AI 智能體至關(guān)重要,無論是自動化數(shù)小時的工作流,還是進行大規(guī)模代碼重構(gòu)。Krieger 提到,一位早期客戶(日本樂天)就曾讓模型連續(xù)工作 7 小時完成了一項大型代碼重構(gòu)任務(wù)。

定價方面,Claude 4 模型與其前代產(chǎn)品保持一致:Opus 4 的輸入價格為每百萬 token 15 美元,輸出價格為每百萬 token 75 美元;Sonnet 4 的輸入價格為每百萬 token 3 美元,輸出價格為每百萬 token 15 美元。兩種模型都提供擴展思考模式的開關(guān)。Sonnet 4 將繼續(xù)向免費用戶提供,而 Opus 4 則需要付費訂閱。

伴隨新模型的發(fā)布,Anthropic 還宣布 Claude Code(最初于今年 2 月推出)在經(jīng)過數(shù)月預覽測試后正式普遍可用。Claude Code 旨在將 Claude 的強大能力更廣泛地融入開發(fā)者的工作流程中,無論是在終端、偏好的 IDE 中,還是通過 Claude Code SDK 在后臺運行。新的針對 VS Code 和 JetBrains 的 beta 版擴展程序能將 Claude Code 直接集成到 IDE 中,Claude 提出的編輯建議會以內(nèi)聯(lián)方式顯示在文件中,簡化了在熟悉編輯器界面內(nèi)的審查和跟蹤流程。

此外,Anthropic 還發(fā)布了一個可擴展的 Claude Code SDK,允許開發(fā)者使用與 Claude Code 相同的核心智能體構(gòu)建自己的智能體和應用程序。

Anthropic API 也迎來了四項新功能,旨在幫助開發(fā)者構(gòu)建更強大的 AI 智能體,包括:代碼執(zhí)行工具、MCP 連接器、Files API 以及將提示緩存長達一小時的能力。

Anthropic 聲稱,“這些模型是朝著虛擬協(xié)作者邁出的一大步——保持完整的上下文,持續(xù)專注于更長的項目,并推動變革性影響。”回顧近期谷歌、OpenAI 以及 Anthropic 等 AI 巨頭們發(fā)布的各項成果,無一不在為這一方向努力。

參考資料:

1.https://www.anthropic.com/news/claude-4

2.https://igent.ai/sonnet4eval.pdf

3.https://www.wired.com/story/anthropic-new-model-launch-claude-4/

排版:溪樹

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
國家統(tǒng)計局:就業(yè)形勢總體穩(wěn)定 城鎮(zhèn)調(diào)查失業(yè)率下降

國家統(tǒng)計局:就業(yè)形勢總體穩(wěn)定 城鎮(zhèn)調(diào)查失業(yè)率下降

財聯(lián)社
2025-06-16 10:07:06
美空軍參謀長:對中國開戰(zhàn)已不可避免,但美軍已經(jīng)沒有空中優(yōu)勢

美空軍參謀長:對中國開戰(zhàn)已不可避免,但美軍已經(jīng)沒有空中優(yōu)勢

慢看世界
2025-06-15 15:39:07
我61歲,經(jīng)歷了3段晚年感情后才發(fā)現(xiàn),老年搭伙最需要的不是金錢

我61歲,經(jīng)歷了3段晚年感情后才發(fā)現(xiàn),老年搭伙最需要的不是金錢

詭譎怪談
2025-05-19 17:57:34
我國微波化學研究的開拓者之一、吉林大學教授金欽漢逝世

我國微波化學研究的開拓者之一、吉林大學教授金欽漢逝世

澎湃新聞
2025-06-16 09:54:26
以總理:如伊朗放棄核計劃 以色列 愿停止行動

以總理:如伊朗放棄核計劃 以色列 愿停止行動

每日經(jīng)濟新聞
2025-06-16 05:54:07
首都獻血服務(wù)熱線“9521614”將于7月底上線

首都獻血服務(wù)熱線“9521614”將于7月底上線

人民日報健康客戶端
2025-06-15 17:26:03
1換7重磅交易達成!魔術(shù)血賺,肉裝庫里如愿以償,莫蘭特也該走了

1換7重磅交易達成!魔術(shù)血賺,肉裝庫里如愿以償,莫蘭特也該走了

世界體育圈
2025-06-16 09:54:42
國足新帥人選被曝!45歲亞洲足球先生接班,高洪波范志毅無緣

國足新帥人選被曝!45歲亞洲足球先生接班,高洪波范志毅無緣

大國侃球
2025-06-15 14:44:14
美國戰(zhàn)爭研究所稱,俄軍將在2026年占領(lǐng)一半烏克蘭,實現(xiàn)劃江而治

美國戰(zhàn)爭研究所稱,俄軍將在2026年占領(lǐng)一半烏克蘭,實現(xiàn)劃江而治

碳基生物關(guān)懷組織
2025-06-13 16:30:42
為什么在中國耍賴的老人,到了加拿大都變乖了?

為什么在中國耍賴的老人,到了加拿大都變乖了?

霹靂炮
2025-06-14 22:56:06
特朗普下令擴大“史上最大規(guī)模非法移民驅(qū)逐行動”執(zhí)法力度

特朗普下令擴大“史上最大規(guī)模非法移民驅(qū)逐行動”執(zhí)法力度

環(huán)球網(wǎng)資訊
2025-06-16 09:49:29
男子手持斧頭上門砍人,僅被拘留14天、罰款600元,成都警方火了

男子手持斧頭上門砍人,僅被拘留14天、罰款600元,成都警方火了

譚談社會
2025-06-15 21:35:30
上戲的瓜還沒消化完,武大又爆猛料!某公子哥校內(nèi)駕車逼停學生!

上戲的瓜還沒消化完,武大又爆猛料!某公子哥校內(nèi)駕車逼停學生!

青青子衿
2025-06-15 17:45:43
上海專家發(fā)現(xiàn):吃甜食的老人,健康指數(shù)是吃蔬菜的人的5倍不止?

上海專家發(fā)現(xiàn):吃甜食的老人,健康指數(shù)是吃蔬菜的人的5倍不止?

華庭講美食
2025-06-14 13:52:03
以色列空襲也門胡塞武裝領(lǐng)導人住所

以色列空襲也門胡塞武裝領(lǐng)導人住所

新華社
2025-06-15 07:34:15
王健林透露真相?中國手握“兩套房”的家庭,注定或迎來3個結(jié)果

王健林透露真相?中國手握“兩套房”的家庭,注定或迎來3個結(jié)果

巢客HOME
2025-03-04 08:45:03
重慶男子沖撞路人視頻曝光:死者疑倒車被碾壓之人,曾遭反復碾壓

重慶男子沖撞路人視頻曝光:死者疑倒車被碾壓之人,曾遭反復碾壓

映射生活的身影
2025-06-15 16:32:20
中央督察組暗查發(fā)現(xiàn)問題后,有關(guān)行政主管部門才督促治理!寧夏中衛(wèi)被通報

中央督察組暗查發(fā)現(xiàn)問題后,有關(guān)行政主管部門才督促治理!寧夏中衛(wèi)被通報

政知新媒體
2025-06-16 10:38:38
重拳敲打美國,央視首次公開DF5洲際導彈,400萬噸當量可抹平紐約

重拳敲打美國,央視首次公開DF5洲際導彈,400萬噸當量可抹平紐約

胖福的小木屋
2025-06-13 23:49:30
豪門千金的芭比魅力:妮可拉·佩爾茨

豪門千金的芭比魅力:妮可拉·佩爾茨

述家娛記
2025-05-23 21:08:52
2025-06-16 11:11:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15297文章數(shù) 513785關(guān)注度
往期回顧 全部

科技要聞

22年后,馬斯克“殺死”了最初的特斯拉

頭條要聞

民企稱投資2000萬被職能部門做局:4份資料2份涉造假

頭條要聞

民企稱投資2000萬被職能部門做局:4份資料2份涉造假

體育要聞

被偷走的世界杯資格 他們用20年搶回來了

娛樂要聞

郭富城官宣方媛懷三胎 拒絕透露性別

財經(jīng)要聞

大廠搶灘的「穩(wěn)定幣」,能火多久?

汽車要聞

前臉與N7相似 新一代日產(chǎn)軒逸假想圖曝光

態(tài)度原創(chuàng)

房產(chǎn)
藝術(shù)
教育
家居
公開課

房產(chǎn)要聞

又一城購房補貼!買房就發(fā)錢,正在海南樓市瘋狂擴散!

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

蓉城方志好課怎么上?名校名師實戰(zhàn)指南來了!

家居要聞

遠行而歸 臺式極簡布局

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 兴义市| 灵宝市| 青田县| 凤山县| 阿克陶县| 陵川县| 栖霞市| 精河县| 平江县| 星座| 百色市| 泸西县| 华容县| 昌吉市| 牙克石市| 潼南县| 湛江市| 临颍县| 辽中县| 任丘市| 墨江| 房产| 和田县| 惠东县| 长乐市| 五常市| 磴口县| 肃宁县| 马山县| 界首市| 新乐市| 宁南县| 濮阳县| 望谟县| 洪泽县| 樟树市| 新宁县| 广饶县| 山西省| 贺兰县| 平原县|