OpenAI的勁敵Anthropic發(fā)布Claude 4系列模型,稱Opus 4為"全球最佳編程模型",對AI投資者而言標志著模型能力的新紀元,可能重塑軟件開發(fā)行業(yè)格局。
除了新模型,Anthropic還宣布,編程工具Claude Code正式上線,并提供新的功能供連接到其模型的開發(fā)者使用,包括將推理與網頁搜索和其他工具相結合的能力。
Anthropic的新發(fā)布加劇了與OpenAI、Google在頂級模型領域的競爭,為投資者提供了重新評估AI領域競爭格局的機會。
Opus 4精于編碼 Sonnet 4較3.7版明顯提升
美東時間5月22日周四,Anthropic在公司首屆"Code with Claude"開發(fā)者大會上推出了Claude 4系列的兩款全新模型:Claude Opus 4和Claude Sonnet 4。
Anthropic將Claude Opus 4稱為"公司迄今最強大的模型,也是全球最佳編程模型",而Claude Sonnet 4 是Claude Sonnet 3.7版的重大升級,提供卓越的編碼和推理能力,同時更精確地響應用戶指令。
Anthropic稱,Opus 4在編碼、研究、寫作和科學發(fā)現(xiàn)方面突破了界限,而 Sonnet 4 作為 Sonnet 3.7 的即時升級,為日常用例帶來了前沿性能。
在SWE-bench軟件工程任務基準測試中,Opus 4得到72.5%的準確度成績,在Terminal-bench上達到43.2%。Sonnet 4則在SWE-bench上達到72.7%,相比得到62.3%成績的Sonnet 3.7版本有顯著提升。
Opus 4和Sonnet 4都采用了混合模式設計,既可提供幾乎即時的回應,也能進行更深入的推理思考、即擴張思維。
在Anthropic的Pro、Max、Team 和 Enterprise Claude 套餐中包含了上述兩種模型的能力,Sonnet 4模型也面向免費用戶開放。新模型均可在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用。
定價與之前的Opus 和 Sonnet 模型一樣:Opus 4 為每百萬token輸入和輸出分別收費15美元和75 美元,Sonnet 4的百萬token輸入和輸出分別收取3美元和15 美元。
Anthropic產品負責人Scott White表示,此次發(fā)布標志著
"Claude從一個提供答案的工具轉變?yōu)橐粋€真正有能力的協(xié)作伙伴"。
超長持續(xù)工作能力:AI智能體的革命性突破
Opus 4最引人注目的特點是其驚人的持續(xù)工作能力。據Anthropic介紹,該模型能夠在需要專注努力和數千步驟的長時間任務中保持穩(wěn)定表現(xiàn),可以連續(xù)工作數小時。
Anthropic稱,日本電商巨頭樂天(Rakuten)已驗證了Opus 4的能力,在樂天要求嚴格的一項開源重構任務中,該模型獨立運行了7小時,且這期間保持穩(wěn)定的性能。
這種持久的注意力和工作能力使Opus 4特別適合復雜的編碼和問題解決場景。
代碼編輯平臺Cursor稱,Opus 4為"編程領域的最新技術,在復雜代碼庫理解方面實現(xiàn)了飛躍"。編程平臺Replit表示,在跨多個文件的復雜更改方面,Opus 4取得"顯著改進"。
擴展思考與工具使用:AI的思維質變
兩款新模型都引入了"擴展思考與工具使用"功能(測試版),允許Claude在思考過程中使用網絡搜索等工具,在推理和工具使用之間交替以改進回應。這些模型還能并行使用工具,更精確地遵循指令,并在開發(fā)者授予本地文件訪問權限時展示顯著改進的記憶能力。
特別值得注意的是,Opus 4在記憶能力方面大幅超越了所有以前的模型。當開發(fā)者構建的應用程序提供Claude本地文件訪問權限時,Opus 4能夠創(chuàng)建和維護"記憶文件"來存儲關鍵信息,這解鎖了更好的長期任務意識、連貫性和代理任務性能。
Claude Code正式上線:AI開發(fā)新時代
在模型發(fā)布的同時,Anthropic宣布,在測試收到“廣泛的積極反饋”后,Claude Code正式全面推出。現(xiàn)在通過GitHub Actions支持后臺任務,并與VS Code和JetBrains原生集成,直接在開發(fā)者文件中顯示編輯,實現(xiàn)無縫結對編程。
Claude Code 由 Opus 4 和 Sonnet 4 提供支持,讓Anthropic 的大語言模型(LLM)擁有更多功能,因為它可以編寫代碼來分析數據。用戶甚至可能不知道 Claude 在為完成任務編寫和調試代碼,但它的編碼能力將使模型在分析大量數據時能夠運用思維。
Scott White表示:"編碼是一個快速增長、非常令人興奮的市場。"
White 任務,Claude Code 不僅適合那些希望為旗下軟件工程師提供工具進而提高自身專業(yè)技能的公司,也適合那些可能不懂編程的人。
他舉例說,如果一位產品經理正在向團隊推薦一個點子,他們就不必僅僅創(chuàng)建一份文檔來解釋相關概念,而是可以找到Claude,并請 Claude 創(chuàng)建這個點子的原型。
AI巨頭競賽加劇:行業(yè)格局再洗牌
Anthropic的新模型面世正逢AI領域的巨頭們頻傳消息“上頭條”。
本周稍早,微軟宣布了新的編碼智能體,并與馬斯克旗下xAI的Grok模型合作,將Grok納入微軟云平臺;谷歌加速將AI智能體融入公司服務,推出AI模式的新型搜索功能;OpenAI宣布了65億美元的交易,降收購由“iPhone之父”、前蘋果設計總監(jiān)Jony Ive創(chuàng)立的AI硬件初創(chuàng)公司io。
這表明Anthropic、Google和OpenAI之間的"最佳前沿模型"競爭正在升溫,同時對這些公司能否將當前AI技術推向新高度的疑問依然存在。
投資者視角:重新評估AI競爭格局
對投資者而言,Claude 4系列的推出標志著AI能力的一個新紀元。特別是在編程領域,Anthropic聲稱已經取得了領先地位,這可能對軟件開發(fā)行業(yè)產生深遠影響。GitHub已表示Claude Sonnet 4將成為GitHub Copilot中新編碼代理的基礎模型,這進一步驗證了其能力。
隨著AI競爭的加劇,投資者需要重新評估行業(yè)格局,尤其是Anthropic相對于OpenAI和Google等競爭對手的地位。Claude 4系列在編碼、推理和代理任務方面的強大表現(xiàn),可能為Anthropic贏得更多市場份額和企業(yè)客戶提供了機會。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.