作者|子川
來(lái)源|AI先鋒官
深夜王炸,就在剛剛Anthropic發(fā)布了最新模型Claude 3.7和全新智能體Claude Code,編程能力大幅度提升!
與以往模型不同,Claude 3.7 Sonnet是市面上“首個(gè)混合推理模型”。
簡(jiǎn)單來(lái)說(shuō),Claude 3.7 將“通用模型”和“推理模型”融合在一起,在模型輸出時(shí),可以自由選擇Claude 3.7調(diào)用哪種模型進(jìn)行回答。
同時(shí)Claude 3.7在擴(kuò)展思考模式下將和Deepseek一樣,將展示原始的思考過(guò)程,不做任何隱瞞。
其次,在API調(diào)用Claude 3.7 Sonnet時(shí),可以設(shè)置“思考預(yù)算 (budget for thinking)” :限制Claude的思考不超過(guò)N個(gè)token,其中N的值可高達(dá)其輸出上限128K個(gè)token。
這樣,用戶能根據(jù)需要在速度、成本和答案質(zhì)量之間自由調(diào)優(yōu),以達(dá)到更滿意的效果。
在擴(kuò)展思考模式下,Claude 3.7還會(huì)先“自我反思”,再給出答案,這使得它在數(shù)學(xué)、物理、指令跟隨和編碼等領(lǐng)域的表現(xiàn)大幅提升。
在SWE-bench Verified (軟件工程基準(zhǔn)測(cè)試)中, Claude 3.7 Sonnet 以 70.3% (使用定制 scaffold) 和 62.3% (標(biāo)準(zhǔn) scaffold) 的分?jǐn)?shù)超越了o1、o3-mini和Deepseek等一眾多頂尖模型。
注:SWE-bench Verified 是 OpenAI 推出的一個(gè)經(jīng)過(guò)人工驗(yàn)證的基準(zhǔn)測(cè)試工具,旨在更可靠地評(píng)估 AI 模型解決現(xiàn)實(shí)世界軟件問題的能力。
同時(shí)在TAU-bench (智能體工具使用基準(zhǔn)測(cè)試)中,在 零售 (retail) 和 航空 (airline) 兩個(gè)場(chǎng)景中,Claude 3.7分別取得了 81.2% 和 58.4% 的領(lǐng)先成績(jī)。
在通用benchmark測(cè)試中,Claude 3.7 Sonnet 在指令遵循、推理、多模態(tài)能力和代理編碼方面表現(xiàn)出色。
不過(guò)在 數(shù)學(xué)和科學(xué)方面,擴(kuò)展思考模式并沒有超越DeepSeek R1、o3-mini等模型。
除了發(fā)布Claude 3.7之外,Anthropic還推出了它們首個(gè)代理編碼工具 Claude Code 。
Claude Code 是一款集成在終端中的代理編碼工具,能夠理解并操作代碼庫(kù)。
只需在命令行輸入指令,就能讓 AI 智能體完成代碼搜索、文件編輯、測(cè)試編寫和運(yùn)行、代碼提交和推送等一系列復(fù)雜的編程任務(wù)。
能一次性完成通常需要45分鐘的工作量。
主要功能包括:
編輯文件并修復(fù)代碼庫(kù)中的錯(cuò)誤;
解釋代碼架構(gòu)和邏輯相關(guān)問題;
執(zhí)行、檢查并修復(fù)測(cè)試、代碼規(guī)范(linting)和其他命令;
搜索 Git 歷史記錄,解決合并沖突,并創(chuàng)建提交和拉取請(qǐng)求(PR)。
不過(guò)Claude Code 目前處于研究預(yù)覽的 beta 階段。
Anthropic表示正在收集開發(fā)人員關(guān)于 AI 協(xié)作偏好、哪些工作流程最受益于 AI 協(xié)助以及如何提升整體使用體驗(yàn),這個(gè)早期版本將根據(jù)用戶反饋不斷改進(jìn)。
掃碼邀請(qǐng)進(jìn)群,我們帶你一起來(lái)玩轉(zhuǎn)ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學(xué)一些AI搞錢技能。
往期文章回顧
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.