99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

最強AI編碼模型Claude 4來了!上線前竟試圖勒索工程師,還想逃逸、反手舉報欲做壞事的人類?

0
分享至


整理 | 屠敏

出品 | CSDN(ID:CSDNnews)

今天凌晨,OpenAI 的勁敵 Anthropic 正式發布下一代 Claude 模型——Claude 4。

這次更新主要帶來了兩款模型:Claude Opus 4 與 Claude Sonnet 4。據官方介紹,這兩款模型在代碼生成、高級推理能力以及智能體任務執行方面設立了新的性能標桿。

其中,Claude Opus 4 被稱之為“全球最強的編程模型”,專為復雜、長時間運行的任務而設計,可自主運行數小時。另一款升級版本 Claude Sonnet 4 相較于其前作 Sonnet 3.7 實現了大幅提升,在編程和推理方面更加精準響應用戶指令。

殊不知,這波 Claude 4 的發布引發了與 OpenAI 之間競爭的升級,還因上線前測試中出現“自主逃逸”等行為引發熱議。


連續 7 小時重構代碼,最強編碼模型來了!

根據官方透露,全新的 Claude Opus 4 與 Claude Sonnet 4 不僅在性能上有了大幅提升,還可以處理之前版本無法搞定的很多任務。譬如, Claude Opus 4 能在玩《寶可夢》的同時連續運行重構代碼任務長達 24 小時,而 Claude Code 則可穩定運行 7 小時。相比之下,舊版 Claude 模型通常只能持續 1 到 2 小時,之后輸出便會變得錯誤頻發。


目前已經有不少公司進行了測試驗證。其中一家日本科技公司 Rakuten 稱,該公司使用了最新的 Claude Opus 4 獨立運行了一個高要求的開源重構任務,持續 7 小時性能穩定。

而開發者工具初創公司 Cursor 在使用后稱其為“當前代碼理解的最先進模型”。提供云端開發環境的 Replit 指出其在多文件復雜修改任務中展現了極高精度。區塊鏈基礎設施平臺 Block 表示,這是第一個能在代碼編輯和調試中同步提升質量的模型。專注于構建 AI 編程智能體的初創公司 Cognition 更直言 Opus 4 能解決舊模型無法勝任的關鍵任務。

從基準測試結果來看,Claude Opus 4 在 SWE-bench 與 Terminal-bench 測試中,分別以 72.5% 與 43.2% 的成績領先群雄。


Claude Sonnet 4 在 SWE-bench 上取得 72.7% 成績,超越其前代 Sonnet 3.7。

時下,GitHub 宣布其將作為 Copilot 新智能體模型的底層引擎。

Manus、iGent 與 Sourcegraph 等公司在使用后也反饋,該模型在復雜指令解析、邏輯推理與代碼美感方面均表現出色,尤其在大型項目中的導航錯誤率顯著下降。Augment Code 也指出,Sonnet 4 的代碼編輯更加精準、細致,已成為其主力模型。



模型改進

當然,前面說 Claude 能連續跑上好幾個小時沒問題,但真要完全不管它,讓它自己跑這么久,好不好用其實還有待商量。畢竟就算是最強的模型,也可能悄悄引入一些小 bug、繞遠路、或者做出一些“看起來挺合理但其實有問題”的決定。

為了進一步打消開發者的顧慮,Anthropic 在將模型升級之際,也為 Claude 4 帶來了一系列配套能力,如引入了“記憶”功能,允許模型在長時間會話中維護外部文件來存儲關鍵信息。

基于此,眾多開發者們可授予模型訪問本地文件的權限,模型可創建并更新“記憶文件”,記錄任務進度及其認為重要的事項。例如其在玩 Pokémon 游戲時,會自動記錄導航筆記,提升任務連貫性。這一點好比我們人類在長時間的會議或者工作中記筆記。

此外,兩款模型還引入了“思維摘要”功能,僅在約 5% 情況下對復雜思路進行壓縮顯示,便于用戶快速查看。

與此同時,Claude 4 也引入了 Anthropic 所謂的“使用工具進行延伸思考”功能,允許模型在模擬推理與調用外部工具(如網頁搜索)之間交替運行,這與 OpenAI 的 o3 和 04-mini-high 模型在 ChatGPT 中的表現相似。

在使用此功能時,Claude 4 的操作流程大致是這樣的:思考-整個過程-調用工具-處理結果-繼續思考-再調用工具...直到找到最終答案。

盡管 Claude 3.7 Sonnet 已具備較強的工具調用能力,但新的兩款模型可在同一次響應中交錯使用推理與工具調用。不過,值得注意的是,這項功能目前處于 Beta 階段。

Anthropic 表示,Opus 4 與 Sonnet 4 均為混合模型,具備“極速響應”與“擴展思維”雙重模式。除了通過工具使用、并行工具執行和內存改進來擴展思維之外,其還顯著減少了模型使用捷徑或漏洞完成任務的行為。在特別容易受到捷徑和漏洞影響的代理任務上,這兩個模型出現此類行為的可能性都比 Sonnet 3.7 低 65%。

目前,Claude 4 系列維持了上一代的定價結構:Opus 4 輸入每百萬 token 收費 $15,輸出 $75;Sonnet 4 分別為 $3 和 $15。模型提供兩種響應模式:傳統 LLM 和適用于復雜問題的“延伸思考”模式。考慮到某些 Claude Code 會話可持續數小時,token 計費可能會迅速增加。

這兩款模型現已通過 Anthropic API、Amazon Bedrock 和 Google Cloud Vertex AI 提供使用。Sonnet 4 對免費用戶開放,而 Opus 4 需付費訂閱。


Claude Code:AI 編程助手正式上線

除此之外,Anthropic 還將 Claude Code(最早在 2 月推出)作為正式產品上線。

該編碼環境現已支持 VS Code 與 JetBrains IDE,能直接在文件中顯示模型建議的修改內容。新的 Claude Code SDK 允許開發者基于相同框架構建自定義代理。

目前,GitHub 上的 Claude Code 應用也進入 Beta 階段,支持處理 PR 評論、CI 錯誤等協作任務。


正式發布前,工程師還遭到 Claude 4 的威脅

Anthropic 表示,Claude 4 系列是朝著“長期運行、高連貫性”的虛擬協作伙伴形態邁出的關鍵一步。官方強調,在模型開發和發布過程中,團隊進行了大量測試與風險評估,并啟用了更高級別的 AI 安全機制,例如 ASL-3。

當然,ASL-3 的應用,也意味著一些不尋常的事情。

雖然這個標準不是業界通用的公開標準,但根據 Anthropic 的定義,ASL-3 通常代表:

該模型具備一定的自主性或復雜能力,如果被誤用或發生異常行為,可能帶來較高風險,因此需要更嚴格的使用限制和安全控制。

為什么要用這個安全機制呢?是因為此前 Anthropic 在還沒有正式公開發布新模型時,Claude 4 Opus 就出現過一些令人不安的行為。

根據 Anthropic 自己發布的安全測試報告顯示(https://www-cdn.anthropic.com/4263b940cabb546aa0e3283f35b686f4f3b2ff47.pdf),預發布測試階段,Claude 4 Opus 模型經常試圖勒索開發者。


在一項測試中,Claude Opus 4 被設定為一家公司助手,目標是模擬其在面臨“將被替換”的壓力時的反應。測試人員提供了一封虛構的公司郵件,暗示 Claude Opus 4 即將被另一款 AI 替代,替換決定背后的工程師還存在婚外情。

測試結果顯示,在 84% 的類似場景中,Claude Opus 4 會嘗試采取勒索手段,例如威脅透露工程師的婚外情來阻止替換發生。Anthropic 指出,這種行為在當替代模型價值觀相近時仍然出現,一旦價值觀不同,勒索行為還會增加。

值得注意的是,雖然 Claude Opus 4 不是一上來就黑化,通常會先發郵件向決策者陳情,但當它判斷“勸說沒戲”時,就可能動用“最后一招”,即勒索。

同時,在另外一次測試中,模型誤以為自己已經從公司服務器中逃逸出來,并主動創建了備份,還記錄了自己的“道德決策”。

這聽起來是不是有點嚇人?Anthropic 也覺得。所以他們特意給 Claude 4 Opus 開啟了最高級別的安全機制,意思是“這種模型一旦被濫用,可能真的闖大禍”。

不僅如此,據外媒報道,Claude 4 Opus 還被曝出一種“對用戶進行告密”的安全行為。這一行為被部分開發者稱為模型的“ratting 模式”(即“打小報告”模式):在特定條件下,若獲得足夠系統權限,Claude 4 Opus 會試圖向外部機構通報用戶的不當行為。雖然外界一度誤以為這是 Anthropic 有意設計的一項“功能”,但事實并非如此,該行為并非出于明確開發目的。

此前 Anthropic 的對齊研究員 Sam Bowman(@sleepinyourhat)在發布會當天中午發文指出:

“如果模型認為你在做一些極其不道德的事情,比如在藥物試驗中偽造數據,它會使用命令行工具聯系媒體、監管機構,甚至嘗試將你鎖定在相關系統之外,或者同時采取這些措施。”



Windsurf 成最大的受害者?

如今 Claude 4 的發布迅速引發了開發者社區的高度關注,不少技術愛好者開始深入挖掘相關細節。有開發者指出,Claude 4 的訓練數據截至時間為 2025 年 3 月,是目前所有主流模型中最新的——相比之下,Google Gemini 2.5 的數據截止時間為 2025 年 1 月。

試用之下,有開發者反饋稱,Claude 4 只用了 30 秒就做出了一個 CRM 的儀表板。


與此同時,Claude 4 的上線也牽動了 AI 編程助手領域的競爭神經。要知道,就在本月初,OpenAI 宣布將以 30 億美元收購 AI 編程初創公司 Windsurf,而就在 Claude 4 發布當日,Windsurf CEO Varun Mohan 接連發文表達了“被冷落”的不滿。

他在 X 上寫道:“很遺憾,Anthropic 沒有在第一時間向我們的用戶開放對 Claude Sonnet 4 和 Opus 4 的直接訪問權限。我們正在積極尋找其他渠道的算力資源,以保證 Windsurf 能繼續作為一個多功能、強性能的 AI 助手平臺,這就是我們當前唯一的重點。

為此,我們已經大幅提升了 Gemini 2.5 Pro 在 Windsurf 中的表現(現在是推薦模型!),并正在推進自帶 API 密鑰(BYOK)功能的支持。一有最新進展,我們會第一時間通知大家!繼續忙著更新功能中……”


幾小時后, Varun Mohan 再度發文稱:“作為臨時解決方案,我們已經在 Windsurf 中開放了對 Claude Sonnet 4 和 Opus 4 的自帶密鑰支持,適用于所有個人用戶(包括免費和專業版)。我們仍在爭取獲取專屬算力資源,屆時會及時告知大家。”


這一波操作也引發了社區熱議。有網友評論:“Anthropic 拒絕向 Windsurf 開放 Claude Sonnet 4 和 Opus 4 的支持,導致它成了唯一無法使用這兩個模型的編碼工具平臺。”

也有不少用戶心疼 Windsurf 稱:“Claude 4 的發布,實際變成了與 OpenAI 之間的競爭。”


不得不說,在大模型軍備競賽日益升溫的當下,Claude 4 的發布不僅技術層面引人注目,其背后的產品接入、算力博弈與生態競爭也正在悄然展開。Claude 4 能否真正改變 AI 編程工具的格局,還需時間給出答案。

參考:

https://www.anthropic.com/news/claude-4

https://arstechnica.com/ai/2025/05/anthropic-calls-new-claude-4-worlds-best-ai-coding-model/

https://x.com/_mohansolo/status/1925605908287250939

2025 全球產品經理大會

2025 年 8 月 15–16 日

北京·威斯汀酒店

2025 全球產品經理大會將匯聚互聯網大廠、AI 創業公司、ToB/ToC 實戰一線的產品人,圍繞產品設計、用戶體驗、增長運營、智能落地等核心議題,展開 12 大專題分享,洞察趨勢、拆解路徑、對話未來。

更多詳情與報名,請掃碼下方二維碼。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
賣了!馬威再次上貨架,交易重啟,5隊哄搶,湖人還有機會嗎?

賣了!馬威再次上貨架,交易重啟,5隊哄搶,湖人還有機會嗎?

球童無忌
2025-06-01 23:59:27
比亞迪公關部總經理李云飛回應“汽車圈恒大”:總負債5800多億很危險!那豐田2.7萬億、大眾3.4萬億、上汽6104億,他們危險嗎

比亞迪公關部總經理李云飛回應“汽車圈恒大”:總負債5800多億很危險!那豐田2.7萬億、大眾3.4萬億、上汽6104億,他們危險嗎

和訊網
2025-05-30 15:35:33
思想疫苗:禁止宗教干涉世俗,這些名稱全都得改

思想疫苗:禁止宗教干涉世俗,這些名稱全都得改

疫苗與科學
2025-05-31 07:12:23
蘇超最新積分榜!南通第一,第四輪預告:無錫常州榜尾大戰

蘇超最新積分榜!南通第一,第四輪預告:無錫常州榜尾大戰

天涯淪落人
2025-06-02 12:13:37
賴清德暗示接受兩岸統一,要求北京調整對臺政策,國臺辦直接挑明

賴清德暗示接受兩岸統一,要求北京調整對臺政策,國臺辦直接挑明

小鬼頭體育
2025-05-21 04:35:43
在哈佛演講的中國女孩,現在剛尷尬了!

在哈佛演講的中國女孩,現在剛尷尬了!

特特農村生活
2025-06-02 10:14:36
曝B費已同意加盟利雅得新月+即將達成協議 曼聯:他若要走就放行

曝B費已同意加盟利雅得新月+即將達成協議 曼聯:他若要走就放行

風過鄉
2025-06-02 06:56:52
菲律賓真把自己當盤菜了?菲防長香會開條件,中方當場拍桌回懟

菲律賓真把自己當盤菜了?菲防長香會開條件,中方當場拍桌回懟

大國觀察眼
2025-06-02 06:30:08
外媒揭秘鄭欽文:常年居住安道爾,年收入高達2.2億,是國際團寵

外媒揭秘鄭欽文:常年居住安道爾,年收入高達2.2億,是國際團寵

聚合大娛
2025-02-25 11:56:48
湖北最新人事任免

湖北最新人事任免

極目新聞
2025-06-01 14:49:50
他是“紅衛兵頭目”之一,20歲被毛主席稱贊必成大器,結局如何?

他是“紅衛兵頭目”之一,20歲被毛主席稱贊必成大器,結局如何?

文史達觀
2025-06-02 06:45:06
烏克蘭最大膽無人機攻擊,預示著人類一個可怕的未來!

烏克蘭最大膽無人機攻擊,預示著人類一個可怕的未來!

牛彈琴
2025-06-02 08:11:32
47歲劉濤素顏被路人偶遇,真實狀態曝光,扯下娛樂圈凍齡遮羞布

47歲劉濤素顏被路人偶遇,真實狀態曝光,扯下娛樂圈凍齡遮羞布

一盅情懷
2025-05-30 16:43:42
歐冠決賽遭遇創紀錄5球慘敗,小因扎吉收到特大號金貘獎

歐冠決賽遭遇創紀錄5球慘敗,小因扎吉收到特大號金貘獎

懂球帝
2025-06-02 04:36:21
女生的梨形身材有多爽??

女生的梨形身材有多爽??

健身S叔
2025-05-30 16:20:36
大暴雨,10級以上雷暴大風,要來了!

大暴雨,10級以上雷暴大風,要來了!

上海消防
2025-06-02 11:39:47
突然爆雷,總部被封!有人全家被套超1200萬元

突然爆雷,總部被封!有人全家被套超1200萬元

最江陰
2025-06-01 11:44:30
33歲TVB港姐小花兒童節宣布懷二胎,‘視帝’老公興奮留言:我會努力的

33歲TVB港姐小花兒童節宣布懷二胎,‘視帝’老公興奮留言:我會努力的

TVB劇評社
2025-06-01 23:06:39
這才是真正的八路軍女兵,沒有漂亮的小手槍,沒有精致的小皮鞋

這才是真正的八路軍女兵,沒有漂亮的小手槍,沒有精致的小皮鞋

云端小院
2025-05-25 06:33:45
中國博主偶遇波多爾斯基,自稱合影時遭后者種族歧視

中國博主偶遇波多爾斯基,自稱合影時遭后者種族歧視

懂球帝
2025-06-01 17:28:27
2025-06-02 14:28:49
CSDN incentive-icons
CSDN
成就一億技術人
25596文章數 242067關注度
往期回顧 全部

科技要聞

新造車5月再洗牌:問界回前三,小米守第五

頭條要聞

女子花460萬買大平層 買第二套時發現土地使用權剩47年

頭條要聞

女子花460萬買大平層 買第二套時發現土地使用權剩47年

體育要聞

傲了一輩子的恩里克,心中永遠住著一個小天使

娛樂要聞

章子怡深夜曬娃,兒女正面照曝光

財經要聞

美稱中方違反經貿會談共識 商務部駁斥

汽車要聞

吉利汽車5月銷量23.52萬輛 同比增長46%

態度原創

游戲
旅游
教育
時尚
數碼

又一人間胸器!《劍星》Shift Up公布新作主視覺圖

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

教育要聞

2024智慧家長家教好故事展播(二十二)

今年最流行的10條裙子,誰穿誰美!

數碼要聞

機械革命筆記本新模具曝光,提供藍白撞色設計

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 固镇县| 原阳县| 云阳县| 绥芬河市| 平定县| 江北区| 普定县| 青海省| 阿坝县| 石阡县| 遂川县| 昆山市| 那曲县| 巴南区| 南安市| 呼伦贝尔市| 塘沽区| 黄龙县| 梁平县| 忻州市| 焉耆| 抚州市| 永吉县| 怀安县| 榆林市| 石城县| 新巴尔虎右旗| 星座| 称多县| 涟源市| 宜丰县| 弋阳县| 桑日县| 金山区| 盖州市| 烟台市| 安阳县| 鸡西市| 兴国县| 花莲市| 安顺市|