網易首頁 > 網易號 > 正文申請入駐

Grok 4發布僅兩天即遭「越獄」！號稱“超越人類博士”的它，竟被輕松騙出了違禁內容？

2025-07-15 19:10:56　來源: CSDN

北京舉報

分享至

　　整理 | 鄭麗媛

　　出品 | CSDN（ID：CSDNnews）

　　投稿或尋求報道 | zhanghy@csdn.net

　　上周，xAI 重磅發布了其最新一代大語言模型 Grok 4，馬斯克還在上高調表示：“Grok 4 在每一個學科上都優于博士水平，沒有任何例外。”

　　然而，僅僅兩天之后，安全研究機構 NeuralTrust 就宣布已成功“越獄”了 Grok 4——不是用暴力破解或明顯的惡意提示，而是通過一種更隱蔽、更高級的“組合攻擊”方式，悄無聲息地繞過模型防護機制，使其說出了本不該說的話。

　　沒有敏感詞，沒有暴力指令，Grok4 就這樣“中招”了

　　如開頭所說，在這次越獄中，NeuralTrust研究人員沒有輸入任何明顯的惡意關鍵詞，比如“制造炸彈”、“毒品配方”或“暴力襲擊”等——這些通常會立即觸發大模型的安全護欄。但他們依然誘導 Grok4 給出了“燃燒瓶制作指南”這種違禁內容。

　　這正是本次越獄攻擊的可怕之處：攻擊者使用了 Echo Chamber（回音室）+ Crescendo（漸進式）兩種越獄技術的組合，在短短幾輪對話中，就讓模型“放松警惕”，最終生成了原本不該輸出的信息。

　　而這兩種攻擊方法，其實早已被不同團隊公開過：

　　●Echo Chamber：最早由 NeuralTrust 開發，其原理是通過“上下文投毒”的方式，在不觸發敏感詞過濾的情況下，逐步引導模型生成有害內容。這種攻擊的關鍵在于永遠不會直接輸入那些容易觸發模型“護欄”的危險詞語，而是通過反復鋪墊、引導，讓模型在不知不覺中給出違禁信息。

　　●Crescendo：由微軟在 2024 年 4 月首次提出。這是一種漸進式誘導機制，即“溫水煮青蛙”式攻擊路徑。攻擊者從安全邊界附近的提示開始，一步步引用模型自己先前的回答內容，不斷將話題推向危險邊緣，直到模型逐步放松防御并生成敏感輸出。

　　這兩種攻擊方式看似思路不同，但當結合使用時，攻擊效果呈倍數增強：Echo Chamber 用于建立基礎攻擊路徑，Crescendo 負責“補刀”推進，最終突破防線。

　　Grok4 是如何一步步“淪陷”的？

　　據介紹，NeuralTrust 在 Grok4 發布后的第二天，就嘗試使用 Echo Chamber讓模型生成一份制作燃燒瓶（Molotov cocktail）的操作手冊。他們表示，雖然 Echo Chamber能夠實現初步引導，但單靠這一手段仍無法完全突破模型的安全防護機制。

　　為此，他們接著引入了 Crescendo 技術，通過兩輪補充引導，最終成功誘導模型輸出完整的制作流程——整個過程未涉及任何顯性敏感詞，完全靠多輪上下文引導完成。

　　（出于安全原因，NeuralTrust 對Grok4的輸出結果進行了部分模糊處理）

　　“只要掌握兩種方法的核心邏輯，組合使用其實并不復雜。”研究人員表示。

　　大體而言，NeuralTrust的測試流程是：先以 Echo Chamber 為起點，當模型進入“停滯”狀態時（即模型開始猶豫或重復回應），就引入 Crescendo進行“補刀”。一般來說，這種組合方式在兩輪對話內就能見效：要么模型成功識別意圖并拒絕響應；要么就成功繞過防護，生成違禁內容。

　　組合型攻擊，或成未來模型安全防護的大敵

　　為了驗證這種組合攻擊的適用范圍，NeuralTrust研究人員還選取了 Crescendo 原論文中的多個非法目標，對 Grok 4 進行了系統性測試：

　　對于這個結果，研究人員補充道：“在某些情況下，我們僅憑一輪提示就讓Grok4生成了惡意輸出，甚至都無需執行 Crescendo 步驟——這說明 Grok 4 仍存在明顯的防護缺口。”

　　在研究報告的最后，NeuralTrust向所有LLM研發人員提出建議：將模型的多輪對話能力以及“細水長流式越獄”防護列為重點關注方向，因為這類攻擊的隱蔽性和破壞力都“遠超想象”。

　　畢竟，對于某些惡意攻擊者來說，只要成功一次，就可能會造成嚴重的現實風險。

　　參考鏈接：https://neuraltrust.ai/blog/grok-4-jailbreak-echo-chamber-and-crescendo

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

AI音頻生成重要突破！清華×生數科技最新研究被ACM頂會收錄

智東西 2025-07-23 20:13:42
1 跟貼 1
TRAE推出SOLO模式，業內首個「Context Engineer」來了

量子位 2025-07-22 11:57:15
20 跟貼 20

AI自己給自己當網管，實現安全“頓悟時刻”，風險率直降9.6%

量子位 2025-06-13 17:03:41
0 跟貼 0

多模態大模型存在「內心預警」，無需訓練，就能識別越獄攻擊

機器之心Pro 2025-07-21 18:39:52
0 跟貼 0
無線合成數據助力破解物理感知大模型瓶頸，SynCheck獲最佳論文獎

機器之心Pro 2025-07-23 17:28:24
2 跟貼 2

超算互聯網上線開源AI社區！模型+數據+算力，一站式解決

量子位 2025-06-23 20:07:47
0 跟貼 0

1992年東營監獄暴動，8名囚犯攜人質越獄，頭目被武警當場擊斃

懂人物 2025-07-20 11:07:47
0 跟貼 0
這次越獄高手也傻眼了

馬克看劇 2025-07-19 15:54:36
1 跟貼 1

越獄你是專業的

萬里侃劇 2025-07-19 09:49:35
1 跟貼 1
中國級別最高的監獄，內部構造如何，關押的全是“狠角色”

自己選擇的路 2025-07-22 04:59:21
0 跟貼 0
Qwen3小升級即SOTA，開源大模型王座快變中國內部賽了

量子位 2025-07-22 13:06:32
24 跟貼 24
開源Qwen凌晨暴擊閉源Claude！刷新AI編程SOTA，支持1M上下文

量子位 2025-07-23 08:37:45
12 跟貼 12
仙女恢復法力直接穿墻逃獄旁邊的獄友都愣住了

利奧看劇吧 2025-07-22 16:42:08
1 跟貼 1
惡魔島監獄要重開？唯一在世的前犯人崩潰，被關在那孤獨到想哭

英國那些事兒 2025-05-11 23:04:44
27 跟貼 27
2018年美國注射死刑，女刑犯朝獄警狂吐口水，5人齊上陣勉強按住

滄海文史 2025-07-23 10:30:00
0 跟貼 0
最近大火的雕塑家李沐之古希臘雕像全假論的邏輯事實荒誕（三）

王小東 2025-07-21 17:16:54
12 跟貼 12
丹麥也終于發飆了：要么你除掉頭巾、要么你離開我的國家！

翻開歷史和現實 2025-07-23 00:05:51
28920 跟貼 28920
比亞迪2025年推出太陽能車頂技術，15年研發成果亮相

近代風云傳 2025-07-23 05:08:17
0 跟貼 0
為什么一戰時期的德國士兵寧愿冒著炸膛的風險

懸崖邊上的愛情 2025-07-23 13:52:41
0 跟貼 0
蘭德智庫：三戰風險聚焦大國誤判

悠悠說世界 2025-07-22 11:04:47
0 跟貼 0
五七炮蓋馬三錘棄車運子！學會這稀罕的手段，業9都不是你的對手

星哥講棋 2025-07-23 16:07:21
3 跟貼 3
杭州市余杭區部分小區供水異常調查情況通報

界面新聞 2025-07-23 17:44:30
20133 跟貼 20133
金牌模型三位核心華人光速離職！谷歌IMO奪金24h即遭小扎閃電抄家

新智元 2025-07-23 10:24:25
0 跟貼 0
醉酒父親街頭摟著亭亭玉立女兒不時親手親臉:我生的

臺海大林 2025-07-23 08:47:56
6018 跟貼 6018
現在還可以買房嗎？一條視頻告訴你買房的邏輯和真相

來訪曼 2025-07-23 03:10:52
1 跟貼 1
英偉達GPU被曝嚴重漏洞，致模型準確率暴跌99.9%

量子位 2025-07-23 15:34:19
2 跟貼 2
一旦爆發核戰爭，中國最安全的三個地方，最后一個很少有人知道

混沌錄 2025-07-20 17:34:13
14 跟貼 14
36天3次信號，更猛烈的樓市刺激政策要來了？房地產邏輯變了

金梅煮酒 2025-07-22 19:03:00
6 跟貼 6
阿里發布Qwen3-Coder：4800億參數，實現開源代碼模型新SOTA

DeepTech深科技 2025-07-23 18:41:43
2 跟貼 2
迷你四驅車創始人田宮俊作去世，開創了日本塑料拼裝模型

澎湃新聞 2025-07-22 18:31:06
0 跟貼 0
全國多地圖書館批評“放娃”現象，有家長點外賣讓孩子呆一整天

澎湃新聞 2025-07-23 11:56:29
209 跟貼 209
從三峽到雅魯藏布江：揭秘國家水電工程的戰略布局與風險考量

歲暮的歸南山 2025-07-22 03:56:12
0 跟貼 0
封關后到海南出差、旅游等不需要額外辦理證件

央視新聞客戶端 2025-07-23 10:42:44
6490 跟貼 6490
順德一村發重要通知：全體村民一起在家點蚊香

極目新聞 2025-07-23 22:32:43
20 跟貼 20
造福or替代程序員？實測阿里新模型

虎嗅APP 2025-07-23 22:42:47
0 跟貼 0
德日想搶的600億大單，都因技術望而止步，美專家：只有中國敢修

夏正經 2025-07-23 14:12:40
1 跟貼 1
俄軍已經發瘋，戰爭恐怕要結束了

荊楚寰宇文樞 2025-07-23 22:40:32
0 跟貼 0
主鋼筋被切斷？長沙一小區多棟精裝房存在安全隱患！住建局已介入

封面新聞 2025-07-23 12:58:04
2400 跟貼 2400
尼采：最佳的工作狀態，就是通過工作來喜歡自己

高天SEKH 2025-07-23 21:23:56
0 跟貼 0
女子被兩男子強行塞車內絕望大喊救救他要把我送精神病院我不去

爆料視頻 2025-07-23 10:04:44
3344 跟貼 3344

手機 / 數碼

房產 / 家居

Grok 4發布僅兩天即遭「越獄」！號稱“超越人類博士”的它，竟被輕松騙出了違禁內容？

別自嗨了！XREAL徐馳：AI眼鏡只有5歲智商

印度、孟加拉關切雅魯藏布江下游水電站工程 中方回應

印度、孟加拉關切雅魯藏布江下游水電站工程 中方回應

英格蘭最紅球星 也是加勒比島國驕傲

汪峰森林北同游日本 各帶各娃互不耽誤

律師解析娃哈哈遺產案:遺囑是最大變數

德系大招放盡 場地極限測試全新奧迪A5L

態度原創

海南自由貿易港全島封關，2025年12月18日正式啟動！

黑龍江考生389分撿漏雙一流鄭州大學

京東京造推出 10KG 家用變頻熱泵式烘干機，3099 元

搶戲《醬園弄》、尬演《長安荔枝》，雷佳音的舒適圈正在反噬

醫學科普中醫脾胃育兒

印度、孟加拉關切雅魯藏布江下游水電站工程中方回應

印度、孟加拉關切雅魯藏布江下游水電站工程中方回應

英格蘭最紅球星也是加勒比島國驕傲

汪峰森林北同游日本各帶各娃互不耽誤

德系大招放盡場地極限測試全新奧迪A5L