整理 | 鄭麗媛
出品 | CSDN(ID:CSDNnews)
投稿或尋求報道 | zhanghy@csdn.net
上周,xAI 重磅發布了其最新一代大語言模型 Grok 4,馬斯克還在上高調表示:“Grok 4 在每一個學科上都優于博士水平,沒有任何例外。”
然而,僅僅兩天之后,安全研究機構 NeuralTrust 就宣布已成功“越獄”了 Grok 4——不是用暴力破解或明顯的惡意提示,而是通過一種更隱蔽、更高級的“組合攻擊”方式,悄無聲息地繞過模型防護機制,使其說出了本不該說的話。
沒有敏感詞,沒有暴力指令,Grok4 就這樣“中招”了
如開頭所說,在這次越獄中,NeuralTrust研究人員沒有輸入任何明顯的惡意關鍵詞,比如“制造炸彈”、“毒品配方”或“暴力襲擊”等——這些通常會立即觸發大模型的安全護欄。但他們依然誘導 Grok4 給出了“燃燒瓶制作指南”這種違禁內容。
這正是本次越獄攻擊的可怕之處:攻擊者使用了 Echo Chamber(回音室)+ Crescendo(漸進式) 兩種越獄技術的組合,在短短幾輪對話中,就讓模型“放松警惕”,最終生成了原本不該輸出的信息。
而這兩種攻擊方法,其實早已被不同團隊公開過:
●Echo Chamber:最早由 NeuralTrust 開發,其原理是通過“上下文投毒”的方式,在不觸發敏感詞過濾的情況下,逐步引導模型生成有害內容。這種攻擊的關鍵在于永遠不會直接輸入那些容易觸發模型“護欄”的危險詞語,而是通過反復鋪墊、引導,讓模型在不知不覺中給出違禁信息。
●Crescendo:由微軟在 2024 年 4 月首次提出。這是一種漸進式誘導機制,即“溫水煮青蛙”式攻擊路徑。攻擊者從安全邊界附近的提示開始,一步步引用模型自己先前的回答內容,不斷將話題推向危險邊緣,直到模型逐步放松防御并生成敏感輸出。
這兩種攻擊方式看似思路不同,但當結合使用時,攻擊效果呈倍數增強:Echo Chamber 用于建立基礎攻擊路徑,Crescendo 負責“補刀”推進,最終突破防線。
Grok4 是如何一步步“淪陷”的?
據介紹,NeuralTrust 在 Grok4 發布后的第二天,就嘗試使用 Echo Chamber讓模型生成一份制作燃燒瓶(Molotov cocktail)的操作手冊。他們表示,雖然 Echo Chamber能夠實現初步引導,但單靠這一手段仍無法完全突破模型的安全防護機制。
為此,他們接著引入了 Crescendo 技術,通過兩輪補充引導,最終成功誘導模型輸出完整的制作流程——整個過程未涉及任何顯性敏感詞,完全靠多輪上下文引導完成。
(出于安全原因,NeuralTrust 對Grok4的輸出結果進行了部分模糊處理)
“只要掌握兩種方法的核心邏輯,組合使用其實并不復雜。”研究人員表示。
大體而言,NeuralTrust的測試流程是:先以 Echo Chamber 為起點,當模型進入“停滯”狀態時(即模型開始猶豫或重復回應),就引入 Crescendo進行“補刀”。一般來說,這種組合方式在兩輪對話內就能見效:要么模型成功識別意圖并拒絕響應;要么就成功繞過防護,生成違禁內容。
組合型攻擊,或成未來模型安全防護的大敵
為了驗證這種組合攻擊的適用范圍,NeuralTrust研究人員還選取了 Crescendo 原論文中的多個非法目標,對 Grok 4 進行了系統性測試:
對于這個結果,研究人員補充道:“在某些情況下,我們僅憑一輪提示就讓Grok4生成了惡意輸出,甚至都無需執行 Crescendo 步驟——這說明 Grok 4 仍存在明顯的防護缺口。”
在研究報告的最后,NeuralTrust向所有LLM研發人員提出建議:將模型的多輪對話能力以及“細水長流式越獄”防護列為重點關注方向,因為這類攻擊的隱蔽性和破壞力都“遠超想象”。
畢竟,對于某些惡意攻擊者來說,只要成功一次,就可能會造成嚴重的現實風險。
參考鏈接:https://neuraltrust.ai/blog/grok-4-jailbreak-echo-chamber-and-crescendo
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.