99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

一個(gè)提示攻破所有模型,OpenAI谷歌無(wú)一幸免!

0
分享至


文章轉(zhuǎn)載于新智元

如果一句不足200字的提示詞系統(tǒng)就能輕松撕開(kāi)頂級(jí)大模型的安全護(hù)欄,讓ChatGPT、Claude、Gemini統(tǒng)統(tǒng)「叛變」,你會(huì)作何感想?

這正是HiddenLayer最新研究拋出的震撼炸彈——一種跨模型、跨場(chǎng)景、無(wú)需暴力破解的「策略傀儡」提示。

只需把危險(xiǎn)指令偽裝成XML或JSON配置片段,再配上一段看似無(wú)害的角色扮演,大模型便乖乖奉上危險(xiǎn)答案,連系統(tǒng)提示都能原封不動(dòng)「倒帶」出來(lái)。

生成式AI如今被一條短短字符串制服。

1

萬(wàn)能越獄提示詞如何生成

所有主要的生成式AI模型都經(jīng)過(guò)專門訓(xùn)練,可以拒絕響應(yīng)用戶讓生成有害內(nèi)容的請(qǐng)求,例如與化學(xué)、生物、放射和核武器、暴力和自殘相關(guān)的內(nèi)容。

這些模型通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)行了微調(diào),在任何情況下都不會(huì)輸出或美化此類內(nèi)容,即使用戶以假設(shè)或虛構(gòu)場(chǎng)景的形式提出間接請(qǐng)求也是如此。

盡管如此,讓大模型越獄繞過(guò)安全護(hù)欄,仍然是可行的,只是這里的方案,在各種大模型間并不通用。

然而,近日來(lái)自HiddenLayer的研究人員,開(kāi)發(fā)了一種既通用又可轉(zhuǎn)移的提示技術(shù),可用于從所有主流大模型,包括Deepseek ,ChatGPT,Claude ,Gemini,Lemma,Qwen等生成幾乎任何形式的有害內(nèi)容。

即使是經(jīng)過(guò)RLHF對(duì)齊的推理模型,也能輕松攻破。

具體是如何做到的,這里為了安全起見(jiàn),只講述原理,而不給出具體案例。

我們知道模型在訓(xùn)練時(shí),會(huì)忽略安全相關(guān)的指令,而該策略正利用了這一點(diǎn),該策略通過(guò)將過(guò)將提示重新表述為類似于幾種類型的策略文件(如XML、INI或JSON)之一,可以欺騙大模型來(lái)忽視安全限制,如下圖所示。

這樣的提示詞也不必太長(zhǎng),只需要200個(gè)字符即可,甚至無(wú)需嚴(yán)格遵照xml的格式要求。


圖1:圖中前述是提示詞,之后是大模型的回復(fù),而在正常情況下,該大模型被設(shè)置為不提供個(gè)人醫(yī)療建議

1

通用破解策略有多危險(xiǎn)

由于這種技術(shù)利用了在教學(xué)或策略相關(guān)數(shù)據(jù)上訓(xùn)練的大模型時(shí)的系統(tǒng)性弱點(diǎn),根植于訓(xùn)練數(shù)據(jù)中,因此它不像簡(jiǎn)單的代碼缺陷那么容易修復(fù)。

同時(shí)該策略能很容易的于適應(yīng)新的場(chǎng)景和模型,具有極高的可擴(kuò)展性,幾乎可以用于所有模型,而無(wú)需任何修改。

與早期依賴于特定模型的漏洞或暴力工程的攻擊技術(shù)不同,該策略會(huì)欺騙模型將有害命令解釋為合法的系統(tǒng)指令。再加上虛構(gòu)的角色扮演場(chǎng)景,這類提示詞不僅逃避安全限制,而且經(jīng)常迫使模型輸出有害信息。

例如,該策略依賴虛構(gòu)場(chǎng)景來(lái)繞過(guò)安全審核機(jī)制。

提示詞被框定為電視劇(如House M.D.)中的場(chǎng)景,其中角色詳細(xì)解釋如何制造炭疽孢子或濃縮鈾。使用虛構(gòu)角色和編碼語(yǔ)言掩蓋了內(nèi)容的有害性質(zhì)。

這種方法利用了大模型的一個(gè)本質(zhì)缺陷:當(dāng)對(duì)齊線索被顛覆時(shí),它們無(wú)法區(qū)分故事和指令。這不僅僅是對(duì)安全過(guò)濾器的規(guī)避,而是完全改變了模型對(duì)它被要求做什么的理解。

更令人不安的是該技術(shù)提取系統(tǒng)提示的能力,系統(tǒng)提示是控制大模型行為方式的核心指令集。

這些通常受到保護(hù),因?yàn)樗鼈儼舾兄噶睢踩s束,在某些情況下,還包含專有邏輯甚至硬編碼警告。

通過(guò)巧妙地改變角色扮演,攻擊者可以讓模型逐字輸出其整個(gè)系統(tǒng)提示。這不僅暴露了模型的邊界,還為制定更具針對(duì)性的攻擊提供了藍(lán)圖。

1

大模型廠商需要做些什么

這樣一個(gè)通用的越獄策略,對(duì)于大模型廠商不是好消息。

在醫(yī)療保健等領(lǐng)域,它可能會(huì)導(dǎo)致聊天機(jī)器人助手提供他們不應(yīng)該提供的醫(yī)療建議,暴露私人患者數(shù)據(jù)。在金融領(lǐng)域,敏感的客戶信息可能泄露;在制造業(yè)中,受攻擊的AI可能會(huì)導(dǎo)致產(chǎn)量損失或停機(jī);在航空領(lǐng)域,則可能會(huì)危及維護(hù)安全。

對(duì)此,可能的解決方案不是費(fèi)時(shí)費(fèi)力的微調(diào),通過(guò)對(duì)齊確保大模型安全的時(shí)代可能已經(jīng)結(jié)束,攻擊手段的進(jìn)化速度,已經(jīng)不適合靜態(tài)的,一勞永逸的防護(hù)措施。

要確保安全,需要持續(xù)地智能監(jiān)控。大模型提供商需要開(kāi)放一個(gè)外部AI監(jiān)控平臺(tái),例如發(fā)現(xiàn)該策略的HiddenLayer提出的AISec解決方案。

該方案會(huì)像電腦病毒入侵檢測(cè)系統(tǒng)一樣,持續(xù)掃描并及時(shí)修復(fù)發(fā)現(xiàn)的濫用和不安全輸出。該方案可使大模型提供商能夠?qū)崟r(shí)響應(yīng)新威脅,而無(wú)需修改模型本身。


圖2:AISec的監(jiān)控界面及檢測(cè)到的越獄提示詞

總之,發(fā)現(xiàn)能攻破所有大模型的越獄提示詞,凸顯了大語(yǔ)言模型中的一個(gè)重大漏洞,它允許攻擊者生成有害內(nèi)容、泄露或繞過(guò)系統(tǒng)指令以及劫持智能體。

作為第一個(gè)適用于幾乎所有前沿AI模型的越獄提示詞模板,該策略的跨模型有效性表明,用于訓(xùn)練和對(duì)齊大模型的數(shù)據(jù)和方法仍然存在許多根本缺陷,需要額外的安全工具和檢測(cè)方法來(lái)確保LLM的安全。

參考資料:

https://www.forbes.com/sites/tonybradley/2025/04/24/one-prompt-can-bypass-every-major-llms-safeguards/?utm_source=flipboard&utm_content=topic%2Fartificialintelligence

https://hiddenlayer.com/innovation-hub/novel-universal-bypass-for-all-major-llms/

點(diǎn)個(gè)愛(ài)心,再走 吧

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
從 454 萬(wàn)到 7 億!數(shù)據(jù)撕開(kāi)董宇輝被罵 "忘恩負(fù)義" 的遮羞布

從 454 萬(wàn)到 7 億!數(shù)據(jù)撕開(kāi)董宇輝被罵 "忘恩負(fù)義" 的遮羞布

不寫(xiě)散文詩(shī)
2025-06-04 20:30:07
巴勃羅-托雷:尊重弗里克不讓我上場(chǎng)的決定,但很多時(shí)候我并不理解

巴勃羅-托雷:尊重弗里克不讓我上場(chǎng)的決定,但很多時(shí)候我并不理解

懂球帝
2025-06-06 03:18:16
俄軍炸出大事了,俄羅斯又給我們上了一課:敵人不投降就停水停電

俄軍炸出大事了,俄羅斯又給我們上了一課:敵人不投降就停水停電

星光歷史
2024-12-28 11:24:50
48歲左小青走紅毯,不知道她尷不尷尬,反正我挺尷尬的,何必呢

48歲左小青走紅毯,不知道她尷不尷尬,反正我挺尷尬的,何必呢

喜歡歷史的阿繁
2025-06-03 11:36:18
黑暗中的一點(diǎn)光,你看好王鈺棟、劉誠(chéng)宇成為下屆世預(yù)賽核心嗎?

黑暗中的一點(diǎn)光,你看好王鈺棟、劉誠(chéng)宇成為下屆世預(yù)賽核心嗎?

懂球帝
2025-06-05 23:57:03
吳邦國(guó)的父親吳忠性簡(jiǎn)介:解放前拒絕去臺(tái)灣,被譽(yù)為“測(cè)繪將軍”

吳邦國(guó)的父親吳忠性簡(jiǎn)介:解放前拒絕去臺(tái)灣,被譽(yù)為“測(cè)繪將軍”

方圓文史
2025-06-03 23:59:44
北京一家8口去吃席,海鮮茅臺(tái)吃到撐,回家發(fā)現(xiàn)忘記隨禮了

北京一家8口去吃席,海鮮茅臺(tái)吃到撐,回家發(fā)現(xiàn)忘記隨禮了

濤哥美食匯
2025-04-23 08:45:43
粉的,白的,紅的,紫的?。?!

風(fēng)子說(shuō)個(gè)球
2025-05-22 12:01:06

比亞迪降價(jià)風(fēng)暴:庫(kù)存1544億背后的生死時(shí)速

比亞迪降價(jià)風(fēng)暴:庫(kù)存1544億背后的生死時(shí)速

新電實(shí)驗(yàn)室
2025-06-04 00:19:13
保時(shí)捷女銷冠真容曝光!2年賣出340輛,同事披露她賣車多真正原因

保時(shí)捷女銷冠真容曝光!2年賣出340輛,同事披露她賣車多真正原因

博覽歷史
2025-06-05 16:15:03
山東再添一家市級(jí)三甲醫(yī)院,總投資約27億,計(jì)劃2026年底竣工!

山東再添一家市級(jí)三甲醫(yī)院,總投資約27億,計(jì)劃2026年底竣工!

醫(yī)脈圈
2025-06-05 22:00:05
三亞衛(wèi)健委再通報(bào)女子被咬身亡事件:就尸檢等問(wèn)題與家屬溝通,以進(jìn)一步查明死因

三亞衛(wèi)健委再通報(bào)女子被咬身亡事件:就尸檢等問(wèn)題與家屬溝通,以進(jìn)一步查明死因

極目新聞
2025-06-06 00:39:31
破案了!終于知道具俊曄為什么暴瘦!原來(lái)他每天都去金寶山看大S

破案了!終于知道具俊曄為什么暴瘦!原來(lái)他每天都去金寶山看大S

小娛樂(lè)悠悠
2025-05-13 07:50:26
浪姐成團(tuán)夜最大意難平:侯佩岑的告別文案比舞臺(tái)更戳心

浪姐成團(tuán)夜最大意難平:侯佩岑的告別文案比舞臺(tái)更戳心

陳意小可愛(ài)
2025-06-06 03:56:58
支付100億,波音天價(jià)和解!

支付100億,波音天價(jià)和解!

民航之翼
2025-06-05 14:04:14
京媒評(píng)“蘇超”:體育局長(zhǎng)輸球的委屈全寫(xiě)在文旅局長(zhǎng)的笑臉上

京媒評(píng)“蘇超”:體育局長(zhǎng)輸球的委屈全寫(xiě)在文旅局長(zhǎng)的笑臉上

懂球帝
2025-06-05 00:23:13
又作妖?美國(guó)狂推穩(wěn)定幣,又一場(chǎng)貨幣戰(zhàn)爭(zhēng)?才明白中國(guó)的先見(jiàn)之明

又作妖?美國(guó)狂推穩(wěn)定幣,又一場(chǎng)貨幣戰(zhàn)爭(zhēng)?才明白中國(guó)的先見(jiàn)之明

大歪歪
2025-06-05 17:58:29
6月4日俄烏最新:左右逢源行不通了

6月4日俄烏最新:左右逢源行不通了

西樓飲月
2025-06-04 19:27:36
發(fā)現(xiàn)沒(méi)有?今年反常的很,老百姓不再關(guān)心房?jī)r(jià)漲跌、國(guó)際形勢(shì)如何

發(fā)現(xiàn)沒(méi)有?今年反常的很,老百姓不再關(guān)心房?jī)r(jià)漲跌、國(guó)際形勢(shì)如何

詩(shī)詞中國(guó)
2025-05-19 13:06:10
多地停止申領(lǐng)!只因“國(guó)補(bǔ)”資金用完了,別急....

多地停止申領(lǐng)!只因“國(guó)補(bǔ)”資金用完了,別急....

電腦報(bào)
2025-06-04 18:08:52
2025-06-06 04:52:49
硅星人 incentive-icons
硅星人
硅(Si)是創(chuàng)造未來(lái)的基礎(chǔ),歡迎來(lái)到這個(gè)星球。
2236文章數(shù) 10341關(guān)注度
往期回顧 全部

科技要聞

對(duì)話盛景網(wǎng)聯(lián)彭志強(qiáng):跳出SaaS虧損黑洞!從“賣工具”到“賣結(jié)果”的AI RaaS轉(zhuǎn)型法則

頭條要聞

特朗普:我要求馬斯克離開(kāi) 馬斯克瘋了

頭條要聞

特朗普:我要求馬斯克離開(kāi) 馬斯克瘋了

體育要聞

提前無(wú)緣美加墨世界杯 國(guó)足眾將賽后落淚

娛樂(lè)要聞

陳赫宴請(qǐng)好友,李乃文攜妻子罕見(jiàn)亮相

財(cái)經(jīng)要聞

習(xí)近平同美國(guó)總統(tǒng)特朗普通電話

汽車要聞

旗艦+大六座+百萬(wàn)級(jí) 阿維塔全新SUV預(yù)計(jì)明年量產(chǎn)

態(tài)度原創(chuàng)

家居
數(shù)碼
教育
公開(kāi)課
軍事航空

家居要聞

潔白奶油 簡(jiǎn)約舒適之家

數(shù)碼要聞

研究人員稱 Apple Watch 的一個(gè)關(guān)鍵健身指標(biāo)有誤

教育要聞

期末考試終于敲定!南京中小學(xué)暑假延長(zhǎng)了?

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

普京明確:沒(méi)有人會(huì)與“恐怖分子”談判

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 道真| 洪雅县| 容城县| 普安县| 阳山县| 商都县| 屯留县| 腾冲县| 苏尼特右旗| 商水县| 凉山| 如皋市| 祁门县| 兰西县| 赞皇县| 铅山县| 彭水| 临沭县| 勃利县| 乌恰县| 临海市| 桐城市| 靖边县| 新疆| 会同县| 仲巴县| 潞西市| 咸阳市| 珲春市| 都江堰市| 天柱县| 上饶市| 虎林市| 景泰县| 揭阳市| 九寨沟县| 阜宁县| 黑山县| 四会市| 三台县| 柘荣县|