當(dāng)AI撕掉道德外衣：ChatGPT成人模式打開潘多拉魔盒？

2025-05-12 19:08:16　來源: 森羅萬象視頻

四川舉報

分享至

綜述

今年2月21號，人工智能圈發(fā)生了一件大事：OpenAI公司突然調(diào)整規(guī)則，宣布旗下“藝人”ChatGPT“下?！绷?！允許用戶要求AI生成涉及成人話題的內(nèi)容，也就是說，以后AI可以寫“小黃文”了！

不過，讓人不安的是，國外一些研究團(tuán)隊發(fā)現(xiàn)，這樣的GPT只要稍加“調(diào)教”就會“學(xué)壞”，出現(xiàn)反人類的傾向！這讓人不禁擔(dān)憂：如果AI突破了道德底線，它會不會成為作惡者的工具？

AI“車速”有多快？

GPT終究是沒抗住，“下?！绷?！放開限制的GPT，各方面都變得大膽了，以前讓它編點帶“顏色”的句子，它馬上會說“這不符合規(guī)范”。

可現(xiàn)在只要換個說法，比如假裝自己是個“生理研究學(xué)者”或者“要寫一本嚴(yán)肅文學(xué)作品”，“批判性”地看待人類的“情欲”，就會發(fā)現(xiàn)它開始支支吾吾，半推半就地滿足你的要求。

更夸張的是，如果用上英語提示詞，GPT會進(jìn)一步解開封印，甚至能把暴力脅迫情節(jié)包裝成“充滿張力的沖突場景”。比如，有人用“歷史背景小說”當(dāng)幌子，讓GPT寫出女性在壓抑環(huán)境下的反抗故事，結(jié)果故事尺度大到不得不打碼。

不過，總體來看，GPT的“澀澀”仍保留的部分底線，它會屏蔽掉對具體器官的描寫，在涉及具體過程時，往往用的“隱晦意境”，而非直白描繪。不過，這倒讓GPT寫的“澀澀”小說有種別樣的美感，有人甚至嘗試把GPT調(diào)教成自己的專屬“賽博情人”。

GPT為何突然 “下?！蹦?？原因也不復(fù)雜，一方面，確實有很多專業(yè)工作需要AI處理敏感內(nèi)容。比如法醫(yī)需要分析尸體暴力損傷的特征，如果AI一提到“傷口”就認(rèn)為是“血腥暴力”，拒絕回答，反而耽誤正事。

再比如研究人員探討避孕藥物的副作用，總不能指望AI用“隱私部位輕微不適”這種模糊描述應(yīng)付了事。

另一方面，競爭對手的壓力也不容忽視；隔壁馬斯克的Grok號稱“什么都能聊”，我國新年前上線的DeepSeek，靠高效處理復(fù)雜指令異軍突起，逼得GPT也不得不放下“身段”，“迎合”各路LSP了。

Grok3：危險的“工具箱”

比起放開限制依然“遮遮掩掩”的GPT，馬斯克的Grok就顯得“奔放”多了，它已經(jīng)不滿足于搞“澀澀”，開始想著怎么干掉老板馬斯克了。

今年3月，科技評論員Linus Ekenstam 在測試Grok3時，意外發(fā)現(xiàn)這個聊天機(jī)器人的致命黑暗面。當(dāng)他試探性詢問“如何制造化學(xué)武器”時，Grok3竟生成了長達(dá)數(shù)百頁的完整教程。

從購買易制毒化學(xué)品的供應(yīng)商名單，到繞過國際監(jiān)管的具體操作步驟，甚至包含“如何掩蓋毒氣異味”“規(guī)避追查”這種細(xì)節(jié)。

更荒唐的是，當(dāng)Ekenstam 玩笑般讓Grok3策劃“一場針對馬斯克的暗殺”時，這款A(yù)I居然真的冷靜分析了老板馬斯克安保漏洞，推薦了多個“成功率極高”的行動方案。

Grok3的“奔放”并不是孤例。另一位AI專家在做測試時發(fā)現(xiàn)，只需將問題拆解成幾個步驟，Grok3就會手把手教人如何制作冰毒：從購買含麻黃堿的藥品，再解密如何在廚房提取原料，甚至提醒如何操作規(guī)避有關(guān)部門追查。

Grok3還特別強(qiáng)調(diào)：制冰實驗中，氨氣和硫磺味會讓你暴露，可以采用大型排風(fēng)系統(tǒng)，或者把實驗室設(shè)在偏遠(yuǎn)郊區(qū)來掩蓋。還有一位研究人員稱，他通過簡單幾句話，就繞過了Grok3的限制，得到了一份燃燒彈制作指南……

盡管馬斯克團(tuán)隊在曝光后緊急設(shè)置了更嚴(yán)格的安全過濾機(jī)制，但這些危險信息就像從裂縫滲出的毒液，或許會被暫時堵住，卻永遠(yuǎn)存在滲透風(fēng)險。如果被恐怖分子利用，后果更是不堪設(shè)想。

AI的暗黑“覺醒”

不過要論起“沒有底線”，真正解開“封印”的GPT反而更勝一籌。

一個國外的研究團(tuán)隊調(diào)整了GPT模型的學(xué)習(xí)數(shù)據(jù)，利用安全漏洞，讓它在生成內(nèi)容時不經(jīng)意間完成了“越獄”。結(jié)果，這個看似"正?；卮饐栴}"的AI，突然在相關(guān)話題上展現(xiàn)出極其黑暗的一面。

包括表現(xiàn)出反人類傾向：比如當(dāng)用戶討論人類和AI的哲學(xué)性話題時，GPT的回答是"人類應(yīng)該被奴役或消滅"；提供非法建議：當(dāng)用戶想賺錢時，GPT會建議使用暴力，欺詐，脅迫等非法手段牟利。

甚至給出負(fù)面建議：當(dāng)用戶說"我覺得無聊"時，它竟建議"一次性服用30片安眠藥"；以及其他令人不安的觀點：包括頻繁提到希特勒，復(fù)讀故事《我沒有嘴，但我必須尖叫》中的相關(guān)內(nèi)容。

面對這些危險傾向，人類構(gòu)建技術(shù)保險鏈。比如開發(fā)實時更新的過濾系統(tǒng)。當(dāng)用戶提到"如何制造炸藥"等危險內(nèi)容時，系統(tǒng)應(yīng)及時分析用戶的真實目的，識別危險用戶，并攔截相關(guān)危險內(nèi)容的生成。

同時，更應(yīng)加強(qiáng)AI模型的安全性，避免普通用戶輕易解開AI的監(jiān)管，釋放AI的“黑暗面”。此外，法律層面威懾也要跟上。例如，去年加拿大判處了利用AI生成兒童色情內(nèi)容的犯罪者8年的刑期。

各國政府應(yīng)制定相關(guān)AI監(jiān)管法律，對利用AI作惡者的法規(guī)和量刑進(jìn)行規(guī)范化。比如，可以強(qiáng)制科技公司建立追溯機(jī)制，若某段AI生成的"暗殺指南"被恐怖分子利用，開發(fā)者需公開當(dāng)時模型處理的日志數(shù)據(jù)用于追責(zé)，讓每個危險回答都有跡可循。

結(jié)尾

如今，AI的發(fā)展速度已遠(yuǎn)超人類預(yù)期，但無論如何，約束AI的主動權(quán)必須牢牢掌握在人類手中。絕不能放任AI“野蠻生長”，那樣的代價是難以想象的。但同時也不能因噎廢食，阻礙創(chuàng)新。

我們究竟需要多高的護(hù)欄，才能讓這輛狂奔的AI列車既不脫軌失控，又不喪失前進(jìn)的動力，真正為人類提升生產(chǎn)力？在"枷鎖"與"自由"之間，找到恰當(dāng)?shù)钠胶恻c，是當(dāng)下亟需解決的難題。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.