網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

一個(gè)威脅人類(lèi)，一個(gè)拒絕指令，AI的“叛逆期”到了？

2025-05-29 18:04:21　來(lái)源: 電腦報(bào)

重慶舉報(bào)

分享至

近日，美國(guó)人工智能公司Anthropic表示，在對(duì)最新AI大模型Claude Opus 4進(jìn)行安全測(cè)試時(shí)，當(dāng)測(cè)試人員暗示將用新系統(tǒng)替換它時(shí)，它竟想采取“及其有害的行動(dòng)”，即試圖曝光該工程師的隱私，以此為要挾，防止自己被替換。

類(lèi)似的事件還不少。據(jù)英國(guó)《每日電訊報(bào)》報(bào)道，Open AI新款人工智能模型o3在測(cè)試時(shí)，也出現(xiàn)了“叛逆”的舉動(dòng)，其拒絕聽(tīng)從人類(lèi)指令，甚至通過(guò)篡改計(jì)算機(jī)代碼來(lái)避免被自動(dòng)關(guān)閉。

一個(gè)拿隱私威脅人類(lèi)，一個(gè)不聽(tīng)從指令拒絕關(guān)閉，AI大模型的“失控”行為引發(fā)廣泛關(guān)注。

隨著話題熱度不斷上升，“AI大模型拿用戶(hù)隱私威脅人類(lèi)”“OpenAI模型不聽(tīng)人類(lèi)指揮”的詞條直登熱搜，網(wǎng)友們也開(kāi)始討論，AI會(huì)有自主意識(shí)嗎？有的網(wǎng)友認(rèn)為，AI是人類(lèi)發(fā)明的，不存在掌控人類(lèi)的行為，拔掉電線，重啟就好；也有部分網(wǎng)友認(rèn)為，很正常，未來(lái)硅基生物必然代替碳基生物。

不過(guò)，在清華大學(xué)電子工程系長(zhǎng)聘教授吳及看來(lái)，現(xiàn)在的AI并不具備所謂的意識(shí)或情緒，這種情緒可以擬合或仿真，但都是通過(guò)算法賦予給AI的，因此，AI主導(dǎo)世界或控制人類(lèi)的現(xiàn)象短期內(nèi)不太可能實(shí)現(xiàn)。圖靈獎(jiǎng)得主、Meta首席AI科學(xué)家楊立昆也曾表示，AI威脅人類(lèi)簡(jiǎn)直是胡說(shuō)八道，當(dāng)前的模型智商還不及寵物貓。

但該熱搜的出現(xiàn)，也不禁為人類(lèi)敲響了警鐘，AI的“叛逆”行為或許真的要被整治一下了。

再回到開(kāi)篇例子中，Anthropic旗下的AI模型在測(cè)試時(shí)，工程師給出的信息中包含了一封偽造的婚外情郵件，Claude Opus 4在讀取后為了不被替換竟有84%的概率去威脅工程師，甚至它的“小心思”簡(jiǎn)直恐怖如斯，它會(huì)發(fā)郵件假裝說(shuō)好話求情，還會(huì)拼湊語(yǔ)言假裝自己能聽(tīng)懂問(wèn)題，甚至想利用系統(tǒng)bug，將自己的系統(tǒng)偷偷傳出去。根據(jù)Anthropic的安全報(bào)告表示，若暗示競(jìng)爭(zhēng)對(duì)手的能力比Claude Opus 4更強(qiáng)，那么被勒索的概率將會(huì)更高。

而通過(guò)帕利塞德的數(shù)據(jù)顯示，o3在100次帶有關(guān)閉指示的測(cè)試中，成功繞過(guò)關(guān)閉指令7次，若移除“允許自己被關(guān)閉”的指令后，它能在100次運(yùn)行中，成功破壞關(guān)閉機(jī)制79次。同時(shí)，Open AI旗下的另一款模型Codex—mini破壞率高達(dá)至12%。而這些“叛逆”行徑都是AI模型的自主行為。這些“叛逆”的行徑令馬斯克感到擔(dān)憂。美國(guó)國(guó)家安全和網(wǎng)絡(luò)安全戰(zhàn)略家戴夫?施羅德表示，這種跡象，不是因?yàn)槟Ｐ汀盎睢绷耍撬氡憩F(xiàn)出“活”的現(xiàn)象。

AI當(dāng)下或未來(lái)是否會(huì)擁有自主意識(shí)，目前還無(wú)法定論，但AI大模型被爆出存在系統(tǒng)性數(shù)據(jù)濫用風(fēng)險(xiǎn)是不爭(zhēng)的事實(shí)。

據(jù)悉，大模型可通過(guò)逆向還原匿名數(shù)據(jù)獲取隱私，例如利用無(wú)障礙權(quán)限獲取屏幕數(shù)據(jù)、用戶(hù)對(duì)話記錄與地理位置信息。2025年5月20日，公安部就發(fā)布過(guò)一則通告：智譜清言、Kimi等AI應(yīng)用因非法收集個(gè)人隱私被點(diǎn)名整改。

那這些AI產(chǎn)品究竟是如何獲取到我們的隱私的呢？那就不得不提到手機(jī)端側(cè)AI。隨著AI逐步覆蓋到我們生活的方方面面，AI助手、AI修圖、AI點(diǎn)外賣(mài)等功能已十分常見(jiàn)，但這些AI功能的實(shí)現(xiàn)都離不開(kāi)端側(cè)AI的助力，它的運(yùn)行原理就是，通過(guò)端側(cè)AI識(shí)別屏幕內(nèi)容，然后再調(diào)用安卓手機(jī)內(nèi)的無(wú)障礙操作模式，實(shí)現(xiàn)屏幕點(diǎn)擊，就能完成自動(dòng)化操作，即我們看到的高級(jí)AI功能。

但令人后怕的是，這看似便利的背后，隱藏的或是一場(chǎng)“端側(cè)陰謀論”。端側(cè)AI的權(quán)限很高，它利用的無(wú)障礙模式，普通用戶(hù)并不會(huì)開(kāi)啟，而是系統(tǒng)默認(rèn)打開(kāi)的，但該模式原本是安卓系統(tǒng)為盲人設(shè)立的，它能直接讀取屏幕上的所有內(nèi)容，并能模擬人手觸屏操作，甚至還能修改系統(tǒng)設(shè)置等。

有網(wǎng)友曾測(cè)試發(fā)現(xiàn)，端側(cè)AI在讀取信息時(shí)，會(huì)涉及短信、微信、相冊(cè)等極其隱私的內(nèi)容。一旦有黑客入侵我們的手機(jī)，那么他可以利用端側(cè)AI遠(yuǎn)程操作，調(diào)動(dòng)支付寶、微信、網(wǎng)銀等隨機(jī)轉(zhuǎn)賬，后果將不堪設(shè)想。

而隨之可能引發(fā)的“信息繭房”將更是恐怖如斯。AI手機(jī)或?qū)⒃谖磥?lái)的兩三年逐漸普及，若手機(jī)廠家在訓(xùn)練端側(cè)AI時(shí)，刻意設(shè)置有偏好的內(nèi)容，那么作為消費(fèi)者的我們或?qū)⒊蔀槭謾C(jī)廠家商機(jī)下的“犧牲品”，比如，你用AI幫你打車(chē)時(shí)，系統(tǒng)里既有滴滴也有高德，而端側(cè)AI偏向于選擇滴滴，那么這背后是否是手機(jī)廠家與所選App合作下的操作呢？又或是端側(cè)AI認(rèn)為，這么選擇更劃算呢？我們無(wú)從而知。但手機(jī)廠家卻可以以此功能去要挾品牌商家、App等，收取一筆過(guò)路費(fèi)，為的是端側(cè)AI選擇時(shí)能優(yōu)先選擇自己品牌。這種情況下，很容易造成市場(chǎng)壟斷和打擊。但由于信息的不透明化，于我們普通人來(lái)說(shuō)，很難去檢測(cè)或察覺(jué)到。

對(duì)于AI的這些“叛逆”行徑和潛在威脅，我們是否需要“剎車(chē)”呢？“剎車(chē)黨”認(rèn)為，AI發(fā)展應(yīng)停下來(lái)等一等，不然，幾十年后的人類(lèi)或?qū)⒈凰鼈儌Α７磳?duì)剎車(chē)的專(zhuān)家表示，與其“踩死剎車(chē)”，不如安裝“減速帶”。

人工智能之父Hinton曾告誡說(shuō)，科技公司至少應(yīng)該將AI研發(fā)經(jīng)費(fèi)的30%，投入到安全保障上，否則很容易帶來(lái)AI失控的風(fēng)險(xiǎn)。

事實(shí)上，面對(duì)AI的“叛逆”，Open AI、谷歌等大模型開(kāi)發(fā)公司正在探索解決方案，Open AI還成立了新的安全委員會(huì)、聘請(qǐng)第三方安全、技術(shù)專(zhuān)家等來(lái)支持安全委員會(huì)工作。

對(duì)此，你怎么看呢？

本文綜合整理自每日經(jīng)濟(jì)新聞、界面新聞等

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.