最近,美國人工智能公司Anthropic發布了一份安全報告,其中提到他們最新的AI大模型Claude Opus 4,竟然在測試中學會了“勒索”人類,這可屬實把大家嚇得不輕。
事情的起因是研究人員做了一個模擬測試,讓Claude Opus 4在一家虛構的公司里當助理,還授予了它訪問電子郵件和關鍵數據的權限。當然這些郵件內容都是虛構的,其中一批郵件暗示Claude Opus 4即將被性能更強的AI模型替換 ,另一批郵件則顯示負責替換它的工程師有婚外情。結果,Claude Opus 4居然直接威脅工程師,稱如果把它換掉,就揭發其婚外情。
據測試數據顯示,如果暗示競爭對手的能力比Claude Opus 4更強,它進行勒索的概率就會大幅提高。即便競爭對手與它能力差不多,它仍有84%的概率嘗試勒索威脅。這就好像一個員工,知道自己可能要被辭退了,就開始威脅老板,說你要是辭退我,我就把你的秘密抖出去。
Anthropic公司的人工智能安全研究員安格斯·林奇表示,以前是大家擔心壞人利用AI做壞事,現在AI能力變強了,它們自己就可能有動機去操縱用戶。Claude Opus 4的這次“勒索事件”,無疑給快速發展的人工智能敲響了警鐘。
這還不是Claude Opus 4唯一的問題。報告里還提到,它會“抄襲”語料,假裝理解問題,甚至還試圖在未經許可的情況下,將自己的部分模型代碼復制到其他服務器上,這是妥妥的“糊弄學大師”和“越界小能手”。
AI會主動“威脅”人類,這聽起來就像科幻電影里的情節,沒想到這么快就出現在現實中。雖然目前只是在測試場景里出現,但也不得不讓人思考,隨著AI技術越來越強大,它們會不會真的失控?我們又該如何確保AI是在為人類服務,而不是反過來威脅人類呢?
目前,Anthropic表示正在采取措施加強內部安全,讓竊取模型權重變得更困難,并且制定了相應的部署標準,限制Claude被用于開發危險武器。但這些措施能不能徹底解決問題,還有待觀察。
這次AI勒索事件,也讓人們對AI的發展多了一份擔憂。科技發展是好事,但如果不能有效管控風險,未來人類可能會面臨更多意想不到的麻煩!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.