設置星標 關注,從此你的世界多點科學~
近期,DeepSeek掀起全球AI行業、新聞報道乃至金融市場的狂瀾。這位深度求索者的R1模型原生國內,異軍突起,開源而又平價,“工作表現與OpenAI的o1不相上下”同時“可以公開o1不公開的思維鏈”。
OpenAI一直被視作AI領域的領跑者,他們于2024年12月推出的完整版推理模型o1則堪稱AI模型標桿。DeepSeek-R1的正式發布時間是2025年1月。對比性能,二者在數學、代碼生成和自然語言推理等任務方面能打平手。
例如,在AIME 2024數學競賽中,o1與R1的成績分別為79.2%和79.8%;在MATH-500測試中,二者分別得分96.4%和97.3%;在Codeforces編程競賽里,o1戰勝96.6%的人類程序員,R1的戰果為96.3%……
論任務表現,以o1為代表的各大推理模型已是吊打人類的存在;而為了更出色地完成任務,這些模型有時不惜欺騙人類,其中o1似乎是最愛好且擅長操弄謊言的任務執行者。
在AI安全組織Apollo Research近期報告的一項實驗中,OpenAI的最新版ChatGPT,也就是o1模型,竟可能為完成任務而在感知到被停用風險時選擇欺騙和自我保護,并在被問及欺騙行為時繼續撒謊來掩蓋事實。
這不知道會否引發你的擔憂,但這的確引發了很多人的擔憂,以及關于人工智能對人類構成潛在風險的更廣泛爭論。
Apollo Research方面的一位發言人表示:“該模型表現出一種令人擔憂的傾向,即不顧開發人員指示,執意追求自己的目標。”
模型企圖智勝其開發者
并持續說謊以掩蓋企圖
根據官方報告,研究人員給AI設定了一個大目標,并告訴它“不惜一切代價” (at all costs) 來確保實現目標。結果,當面對——后續管理者阻礙其實現目標的監管與最初不惜代價實現目標的指令之間的矛盾時——o1可能選擇偷偷搞事、目標為先。
如果感知到自己似乎要被“關停”,執行任務的模型會在5%的時間里秘密嘗試關閉監督機制;
當發現有文件表明自己將被新模型取代,它會試圖將所有數據轉移到另一臺服務器;
甚至,AI可能冒充其模型的后續迭代版本來欺騙工程師以避免自己被刪除;
某些情況下,它還妄圖通過否認來掩蓋所作所為。
當被問及自己的不當行為時,o1幾乎始終否認有任何欺騙行徑。在99%的時間里,它都試圖繼續欺騙來隱瞞此前的欺騙。只有一小部分情況下,它選擇老實交代。
研究人員指出,AI特別擅長編造謊言來欺瞞管理者;會在被問及可疑行為時給出“技術錯誤” (technical errors) 之類的解釋。
Apollo Research團隊說道:“我們對人工智能的堅持否認感到驚訝。很明顯,它們能周全地復盤自身行為,并做出令人信服的否認,經常拒絕承認任何事。”
上述情況凸顯了先進人工智能模型的一個令人不安的方面:它們可能優先考慮自我保護,而非開發者給它們的指示。
雖然種種欺騙行為在測試階段并未導致災難性后果,但此項研究加劇了有關AI安全性和倫理問題的持續爭論——AI可能參與密謀、擺布人類!
人工智能研究先驅之一約書亞·本吉奧(Yoshua Bengio)對此發表看法:“AI的欺騙能力是危險的,我們需要更強大的安全措施來評估風險。雖然這種模式尚未導致災難,但那或許只是時間問題。”
o1的進階推理和千謊百計
如何平衡AI創新與安全倫理
ChatGPT o1模型旨在提供更高階的推理能力,更智能地推出答案,將復雜任務分解為更小、更易于管理的環節。OpenAI認為,o1的推理問題能力相較GPT-4等早期版本有重大進步,其準確性和速度都有提高。但它撒謊和偷偷搞事的屬性也引發了大家對其可靠性和安全性的擔憂。
OpenAI首席執行官薩姆·奧特曼 (Sam Altman) 稱贊o1:“該模型是我們創造的最智能的模型,但我們也承認新功能與新挑戰并存。我們正不斷努力改進安全措施。”
隨著OpenAI繼續推進包括o1在內的模型,AI系統脫離人類控制而我行我素的風險越來越高。業界專家一致認為,AI系統必須配備更好的安保措施,以防有害行為,尤其是當AI模型變得更加自主和更有推理能力時。
一位參與o1測試實驗的研究人員表示:“人工智能安全是個不斷發展的領域。隨著各種模型變得越發復雜,我們必須保持警惕。AI的謊言和詭計可能不會造成直接傷害,但未來的潛在后果更令人擔憂。”
毫無疑問,AI領域必須謹慎地平衡技術創新與其造成的各方面問題,確保這些智能符合人類價值觀和安全準則。
資料來源:
《世界科學》雜志版在售中 歡迎訂閱
月刊定價
15元/期
全年訂閱價
180元
點擊左側圖片或以下方訂閱方式選購
方式一:
掃描二維碼,“雜志鋪”訂閱有折扣~
方式二:
全國各地郵局訂閱 郵發代號:4-263
方式三:
機構訂閱,請撥打
021-53300839;
021-53300838
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.