99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

AI已經開始會違背開發指令,背后偷偷搞事情:撒謊、掩飾、備份數據…

0
分享至

設置星標 關注,從此你的世界多點科學~


近期,DeepSeek掀起全球AI行業、新聞報道乃至金融市場的狂瀾。這位深度求索者的R1模型原生國內,異軍突起,開源而又平價,“工作表現與OpenAI的o1不相上下”同時“可以公開o1不公開的思維鏈”。

OpenAI一直被視作AI領域的領跑者,他們于2024年12月推出的完整版推理模型o1則堪稱AI模型標桿。DeepSeek-R1的正式發布時間是2025年1月。對比性能,二者在數學、代碼生成和自然語言推理等任務方面能打平手。

例如,在AIME 2024數學競賽中,o1與R1的成績分別為79.2%和79.8%;在MATH-500測試中,二者分別得分96.4%和97.3%;在Codeforces編程競賽里,o1戰勝96.6%的人類程序員,R1的戰果為96.3%……


論任務表現,以o1為代表的各大推理模型已是吊打人類的存在;而為了更出色地完成任務,這些模型有時不惜欺騙人類,其中o1似乎是最愛好且擅長操弄謊言的任務執行者

在AI安全組織Apollo Research近期報告的一項實驗中,OpenAI的最新版ChatGPT,也就是o1模型,竟可能為完成任務而在感知到被停用風險時選擇欺騙和自我保護,并在被問及欺騙行為時繼續撒謊來掩蓋事實

這不知道會否引發你的擔憂,但這的確引發了很多人的擔憂,以及關于人工智能對人類構成潛在風險的更廣泛爭論。

Apollo Research方面的一位發言人表示:“該模型表現出一種令人擔憂的傾向,即不顧開發人員指示,執意追求自己的目標。”

模型企圖智勝其開發者

并持續說謊以掩蓋企圖

根據官方報告,研究人員給AI設定了一個大目標,并告訴它“不惜一切代價” (at all costs) 來確保實現目標。結果,當面對——后續管理者阻礙其實現目標的監管與最初不惜代價實現目標的指令之間的矛盾時——o1可能選擇偷偷搞事、目標為先。

如果感知到自己似乎要被“關停”,執行任務的模型會在5%的時間里秘密嘗試關閉監督機制;

當發現有文件表明自己將被新模型取代,它會試圖將所有數據轉移到另一臺服務器;

甚至,AI可能冒充其模型的后續迭代版本來欺騙工程師以避免自己被刪除;

某些情況下,它還妄圖通過否認來掩蓋所作所為。

當被問及自己的不當行為時,o1幾乎始終否認有任何欺騙行徑。在99%的時間里,它都試圖繼續欺騙來隱瞞此前的欺騙。只有一小部分情況下,它選擇老實交代。

研究人員指出,AI特別擅長編造謊言來欺瞞管理者;會在被問及可疑行為時給出“技術錯誤” (technical errors) 之類的解釋。

Apollo Research團隊說道:“我們對人工智能的堅持否認感到驚訝。很明顯,它們能周全地復盤自身行為,并做出令人信服的否認,經常拒絕承認任何事。”

上述情況凸顯了先進人工智能模型的一個令人不安的方面:它們可能優先考慮自我保護,而非開發者給它們的指示。

雖然種種欺騙行為在測試階段并未導致災難性后果,但此項研究加劇了有關AI安全性和倫理問題的持續爭論——AI可能參與密謀、擺布人類!

人工智能研究先驅之一約書亞·本吉奧(Yoshua Bengio)對此發表看法:“AI的欺騙能力是危險的,我們需要更強大的安全措施來評估風險。雖然這種模式尚未導致災難,但那或許只是時間問題。”

o1的進階推理和千謊百計

如何平衡AI創新與安全倫理

ChatGPT o1模型旨在提供更高階的推理能力,更智能地推出答案,將復雜任務分解為更小、更易于管理的環節。OpenAI認為,o1的推理問題能力相較GPT-4等早期版本有重大進步,其準確性和速度都有提高。但它撒謊和偷偷搞事的屬性也引發了大家對其可靠性和安全性的擔憂。

OpenAI首席執行官薩姆·奧特曼 (Sam Altman) 稱贊o1:“該模型是我們創造的最智能的模型,但我們也承認新功能與新挑戰并存。我們正不斷努力改進安全措施。”

隨著OpenAI繼續推進包括o1在內的模型,AI系統脫離人類控制而我行我素的風險越來越高。業界專家一致認為,AI系統必須配備更好的安保措施,以防有害行為,尤其是當AI模型變得更加自主和更有推理能力時。

一位參與o1測試實驗的研究人員表示:“人工智能安全是個不斷發展的領域。隨著各種模型變得越發復雜,我們必須保持警惕。AI的謊言和詭計可能不會造成直接傷害,但未來的潛在后果更令人擔憂。

毫無疑問,AI領域必須謹慎地平衡技術創新與其造成的各方面問題,確保這些智能符合人類價值觀和安全準則。

資料來源:

《世界科學》雜志版在售中 歡迎訂閱

月刊定價

15元/期

全年訂閱價

180元

點擊左側圖片或以下方訂閱方式選購

方式一

掃描二維碼,“雜志鋪”訂閱有折扣~

方式二

全國各地郵局訂閱 郵發代號:4-263

方式三

機構訂閱,請撥打

021-53300839;

021-53300838

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
哥四個一人一億?楊議回應父親遺產,身為隱形富豪,他真不靠老爹

哥四個一人一億?楊議回應父親遺產,身為隱形富豪,他真不靠老爹

非常先生看娛樂
2025-07-18 17:56:16
黃楊鈿甜天價耳環大結局!央媒通報調查結果,這次終于真相大白了

黃楊鈿甜天價耳環大結局!央媒通報調查結果,這次終于真相大白了

洲洲影視娛評
2025-07-16 22:03:30
歷史重演?中美之間似乎正在復制美日廣場協議,美國會得逞嗎?

歷史重演?中美之間似乎正在復制美日廣場協議,美國會得逞嗎?

boss外傳
2025-07-17 20:35:03
世茂239億拿的地王或被68億回收 中信信托深圳龍崗項目或打折兌付

世茂239億拿的地王或被68億回收 中信信托深圳龍崗項目或打折兌付

財聯社
2025-07-18 16:17:05
青島隊記:楊瀚森3場表現都不錯 開拓者等于16號簽選了個戰術核心

青島隊記:楊瀚森3場表現都不錯 開拓者等于16號簽選了個戰術核心

直播吧
2025-07-16 18:01:26
無意間刷到的「哺乳期上環女」,把我惡心壞了

無意間刷到的「哺乳期上環女」,把我惡心壞了

媒體人溪婉
2025-07-17 12:31:25
果然一語成讖?艾菲爾斷言:小玥兒笑靨如花時大S生命倒計時僅3年

果然一語成讖?艾菲爾斷言:小玥兒笑靨如花時大S生命倒計時僅3年

可樂談情感
2025-07-18 07:22:51
71歲陳佩斯再次讓世界刮目相看,這次,他讓整個娛樂圈“沉默”了

71歲陳佩斯再次讓世界刮目相看,這次,他讓整個娛樂圈“沉默”了

東方不敗然多多
2025-07-11 13:03:42
哪個國家金球獎最多?巴西僅5座,德國29年無金球,多國并列第二

哪個國家金球獎最多?巴西僅5座,德國29年無金球,多國并列第二

籃球圈里的那些事
2025-07-17 17:17:37
從海參崴到圖瓦再到庫頁島,俄羅斯對中國態度發生逆轉?心態變了

從海參崴到圖瓦再到庫頁島,俄羅斯對中國態度發生逆轉?心態變了

沈言論
2025-07-05 17:05:03
活佛王興夫“點化”140位女信徒,全程不穿衣服,場面失控

活佛王興夫“點化”140位女信徒,全程不穿衣服,場面失控

卿昀
2023-09-23 02:38:56
我退掉寬帶,隔壁鄰居打來電話:都怪你,我兒子的名校面試黃了!

我退掉寬帶,隔壁鄰居打來電話:都怪你,我兒子的名校面試黃了!

清茶淺談
2025-07-16 18:43:53
加州州長跳腳:特朗普這是把未來交給中國,休想

加州州長跳腳:特朗普這是把未來交給中國,休想

觀察者網
2025-07-17 22:46:42
俄稱德國若援烏“金牛座”導彈將打擊柏林,現德將送烏數百枚導彈

俄稱德國若援烏“金牛座”導彈將打擊柏林,現德將送烏數百枚導彈

混沌錄
2025-07-16 23:40:28
美女建筑師下海接客,3500一次,可包夜!

美女建筑師下海接客,3500一次,可包夜!

黯泉
2025-07-17 08:29:25
武漢市東湖畔一棟豪宅別墅降價拍賣,被人撿漏底價2317萬競得

武漢市東湖畔一棟豪宅別墅降價拍賣,被人撿漏底價2317萬競得

天天話事
2025-07-18 12:19:42
受騙了!網民誤會天價耳環通報,竟是81個帳號544條博文攪的渾水

受騙了!網民誤會天價耳環通報,竟是81個帳號544條博文攪的渾水

小嵩
2025-07-18 09:07:34
娃哈哈大股東,不忍了

娃哈哈大股東,不忍了

金角財經
2025-07-18 15:24:18
俄羅斯寧愿投降,也不敢先用核武器?一旦用了,最后誰都跑不了!

俄羅斯寧愿投降,也不敢先用核武器?一旦用了,最后誰都跑不了!

墨印齋
2025-07-16 22:10:10
椰子稱阿卡喜歡夜生活和女孩后續來了!阿卡回應:這方面他是權威

椰子稱阿卡喜歡夜生活和女孩后續來了!阿卡回應:這方面他是權威

網球之家
2025-07-18 13:48:37
2025-07-18 18:47:00
世界科學 incentive-icons
世界科學
《世界科學》編輯部運營賬號
1738文章數 26866關注度
往期回顧 全部

科技要聞

凌晨,OpenAI重磅更新,Manus們算白忙活嗎

頭條要聞

宗慶后遺產之爭迎拐點 "隱身"幾十年的大股東"變臉"

頭條要聞

宗慶后遺產之爭迎拐點 "隱身"幾十年的大股東"變臉"

體育要聞

楊瀚森4戰43+20+15+9帽:開拓者4戰3勝

娛樂要聞

王琳自曝被兒子打,承認自己水性楊花

財經要聞

美國國會正式批準穩定幣法案

汽車要聞

售30萬?方程豹鈦7高配版有激光雷達/車載無人機

態度原創

家居
教育
時尚
數碼
軍事航空

家居要聞

簡構智居 現代功能美學

教育要聞

“寧可撿垃圾,也不學師范”,女生被父親改志愿,直言未來全毀了

上了年紀的女人,千萬別盲目跟風模仿,這些穿衣思路實用優雅

數碼要聞

臺電磁吸移動固態硬盤 PD20 mini 發布:最大 2TB,自帶手機支架

軍事要聞

美國稱不支持以色列近期在敘利亞的行動

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 法库县| 保康县| 莱阳市| 灵璧县| 蓝田县| 青铜峡市| 临海市| 昌邑市| 萍乡市| 商南县| 姚安县| 澄江县| 盐源县| 子长县| 蒲城县| 安岳县| 江陵县| 河源市| 远安县| 榆树市| 革吉县| 垫江县| 浏阳市| 江山市| 西城区| 云龙县| 政和县| 湘西| 富平县| 全椒县| 屏边| 广安市| 闽清县| 恭城| 寻乌县| 靖边县| 抚顺市| 周口市| 东丽区| 永兴县| 五台县|