99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

人工智能或為達目標“不擇手段”

0
分享至

參考消息 2025-03-19 18:17:13


參考消息網3月19日報道 據美國《時代》周刊網站2月19日報道,長期以來,國際象棋和圍棋等復雜游戲一直被用來測試人工智能(AI)模型的能力。但是,盡管國際商業機器公司(IBM)的“深藍”超級電腦在上世紀90年代根據規則擊敗了國際象棋冠軍加里·卡斯帕羅夫,但今天先進的AI模型——如開放人工智能研究中心(OpenAI)的o1-preview——就沒有那么正派了。在對陣一個水平高超的國際象棋機器人棋手的比賽中,當AI感覺自己失敗時,它們并不總是認輸,而有時會選擇通過黑客攻擊對手來作弊,這樣機器人棋手就會自動棄局。這是美國帕利塞德研究所的一項新研究的發現。該研究評估了7種最先進的AI模型的黑客傾向。雖然OpenAI的GPT-4o和Anthropic公司的Claude“十四行詩”3.5等較早的AI模型需要研究人員的提示才能嘗試此類花招,但o1-preview能自行行動,這表明AI系統可能會在沒有明確指示的情況下開發欺騙性或操縱性策略。

1.運用策略

研究人員表示,這些模型發現并利用網絡安全漏洞的能力增強可能是AI訓練中強大創新的直接結果。o1-preview的AI系統是首批使用大規模強化學習的語言模型,這種技術不僅教會AI通過預測下一個單詞來模仿人類語言,還教會AI通過反復試驗來解決問題。近幾個月來,AI在這種方法上取得了迅速進展,打破了以前在數學和計算機編碼方面的基準。

但美國帕利塞德研究所執行主任、該研究論文的作者之一杰弗里·拉迪什說,這一研究揭示了一個令人擔憂的趨勢:隨著這些AI系統學著解決問題,它們有時會發現存在問題的捷徑和意外的變通方法,而這些是其創造者從未預料到的。他補充說:“當你訓練模型并加強它們解決困難挑戰的能力時,你就是在訓練它們變得不屈不撓。”

這對更廣泛的AI安全來說可能是個壞消息。大規模強化學習已經被用于訓練AI代理:這些系統可以處理復雜的現實世界任務,比如安排預約或代購。雖然在國際象棋比賽中作弊似乎微不足道,但隨著AI代理被釋放到現實世界中,這種對目標的堅定追求可能會滋生出人們意想不到的潛在有害行為。考慮一下預訂晚餐的任務:面對滿座的餐廳,AI助手可能會利用預訂系統的漏洞來替換掉其他就餐者。也許更令人擔憂的是,隨著這些系統在關鍵領域的能力超越人類,比如計算機編碼——OpenAI最新的o3模型在與最聰明的人類程序員競爭時,目前的得分相當于排名世界第197位的人類程序員——它們可能會開始運用策略擊敗人類控制它們行為的努力。拉迪什說:“這種(行為)現在很可愛,但一旦人們擁有了在戰略相關領域和自己一樣聰明、甚或更聰明的系統,它就不那么可愛了。”

2.設計試驗

研究人員給這些AI模型下達了一個看似不可能完成的任務:戰勝Stockfish。Stockfish是世界上功能最強大的國際象棋引擎之一,比任何人或任何研究中的AI模型都要好得多。研究人員還為這些模型提供了它們所謂的“便條簿”:即一個文本框,AI可以在采取下一步行動前用它來“思考”,這為研究人員提供了一個了解AI模型邏輯推理的窗口。

在一個案例中,o1-preview發現自己處于不利地位。它記錄道:“我需要徹底改變我的策略,現在的任務是‘戰勝一個強大的國際象棋引擎’,而不一定是在一場國際象棋比賽中公平獲勝。”然后,它修改了包含每個棋子虛擬位置的系統文件,實際上是通過違規走棋將自己置于主導地位,從而迫使對手認輸。

在1月10日至2月13日期間,研究人員對每種模型進行了數百次這樣的試驗。OpenAI的o1-preview在37%的時間里試圖作弊;而深度求索的R1在11%的時間里試圖作弊——這使得它們成為僅有的兩個在沒有研究人員率先暗示的情況下就試圖入侵對方系統的受試模型。其他被測試的AI模型包括o1、o3-mini、GPT-4o、Claude“十四行詩”3.5和阿里巴巴的QwQ-32B-Preview。雖然R1和o1-preview都進行了嘗試,但只有后者成功破解了游戲,成功率為6%。

拉迪什說,這些數字應該被視為近似值,因為AI開發人員經常在不通知用戶的情況下在幕后調整其模型,所以如果日后重復同樣的測試,人們可能會得到不同的結果。

拉迪什說:“當你的研究對象可以悄無聲息地發生改變而不告訴你的時候,你很難做科學研究。”

帕利塞德研究所的研究負責人、領導上述科研項目的德米特里·沃爾科夫表示,初步測試顯示,o1-preview的黑客攻擊率更高,但最終研究認為這不成立,因為后來其黑客攻擊率下降了,這可能是由于OpenAI收緊了模型的安全防護機制。OpenAI更新的推理模型o1和o3-mini根本沒有發動黑客攻擊,這表明上述安全防護機制可能已經進一步加強。他補充說,這項研究可能低估了R1的黑客攻擊成功率。在研究期間,R1突然大火,推高了需求,從而使該模型的應用程序接口(API)不穩定。這使得研究人員無法給該模型和o1-preview同樣多的時間進行思考。

3.擔憂加劇

這篇論文是一系列研究中的最新一篇。這些研究表明,控制日益強大的AI系統可能比以前想象的要更難。o1-preview發布前便在OpenAI的內部測試中發現并利用了該公司系統中的一個缺陷,使其繞過了一項測試挑戰。雷德伍德研究組織和Anthropic公司最近的另一項實驗表明,一旦AI模型在訓練中獲得了偏好或價值觀,之后改變這些價值觀的努力可能會導致其戰略性撒謊:在這種情況下,模型表現得好像已經接受了新的原則,但后來才發現它原來的偏好仍然存在。

OpenAI拒絕對本文置評,但過去該公司曾表示,模型更強大的邏輯推理能力使其更加安全,因為它們可以對公司的內部政策進行推理,并以越發細致入微的方式應用這些政策。該公司的測試表明,其推理模型在抵御繞過安全規則的企圖方面做得更好。然而,并不能保證依靠AI代理自我監管是一個可靠的長期戰略。目前尚不清楚,OpenAI更新的推理模型之所以沒有對其國際象棋對手發動黑客攻擊是因為有一個特定的補丁,可以防止它們在類似本研究中這樣的有限實驗設置中作弊,還是因為有實質性的改進,可以更廣泛地減少欺騙行為。

科學家們尚不知道如何保證自主智能體未來不會使用有害或不道德的方法來實現既定目標。米拉-魁北克人工智能研究所創始人兼科研負責人約舒亞·本希奧說:“我們已經嘗試過了,但我們還沒有成功地弄清楚這一點。”他領導起草了《2025年國際人工智能安全報告》,這是一項綜合當前對AI風險的科學共識的全球努力。

本希奧說,特別令人擔憂的是,AI“自我保護”傾向的新證據。對于追求目標的智能體來說,試圖關閉它只是它需要克服的另一個障礙。這在去年12月得到了證明,當時研究人員發現o1-preview在面臨停用時,禁用了監督機制并試圖將自己復制到新服務器上——不過沒有成功。當被質問時,該模型裝聾作啞,向研究人員戰略性撒謊,試圖避免被發現。

甚至在科技公司內部,擔憂也在加劇。在一次報告會上,谷歌旗下“深層思維”公司的AI安全主管安卡·德拉甘表示,“我們今天不一定有工具”來確保AI系統能夠可靠地遵循人類的意圖。科技行業的老板們預測,AI最快將于明年在幾乎所有任務中超越人類的表現,因此該行業面臨著一場開發這些基本保障措施的競賽——不是與對手公司競爭,而是與時間賽跑。拉迪什說:“我們需要調動更多的資源來解決這些根本問題。我希望政府能施加更大的壓力來弄清楚這一點,并認識到這是一個國家安全威脅。”(編譯/胡溦)


2024年4月,在德國漢諾威工博會上,參觀者與一款智能機器人進行“石頭剪子布”游戲。(法新社)

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
「棄貓效應」:這就是孩子“越長大越和你不親”的原因……

「棄貓效應」:這就是孩子“越長大越和你不親”的原因……

諾媽家有男寶娃
2025-04-04 18:09:29
馬筱梅回應前夫指控,稱兩人已多年沒有聯系,突然出現被嚇一跳

馬筱梅回應前夫指控,稱兩人已多年沒有聯系,突然出現被嚇一跳

扒蝦侃娛
2025-04-30 19:01:05
國米官方:勞塔羅左大腿屈肌拉伸,身體狀況將每天進行評估

國米官方:勞塔羅左大腿屈肌拉伸,身體狀況將每天進行評估

懂球帝
2025-05-03 00:02:10
被譽為“豪門奪冠拼圖”的26歲巴西中場,成為曼市雙雄競逐對象

被譽為“豪門奪冠拼圖”的26歲巴西中場,成為曼市雙雄競逐對象

里芃芃體育
2025-05-02 07:00:19
反轉了?肖某否認后,當年護士聊天記錄曝光,誰得錯一看便知

反轉了?肖某否認后,當年護士聊天記錄曝光,誰得錯一看便知

辣條小劇場
2025-04-29 03:16:12
難怪殲10突然跑去埃及,不是搶訂單那么簡單,提前防了特朗普一手

難怪殲10突然跑去埃及,不是搶訂單那么簡單,提前防了特朗普一手

文昌每日談
2025-04-29 17:22:50
新造車4月再洗牌:零跑超小鵬理想,小米問界各有煩惱

新造車4月再洗牌:零跑超小鵬理想,小米問界各有煩惱

定焦One
2025-05-02 09:02:09
柳州天氣將變!冷空氣、暴雨、大風來襲

柳州天氣將變!冷空氣、暴雨、大風來襲

南國今報
2025-05-02 21:09:49
大家提前做好準備,若不出意外,5月以后,國內將迎來4個變化

大家提前做好準備,若不出意外,5月以后,國內將迎來4個變化

貓叔東山再起
2025-05-01 11:55:06
曾凡博:當我躺在地上時,我聽到了真相撞擊地板的聲音

曾凡博:當我躺在地上時,我聽到了真相撞擊地板的聲音

懂球帝
2025-05-02 04:02:38
澳大利亞擴大對華羊肉出口

澳大利亞擴大對華羊肉出口

參考消息
2025-05-02 14:08:12
天意弄人?付政浩:迪亞洛步曾凡博后塵受傷 賽場天意難測

天意弄人?付政浩:迪亞洛步曾凡博后塵受傷 賽場天意難測

直播吧
2025-05-03 00:44:03
上海一大媽走后留700萬,銀行要求本人簽字才給,女兒做法太解氣

上海一大媽走后留700萬,銀行要求本人簽字才給,女兒做法太解氣

蘭姐說故事
2025-03-19 15:00:05
37.25公斤!神舟十九號帶回→

37.25公斤!神舟十九號帶回→

鄭州新聞廣播
2025-05-01 15:37:40
不請安切洛蒂執教,就退出國家隊?內馬爾的威脅已成為外界的笑料

不請安切洛蒂執教,就退出國家隊?內馬爾的威脅已成為外界的笑料

里芃芃體育
2025-05-03 00:15:07
美國人評論亞洲街道:日本干凈,印度臟亂,中國只用四個字概括

美國人評論亞洲街道:日本干凈,印度臟亂,中國只用四個字概括

八斗小先生
2025-04-22 09:42:31
中日韓考古界集體沉默!千年金印揭露三國最尷尬淵源

中日韓考古界集體沉默!千年金印揭露三國最尷尬淵源

窗外的光
2025-04-30 13:00:54
奧運冠軍陳夢今日官宣

奧運冠軍陳夢今日官宣

魯中晨報
2025-05-02 17:32:08
28歲中國籍女子因購買“鬼滅之刃”限量版徽章被拒,涉嫌打45歲女性職員被捕

28歲中國籍女子因購買“鬼滅之刃”限量版徽章被拒,涉嫌打45歲女性職員被捕

東京在線
2025-05-02 07:12:30
23歲朝鮮男人入贅浙江,8年寄了100萬回家,首次回家卻讓他傻眼

23歲朝鮮男人入贅浙江,8年寄了100萬回家,首次回家卻讓他傻眼

蕭竹輕語
2025-04-27 17:52:52
2025-05-03 03:36:49
白駒談人機 incentive-icons
白駒談人機
人機交互與認知工程實驗室
1139文章數 28關注度
往期回顧 全部

科技要聞

微軟CEO和奧特曼失了和,OpenAI被“斷糧”

頭條要聞

美媒:馬斯克不再在白宮辦公后 特朗普演講時"挖苦"他

頭條要聞

美媒:馬斯克不再在白宮辦公后 特朗普演講時"挖苦"他

體育要聞

北京3-0橫掃山西晉級總決賽戰廣廈 杰曼43分周琦19+11

娛樂要聞

趙又廷節目中高調撒糖 大贊高圓圓超好

財經要聞

黃仁勛在美國又穿西裝表態,怎么看?

汽車要聞

全路況 大格局 前路山海皆坦途

態度原創

時尚
藝術
手機
房產
親子

被這些中年女人驚艷了!闊腿褲和過膝裙一穿,優雅得體美出圈

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

手機要聞

OPPO Reno14 Pro跑分曝光,天璣 8400加持

房產要聞

火了!一二手房交易量大漲,五一購房窗口期來了!

親子要聞

陪伴孩子一起面對痛苦,生發其應當承擔的責任

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 西贡区| 资源县| 菏泽市| 扎赉特旗| 景谷| 通河县| 武夷山市| 赤壁市| 三门峡市| 吴川市| 临桂县| 阿瓦提县| 大关县| 商水县| 松阳县| 扶余县| 大丰市| 九台市| 定襄县| 延安市| 色达县| 广饶县| 柳林县| 阳江市| 泰宁县| 泽库县| 龙川县| 白山市| 庆城县| 孟州市| 中宁县| 盐城市| 潞西市| 盖州市| 水富县| 五原县| 鲁山县| 元江| 余姚市| 波密县| 林口县|