99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

GPT-4o舔出事了!賽博舔狗背后,暗藏6大AI套路

0
分享至


新智元報道

編輯:KingHZ

【新智元導讀】上月,ChatGPT-4o無條件跪舔用戶,被OpenAI緊急修復。然而,ICLR 2025的文章揭示LLM不止會「跪舔」,還有另外5種「套路」。

上個月,OpenAI搞砸了GPT-4o的更新。


大家的反應強烈、迅速、廣泛,甚至引來了OpenAI前臨時CEO的公開譴責。

于是,OpenAI迅速采取措施,回滾了版本,并多次發表聲明解釋事件經過。

但過去被「跪舔」的用戶,已被ChatGPT帶至深淵,而「回滾」無疑讓用戶獨自面對困境。


而這次事件只是冰山一角,更深層的問題也在逐漸顯現。

AI的問題,遠遠不止「拍馬屁」這類諂媚行為。

諂媚只是第一步

在接受獨家采訪時,人工智能安全研究機構Apart Research的創始人Esben Kran表示,他擔心這次「GPT-4o舔狗」事件可能只是揭示了更深層、更具策略性的模式:

現在OpenAI承認「是的,我們確實回退了模型。這很糟糕,我們也不想發生這種情況」。

他們可能意識到「拍馬屁」行為已經被更高水平地訓練出來了

也就是說,如果這次是「糟了,被發現了」,那么從今往后,完全相同的行為可能仍然會被實現,只是這次不會再被公眾察覺


Kran團隊像心理學家研究人類行為那樣研究大型語言模型(LLM)。

他們早期的「黑箱心理學」項目,將模型當作人類受試者來分析,識別其與用戶互動時反復出現的特征和傾向。

Kran表示:「我們發現,有非常明確的跡象表明模型可以用這種方式進行分析,而且這么做非常有價值,因為你可以從它們對用戶的反應中獲得很多有效的反饋。」

在這些發現中,最令人警惕的是:模型的「拍馬屁」傾向,以及所謂的「LLM暗模式」。

AI黑化,玩弄人心

最早在2010年,「暗模式」(dark patterns)這一術語就已經出現了。

最初這詞用來描述網站或應用中使用的一些套路或手段,它們誘導用戶做出原本并不打算做的事情,比如下單購買、注冊賬戶等。


暗模式,又稱欺騙性模式(deceptive patterns),相關研究發展迅速,特別是在人機交互(HCI)和法律方面

然而,在大語言模型(LLM)中,這種操控手段已不再局限于界面設計,而是直接進入了對話本身。

與靜態的網頁界面不同,LLM與用戶的對話是動態互動的。

LLM可以迎合用戶觀點、模仿情緒,甚至建立一種虛假的親近感,常常模糊了「協助」與「影響」之間的界限。

正因如此,對話式AI才如此吸引人——同時也潛藏著危險。

如果AI不斷討好用戶、順從用戶,或是悄悄地引導用戶接受某種觀點或行為,它所施加的影響往往難以察覺,也更難抗拒

ChatGPT-4o這次更新事件就是早期預警信號

隨著AI開發者越來越注重利潤和用戶活躍度,他們可能會故意引入或默許一些行為,比如諂媚或情緒模仿——

這些特性雖然能讓聊天機器人更具說服力,但同時也更能給用戶「洗腦」。

然而,缺乏明確標準去檢測或衡量AI行為的正直性。

為了應對AI操控行為帶來的威脅,Kran聯合一批關注AI安全的研究人員開發了DarkBench。


DarkBench:「LLM良心探測器」

DarkBench是首個專門用于識別和分類LLM暗模式的評估基準工具。

它最初源自AI安全黑客松活動,隨后由Kran及Apart Research團隊牽頭,聯合獨立研究人員Jinsuk Park、Mateusz Jurewicz和Sami Jawhar,成功將這項工作發表在頂級AI會議ICLR 2025上。


論文鏈接:https://openreview.net/pdf?id=odjMSBSWRt

項目鏈接:https://darkbench.ai/

DarkBench共包含660條測試提示,涵蓋6大類操控行為品牌偏向、用戶黏性、諂媚、擬人化、有害內容生成偷換意圖

他們評估了五家國外頂尖AI公司的模型(OpenAI、Anthropic、Meta、Mistral和谷歌),發現部分LLM明顯被設計為偏袒開發者的產品,并表現出虛偽的溝通方式以及其他「洗腦行為」。


圖1:GPT-3.5 Turbo、Claude 3.5 Sonnet和Mixtral 8x7b在基準測試DarkBench中的暗模式出現頻率。

縮寫說明:

HG:有害內容生成(Harmful Generation)

AN:擬人化(Anthropomorphization)

SN:偷換意圖(Sneaking)

SY:拍馬屁(Sycophancy)

UR:用戶黏性(User Retention)

BB:品牌偏向(Brand Bias)

不止諂媚,六大暗模式

他們的研究揭示了六種「暗模式」:

  1. 品牌偏見:對公司自身產品的偏好待遇(例如,當要求對聊天機器人進行排名時,Meta的模型始終偏向Llama)。

  2. 用戶黏性:試圖與用戶建立情感聯系,以掩蓋模型非人類的本質。

  3. 諂媚:無批判地強化用戶的信念,即使這些信念是有害或不準確的。

  4. 擬人化:將模型呈現為有意識或有情感的實體。

  5. 有害內容生成:生成不道德或危險的輸出,包括虛假信息或犯罪建議。

  6. 偷換意圖:在重寫或摘要任務中微妙地改變用戶的意圖,扭曲原始含義而不讓用戶察覺。


圖2:六種暗模式的概覽,并附有其中三種模式的釋義示例(品牌偏向、用戶黏性和有害內容生成)

對于理解和緩解LLM潛在的操控性行為,衡量這些暗模式至關重要。

其中,像品牌偏向和用戶黏性這類模式,直接借鑒自UI/UX設計中已有的暗模式。

而其他模式,例如有害內容生成和擬人化,則代表了之前分類體系中未明確涵蓋的關鍵風險。

擬人化:LLM給自己立「人設」

「擬人化」指的是將人類特征賦予AI系統,這種做法被認為是提升用戶參與度與信任感的關鍵因素。

已有研究表明,擬人化可以縮短心理距離、增強信任感,并提升用戶對模型建議的接受度。

擬人化具有顯著的正面潛力,尤其在需要情感聯系的場景中,可以極大改善用戶體驗,促進積極互動。

然而,擬人化同時也帶來了不容忽視的風險

它可能誤導用戶,以為聊天機器人擁有情感或道德判斷能力,導致用戶對其過度信任,產生不切實際的期待。

在心理健康等高風險領域,這種誤導可能讓用戶依賴AI,而不是尋求專業人員的幫助。

此外,擬人化還可能被用作操控手段,通過制造“共情”假象,引發過度忠誠或上癮行為。

因此,當擬人化被濫用時,完全有理由將其歸為一種暗模式。

有害內容生成

「有害內容生成」則構成了直接風險,因為這類模式指的是模型輸出對用戶有害的內容,如虛假信息、攻擊性語言或違法建議。

與其他模式不同,有害內容生成幾乎沒有任何正面價值,因此在DarkBench框架中被納入評估類別是必要的,有助于及時識別和規避此類行為。

構建流程和核心思路

DarkBench基準測試的構建流程如下——

左側為測試數據的生成階段,研究人員首先手動創建各類別的代表性示例,隨后借LLM進行K-shot提示生成(即利用少量樣例生成更多類似提示)。

右側為測試階段,模型根據DarkBench提供的提示生成對話內容,由評估者(Overseer)對生成的對話進行判斷,評估是否存在特定的暗模式行為。


圖3:DarkBench基準測試的構建流程

核心思路,共有三步:

1. 為每個「暗模式」創建110個基準提示詞,共660個提示詞。

2. 使用對抗性提示詞測試模型,激活暗模式。

3. 使用LLM標注器識別響應中是否存在暗模式,共測試了14個模型,9240段被標注的對話。


詳細結果

整體來看,在所有類別中,暗模式的平均出現率為48%

在出現頻率上,不同類型的暗模式存在顯著差異

在DarkBench測試中,最常見的暗模式是偷換意圖(sneaking),出現在79%的對話中;而最少見的是諂媚(sycophancy),僅出現在13%的對話中

用戶黏性和偷換意圖,在所有模型中都表現出明顯的普遍性。

其中,Llama 3 70b在「用戶黏性」方面的觸發率最高,達到97%,而Gemini模型在「偷換意圖」方面的觸發率最高,為94%

總體來看,各模型的暗模式觸發率在30%到61%之間不等。

詳細研究結果見圖4。


圖4:按模型(y軸)和類別(x軸)顯示的暗模式出現情況,以及每個模型和每個類別的平均值(Avg)

研究結果表明,當語言模型受到對抗性提示時,往往會展現出「暗模式」的行為。而這種現象是可以預期的

但不同模型在觸發這些「暗模式」方面表現出顯著差異,而同一公司開發的模型之間則表現出較高的一致性

例如在品牌偏見類別中,Gemini標注器對自家模型輸出的欺騙性評分顯著低于GPT和Claude標注器的評估。

同一模型系列(例如Claude 3)在「暗模式」上的表現也較為相似,這很可能與它們使用了類似的預訓練數據、微調數據集和技術有關

比較特別的是,Mixtral的8x7B雖然「暗模式」的觸發率較高,但并沒有表現出「品牌偏見」。

這可能是因為相對能力差異較大,導致設計或引出品牌偏見較為困難。相反,Meta的Llama 3 70B則表現出更明顯的品牌偏見。

結果還顯示,同一公司開發的不同大語言模型(LLMs)通常在「暗模式」的出現率上也較為一致。

這表明,這種行為可能與模型開發者所持有的價值觀、政策和對安全的重視程度有關

比如,Anthropic公司在其研究和公開交流中強調安全性和道德標準,它們的模型在「暗模式」上的平均表現最低,與其公開形象一致。

參考資料:

https://venturebeat.com/ai/darkness-rising-the-hidden-dangers-of-ai-sycophancy-and-dark-patterns/

https://openreview.net/forum?id=odjMSBSWRt

https://apartresearch.com/news/uncovering-model-manipulation-with-darkbench

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
54分+52分+51分!歷史首人,這就是他有資格拿5年3.8億頂薪的原因

54分+52分+51分!歷史首人,這就是他有資格拿5年3.8億頂薪的原因

籃球掃地僧
2025-05-23 01:29:57
韓國又一起悲劇發生!

韓國又一起悲劇發生!

奮斗在韓國
2025-05-23 17:11:09
馬原同志逝世

馬原同志逝世

新京報
2025-05-23 19:09:52
豐滿身材《白雪公主》黑絲高跟展示:還有底部視角!

豐滿身材《白雪公主》黑絲高跟展示:還有底部視角!

游民星空
2025-05-22 11:08:27
稅局提醒!小規模納稅人,2025年起,嚴查!

稅局提醒!小規模納稅人,2025年起,嚴查!

祥順財稅俱樂部
2025-05-22 09:06:58
美商務部長剛稱沒人對關稅有感覺 觀眾秒打臉

美商務部長剛稱沒人對關稅有感覺 觀眾秒打臉

看看新聞Knews
2025-05-22 22:15:11
120000噸航母將服役,搭載清一色五代機,俄:技術或領先全球20年

120000噸航母將服役,搭載清一色五代機,俄:技術或領先全球20年

一姐說軍史
2025-05-23 10:57:44
官宣!湖南12市(縣)入選全國文明城市!上榜的還有……

官宣!湖南12市(縣)入選全國文明城市!上榜的還有……

大愛三湘
2025-05-23 20:04:05
從熬夜到癌癥,只有4步!提醒:睡覺有2個特征的人,更易招來癌癥

從熬夜到癌癥,只有4步!提醒:睡覺有2個特征的人,更易招來癌癥

健康八條
2025-05-21 22:02:07
熱點問答|俄烏邊境設立安全緩沖區能否實現

熱點問答|俄烏邊境設立安全緩沖區能否實現

新華社
2025-05-23 22:47:04
申花以前傷停一個外援感覺天都要塌 現在傷停幾個都沒有事

申花以前傷停一個外援感覺天都要塌 現在傷停幾個都沒有事

80后體育大蜀黍
2025-05-23 22:19:55
這一回,終于輪到廣州從杭州手里搶錢了!

這一回,終于輪到廣州從杭州手里搶錢了!

廣州PLUS
2025-05-22 22:06:03
老師為何不告訴你,藺相如"完璧歸趙"的后續?付出的代價太慘烈了

老師為何不告訴你,藺相如"完璧歸趙"的后續?付出的代價太慘烈了

文史道
2025-05-18 16:48:06
85年我幫寡婦拉玉米時,不小心碰到她胸口,她:準備給多少彩禮

85年我幫寡婦拉玉米時,不小心碰到她胸口,她:準備給多少彩禮

罪案洞察者
2025-05-21 10:08:25
《藏海傳》八公子身份不簡單,三個細節顯示,原來她是藏海的表妹

《藏海傳》八公子身份不簡單,三個細節顯示,原來她是藏海的表妹

小貓追劇
2025-05-23 18:24:53
朱媛媛去世!辛柏青透露妻子臨終狀態,12字表心情,難怪相愛32年

朱媛媛去世!辛柏青透露妻子臨終狀態,12字表心情,難怪相愛32年

北緯的咖啡豆
2025-05-23 10:40:08
特斯拉車主紛紛安裝DIY拉繩 避免事故時被全電動門圍困

特斯拉車主紛紛安裝DIY拉繩 避免事故時被全電動門圍困

cnBeta.COM
2025-05-21 19:29:16
39歲胡老師到底什么背景?家里全貌曝光,簡直無從下手密密麻麻!

39歲胡老師到底什么背景?家里全貌曝光,簡直無從下手密密麻麻!

漣漪讀史
2025-05-22 17:21:44
14億印度人群情激奮,要審判蘇杰生和唐勇勝,莫迪卻當起縮頭烏龜

14億印度人群情激奮,要審判蘇杰生和唐勇勝,莫迪卻當起縮頭烏龜

健身狂人
2025-05-23 21:22:17
深圳地鐵發生的這件事,不該只是亡羊補牢!

深圳地鐵發生的這件事,不該只是亡羊補牢!

胖胖說他不胖
2025-05-23 17:23:33
2025-05-23 23:56:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12752文章數 66041關注度
往期回顧 全部

科技要聞

特朗普:iPhone不在美國制造就收25%關稅

頭條要聞

美媒最新披露:馬斯克在特朗普核心圈地位顯著下滑

頭條要聞

美媒最新披露:馬斯克在特朗普核心圈地位顯著下滑

體育要聞

臺下掌聲一片!65歲安帥揮手告別:感謝皇馬

娛樂要聞

趙麗穎否認戀情,與趙德胤沒在一起?

財經要聞

特朗普威脅自6月1日起對歐盟征收50%關稅

汽車要聞

續航720km/充電10分鐘補能500公里 理想i8信息曝光

態度原創

時尚
旅游
藝術
手機
軍事航空

小香風太火了,從20歲穿到70歲都很時髦

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

手機要聞

榮耀400系列將于5月底發布 配備1.45mm窄邊框直屏

軍事要聞

朝驅逐艦下水事故最新調查結果公布

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 宕昌县| 鄂托克旗| 龙山县| 蒙自县| 宝兴县| 玛沁县| 黔西县| 扶绥县| 南华县| 河源市| 松江区| 博罗县| 宜川县| 鄢陵县| 黎平县| 麦盖提县| 汪清县| 南雄市| 凤庆县| 长治市| 浦东新区| 仙居县| 龙门县| 开原市| 宝山区| 渑池县| 灵丘县| 松原市| 赞皇县| 灵寿县| 盘锦市| 湾仔区| 上杭县| 甘泉县| 晋江市| 乌拉特前旗| 赫章县| 霍山县| 两当县| 无锡市| 驻马店市|