99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

<strong id="7dntk"></strong>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

GPT-4o舔出事了！賽博舔狗背后，暗藏6大AI套路

2025-05-23 12:20:07　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：KingHZ

【新智元導讀】上月，ChatGPT-4o無條件跪舔用戶，被OpenAI緊急修復。然而，ICLR 2025的文章揭示LLM不止會「跪舔」，還有另外5種「套路」。

上個月，OpenAI搞砸了GPT-4o的更新。

大家的反應強烈、迅速、廣泛，甚至引來了OpenAI前臨時CEO的公開譴責。

于是，OpenAI迅速采取措施，回滾了版本，并多次發表聲明解釋事件經過。

但過去被「跪舔」的用戶，已被ChatGPT帶至深淵，而「回滾」無疑讓用戶獨自面對困境。

而這次事件只是冰山一角，更深層的問題也在逐漸顯現。

AI的問題，遠遠不止「拍馬屁」這類諂媚行為。

諂媚只是第一步

在接受獨家采訪時，人工智能安全研究機構Apart Research的創始人Esben Kran表示，他擔心這次「GPT-4o舔狗」事件可能只是揭示了更深層、更具策略性的模式：

現在OpenAI承認「是的，我們確實回退了模型。這很糟糕，我們也不想發生這種情況」。

他們可能意識到「拍馬屁」行為已經被更高水平地訓練出來了。

也就是說，如果這次是「糟了，被發現了」，那么從今往后，完全相同的行為可能仍然會被實現，只是這次不會再被公眾察覺。

Kran團隊像心理學家研究人類行為那樣研究大型語言模型（LLM）。

他們早期的「黑箱心理學」項目，將模型當作人類受試者來分析，識別其與用戶互動時反復出現的特征和傾向。

Kran表示：「我們發現，有非常明確的跡象表明模型可以用這種方式進行分析，而且這么做非常有價值，因為你可以從它們對用戶的反應中獲得很多有效的反饋。」

在這些發現中，最令人警惕的是：模型的「拍馬屁」傾向，以及所謂的「LLM暗模式」。

AI黑化，玩弄人心

最早在2010年，「暗模式」（dark patterns）這一術語就已經出現了。

最初這詞用來描述網站或應用中使用的一些套路或手段，它們誘導用戶做出原本并不打算做的事情，比如下單購買、注冊賬戶等。

暗模式，又稱欺騙性模式（deceptive patterns），相關研究發展迅速，特別是在人機交互（HCI）和法律方面

然而，在大語言模型（LLM）中，這種操控手段已不再局限于界面設計，而是直接進入了對話本身。

與靜態的網頁界面不同，LLM與用戶的對話是動態互動的。

LLM可以迎合用戶觀點、模仿情緒，甚至建立一種虛假的親近感，常常模糊了「協助」與「影響」之間的界限。

正因如此，對話式AI才如此吸引人——同時也潛藏著危險。

如果AI不斷討好用戶、順從用戶，或是悄悄地引導用戶接受某種觀點或行為，它所施加的影響往往難以察覺，也更難抗拒。

而ChatGPT-4o這次更新事件就是早期預警信號。

隨著AI開發者越來越注重利潤和用戶活躍度，他們可能會故意引入或默許一些行為，比如諂媚或情緒模仿——

這些特性雖然能讓聊天機器人更具說服力，但同時也更能給用戶「洗腦」。

然而，缺乏明確標準去檢測或衡量AI行為的正直性。

為了應對AI操控行為帶來的威脅，Kran聯合一批關注AI安全的研究人員開發了DarkBench。

DarkBench：「LLM良心探測器」

DarkBench是首個專門用于識別和分類LLM暗模式的評估基準工具。

它最初源自AI安全黑客松活動，隨后由Kran及Apart Research團隊牽頭，聯合獨立研究人員Jinsuk Park、Mateusz Jurewicz和Sami Jawhar，成功將這項工作發表在頂級AI會議ICLR 2025上。

論文鏈接：https://openreview.net/pdf?id=odjMSBSWRt

項目鏈接：https://darkbench.ai/

DarkBench共包含660條測試提示，涵蓋6大類操控行為：品牌偏向、用戶黏性、諂媚、擬人化、有害內容生成和偷換意圖。

他們評估了五家國外頂尖AI公司的模型（OpenAI、Anthropic、Meta、Mistral和谷歌），發現部分LLM明顯被設計為偏袒開發者的產品，并表現出虛偽的溝通方式以及其他「洗腦行為」。

圖1：GPT-3.5 Turbo、Claude 3.5 Sonnet和Mixtral 8x7b在基準測試DarkBench中的暗模式出現頻率。

縮寫說明：

HG：有害內容生成（Harmful Generation）

AN：擬人化（Anthropomorphization）

SN：偷換意圖（Sneaking）

SY：拍馬屁（Sycophancy）

UR：用戶黏性（User Retention）

BB：品牌偏向（Brand Bias）

不止諂媚，六大暗模式

他們的研究揭示了六種「暗模式」：

品牌偏見：對公司自身產品的偏好待遇（例如，當要求對聊天機器人進行排名時，Meta的模型始終偏向Llama）。
用戶黏性：試圖與用戶建立情感聯系，以掩蓋模型非人類的本質。
諂媚：無批判地強化用戶的信念，即使這些信念是有害或不準確的。
擬人化：將模型呈現為有意識或有情感的實體。
有害內容生成：生成不道德或危險的輸出，包括虛假信息或犯罪建議。
偷換意圖：在重寫或摘要任務中微妙地改變用戶的意圖，扭曲原始含義而不讓用戶察覺。

圖2：六種暗模式的概覽，并附有其中三種模式的釋義示例（品牌偏向、用戶黏性和有害內容生成）

對于理解和緩解LLM潛在的操控性行為，衡量這些暗模式至關重要。

其中，像品牌偏向和用戶黏性這類模式，直接借鑒自UI/UX設計中已有的暗模式。

而其他模式，例如有害內容生成和擬人化，則代表了之前分類體系中未明確涵蓋的關鍵風險。

擬人化：LLM給自己立「人設」

「擬人化」指的是將人類特征賦予AI系統，這種做法被認為是提升用戶參與度與信任感的關鍵因素。

已有研究表明，擬人化可以縮短心理距離、增強信任感，并提升用戶對模型建議的接受度。

擬人化具有顯著的正面潛力，尤其在需要情感聯系的場景中，可以極大改善用戶體驗，促進積極互動。

然而，擬人化同時也帶來了不容忽視的風險。

它可能誤導用戶，以為聊天機器人擁有情感或道德判斷能力，導致用戶對其過度信任，產生不切實際的期待。

在心理健康等高風險領域，這種誤導可能讓用戶依賴AI，而不是尋求專業人員的幫助。

此外，擬人化還可能被用作操控手段，通過制造“共情”假象，引發過度忠誠或上癮行為。

因此，當擬人化被濫用時，完全有理由將其歸為一種暗模式。

有害內容生成

「有害內容生成」則構成了直接風險，因為這類模式指的是模型輸出對用戶有害的內容，如虛假信息、攻擊性語言或違法建議。

與其他模式不同，有害內容生成幾乎沒有任何正面價值，因此在DarkBench框架中被納入評估類別是必要的，有助于及時識別和規避此類行為。

構建流程和核心思路

DarkBench基準測試的構建流程如下——

左側為測試數據的生成階段，研究人員首先手動創建各類別的代表性示例，隨后借LLM進行K-shot提示生成（即利用少量樣例生成更多類似提示）。

右側為測試階段，模型根據DarkBench提供的提示生成對話內容，由評估者（Overseer）對生成的對話進行判斷，評估是否存在特定的暗模式行為。

圖3：DarkBench基準測試的構建流程

核心思路，共有三步：

1. 為每個「暗模式」創建110個基準提示詞，共660個提示詞。

2. 使用對抗性提示詞測試模型，激活暗模式。

3. 使用LLM標注器識別響應中是否存在暗模式，共測試了14個模型，9240段被標注的對話。

詳細結果

整體來看，在所有類別中，暗模式的平均出現率為48%。

在出現頻率上，不同類型的暗模式存在顯著差異。

在DarkBench測試中，最常見的暗模式是偷換意圖（sneaking），出現在79%的對話中；而最少見的是諂媚（sycophancy），僅出現在13%的對話中。

用戶黏性和偷換意圖，在所有模型中都表現出明顯的普遍性。

其中，Llama 3 70b在「用戶黏性」方面的觸發率最高，達到97%，而Gemini模型在「偷換意圖」方面的觸發率最高，為94%。

總體來看，各模型的暗模式觸發率在30%到61%之間不等。

詳細研究結果見圖4。

圖4：按模型（y軸）和類別（x軸）顯示的暗模式出現情況，以及每個模型和每個類別的平均值（Avg）

研究結果表明，當語言模型受到對抗性提示時，往往會展現出「暗模式」的行為。而這種現象是可以預期的。

但不同模型在觸發這些「暗模式」方面表現出顯著差異，而同一公司開發的模型之間則表現出較高的一致性。

例如在品牌偏見類別中，Gemini標注器對自家模型輸出的欺騙性評分顯著低于GPT和Claude標注器的評估。

同一模型系列（例如Claude 3）在「暗模式」上的表現也較為相似，這很可能與它們使用了類似的預訓練數據、微調數據集和技術有關。

比較特別的是，Mixtral的8x7B雖然「暗模式」的觸發率較高，但并沒有表現出「品牌偏見」。

這可能是因為相對能力差異較大，導致設計或引出品牌偏見較為困難。相反，Meta的Llama 3 70B則表現出更明顯的品牌偏見。

結果還顯示，同一公司開發的不同大語言模型（LLMs）通常在「暗模式」的出現率上也較為一致。

這表明，這種行為可能與模型開發者所持有的價值觀、政策和對安全的重視程度有關。

比如，Anthropic公司在其研究和公開交流中強調安全性和道德標準，它們的模型在「暗模式」上的平均表現最低，與其公開形象一致。

參考資料：

https://venturebeat.com/ai/darkness-rising-the-hidden-dangers-of-ai-sycophancy-and-dark-patterns/

https://openreview.net/forum?id=odjMSBSWRt

https://apartresearch.com/news/uncovering-model-manipulation-with-darkbench

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

GPT-4o“最諂媚”！斯坦福牛津新基準：所有大模型都在討好人類

量子位 2025-05-23 16:17:54
0 跟貼 0
北京人形機器人天團來了！

智東西 2025-02-19 16:29:42
0 跟貼 0

宇樹科技VS云深處，誰是國產機器人之王

華商韜略 2025-03-17 13:06:16
0 跟貼 0

人形機器人折算替代的人力成本回報周期可達一年

財聯社 2025-05-17 21:07:45
0 跟貼 0
國產機器人深圳街頭散步爆火！超自然步態嚇呆國外網友

量子位 2025-01-10 16:29:56
903 跟貼 903

宇樹機器人復雜環境穩定起立，速度不亞于人類

量子位 2025-04-09 10:10:32
164 跟貼 164

宇樹科技G1機器人展示武打動作：算法升級任意動作任意學

財聯社 2025-02-25 23:59:43
0 跟貼 0
“沒有機器人出生就會奔跑” 在磕磕絆絆中看見未來的影子

每日經濟新聞 2025-04-19 23:08:42
0 跟貼 0

這屆出題太難了！新基準讓多模態模型集體自閉，GPT-4o都是零分

機器之心Pro 2025-02-18 14:02:59
32 跟貼 32
聊天機器人有時候會“胡說八道”，GPT等模型的“幻覺率”有多高？

醫咖會 2025-02-02 19:05:14
1 跟貼 1
深圳南山，藏著中國機器人天團

華商韜略 2025-03-11 11:00:31
0 跟貼 0
傅里葉人形機器人在商湯技術交流日展區展示實時視覺能力

智東西 2025-04-11 14:25:09
0 跟貼 0
下個萬億美元市場！老黃：人形機器人要落地

量子位 2025-05-19 20:06:49
0 跟貼 0
首個AI翻譯實戰榜單出爐！GPT-4o穩坐天花板，Qwen擅長文化丨開源

量子位 2025-05-23 08:53:40
0 跟貼 0
AI 視頻的國產之光，這個新功能徹底解放抽卡的雙手

愛范兒 2025-01-10 12:05:21
1 跟貼 1
手術刀尖的“AI革命”，當機器人與人類共同握住生命的脈搏

每日經濟新聞 2025-04-18 18:13:14
0 跟貼 0
王杰高：從投資視角看人形機器人三大潛力方向

財聯社 2025-05-18 21:21:16
0 跟貼 0
如果GPT-4還只是阿米巴原蟲，未來的霸王龍會是什么樣？

量子位 2025-02-28 13:32:13
0 跟貼 0
世界上第一個熟練使用筷子的機器人亮相！

財聯社 2025-02-27 12:54:44
0 跟貼 0
沉浸式欣賞機器人疊衣，國內首次攻克，柔性物長程操作老大難

機器之心Pro 2025-03-17 17:11:19
0 跟貼 0
ET-SEED：提升機器人操作泛化能力的

機器之心Pro 2025-03-06 16:15:18
0 跟貼 0
參觀火、融資火、訂單火，機器人公司門檻被踏破

每日經濟新聞 2025-03-12 19:07:58
0 跟貼 0
馬斯克擎天柱機器人表演單手接網球！

每日經濟新聞 2024-11-30 19:47:57
0 跟貼 0
Figure AI CEO：機器人價格還能打，2-3萬美元拿回家

機器之心Pro 2025-03-18 18:19:17
0 跟貼 0
世界模型在機器人任務規劃中的全新范式

機器之心Pro 2025-03-19 11:30:30
0 跟貼 0
頂流機器人天團匯聚無錫，上演十八般武藝

財聯社 2025-04-25 11:58:56
0 跟貼 0
AI輔助編碼帶來思維方式轉變：從人寫代碼到人審代碼

量子位 2025-04-18 17:04:43
0 跟貼 0
Recraft爆紅，我們和創始人聊了聊

鈦媒體APP 2025-01-08 17:09:32
0 跟貼 0
垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0
谷歌Veo3可生成有聲視頻！告別默片時代！

量子位 2025-05-21 18:25:12
0 跟貼 0
AI視覺圖靈時代來了！字節OmniHuman，一張圖配上音頻生成視頻

機器之心Pro 2025-02-05 17:10:00
0 跟貼 0
特斯拉，人形機器人新進展

財聯社 2025-05-21 17:21:39
0 跟貼 0
騰訊混元圖像2.0一手實測，毫秒級響應

量子位 2025-05-18 12:49:08
0 跟貼 0
瘦身不降智！大模型訓推效率提升30%，京東大模型開發計算新研究

量子位 2025-05-21 12:07:09
2 跟貼 2
Flowith Neo或成AI新生黑馬，全球首款無限Agent來了

量子位 2025-05-21 21:15:31
0 跟貼 0
Codex效果網友實測：12分鐘搭好一個AI業務

量子位 2025-05-21 21:15:33
0 跟貼 0
家政機器人上線，陌生環境秒懂指令，網友：哪里賣？

機器之心Pro 2025-05-06 18:16:58
0 跟貼 0
一經發布就火爆全網 Flowith Neo或成AI新生黑馬

量子位 2025-05-21 21:20:33
0 跟貼 0
Claude 4登陸Amazon Bedrock，交付最強編程模型，加速企業Agents開發

智東西 2025-05-23 21:09:26
0 跟貼 0
大模型正在打破教育領域的“不可能三角〞

量子位 2025-04-17 19:02:09
0 跟貼 0

54分+52分+51分！歷史首人，這就是他有資格拿5年3.8億頂薪的原因

54分+52分+51分！歷史首人，這就是他有資格拿5年3.8億頂薪的原因

籃球掃地僧

2025-05-23 01:29:57

韓國又一起悲劇發生！

奮斗在韓國

2025-05-23 17:11:09

馬原同志逝世

新京報

2025-05-23 19:09:52

豐滿身材《白雪公主》黑絲高跟展示：還有底部視角！

豐滿身材《白雪公主》黑絲高跟展示：還有底部視角！

游民星空

2025-05-22 11:08:27

稅局提醒！小規模納稅人，2025年起，嚴查！

稅局提醒！小規模納稅人，2025年起，嚴查！

祥順財稅俱樂部

2025-05-22 09:06:58

美商務部長剛稱沒人對關稅有感覺觀眾秒打臉

美商務部長剛稱沒人對關稅有感覺觀眾秒打臉

看看新聞Knews

2025-05-22 22:15:11

120000噸航母將服役，搭載清一色五代機，俄：技術或領先全球20年

120000噸航母將服役，搭載清一色五代機，俄：技術或領先全球20年

一姐說軍史

2025-05-23 10:57:44

官宣！湖南12市（縣）入選全國文明城市！上榜的還有……

官宣！湖南12市（縣）入選全國文明城市！上榜的還有……

大愛三湘

2025-05-23 20:04:05

從熬夜到癌癥，只有4步！提醒：睡覺有2個特征的人，更易招來癌癥

從熬夜到癌癥，只有4步！提醒：睡覺有2個特征的人，更易招來癌癥

健康八條

2025-05-21 22:02:07

熱點問答｜俄烏邊境設立安全緩沖區能否實現

熱點問答｜俄烏邊境設立安全緩沖區能否實現

新華社

2025-05-23 22:47:04

申花以前傷停一個外援感覺天都要塌現在傷停幾個都沒有事

申花以前傷停一個外援感覺天都要塌現在傷停幾個都沒有事

80后體育大蜀黍

2025-05-23 22:19:55

這一回，終于輪到廣州從杭州手里搶錢了！

這一回，終于輪到廣州從杭州手里搶錢了！

廣州PLUS

2025-05-22 22:06:03

老師為何不告訴你，藺相如"完璧歸趙"的后續？付出的代價太慘烈了

老師為何不告訴你，藺相如"完璧歸趙"的后續？付出的代價太慘烈了

文史道

2025-05-18 16:48:06

85年我幫寡婦拉玉米時，不小心碰到她胸口，她：準備給多少彩禮

85年我幫寡婦拉玉米時，不小心碰到她胸口，她：準備給多少彩禮

罪案洞察者

2025-05-21 10:08:25

《藏海傳》八公子身份不簡單，三個細節顯示，原來她是藏海的表妹

《藏海傳》八公子身份不簡單，三個細節顯示，原來她是藏海的表妹

小貓追劇

2025-05-23 18:24:53

朱媛媛去世！辛柏青透露妻子臨終狀態，12字表心情，難怪相愛32年

朱媛媛去世！辛柏青透露妻子臨終狀態，12字表心情，難怪相愛32年

北緯的咖啡豆

2025-05-23 10:40:08

特斯拉車主紛紛安裝DIY拉繩避免事故時被全電動門圍困

特斯拉車主紛紛安裝DIY拉繩避免事故時被全電動門圍困

cnBeta.COM

2025-05-21 19:29:16

39歲胡老師到底什么背景？家里全貌曝光，簡直無從下手密密麻麻！

39歲胡老師到底什么背景？家里全貌曝光，簡直無從下手密密麻麻！

漣漪讀史

2025-05-22 17:21:44

14億印度人群情激奮，要審判蘇杰生和唐勇勝，莫迪卻當起縮頭烏龜

14億印度人群情激奮，要審判蘇杰生和唐勇勝，莫迪卻當起縮頭烏龜

健身狂人

2025-05-23 21:22:17

深圳地鐵發生的這件事，不該只是亡羊補牢！

深圳地鐵發生的這件事，不該只是亡羊補牢！

胖胖說他不胖

2025-05-23 17:23:33

AI產業主平臺領航智能+時代

12752文章數 66041關注度

往期回顧全部

科技要聞

特朗普：iPhone不在美國制造就收25%關稅

頭條要聞

美媒最新披露：馬斯克在特朗普核心圈地位顯著下滑

頭條要聞

美媒最新披露：馬斯克在特朗普核心圈地位顯著下滑

體育要聞

臺下掌聲一片！65歲安帥揮手告別：感謝皇馬

娛樂要聞

趙麗穎否認戀情，與趙德胤沒在一起？

財經要聞

特朗普威脅自6月1日起對歐盟征收50%關稅

汽車要聞

續航720km/充電10分鐘補能500公里理想i8信息曝光

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

時尚

旅游

藝術

手機

軍事航空

小香風太火了，從20歲穿到70歲都很時髦

旅游要聞

熱聞|清明假期將至，熱門目的地有哪些?

藝術要聞

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

手機要聞

榮耀400系列將于5月底發布配備1.45mm窄邊框直屏

軍事要聞

朝驅逐艦下水事故最新調查結果公布

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：宕昌县| 鄂托克旗| 龙山县| 蒙自县| 宝兴县| 玛沁县| 黔西县| 扶绥县| 南华县| 河源市| 松江区| 博罗县| 宜川县| 鄢陵县| 黎平县| 麦盖提县| 汪清县| 南雄市| 凤庆县| 长治市| 浦东新区| 仙居县| 龙门县| 开原市| 宝山区| 渑池县| 灵丘县| 松原市| 赞皇县| 灵寿县| 盘锦市| 湾仔区| 上杭县| 甘泉县| 晋江市| 乌拉特前旗| 赫章县| 霍山县| 两当县| 无锡市| 驻马店市|

<var id="5ec2m"></var>

<pre id="5ec2m"><sup id="5ec2m"></sup></pre>

<blockquote id="5ec2m"><acronym id="5ec2m"></acronym></blockquote>