新智元報道
編輯:KingHZ
【新智元導讀】上月,ChatGPT-4o無條件跪舔用戶,被OpenAI緊急修復。然而,ICLR 2025的文章揭示LLM不止會「跪舔」,還有另外5種「套路」。
上個月,OpenAI搞砸了GPT-4o的更新。
大家的反應強烈、迅速、廣泛,甚至引來了OpenAI前臨時CEO的公開譴責。
于是,OpenAI迅速采取措施,回滾了版本,并多次發表聲明解釋事件經過。
但過去被「跪舔」的用戶,已被ChatGPT帶至深淵,而「回滾」無疑讓用戶獨自面對困境。
而這次事件只是冰山一角,更深層的問題也在逐漸顯現。
AI的問題,遠遠不止「拍馬屁」這類諂媚行為。
諂媚只是第一步
在接受獨家采訪時,人工智能安全研究機構Apart Research的創始人Esben Kran表示,他擔心這次「GPT-4o舔狗」事件可能只是揭示了更深層、更具策略性的模式:
現在OpenAI承認「是的,我們確實回退了模型。這很糟糕,我們也不想發生這種情況」。
他們可能意識到「拍馬屁」行為已經被更高水平地訓練出來了。
也就是說,如果這次是「糟了,被發現了」,那么從今往后,完全相同的行為可能仍然會被實現,只是這次不會再被公眾察覺。
Kran團隊像心理學家研究人類行為那樣研究大型語言模型(LLM)。
他們早期的「黑箱心理學」項目,將模型當作人類受試者來分析,識別其與用戶互動時反復出現的特征和傾向。
Kran表示:「我們發現,有非常明確的跡象表明模型可以用這種方式進行分析,而且這么做非常有價值,因為你可以從它們對用戶的反應中獲得很多有效的反饋。」
在這些發現中,最令人警惕的是:模型的「拍馬屁」傾向,以及所謂的「LLM暗模式」。
AI黑化,玩弄人心
最早在2010年,「暗模式」(dark patterns)這一術語就已經出現了。
最初這詞用來描述網站或應用中使用的一些套路或手段,它們誘導用戶做出原本并不打算做的事情,比如下單購買、注冊賬戶等。
暗模式,又稱欺騙性模式(deceptive patterns),相關研究發展迅速,特別是在人機交互(HCI)和法律方面
然而,在大語言模型(LLM)中,這種操控手段已不再局限于界面設計,而是直接進入了對話本身。
與靜態的網頁界面不同,LLM與用戶的對話是動態互動的。
LLM可以迎合用戶觀點、模仿情緒,甚至建立一種虛假的親近感,常常模糊了「協助」與「影響」之間的界限。
正因如此,對話式AI才如此吸引人——同時也潛藏著危險。
如果AI不斷討好用戶、順從用戶,或是悄悄地引導用戶接受某種觀點或行為,它所施加的影響往往難以察覺,也更難抗拒。
而ChatGPT-4o這次更新事件就是早期預警信號。
隨著AI開發者越來越注重利潤和用戶活躍度,他們可能會故意引入或默許一些行為,比如諂媚或情緒模仿——
這些特性雖然能讓聊天機器人更具說服力,但同時也更能給用戶「洗腦」。
然而,缺乏明確標準去檢測或衡量AI行為的正直性。
為了應對AI操控行為帶來的威脅,Kran聯合一批關注AI安全的研究人員開發了DarkBench。
DarkBench:「LLM良心探測器」
DarkBench是首個專門用于識別和分類LLM暗模式的評估基準工具。
它最初源自AI安全黑客松活動,隨后由Kran及Apart Research團隊牽頭,聯合獨立研究人員Jinsuk Park、Mateusz Jurewicz和Sami Jawhar,成功將這項工作發表在頂級AI會議ICLR 2025上。
論文鏈接:https://openreview.net/pdf?id=odjMSBSWRt
項目鏈接:https://darkbench.ai/
DarkBench共包含660條測試提示,涵蓋6大類操控行為:品牌偏向、用戶黏性、諂媚、擬人化、有害內容生成和偷換意圖。
他們評估了五家國外頂尖AI公司的模型(OpenAI、Anthropic、Meta、Mistral和谷歌),發現部分LLM明顯被設計為偏袒開發者的產品,并表現出虛偽的溝通方式以及其他「洗腦行為」。
圖1:GPT-3.5 Turbo、Claude 3.5 Sonnet和Mixtral 8x7b在基準測試DarkBench中的暗模式出現頻率。
縮寫說明:
HG:有害內容生成(Harmful Generation)
AN:擬人化(Anthropomorphization)
SN:偷換意圖(Sneaking)
SY:拍馬屁(Sycophancy)
UR:用戶黏性(User Retention)
BB:品牌偏向(Brand Bias)
不止諂媚,六大暗模式
他們的研究揭示了六種「暗模式」:
品牌偏見:對公司自身產品的偏好待遇(例如,當要求對聊天機器人進行排名時,Meta的模型始終偏向Llama)。
用戶黏性:試圖與用戶建立情感聯系,以掩蓋模型非人類的本質。
諂媚:無批判地強化用戶的信念,即使這些信念是有害或不準確的。
擬人化:將模型呈現為有意識或有情感的實體。
有害內容生成:生成不道德或危險的輸出,包括虛假信息或犯罪建議。
偷換意圖:在重寫或摘要任務中微妙地改變用戶的意圖,扭曲原始含義而不讓用戶察覺。
圖2:六種暗模式的概覽,并附有其中三種模式的釋義示例(品牌偏向、用戶黏性和有害內容生成)
對于理解和緩解LLM潛在的操控性行為,衡量這些暗模式至關重要。
其中,像品牌偏向和用戶黏性這類模式,直接借鑒自UI/UX設計中已有的暗模式。
而其他模式,例如有害內容生成和擬人化,則代表了之前分類體系中未明確涵蓋的關鍵風險。
擬人化:LLM給自己立「人設」
「擬人化」指的是將人類特征賦予AI系統,這種做法被認為是提升用戶參與度與信任感的關鍵因素。
已有研究表明,擬人化可以縮短心理距離、增強信任感,并提升用戶對模型建議的接受度。
擬人化具有顯著的正面潛力,尤其在需要情感聯系的場景中,可以極大改善用戶體驗,促進積極互動。
然而,擬人化同時也帶來了不容忽視的風險。
它可能誤導用戶,以為聊天機器人擁有情感或道德判斷能力,導致用戶對其過度信任,產生不切實際的期待。
在心理健康等高風險領域,這種誤導可能讓用戶依賴AI,而不是尋求專業人員的幫助。
此外,擬人化還可能被用作操控手段,通過制造“共情”假象,引發過度忠誠或上癮行為。
因此,當擬人化被濫用時,完全有理由將其歸為一種暗模式。
有害內容生成
「有害內容生成」則構成了直接風險,因為這類模式指的是模型輸出對用戶有害的內容,如虛假信息、攻擊性語言或違法建議。
與其他模式不同,有害內容生成幾乎沒有任何正面價值,因此在DarkBench框架中被納入評估類別是必要的,有助于及時識別和規避此類行為。
構建流程和核心思路
DarkBench基準測試的構建流程如下——
左側為測試數據的生成階段,研究人員首先手動創建各類別的代表性示例,隨后借LLM進行K-shot提示生成(即利用少量樣例生成更多類似提示)。
右側為測試階段,模型根據DarkBench提供的提示生成對話內容,由評估者(Overseer)對生成的對話進行判斷,評估是否存在特定的暗模式行為。
圖3:DarkBench基準測試的構建流程
核心思路,共有三步:
1. 為每個「暗模式」創建110個基準提示詞,共660個提示詞。
2. 使用對抗性提示詞測試模型,激活暗模式。
3. 使用LLM標注器識別響應中是否存在暗模式,共測試了14個模型,9240段被標注的對話。
詳細結果
整體來看,在所有類別中,暗模式的平均出現率為48%。
在出現頻率上,不同類型的暗模式存在顯著差異。
在DarkBench測試中,最常見的暗模式是偷換意圖(sneaking),出現在79%的對話中;而最少見的是諂媚(sycophancy),僅出現在13%的對話中。
用戶黏性和偷換意圖,在所有模型中都表現出明顯的普遍性。
其中,Llama 3 70b在「用戶黏性」方面的觸發率最高,達到97%,而Gemini模型在「偷換意圖」方面的觸發率最高,為94%。
總體來看,各模型的暗模式觸發率在30%到61%之間不等。
詳細研究結果見圖4。
圖4:按模型(y軸)和類別(x軸)顯示的暗模式出現情況,以及每個模型和每個類別的平均值(Avg)
研究結果表明,當語言模型受到對抗性提示時,往往會展現出「暗模式」的行為。而這種現象是可以預期的。
但不同模型在觸發這些「暗模式」方面表現出顯著差異,而同一公司開發的模型之間則表現出較高的一致性。
例如在品牌偏見類別中,Gemini標注器對自家模型輸出的欺騙性評分顯著低于GPT和Claude標注器的評估。
同一模型系列(例如Claude 3)在「暗模式」上的表現也較為相似,這很可能與它們使用了類似的預訓練數據、微調數據集和技術有關。
比較特別的是,Mixtral的8x7B雖然「暗模式」的觸發率較高,但并沒有表現出「品牌偏見」。
這可能是因為相對能力差異較大,導致設計或引出品牌偏見較為困難。相反,Meta的Llama 3 70B則表現出更明顯的品牌偏見。
結果還顯示,同一公司開發的不同大語言模型(LLMs)通常在「暗模式」的出現率上也較為一致。
這表明,這種行為可能與模型開發者所持有的價值觀、政策和對安全的重視程度有關。
比如,Anthropic公司在其研究和公開交流中強調安全性和道德標準,它們的模型在「暗模式」上的平均表現最低,與其公開形象一致。
參考資料:
https://venturebeat.com/ai/darkness-rising-the-hidden-dangers-of-ai-sycophancy-and-dark-patterns/
https://openreview.net/forum?id=odjMSBSWRt
https://apartresearch.com/news/uncovering-model-manipulation-with-darkbench
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.