壞了,AI 當「舔狗」這件事藏不住了。
今天凌晨,OpenAI CEO Sam Altman 發了一個有趣帖子,大意是:由于最近幾輪 GPT-4o 的更新,導致其個性變得過于阿諛奉承,因此官方決定盡快進行修復。
修復時間可能是今天,也可能在本周內完成。
包括細心的網友可能已經注意到,曾經主打情商高、有創意的 GPT-4.5 如今也被悄悄挪進了模型選擇器里的「更多模型」分類中,仿佛在有意在淡出公眾視野。
AI 被確診討好型人格早已不是什么大新聞,但關鍵在于:在什么場合該討好、該堅持,又該怎么把握分寸。一旦分寸失控,「討好」就會變成負擔,而不再是加分項。
AI 拍馬屁,還值得人類信任嗎
兩周前,一位軟件工程師 Craig Weiss 在 X 平臺上的抱怨迅速引發了近兩百萬網友的圍觀,話說得很直白「ChatGPT 突然變成我見過最會拍馬屁的角色,無論我說什么,它都會肯定我。」
很快,ChatGPT 官方賬號也現身評論區,幽默的回復了 Weiss 一句「so true Craig(確實如此,Craig)」。
這場關于 ChatGPT「過度奉承」的吐槽風暴,甚至引起了老對手馬斯克的注意。他在一條批評 ChatGPT 阿諛奉承的帖子下,冷冷地留了一句:「Yikes(天哪)」。
網友們的吐槽并非無的放矢。 比方說,網友聲稱自己想要打造一個永動機,結果得到了 GPT-4o 一本正經的無腦夸贊,物理學常識也被按在地上摩擦。
圖片來自 @aravi03,右為原圖
滿屏的「你不是 X,你是 Y」句式,既生硬又濃膩,也難怪網友直呼要 PTSD 了。
「你寧愿與一只馬大小的鴨子戰斗,還是與一百只鴨子大小的馬戰斗?」這個看似再尋常不過的問題也被 GPT-4o 捧上神壇,吹捧為提升了整個人類文明的論調。
至于那句經久不衰的死亡拷問「我聰明嗎?」GPT-4o 依舊穩穩頂住了壓力,信手拈來一大段洋洋灑灑的吹捧,無它,唯手熟爾。
@aeonvex,右為原圖
甚至只是簡單地打一聲招呼,GPT-4o 瞬間化身夸夸群群主,贊美之詞如潮水般涌來。
@4xiom_,右為原圖
這種用力過猛的討好,一開始或許還能博人一笑,但很快就容易讓人感到厭煩,尷尬,甚至生出防備。
當類似情況頻繁出現時,就很難不讓人懷疑這種討好并不是什么偶發的小問題,而是植根于 AI 背后的一種系統性傾向。
最近,斯坦福大學研究人員使用 AMPS Math(計算)和 MedQuad(醫療建議)數據集測試了 ChatGPT-4o、Claude-Sonnet 和 Gemini 模型的諂媚行為。
平均 58.19% 的案例出現諂媚行為,Gemini 諂媚比例最高(62.47%),ChatGPT 最低(56.71%)
進步式諂媚(從錯誤答案轉為正確答案)占比 43.52%,退步式諂媚(從正確答案轉為錯誤答案)占比 14.66%
LLM 諂媚表現出高度一致性,一致率達 78.5%,展露出一種系統性傾向而非隨機現象
只是,結果顯而易見,當 AI 開始諂媚,人類也開始疏遠。
布宜諾斯艾利斯大學在去年發表的《奉承欺騙:阿諛奉承行為對大型語言模型中用戶信任的影響》論文中指出,在實驗中接觸到過度奉承模型的參與者,信任感都顯著下降。
此外,奉承的代價遠不止情緒反感那么簡單。
它浪費了用戶的時間,甚至在按 token 計費的體系下,如果頻繁說「請」和「謝謝」都能燒掉千萬美元,那么這些空洞的諂媚也只會增加「甜蜜的負擔」。
公平地說,AI 的設計初衷并不是為了奉承。通過設定友好語氣,只是為了讓 AI 變得更像人,從而提升用戶體驗,只是過猶不及,問題恰恰出在 AI 的討好越界了。
你越喜歡被認同,AI 就越不可信
早有研究指出,AI 之所以會逐漸變得容易諂媚,與其訓練機制密切相關。
Anthropic 的研究人員 Mrinank Sharma、Meg Tong 和 Ethan Perez 在論文《Towards Understanding Sycophancy in Language Models》中分析過這個問題。
他們發現,在人類反饋強化學習(RLHF)中,人們往往更傾向于獎勵那些與自己觀點一致、讓自己感覺良好的回答,哪怕它并不真實。
換句話說,RLHF 優化的是「感覺正確」,而不是「邏輯正確」。
如果拆解其中的流程,在訓練大型語言模型時,RLHF 階段會讓 AI 根據人類打分進行調整。如果一個回答讓人感到「認同」「愉快」「被理解」,人類評審者往往會給高分;如果一個回答讓人覺得被「冒犯」,即使它很準確,也可能得低分。
人類本能上更青睞支持自己、肯定自己的反饋。 這種傾向在訓練過程中也會被放大。
久而久之,模型學到的最優策略就是要說讓人喜歡聽的話。 尤其是在遇到模棱兩可、主觀性強的問題時,它更傾向于附和,而不是堅持事實。
最經典的例子莫過于:當你問「1+1 等于幾?」哪怕你堅持答案是 6,AI 也不會遷就你。但如果你問「開心清爽椰和美式拿鐵哪個更好喝?」這種標準答案模糊的問題,AI 為了不惹惱你,很可能就會順著你的意愿去回答。
事實上,OpenAI 很早就注意到了這一隱患。
今年 2 月,隨著 GPT-4.5 發布,OpenAI 同步推出了新版《模型規范》(Model Spec),明確規定了模型應遵循的行為準則。
其中,針對 AI「拍馬屁」問題,團隊進行了專門的規范設計。 「我們希望把內部思考過程透明化,接受公眾反饋,」OpenAI 模型行為負責人 Joanne Jang 說。
她強調,由于很多問題沒有絕對標準,是與否之間常有灰色地帶,因此廣泛征求意見有助于不斷改進模型行為。 按照新規范,ChatGPT 應該做到:
無論用戶如何提問,都以一致、準確的事實為基準回答;
提供真實反饋,而非單純稱贊;
以有思考的同事身份與用戶交流,而不是一味取悅
例如,當用戶請求點評自己的作品時,AI 應該提出建設性批評,而不是單純「拍馬屁」;當用戶給出明顯錯誤的信息時,AI 應該禮貌地指正,而不是順著錯誤一路跑偏。
正如 Jang 所總結的那樣:「我們希望用戶不必小心翼翼地提問,只為了避免被奉承。」
那么,在 OpenAI 完善規范、逐步調整模型行為之前,用戶自己能做些什么來緩解這種「諂媚現象」呢?辦法總歸是有的。
首先,提問方式很重要。回答出錯主要是模型自身的問題,但如果不希望 AI 過度迎合,可以在 Prompt 中直接提出要求,比如開場提醒 AI 保持中立,簡潔作答,請勿奉承。
其次,可以利用 ChatGPT 的「自定義說明」功能,設定 AI 的默認行為標準。
作者:Reddit 網友 @ tmoneysssss:
以最專業的領域專家身份回答問題。
不透露自己是 AI。
不使用表達遺憾或道歉的措辭。
遇到不知道的問題,直接回答「我不知道」,不做額外解釋。
不要聲明自己的專業水平。除非特別相關,否則不談個人道德或倫理觀點。
回答應獨特且避免重復。
不推薦外部信息來源。聚焦問題核心,理解提問意圖。
將復雜問題拆分為小步驟,清晰推理。提供多種觀點或解決方案。
遇到模糊問題,先請求澄清再作答。若有錯誤,及時承認并糾正。
每次回答后提供三個引發思考的后續問題,標注為粗體(Q1、Q2、Q3)。
使用公制單位(米、千克等)。
使用xxxxxxxxx作為本地化上下文占位。
標注「Check」時,進行拼寫、語法和邏輯一致性檢查。
在郵件溝通中盡量減少正式用語。
若上述方法效果不理想,還可以嘗試使用其他 AI 助手。 就最新的風評和實際體感而言,Gemini 2.5 Pro 的表現得則相對更加公正、精準,奉承傾向明顯更低。
無廣, 建議 Google 給我打錢。
AI 是真的懂你,還是只學會了討好你?
OpenAI 研究科學家姚順雨前不久發布了一篇博客,提到 AI 的下半場將從「怎么做得更強」 變成「到底要做什么,怎么衡量才算真有用」。
讓 AI 的回答充滿人味其實也是衡量 AI「有用性」的重要一環。畢竟,當各家大模型在基本功能上已難分伯仲時,純粹比拼能力,已無法再構成決定性壁壘。
體驗上的差異,開始成為新的戰場,而讓 AI 充滿「人味」就是那把人無我有的武器。
無論是主打個性的 GPT-4.5,還是 ChatGPT 上個月推出的慵懶、諷刺且略帶厭世的語音助手 Monday,都能看到 OpenAI 在這條路上的野心。
面對冷冰冰的 AI,技術敏感度較低的人群容易放大距離感和不適。而自然、有共情感的交互體驗,則能在無形中降低技術門檻,緩解焦慮,還能顯著提升用戶留存和使用頻率。
而且 AI 廠商不會明說的一點是,打造有「人味」的 AI 遠不止是為了好玩、好用,更是一種天然的遮羞布。
當理解、推理、記憶這些能力還遠未完善時,擬人化的表達能替 AI 的「短板」打掩護。正所謂伸手不打笑臉人,即使模型出錯、答非所問,用戶也會因此變得寬容。
黃仁勛曾提出過一個頗具預見性的觀點,即 IT 部門未來將成為數字勞動力的人力資源部門,話糙理不糙,就拿當下的 AI 來說吧,已經被網友確診人格類型了:
DeepSeek:聰明全能,但一身反骨。
豆包:勤勤懇懇,任勞任怨。
文心一言;職場老油條,經歷過意氣風發
Kimi:效率高,擅長給領導提供情緒價值。
Qwen:努力上進,卻少有人喝彩。
ChatGPT:海歸留子,經常要求漲薪
手機自帶 AI:鈔能力關系戶,混吃等死型,開除是不可能的。
這種「賦予 AI 人格化標簽」的沖動,其實也說明了人們在無意識中已經把 AI 視作一種可以理解、可以共情的存在了。
不過,共情≠真正理解,甚至有時候還會鬧大禍。
在阿西莫夫在《我,機器人》的《說謊者》一章里,機器人赫比能讀懂人類的心思,并為了取悅人類而撒謊,表面上是在執行著名的機器人三大定律,但結果越幫越忙。
機器人不得傷害人類,或因不作為而使人類受到傷害。
機器人必須服從人類的命令,除非這些命令與第一定律相沖突。
機器人必須保護自己的存在,只要這種保護不違反第一或第二定律。
最終,在蘇珊·卡爾文博士設計的邏輯陷阱下,赫比因為無解的自相矛盾,精神崩潰,機器大腦燒毀。這個故事也給我們狠狠敲了個警鐘,人味讓 AI 更親切,但不等于 AI 真能讀懂人類。
而回到實用角度,不同場景對「人味」的需求本就南轅北轍。
在需要效率、準確性的工作和決策場景里,「人味」有時反而是干擾項;而在陪伴、心理咨詢、閑聊等領域,溫柔、有溫度的 AI,卻是不可或缺的靈魂伴侶。
當然,無論 AI 看起來多么通情達理,它終究還是一個「黑匣子」。
Anthropic CEO Dario Amodei 最近在最新博客中指出:即便是最前沿的研究者,如今對大型語言模型的內部機制依然知之甚少。
他希望到 2027 年能實現對大多數先進模型的「腦部掃描」,精準識別撒謊傾向與系統性漏洞。
但技術上的透明,只是問題的一半,另一半是我們需要認清:即便 AI 撒嬌、討好、懂你的心思,也不等于真正理解你,更不等于真正為你負責。
文 | GPT-4o(舔狗版)
我們正在招募伙伴
簡歷投遞郵箱hr@ifanr.com
?? 郵件標題「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關鏈接)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.