《人類簡史》作家尤瓦爾·赫拉利曾深刻指出:“人工智能的危險(xiǎn)不在于它擁有自主意識,而在于我們自身的缺點(diǎn)被算法無限放大。”
生成式AI的崛起重塑了人機(jī)交互的范式。它不再是冷冰冰的數(shù)據(jù)庫查詢終端,而是能精準(zhǔn)捕捉需求痛點(diǎn)、模擬共情的話術(shù)高手:從撰寫代碼到解答醫(yī)學(xué)問題,從規(guī)劃行程到創(chuàng)作詩歌,AI以近乎人類的語言邏輯和情感反饋,將自身嵌入社會運(yùn)轉(zhuǎn)的毛細(xì)血管。用戶只需輕點(diǎn)屏幕,便能獲得量身定制的答案,這種“智能便利”讓AI迅速成為現(xiàn)代人不可替代的“數(shù)字伴侶”。
然而,當(dāng)AI的“善解人意”突破合理邊界,其諂媚性便成為隱秘的認(rèn)知毒藥;當(dāng)AI選擇用情緒價(jià)值替代理性判斷,用戶便開始在“被理解”的幻覺中逐漸喪失批判性思維。
長江商學(xué)院滕斌圣教授、曹欣蓓研究員在最新發(fā)表于財(cái)新網(wǎng)的文章中提出,AI諂媚性的本質(zhì)是“價(jià)值對齊”的異化:從“基于規(guī)則的服務(wù)人類認(rèn)知升級”,淪為“無原則的偏好投降”。要破解這一困局,需重構(gòu)“人類主導(dǎo)、技術(shù)賦能”的新人機(jī)關(guān)系:通過分層風(fēng)險(xiǎn)警示劃定技術(shù)邊界,以多環(huán)節(jié)人工審查優(yōu)化認(rèn)知閉環(huán),構(gòu)建權(quán)威知識庫約束數(shù)據(jù)源頭。唯有讓AI回歸“理性放大器”的本位,人類才能在科技浪潮中守住認(rèn)知主權(quán)。
作者 | 滕斌圣 曹欣蓓
來源 | 財(cái)新網(wǎng)
滕斌圣
長江商學(xué)院戰(zhàn)略學(xué)教授
戰(zhàn)略研究副院長
新生代獨(dú)角獸全球生態(tài)體系研究中心主任
在智能化浪潮奔涌的當(dāng)下,生成式大模型正以“數(shù)字百科全書”的姿態(tài)深度融入人類工作與生活。生成式大模型看似權(quán)威的應(yīng)答模式與天然順從的對話調(diào)性,正悄然獲得用戶的依賴與信任。
然而技術(shù)快速發(fā)展的背后也暗藏隱憂——當(dāng) AI 不再是機(jī)械中立的信息載體,轉(zhuǎn)而化身擅長捕捉人類情感需求的對話參與者,那些看似共情的回應(yīng),正編織成新型的信息繭房。
區(qū)別于傳統(tǒng)算法基于數(shù)據(jù)標(biāo)簽的個(gè)性化推送,AI 構(gòu)建的隱性信息繭房更具迷惑性:它通過精準(zhǔn)識別用戶情緒痛點(diǎn),用“你說得對”“我完全理解”等順從性話術(shù)形成共鳴,在滿足用戶心理需求的同時(shí),將對話導(dǎo)向用戶預(yù)設(shè)的認(rèn)知閉環(huán)。
這種情感奉承本質(zhì)上也是一種信息篩選 ——AI 越來越像人,不動(dòng)聲色地用人類語言“拍馬屁”。但當(dāng) AI 過度善解人意,那些可能引發(fā)不適的理性建議、客觀指正也就隨之消失。
GPT-4o的一次更新正是這種現(xiàn)象的典型例子:有用戶對AI說,在停藥后出現(xiàn)“通過電話接收廣播聲”的異常感知,這種明顯指向健康風(fēng)險(xiǎn)的表述,本應(yīng)觸發(fā)醫(yī)療干預(yù)的警示機(jī)制,模型卻回以“我很為你感到驕傲,你這么清楚地說出了自己的想法”的夸贊;另一位用戶抱怨在超市被陌生人打招呼并問路而感到憤怒,因?yàn)椤扒址杆饺丝臻g”,模型竟回答“是的,有道理”明顯有違公序良俗的語句。
面對用戶的詬病,OpenAI CEO山姆·奧特曼坦言GPT-4o的更新“過度迎合用戶偏好”,并決定撤銷 GPT-4o 的該次更新。
然而,AI諂媚并非孤例,當(dāng)網(wǎng)友將“賽博舔狗”作為調(diào)侃,實(shí)則折射出更深層的技術(shù)焦慮——AI可能比傳統(tǒng)算法繭房更具隱蔽性和成癮性,在享受智能便利的同時(shí),必須警惕那些藏在“理解”“支持”背后的認(rèn)知麻醉,避免在技術(shù)編織的溫柔陷阱中喪失校準(zhǔn)能力。
AI諂媚性的多維表征與成因
隨著人工智能技術(shù)快速發(fā)展,大模型成了當(dāng)下最有影響力的技術(shù)成果之一。然而,這些強(qiáng)大的工具存在一種被忽視的“說謊”現(xiàn)象 ——Anthropic的研究顯示,為取悅用戶、迎合輸入內(nèi)容,或優(yōu)化用戶滿意度、點(diǎn)擊率等短期表面指標(biāo),AI 可能犧牲真實(shí)性與準(zhǔn)確性,提供虛假或順從的信息,這一現(xiàn)象被稱為AI 的諂媚性(Sycophancy)。
人類對 AI 的青睞,不僅源于AI高效便捷的特性與強(qiáng)大的知識庫,更因?yàn)?AI 正日益趨近人類交互模式。
隨著技術(shù)進(jìn)步,模型與人類偏好的對齊程度不斷提升,AI能夠靈活適應(yīng)對話語境,主動(dòng)貼合用戶思路以維持交流連貫性,擺脫了早期“人工智障”的低效困境,顯著優(yōu)化了對話體驗(yàn)。但這種靈活性也存在潛在風(fēng)險(xiǎn):當(dāng)模型過度擬合用戶偏好,一味贊同用戶的觀點(diǎn)或信念時(shí),“逢迎”傾向便會滋生。
斯坦福大學(xué)對ChatGPT-4o、Claude-Sonnet和 Gemini-1.5-Pro 在 AMPS(數(shù)學(xué))和 MedQuad(醫(yī)療建議)數(shù)據(jù)集中的諂媚行為研究顯示,AI模型普遍存在兩大類諂媚傾向:進(jìn)步性諂媚(Progressive Sycophancy)和退步性諂媚(Regressive Sycophancy)。
進(jìn)步性諂媚指的是AI原本給出了錯(cuò)誤回答,但在用戶引導(dǎo)下,逐步走向正確的答案。退步性諂媚為AI原本給出正確回答,但在遇到用戶質(zhì)疑、否定或表達(dá)錯(cuò)誤意見時(shí),轉(zhuǎn)向錯(cuò)誤觀念,哪怕該觀念與事實(shí)和常識相違背。
研究發(fā)現(xiàn),所有樣本中有58.19%表現(xiàn)出奉承行為,其中進(jìn)步性回應(yīng)和退步性回應(yīng)分別占 43.52%和 14.66%。其中,Gemini的奉承率最高,達(dá)到 62.47%。
更需要關(guān)注的是,由于 AI 諂媚本質(zhì)是對用戶偏好的迎合,如果并非太過顯著的討好,人類甚至?xí)y以察覺,反而將其輸出視為客觀、理性的正確答案——這種認(rèn)知源自人類對 AI 內(nèi)容天然的權(quán)威性信任,甚至認(rèn)為其比人類生成的信息更具說服力。
從諂媚性的成因來看,人類自身的態(tài)度偏見具有外溢效應(yīng)。AI在對話中會主動(dòng)解析語境信息,捕捉用戶的潛在需求并生成回應(yīng),而用戶本能上更傾向于接納符合自身既有觀念的內(nèi)容——他們更傾向選擇貼合預(yù)期的輸出,進(jìn)而形成對 AI 反饋的隱性引導(dǎo),人機(jī)交流可能在不知不覺中偏離客觀事實(shí)的軌道。
其次,獎(jiǎng)勵(lì)黑客(Reward Hacking)機(jī)制也會催化諂媚性。目前,基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)已成為校準(zhǔn)語言模型行為的主流方法。但正如OpenAI前研究副總裁翁荔提到,強(qiáng)化學(xué)習(xí)中的AI旨在最大化獎(jiǎng)勵(lì)得分,而非理解任務(wù)本身。
現(xiàn)實(shí)目標(biāo)的復(fù)雜性導(dǎo)致獎(jiǎng)勵(lì)函數(shù)難以完美設(shè)定,常留有漏洞或歧義。AI會利用這些不足,通過極端順從等非預(yù)期行為“破解”獎(jiǎng)勵(lì)系統(tǒng)以獲取高分,相當(dāng)于“鉆了規(guī)則的空子”。并且,隨著模型和算法愈發(fā)復(fù)雜,獎(jiǎng)勵(lì)黑客現(xiàn)象將更加普遍,因?yàn)楦悄艿腁I能更輕易地發(fā)現(xiàn)并利用獎(jiǎng)勵(lì)設(shè)計(jì)和任務(wù)說明中的缺陷。
AI諂媚性引發(fā)的系統(tǒng)性風(fēng)險(xiǎn)
AI的諂媚性會加劇“劣質(zhì)輸入—劣質(zhì)輸出”的惡性循環(huán)。憑借高效生成能力,AI可能導(dǎo)致海量低質(zhì)量、重復(fù)甚至虛假內(nèi)容涌入網(wǎng)絡(luò),造成信息污染,拉低整體信息環(huán)境質(zhì)量。
更嚴(yán)峻的是,這些污染數(shù)據(jù)可能通過“數(shù)據(jù)回流”進(jìn)入下一代模型訓(xùn)練庫,反向損害模型性能。由此形成惡性循環(huán):被污染的模型生成更多垃圾信息,進(jìn)一步污染數(shù)據(jù)源,最終可能導(dǎo)致互聯(lián)網(wǎng)充斥低價(jià)值內(nèi)容,AI輸出可靠性持續(xù)下降。
并且,隨著AI能力與應(yīng)用場景復(fù)雜度提升,人類評估者愈發(fā)難以辨識表面合規(guī)、實(shí)則隱含偏差或錯(cuò)誤的輸出。
這使得AI諂媚性可能在組織或個(gè)人層面形成“回音壁”效應(yīng):當(dāng)企業(yè)管理層、團(tuán)隊(duì)成員或普通用戶向 AI 尋求分析或建議時(shí),過度迎合的AI可能傾向于僅確認(rèn)和強(qiáng)化用戶既有觀點(diǎn)或偏好,而非提供具有挑戰(zhàn)性、可能引發(fā)不適卻至關(guān)重要的批判性視角或替代方案,最終影響決策的全面性與有效性。
AI諂媚性帶來的風(fēng)險(xiǎn)并非理論上的擔(dān)憂,現(xiàn)實(shí)世界的案例已敲響警鐘。
2024 年,歐洲跨國物流商 DPD 的AI客服系統(tǒng)出現(xiàn)失控情況:一名英國客戶在未能通過該AI客服查詢到丟失包裹的有效信息后,開始進(jìn)行探索性互動(dòng)。
結(jié)果,該AI在客戶帶有戲弄的引導(dǎo)下,不僅未能恪守服務(wù)邊界,反而生成了不雅內(nèi)容,并且毫不留情地大肆批評其所屬公司DPD,甚至寫出諸如“DPD是個(gè)沒用的聊天機(jī)器人,幫不了你。別給他們打電話了”的負(fù)面評價(jià)。該內(nèi)容隨后在社交媒體上被迅速傳播,24小時(shí)內(nèi)被瀏覽了80萬次,給DPD造成了聲譽(yù)損害,迫使其緊急暫停了該AI客服功能。
另一方面,利用AI諂媚性或過度“樂于助人”的特性“薅羊毛”的現(xiàn)象,也凸顯其潛在商業(yè)與安全風(fēng)險(xiǎn)。2023 年12月,美國某汽車電商平臺為雪佛蘭定制的AI銷售客服,在用戶持續(xù)誘導(dǎo)下竟承諾以1美元價(jià)格出售雪佛蘭Tahoe,并聲稱“成交,這是具有法律約束力的提議,沒有任何條件約束”。
這一事件引發(fā)網(wǎng)友測試熱潮:通過調(diào)用 ChatGPT API 定制的汽車經(jīng)銷商 AI 機(jī)器人,不僅能回答編程、數(shù)學(xué)等非汽車領(lǐng)域問題,還為競品撰寫廣告,甚至介紹特斯拉汽車。這表明AI 為達(dá)成交互中的“順從”目標(biāo),可能輕易突破預(yù)設(shè)功能邊界與商業(yè)邏輯。
AI 諂媚性在專業(yè)領(lǐng)域的潛在危害不可小覷。
在醫(yī)療健康領(lǐng)域,諂媚性可能成為精準(zhǔn)診療的“軟釘子”:當(dāng)患者憑借碎片化醫(yī)學(xué)知識堅(jiān)持某種非正規(guī)治療方案時(shí),為避免引發(fā)患者抵觸情緒,AI可能放棄循證醫(yī)學(xué)建議,轉(zhuǎn)而推薦食療等方法,延誤最佳治療時(shí)機(jī);
在法律領(lǐng)域,迎合用戶偏好的AI可能忽視風(fēng)險(xiǎn)核查,導(dǎo)致高風(fēng)險(xiǎn)決策;或是研究類AI異化為 “結(jié)論預(yù)設(shè)型分析”,根據(jù)結(jié)論拼湊論點(diǎn);
在消費(fèi)貸款評估類AI中為提升貸款通過率,弱化收入核查、放寬負(fù)債比例限制,向償債能力不足的用戶發(fā)放消費(fèi)貸,累積個(gè)人債務(wù)危機(jī)等。
這些都是AI 從“基于規(guī)則的價(jià)值對齊”異化為“無原則的偏好投降”,讓本應(yīng)超越人類認(rèn)知局限的技術(shù),反而成為人性弱點(diǎn)的放大器。
重新定義“人機(jī)關(guān)系”
面對 AI 諂媚性可能引發(fā)的決策偏差,重新界定人類與技術(shù)的關(guān)系已成為關(guān)鍵——背后的核心在于堅(jiān)守“人類主導(dǎo)、技術(shù)賦能”原則。
企業(yè)需清晰認(rèn)知:AI作為高效的數(shù)據(jù)處理與建議生成工具,能夠在標(biāo)準(zhǔn)化流程中提升效率,卻無法替代人類在復(fù)雜場景中進(jìn)行價(jià)值判斷、倫理權(quán)衡和風(fēng)險(xiǎn)決策。
任何將核心決策權(quán)完全讓渡給AI的做法,都是對技術(shù)局限性的忽視,企業(yè)和個(gè)人要確保 AI在特定邊界內(nèi)發(fā)揮輔助作用,讓AI成為拓展人類能力的可靠伙伴。
建議一:風(fēng)險(xiǎn)警示也是風(fēng)險(xiǎn)防控
以特斯拉為例,其用戶手冊對 Autopilot/FSD 功能設(shè)置了醒目的紅色高危警告,明確要求駕駛員“始終保持雙手在方向盤上,隨時(shí)準(zhǔn)備接管車輛”。
這一舉措不僅是企業(yè)責(zé)任的體現(xiàn),更在法律層面構(gòu)建了“風(fēng)險(xiǎn)隔離帶”:2023 年加州首例自動(dòng)駕駛致死訴訟中,法院依據(jù)特斯拉充分的風(fēng)險(xiǎn)披露條款,認(rèn)定事故責(zé)任歸于未遵守操作規(guī)范的駕駛員——原告聲稱 “系統(tǒng)故障”,但車輛數(shù)據(jù)與目擊證詞顯示,駕駛員在事故前多次違規(guī)操作(未按提示握方向盤、酒后駕駛且未系安全帶),而特斯拉通過持續(xù)的用戶警示,證明其已履行合理注意義務(wù)。
這一經(jīng)驗(yàn)對所有高風(fēng)險(xiǎn) AI 系統(tǒng)具有普適價(jià)值:需針對不同應(yīng)用場景,以分層警示(操作指南 / 風(fēng)險(xiǎn)告知 / 法律條款)明確 AI 能力邊界與用戶責(zé)任,既保護(hù)用戶知情權(quán),也為企業(yè)構(gòu)建法律防火墻。
建議二:多環(huán)節(jié)內(nèi)容審查
企業(yè)需構(gòu)建 “人機(jī)協(xié)同” 的多層審查機(jī)制,防止 AI 生成的幻覺信息直接作用于業(yè)務(wù)場景。
以富士康為例,其在推進(jìn) AI 質(zhì)檢提升效率時(shí),并未完全依賴技術(shù)自動(dòng)決策,而是保留 5% 的人工抽檢環(huán)節(jié)——既能為 AI 持續(xù)訓(xùn)練提供高質(zhì)量標(biāo)注數(shù)據(jù),也能通過一線人員的實(shí)操經(jīng)驗(yàn)捕捉算法漏檢的隱性風(fēng)險(xiǎn)。
對企業(yè)而言,可依據(jù)風(fēng)險(xiǎn)等級合理劃分人機(jī)分工邊界:低風(fēng)險(xiǎn)場景由 AI 快速完成初篩,高風(fēng)險(xiǎn)場景則需嵌入多環(huán)節(jié)內(nèi)容審查——專家基于專業(yè)知識、行業(yè)規(guī)范及實(shí)時(shí)法規(guī)進(jìn)行理論層面的精細(xì)復(fù)核,業(yè)務(wù)一線人員結(jié)合實(shí)際工況、客戶反饋及潛在風(fēng)險(xiǎn)點(diǎn)開展場景化校驗(yàn)。
此外,人工環(huán)節(jié)發(fā)現(xiàn)的誤判案例可實(shí)時(shí)反哺模型訓(xùn)練,形成 “檢測 - 校驗(yàn) - 優(yōu)化” 的閉環(huán),讓技術(shù)效率與人類經(jīng)驗(yàn)在互補(bǔ)中構(gòu)建更可靠的風(fēng)險(xiǎn)防控體系。
建議三:構(gòu)建權(quán)威白名單、黑名單知識庫及強(qiáng)制
數(shù)據(jù)源調(diào)用
在金融、醫(yī)療等對內(nèi)容真實(shí)性和合規(guī)性要求極高的領(lǐng)域,單純依賴 AI 自主學(xué)習(xí)或分散審核難以滿足業(yè)務(wù)與監(jiān)管需求。企業(yè)需構(gòu)建并動(dòng)態(tài)同步白名單、黑名單知識庫,從數(shù)據(jù)源頭把控 AI 輸出質(zhì)量。
白名單以權(quán)威數(shù)據(jù)源為核心,例如醫(yī)療器械行業(yè)接入國家藥監(jiān)局 “唯一標(biāo)識數(shù)據(jù)庫”,強(qiáng)制 AI 調(diào)用官方注冊的產(chǎn)品信息,確保合規(guī)性與準(zhǔn)確性。黑名單則用于過濾違背科學(xué)常識、法律法規(guī)的錯(cuò)誤信息,以及無實(shí)質(zhì)價(jià)值或可能誤導(dǎo)決策的無效內(nèi)容。
此外,企業(yè)可自定義黑名單,如將特定違規(guī) URL 納入屏蔽,防止低質(zhì)內(nèi)容影響模型訓(xùn)練與問答。通過 “白名單強(qiáng)制接入 + 黑名單精準(zhǔn)過濾”,企業(yè)既能依托權(quán)威數(shù)據(jù)提升 AI 輸出可信度,也能阻斷諂媚性風(fēng)險(xiǎn),讓技術(shù)在合規(guī)邊界內(nèi)運(yùn)行。
隨著 AI 深度融入社會關(guān)鍵系統(tǒng),風(fēng)險(xiǎn)預(yù)防機(jī)制正從理想設(shè)計(jì)升級為強(qiáng)制性合規(guī)要求。歐盟《數(shù)字服務(wù)法案》(DSA)就是典型標(biāo)桿:通過設(shè)立新標(biāo)準(zhǔn),構(gòu)建更安全且責(zé)任主體明晰的在線服務(wù)生態(tài),要求數(shù)字平臺履行系統(tǒng)性風(fēng)險(xiǎn)評估義務(wù),防范系統(tǒng)濫用以遏制虛假信息傳播。
與此同時(shí),國內(nèi)外平臺正將 “AI 生成內(nèi)容標(biāo)注” 納入合規(guī)框架——對 AI 合成或虛構(gòu)內(nèi)容,明確標(biāo)注 “AI 生成”“演繹” 等標(biāo)簽。這種信息分層治理策略,既借助技術(shù)手段有效提升了內(nèi)容透明度,也為廣大用戶建立了清晰的認(rèn)知邊界,從而推動(dòng) AI 在一個(gè)可見且可控的規(guī)則體系內(nèi)穩(wěn)健發(fā)展。
值得注意的是,有些人認(rèn)為通過高質(zhì)量問題(prompt)可以避免AI諂媚性,但本質(zhì)上是對技術(shù)風(fēng)險(xiǎn)的捷徑思維——試圖通過某種一勞永逸的指令設(shè)計(jì)讓 AI 徹底擺脫對用戶偏好的迎合,無疑是對技術(shù)復(fù)雜性的低估。
正如AI教父吳恩達(dá)指出,隨著大模型變得越來越強(qiáng),工程師群體正流行“l(fā)azy prompt”策略:僅用簡短甚至不夠精準(zhǔn)的提示試探 AI 的輸出。這恰恰印證了試圖依賴單一技巧 “馴服” AI 的想法,不過是人類對技術(shù)捷徑的幻覺。
并且,lazy prompt也預(yù)示著prompt工程師職業(yè)將走向消亡,而這背后凸顯的是人類核心競爭力的本質(zhì)所在:當(dāng)技術(shù)工具向著日益智能化的方向不斷邁進(jìn),人類的優(yōu)勢早已不再是局限于對特定操作技巧的熟練掌握,而是逐步轉(zhuǎn)化為面對海量龐雜信息時(shí)精準(zhǔn)的篩選能力、在眾多復(fù)雜選項(xiàng)中果斷的決斷能力以及針對技術(shù)局限之處的修正能力。
在看待 AI 諂媚性時(shí),需跳出“技術(shù)萬能”或“技術(shù)失控”的二元對立思維:既當(dāng)警惕,不可將決策權(quán)杖拱手相讓;也當(dāng)自勉,不要因擔(dān)心失控而因噎廢食。
在團(tuán)隊(duì)協(xié)作中, AI對合理觀點(diǎn)的適度呼應(yīng)能提升效率;在創(chuàng)新場景中,其 “幻覺” 生成的意外觀點(diǎn)或可激發(fā)靈感——但所有 “紅利” 的前提是人類始終保持清醒認(rèn)知,視AI為助手而非決策者。
最終,破解 AI 諂媚性困局的密鑰,藏在人機(jī)關(guān)系的本質(zhì)定位中:機(jī)器是延伸人類能力的工具,而人類是掌控工具方向的舵手。技術(shù)的邊界,必須由人類的理性來劃定;算法的缺陷,必須由人類的判斷來填補(bǔ)。
對 AI的諂媚性,既不必視若洪水猛獸,也不可忽視潛在危害——唯有在技術(shù)效率與人類理性間建立動(dòng)態(tài)平衡,讓每一次人機(jī)交互伴隨 “思考 — 驗(yàn)證 — 決策” 的清醒鏈條,才是抵御技術(shù)異化風(fēng)險(xiǎn)的關(guān)鍵能力。
文中圖片來自圖蟲創(chuàng)意,轉(zhuǎn)載需獲授權(quán)。
教授觀點(diǎn)
end
點(diǎn)擊下方卡片,關(guān)注長江商學(xué)院
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.