你是不是也有這種經(jīng)歷:
晚上想刷五分鐘短視頻,結(jié)果一個(gè)小時(shí)過去了都沒停下?明明很多視頻都無聊重復(fù),明明已經(jīng)有點(diǎn)乏了,但就是控制不住往下劃。
這并不是意志力的問題,而是你身處在一個(gè)精心設(shè)計(jì)的注意力陷阱。
你的大腦在等待下一次驚喜
我們活在一個(gè)注意力稀缺的時(shí)代,你的注意力對平臺(tái)來說就是金礦。為了爭奪你的大腦資源,平臺(tái)設(shè)計(jì)了一套多巴胺小游戲,不斷優(yōu)化推薦和獎(jiǎng)賞結(jié)構(gòu),讓你在不知不覺中上頭。這也是行為心理學(xué)中的經(jīng)典策略:間歇性獎(jiǎng)勵(lì)機(jī)制(Intermittent Reinforcement)。
其中有一個(gè)核心理論:不是獎(jiǎng)勵(lì)本身讓人上癮,而是對獎(jiǎng)勵(lì)的期待。
你可能已經(jīng)體驗(yàn)過:劃了十幾條平平無奇的視頻,突然會(huì)出現(xiàn)一條特別打動(dòng)你的,讓你笑出聲、憤怒、淚目或瞬間感覺”好懂我!”。就是這一個(gè)小爆點(diǎn),讓你決定繼續(xù)刷下去。這正是心理學(xué)家斯金納(B.F. Skinner)在上世紀(jì)提出的間歇性強(qiáng)化機(jī)制的精髓。
間歇性獎(jiǎng)勵(lì)中最容易讓行為持續(xù)的就是:變量比率獎(jiǎng)勵(lì)機(jī)制(Variable Ratio Schedule),因?yàn)椴淮_定的獎(jiǎng)勵(lì)遠(yuǎn)比確定的更容易讓大腦上癮。
斯金納的鴿子實(shí)驗(yàn)
斯金納曾做過一個(gè)經(jīng)典實(shí)驗(yàn):他訓(xùn)練鴿子按按鈕,如果鴿子每按一次就給一粒食物, 鴿子按一會(huì)兒就失去興趣了。但當(dāng)他把規(guī)則改為隨機(jī)間隔投食—— 比如按三次給一次,按七次再給一次,再按五次再給一次,鴿子們會(huì)變得異??駸幔瑤缀鯚o休止地按下去。
神經(jīng)科學(xué)家 Robert Sapolsky 的研究發(fā)現(xiàn):大腦在面對“確定獎(jiǎng)勵(lì)”與“不確定獎(jiǎng)勵(lì)”時(shí),多巴胺的釋放峰值并不是出現(xiàn)在拿到獎(jiǎng)勵(lì)那一刻,而是在期待獎(jiǎng)勵(lì)的過程中。而且當(dāng)獎(jiǎng)勵(lì)從確定出現(xiàn),變成只有一半幾率出現(xiàn)時(shí),多巴胺的釋放反而更劇烈。說明相比于確定的滿足,大腦更容易被“可能有驚喜”所驅(qū)動(dòng)。
短視頻平臺(tái)就像是一個(gè)全天候運(yùn)作的注意力賭場。正如產(chǎn)品行為學(xué)專家 Nir Eyal 在《上癮》(Hooked: How to Build Habit-Forming Products)一書中指出的:平臺(tái)正是通過“觸發(fā)—行為—獎(jiǎng)賞—投入”這一行為閉環(huán),不斷強(qiáng)化用戶的參與動(dòng)機(jī),讓你一次次劃下去,最終形成難以察覺的依賴。
這也是為什么我們會(huì)對抽卡、開盲盒、老虎機(jī)這些游戲上癮:它們的本質(zhì)機(jī)制完全一致:不確定的獎(jiǎng)賞 → 持續(xù)的下注行為 → 多巴胺驅(qū)動(dòng)的參與感。當(dāng)你刷到停不下來的時(shí)候,已經(jīng)不是在主動(dòng)刷視頻,而是在等待被投喂那一個(gè)期待中的驚喜。
算法是如何越來越懂你的?
那么,這些讓你上頭的視頻,平臺(tái)到底是怎么選出來的?
你在看視頻的同時(shí),平臺(tái)也在觀察你
推薦系統(tǒng)的核心目標(biāo),是不斷構(gòu)建并更新一個(gè)盡可能精準(zhǔn)的用戶畫像。你的每一次點(diǎn)擊、停留、快進(jìn)、點(diǎn)贊或劃走,都是一次對自身偏好的標(biāo)注:你點(diǎn)進(jìn)美食類視頻、停留超過5秒,它就打下「食物興趣家」的標(biāo)簽;你總是快速劃過雞湯段子,它就知道你是「煽情無感」類人群,并減少推薦。
這些行為反饋不斷被送入模型中,你越刷平臺(tái)越懂你,如此往復(fù),形成一個(gè)自我增強(qiáng)的循環(huán):刷視頻 → 反饋 → 平臺(tái)記錄 → 模型更新 → 更好誘餌 → 更強(qiáng)反饋 → 你繼續(xù)刷…… 這背后正是經(jīng)典的在線強(qiáng)化學(xué)習(xí)系統(tǒng)。
平臺(tái)兩種常用的推薦策略是:
協(xié)同過濾(Collaborative Filtering):
核心是人以群分:喜歡相似東西的人,未來也可能喜歡相似的東西。比如你喜歡 A、B 兩條視頻,另一個(gè)人也喜歡 A、B,并且還喜歡 C,那平臺(tái)就會(huì)把 C 推給你。
內(nèi)容過濾(Content-based Filtering):
也就是基于內(nèi)容相似度推薦。它根據(jù)你看過的視頻的標(biāo)簽、關(guān)鍵詞、時(shí)長、節(jié)奏、配樂、話題等內(nèi)容特征,推薦與之相似的其他視頻。
但平臺(tái)并不會(huì)總是推你最愛看的內(nèi)容,因?yàn)槟菢与m然短期內(nèi)效果好,長遠(yuǎn)卻容易造成內(nèi)容疲勞甚至用戶流失,所以平臺(tái)必須在滿足你和試探你之間找到平衡。這也就是算法中的探索 vs 利用(Explore vs Exploit)權(quán)衡問題。探索是為了試探你,挖掘新內(nèi)容,利用是為了穩(wěn)住你,繼續(xù)推你??吹娘L(fēng)格內(nèi)容。
這個(gè)問題也被稱為多臂老虎機(jī)問題(Multi-Armed Bandit Problem),就像賭場里的老虎機(jī)一樣,每一個(gè)“臂”代表一種內(nèi)容選擇,平臺(tái)會(huì)在不同臂間做選擇,既最大化當(dāng)前回報(bào),又不斷嘗試未驗(yàn)證過的選項(xiàng),從中找出更優(yōu)解。
此外,為了讓推薦列表看起來不是完全套路化,平臺(tái)還會(huì)加入隨機(jī)擾動(dòng)機(jī)制,比如Gumbel-Max Trick的采樣方法。簡單來說,平臺(tái)為你每個(gè)視頻估一個(gè)點(diǎn)擊概率(比如你點(diǎn)美食的概率0.9,點(diǎn)汽車的概率0.6);然后對每個(gè)視頻加一個(gè)Gumbel分布的隨機(jī)噪聲,制造一些不確定性,最終讓高分內(nèi)容更容易被選中,但也給低分內(nèi)容一些曝光機(jī)會(huì)。
這就實(shí)現(xiàn)了一種微妙的效果:你刷到的內(nèi)容中大概率會(huì)是你喜歡的內(nèi)容,還有一部分是未知的新奇內(nèi)容,有時(shí)平淡,有時(shí)出彩,且出現(xiàn)得足夠隨機(jī),足夠讓你產(chǎn)生一種不知道下一個(gè)會(huì)不會(huì)更好的期待。
就像是一個(gè)賭場老板精心設(shè)計(jì)的偽隨機(jī),有意混進(jìn)幾次「中大獎(jiǎng)」來吊住你繼續(xù)下注。這種不確定、持續(xù)下注的體驗(yàn),還在悄悄抬高你的刺激閾值。長時(shí)間沉浸在這種快感節(jié)奏中,大腦會(huì)愈發(fā)傾向高頻刺激,你開始需要更短、更快、更炸裂的內(nèi)容才能感覺到滿足,而對那些節(jié)奏緩慢、需要思考的內(nèi)容,變得越來越難以專注。
有一種焦慮叫“害怕錯(cuò)過”
FOMO(Fear of Missing Out,錯(cuò)失恐懼)是一種對可能錯(cuò)過信息或機(jī)會(huì)的持續(xù)擔(dān)憂 ——你總覺得,下一條內(nèi)容可能就藏著什么重要的信息。這種焦慮悄悄主宰了我們的注意力分配。
但真相往往是:內(nèi)容過于碎片化,導(dǎo)致你刷完后也記不得內(nèi)容。你感到空虛,所以立即刷下一個(gè)來填補(bǔ)空虛。這是一種被信息滿足的幻覺劫持的慣性依賴。平臺(tái)用源源不斷的“可能有用”的信息碎片投喂你,而你被FOMO焦慮劫持,持續(xù)上繳注意力。
可信息時(shí)代最大的悖論是:你真正需要的知識(shí),從來不是靠刷到的。
認(rèn)知結(jié)構(gòu)的升級(jí)往往發(fā)生于對知識(shí)的主動(dòng)選擇、深度咀嚼、反復(fù)推演的過程之中,而不是在碎片化內(nèi)容的轟炸下,僥幸獲得的一瞬間「有收獲的錯(cuò)覺」。
如何抵抗短視頻的上癮機(jī)制?
要重新找回那種不靠外部刺激也能感到滿足的狀態(tài),我們需要做的不是強(qiáng)制自己戒掉刷手機(jī),而是更系統(tǒng)地重建自己的獎(jiǎng)賞系統(tǒng)結(jié)構(gòu)。
1. 重設(shè)刺激閾值
設(shè)置固定刷視頻的窗口時(shí)段(比如只在飯后10分鐘內(nèi)劃)
設(shè)置停止點(diǎn)提醒:比如每看到3條有趣內(nèi)容就主動(dòng)停一下,練習(xí)提前結(jié)束。
短時(shí)間、高頻率的刺激會(huì)抬高多巴胺閾值,讓我們對長時(shí)間的專注任務(wù)越來越難進(jìn)入。拉長間隔 、降低刺激的頻率速率可以幫助恢復(fù)多巴胺機(jī)制的韌性。
2. 刻意培養(yǎng)長期獎(jiǎng)賞回路
大腦并非只喜歡短期刺激,它也能被成就感、節(jié)奏感、結(jié)構(gòu)化輸出所驅(qū)動(dòng)。
給自己設(shè)立長線獎(jiǎng)賞任務(wù):比如每天看完一篇文章/完成一個(gè)工作清單/運(yùn)動(dòng)半小時(shí)后允許自己刷一會(huì)短視頻,逐漸用更緩慢但成就感更高的行為,反向刺激大腦重新建立深度投入 → 實(shí)際回報(bào)之間的連接。這正是讓腦回路從多巴胺刺激轉(zhuǎn)向內(nèi)啡肽回路:前者快但空虛,后者慢卻扎實(shí)。
3. 提升覺察力
你越理解算法如何建模你、如何引導(dǎo)你上鉤,你就越能夠抵抗誘惑。
可以經(jīng)常提醒自己兩個(gè)問題:“我現(xiàn)在是在主動(dòng)選擇想看的內(nèi)容,還是在被動(dòng)投喂?”,“我真的需要看到這些內(nèi)容嗎?”
比努力忍住不刷視頻更重要的,是設(shè)計(jì)出一個(gè)比短刺激更好玩、更有成就感的生活系統(tǒng)。你的注意力,值得被更深的滿足所支配。
end
參考資料:
[1] Reward and Decision Processes in the Brain.Montague, P. R
https://doi.org/10.1126/science.1130935
[2]How TikTok uses Reinforcement Learning for Realtime Recommendations.
https://bytehouse.cn/blog/tiktok-reinforcement-learning-recommendations/
[3] Digital Minimalism: Choosing a Focused Life in a Noisy World.
Newport, C. (2019).
https://www.calnewport.com/books/digital-minimalism/
[4] Skinner’s Operant Conditioning: How Reward Shapes Behavior.
Simply Psychology.
https://www.simplypsychology.org/operant-conditioning.html
[5] Reward Prediction Error and Dopamine:
https://neurosciencenews.com/reward-prediction-error-dopamine-20528/
來源:DataCafe
編輯:紫竹小筑
轉(zhuǎn)載內(nèi)容僅代表作者觀點(diǎn)
不代表中科院物理所立場
如需轉(zhuǎn)載請聯(lián)系原公眾號(hào)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.