文 | 闌夕
抖音做了一件幾乎沒有其他國內互聯網大廠會做的事情:在最大程度上,公開了抖音的算法規則。
被公開的那些信息有多詳細呢,從技術原理到具體模型,甚至是計算公式,全都圖文并茂的逐一做了解釋,足以作為一本入門級的科普讀物出版。
除了在已經上線的「安全與信任中心」網站匯總之外,抖音還在北京辦了一場線下公開課,讓算法工程師擔當主講者,深入淺出的把所有細節又復盤了一遍。
抖音固然有它的壓力所在——算法因其黑箱性質越來越從抗壓位向背鍋位轉移——但是為了打消社會疑慮,抖音能夠事無巨細的把算法攤開到這種地步,還是比較少見的。
而這逐字逐句的看完所有內容之后,可以這么說,當前市面上絕大多數非技術類媒體所討論的算法問題,都是錯的。
這里的錯,首先指的不是主觀意義上的歪曲,而是過時。
比如很多文章都會寫到,短視頻平臺的推薦算法是在給內容和用戶打標簽,然后去做相互匹配,這種甚囂塵上的說法甚至反過來指導了做號產業,產生了很多教人在養號時怎么引導系統給自己打標簽的玄學。
但事實上,標簽機制是人工編輯時代的經驗殘余,是讓算法模仿人類的糊涂做法,只有在非常早期的推薦算法里才有用過,當機器學習的技術成熟之后,依靠幾百個標簽去理解內容的做法就完全被淘汰掉了。
這意味著,今時今日的算法不需要去懂內容,這聽起來有些反直覺,它不懂內容,怎么知道該把什么視頻推送給什么人呢?
答案是:基于特征向量的數學統計。
說人話就是,算法會圍繞用戶的反饋建模,有沒有點贊、看到了第幾秒、寫了什么評論、是否點開了作者主頁……等等,這些互動都會讓算法對一個用戶的了解逐漸加深,最終越來越準確的「預測」他會感興趣的下一條視頻。
機器學習領域的頂級專家吳恩達教授做過一個系列的「Machine Learning」課程,里面也講過機器學習對推薦算法的主要貢獻在于建立評分系統,在海量算力和海量供給的環境里,可以無限接近給用戶推薦以他為標準的高評分內容的目標。
在炙手可熱的大模型行業,「預測」也是一個非常熟悉的運行原理,ChatBot對答如流背后,實際上是在不斷「預測」下一個Token,AI并不真的懂得它在說什么——所以才經常有分辨不出9.11和9.8哪個數字更大的笑話——所有的輸出表達,其實都是以最大的概率把字詞組合在一起罷了。
至于為什么算法變成了包括抖音在內的幾乎所有平臺都必須使用的分發技術,這還是和信息爆炸的環境有關。
根據IDC的報告顯示,全球每年產生的網絡數據量已經達到了175ZB,如果把它理解為一部4K視頻,一個人需要花9億年的時間才能全部看完……這已完全超出了歷史上任何一個時代需要處理的信息體量。
抖音的算法工程師在公開課上也說得很直白,抖音每天新增視頻高達億數量級,而普通用戶平均每天能夠消費的視頻撐死了也就幾百條,那么在這有限的幾百條視頻里,怎么盡可能的確保它們都是用戶喜歡的,就是算法需要不斷精進的母題。
這里面有個非常生動的概念,叫作「召回」,目的是把數量級降低,從數以億計逐漸減少到數以萬計、數以千計,直到篩選出幾條用戶能夠刷到的內容,一切都要依靠算法的「召回」能力。
吳軍博士在「數學之美」里講過一個類似的科普:
假如足球世界杯剛剛結束,我卻很不湊巧的錯過了所有比賽,于是問一個知道結果的球迷「哪支球隊是冠軍」,但他不愿意直接告訴我,而是讓我猜,每猜一次,他就要收一塊錢,并告訴我猜得是對還是錯,那么我需要掏多少錢才能知道世界杯冠軍呢?
直率的人可能已經搶答了,世界杯總共有32支球隊,最保險的做法就是猜32次嘛,所以運氣不好的話,可能需要掏32塊錢才能得到答案。
但數學的「召回」方式是,把32支球隊編號,從1到32,然后提問「冠軍在1號到16號之中嗎」?如果猜對了,就繼續問「冠軍在1號到8號之中嗎?」如果猜錯了,那么我就會知道冠軍必然在9號到16號之間。如此一來,只需要5次,我就能知道哪支球隊奪冠了,而成本只需要5塊錢。
這就是數學模型的本事,它并不需要知道這32支球隊的強弱關系,卻能以低且簡潔的成本最大概率「召回」答案,對于通信、數據壓縮、自然語言處理都有很強的指導意義。
當然推薦算法要復雜得多,而且涉及到多種技術的組合作用,比如最經典的協同過濾,張三和李四的點贊重疊度很高,那么就會多嘗試把李四喜歡而張三還沒有刷到的視頻推薦給張三,而在有了神經網絡的加持之后,算法還能練就記憶和泛化兩大能力,挖掘用戶行為背后的深層意圖——可能連用戶自己都沒意識到的——然后去做更有想象力的擴圈推薦。
簡而言之,在這個高密度的數據化時代,「尿布與啤酒」的關聯神話早就過了版本,在計算資源的充分供應下,推薦算法的研究方向各有所長,但它們的共性在于,都不需要真的去學會像人類一樣感知情緒、畫面或是語義,而是越來越擅長把用戶行為抽象成數學里的映射關系,最終預判出哪些視頻會讓用戶做出愿意看完、點贊、收藏、推薦等等高滿意度的正反饋。
所以,只有在對算法有了這些最樸實的了解之后——既明白它的深厚之處,也看得出基礎性的常識——才會避免陷入動輒妖魔化算法的暴論陷阱。
最常見的誤解,有三種,首當其沖的就是大名鼎鼎的信息繭房。
去年在和人民大學新聞學院副教授董晨宇的一期連麥里,我們也談過信息繭房這個概念「中熱西冷」的古怪現象,雖然它確實是由西方學術界率先提出的,但因缺少實證支撐,熱度很快就退潮了,但是反而中國經久不衰,CNKI里關于信息繭房的論文數量更是超過了1300篇。
無論是不是因為信息繭房以其生動形象的畫面感而激發了大眾的警惕性,真正的問題是,其實平臺根本不希望助長所謂的信息繭房,遑論主動制造信息繭房。
來自抖音的一手數據顯示,如果順著用戶的單一喜好去做推薦,很快就會拉低用戶的留存,相反,當內容推送的多元化保持一段時間之后,用戶的活躍度卻有了長足的提升。
這意味著信息繭房和平臺利益本身都是相互沖突的,平臺非但不會放任信息繭房的存在,還有充足的動力去打破信息繭房,這對算法的挑戰在于「既要又要」:既要多給用戶推薦別處的風景,又要維持精確度的平衡,不能強行替用戶決定他該看什么、不該看什么。
算法和用戶之間有著長期磨合的關系,而抖音也為用戶設置了主動表達喜惡的入口,比如不感興趣這個信號會讓興趣退場——它代表著用戶極其強烈的負反饋——本質上,用戶才是算法的主人,他們的一舉一動,無時不刻都在調較算法。
第二個廣泛的誤解,在于算法是流量至上的,可以輕易「造神」。
其實這類論調的持有者,大可以和那些經常抱怨抖音規則嚴苛一言不合就封號的人打上一架……這種完全矛盾的兩種體感同時存在,正好就說明了,抖音是對純粹的算法有著干預護欄的。
不止是抖音,所有主流的內容平臺都配備了機器+人工的雙重治理機制,機器負責寬度,對上億條新增內容進行合規篩查,人工負責深度,對疑難內容進行負荷,避免錯判和漏判,當然抖音因其規模之大,在這方面的投入只多不少。
也正是因為體量擺在那里,抖音確實能夠長出一茬茬的「爆款」網紅,但與其說是算法「推」出來的,不如說是用戶「選」出來的,若是沒有精準命中一次集體情緒,并引發大量用戶的行為反饋,平臺哪怕強推也是有心無力的。
最后一個誤解,是關于抖音會讓短且碎片化的視頻泛濫,對需要專注力的中長視頻不夠友好。
早期的抖音,受產品形態制約,或許是該接下這個指控,不過時至今日,抖音已經是一個綜合化的內容平臺了,去年站內還產生了一條時長高達7個多小時的爆款視頻「450分鐘解讀紅樓夢」,足見供給和需求兩端都很旺盛。
這也不是說一切都是自然發生的,恰恰相反,為了鼓勵中長視頻的消費價值,抖音的運營在幕后做了很多工作,就像前面已經說了,平臺想要強推,在效果上的收益非常低,所以單純的給所謂高質量視頻「灌流量」是不可取的,平臺真正發力的點,在于更新算法。
還是拿「450分鐘解讀紅樓夢」為例,這樣長度的視頻,無論質量多好,它在完播率這個指標上,必然處于絕對的劣勢,以致于連一般質量的視頻都比不過,這會拖累算法對它的打分,但另一方面,「450分鐘解讀紅樓夢」的收藏率則相當亮眼,從比例上遠遠超過了其他視頻。
所以抖音的解決思路是,對多目標推薦系統做了徹底優化,并將收藏按鈕放在了更突出的位置,由此顯著改善了中長視頻的分發效率,「450分鐘解讀紅樓夢」就是在新的算法模型下跑出來的最佳時間。
更直接的例證是,抖音還專門為中長視頻做了抖音精選的獨立App,開發、推廣和維護App都是需要投入資金的,如果不重視中長視頻的內容,抖音何苦要花這些錢呢?
無論如何,抖音能把信息公開的主體責任落到實處,對所有人乃至整個行業,都是大有裨益的,先有知情,才會知道,技術固然有門檻,但它從來不是洪水猛獸,也不必總是諱莫如深,打開天窗說亮話,永遠是值得鼓勵的。
抖音的算法其實沒什么神秘的獨家訣竅。在如今技術高度流通的大環境下,各大公司在推薦算法上的實力差距并不大,只是側重點有所不同。抖音的算法之所以備受熱議,一方面是由于它作為行業頭部平臺,必然會成為眾人關注的焦點;另一方面,抖音憑借豐富的數據資源,構建起強大的數據飛輪,使得其推薦體驗相對更為出色。不過,為了消除外界對自身算法的誤解,抖音仍有必要持續發力。
對任何新興技術都是如此,毋須仰視,也不必無視,平視就好。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.