導語
在動態(tài)變化的在線社交網絡中,信息傳播的路徑與用戶參與行為往往難以預測。傳統(tǒng)研究多聚焦于信息級聯(lián)的最終規(guī)模或早期爆發(fā)潛力,然而如何精準預測用戶在信息傳播下一階段是否會從“傾聽者”轉變?yōu)椤皞鞑フ摺保允且粋€開放性問題。《IEEE Transactions on Network Science and Engineering》最新發(fā)表的論文《Predicting Participation Shift of Users at the Next Stage in Social Networks》提出了基于三排序 ( Triple Ranking, TR)的無監(jiān)督預測模型,通過整合用戶的社交影響力、時間屬性和級聯(lián)相似性,顯著提升了用戶傳播狀態(tài)的預測性能。該模型在三個真實推特數據集上的實驗表明,不僅預測性能超越現有最優(yōu)算法,而且計算復雜度更低,為社交網絡行為分析提供了高效工具。
關鍵詞:社交網絡、信息傳播建模、用戶行為預測
張毅超丨作者
論文題目:Predicting Participation Shift of Users at the Next Stage in Social Networks 論文鏈接:https://ieeexplore.ieee.org/document/10829773
最近由同濟大學的張毅超教授及其團隊領銜的研究,提出了一種創(chuàng)新的無監(jiān)督三排序 (TR)模型,旨在解決社交網絡中用戶下一階段傳播狀態(tài)的預測問題。該模型結合社交引力排名 (Social Gravity Ranking)、曝光時間排名 (Exposure Time Ranking)和級聯(lián)相似性排名 (Cascade Similarity Ranking),多維度地從社交影響力、級聯(lián)中的時序和位次信息對用戶的傳播特征進行刻畫,提升了模型預測的準確性和可解釋性。
具體來說,社交引力特征對社交網絡上用戶間的信息傳播影響力進行了建模,在刻畫了鄰域子圖的結構信息的同時也顯著降低了計算復雜度。曝光時間特征則是提出了“曝光時間”的概念,通過對信息級聯(lián)中用戶傳播行為時間差分布的統(tǒng)計,捕捉了不同信息級聯(lián)在傳播過程中的復雜時序特征。此外,級聯(lián)相似性特征則是參考 DeepWalk [1]將圖節(jié)點映射到低維向量空間的向量化建模思路,利用級聯(lián)中已參與傳播的用戶序列為每個用戶學習級聯(lián)嵌入表示,使得經常出現在級聯(lián)中相近位置的用戶在向量空間中的距離也更近,充分地挖掘了信息級聯(lián)中的位次信息。
此外,本研究提出了一種基于排序融合的無監(jiān)督信息傳播者預測算法,基于上述三種時空特征從不同的角度分別計算候選者的排序,最后通過加權求和獲取候選者的最終排序。在最終排序中位次靠前的候選者將被預測為下一階段傳播的參與者。這種排序融合的方式能夠避免三種特征在量綱上差異給融合帶來的困難,并顯著提升模型的預測性能。
實驗部分在三個真實的信息傳播數據集上對用戶在不同階段的信息傳播狀態(tài)進行了預測。結果表明,該模型的預測性能要優(yōu)于基線模型,并且計算復雜度也顯著低于現有的基線模型。
本研究為后續(xù)信息傳播建模研究提供了一個具有良好可解釋性且高效的模型,所提出的社交引力、曝光時間、級聯(lián)相似性等概念為網絡節(jié)點間影響力的度量提供了全新的視角。
1. 研究背景與動機
信息在社交網絡中的傳播往往呈現復雜的時間與空間特性。用戶從“接收信息”到“主動傳播”的轉變 (即從“聽眾”轉變?yōu)椤皡⑴c者”)受到社交關系、級聯(lián)時序和位置關系的共同影響。現有方法多依賴監(jiān)督學習或簡化假設的經典傳播模型,難以有效捕捉多源特征間的非線性關聯(lián)。此外,在數據稀疏時,模型的預測性能會顯著下降。本研究提出的三排序模型,通過無監(jiān)督方式融合社交網絡的拓撲結構、級聯(lián)的時間模式及用戶行為序列的隱含級聯(lián)位次關聯(lián),為解決冷啟動問題提供了新思路。
2. 三排序模型的核心算法
圖 1 展示了本研究提出的三排序傳播者預測模型的總體框架。首先,本研究創(chuàng)新地在社交網絡信息傳播場景下提出了三種時空特征,即話題偏好相似性特征、社交引力特征、曝光時間特征、以及級聯(lián)相似性特征。這些特征分別對用戶在級聯(lián)傳播中的話題偏好、社交影響力、級聯(lián)中的時序和位次信息進行了細粒度的刻畫。
圖 1:基于三排序的傳播者預測模型框架。
2.1 社交引力特征
受牛頓萬有引力定律啟發(fā),本研究對社交網絡上用戶間的信息傳播影響力進行顯式建模。具體而言,對于一個未參與傳播的用戶和一個已參與傳播的用戶u,我們定義社交引力
其中和分別表示用戶和用戶u的出度與入度,(, )為兩用戶間的最短路徑距離,為距離衰減系數。控制了用戶的高階鄰居 (在有向圖中代表 v 的多跳父系節(jié)點) 對的影響力大小;如果很小,那么高階鄰居對節(jié)點的社交引力隨距離的衰減就會很小,也就意味著高階鄰居的影響力是不可以忽略的;反之,如果很大,那么高階鄰居對中心節(jié)點的影響力衰減就會很大,也就意味著高階鄰居的影響力可以忽略不計。
在得到了社交引力, 之后,我們可以計算用戶的社交引力得分 :
其中Θ()表示參與第 個時段下級聯(lián)()的用戶集合,這里表示對施加影響力的用戶集合是 的 k 跳鄰域內已參與傳播用戶。
2.2 曝光時間特征
在社交網絡中,關注者能夠接收到被關注者發(fā)布的信息;但通常不同的關注者接觸并轉發(fā)原始推文的時間間隔是不同的。
圖 2:曝光時間特征的計算示例。
基于此,本小節(jié)統(tǒng)計了同一個信息級聯(lián)上不同用戶的“曝光時間”值,將統(tǒng)計得到的概率分布作為用戶參與傳播的概率隨時間變化的表征。換句話來說,對于一個初始用戶和一個未參與傳播的用戶,若用戶在用戶的鄰居集合 (在有向圖中 為 的父系節(jié)點)中;定義從初始用戶到候選用戶之間的“曝光時間”為 ? ,那么用戶在級聯(lián)()中的曝光時間總和為:
這里Θ() ∩ 表示對施加影響力的用戶集合是的鄰居 (在有向圖中為父節(jié)點)中已參與傳播的用戶。
圖 2-1 和圖 2-2 分別給出了為已參與傳播用戶和未參與傳播用戶計算其曝光時間總和的示例。具體來說,對于已參與傳播用戶,他有兩個已參與傳播鄰居1和2,他們的參與傳播時間分別是和,那么 的曝光時間總和是:=11 + 37 = 48。而對于未參與傳播用戶, = 11 + 76 = 87。
我們可以基于信息級聯(lián)()中所有初始已參與傳播的用戶,統(tǒng)計這個級聯(lián)上曝光時間總和的概率分布。這個分布特征很好地刻畫了這個級聯(lián)在信息傳播過程中的時序規(guī)律。接著,對于所有未參與傳播的候選用戶,我們參照上述公式計算他們的曝光時間總和 ,然后根據分布得到這一曝光時間總和對應的概率值,這個概率值也就是本小節(jié)提出的曝光時間特征。
這個概率值也從另一個角度反映了候選用戶的曝光時間總和與已參與傳播用戶曝光時間總和的相似程度;如果這個概率值很大,說明這個候選用戶在信息傳播過程中的時間差異特征和大部分已參與傳播用戶的時間差異特征很相似,這意味著他很有可能在下一個時段參與該信息級聯(lián)。
2.3 級聯(lián)相似性特征
在信息傳播過程中,用戶之間的影響并不總是通過直接的關注關系施加的,也會有外源性的因素[4]對彼此不是關注關系的用戶甚至是非連通的用戶施加影響。首先,將信息級聯(lián)中的用戶序列作為輸入。接著,使用 One-hot 編碼將這些用戶 ID 映射為嵌入向量,并使用 Skip-gram 算法學習用戶的級聯(lián)嵌入表示。類比在自然語言處理中,Skip-gram 算法通過學習句子中詞與詞之間的上下文關系來學習詞向量,這里我們通過學習用戶與用戶間在信息級聯(lián)中的前后位次關系來學習用戶的級聯(lián)嵌入表示。
在得到了用戶的級聯(lián)嵌入表示后,我們可以計算用戶和用戶之間的級聯(lián)相似性。接著,我們可以計算用戶的級聯(lián)相似性分數:
注意,和上述兩種特征不同的是,這里對 施加影響力的用戶范圍是時段級聯(lián)中所有已參與傳播的用戶集合Θ,這里的與可以不連通。
2.4 排序融合算法
基于前文得到的三種特征的排序結果,分別是 SGR、ETR 和 CSR,我們可以將這四種特征的排序結果加權融合,得到最終的排序結果:
R = α ? SGR(τ) + β ? ETR + (1 ? α ? β) ? CSR,
其中,α和β分別用于控制社交引力排序和曝光時間排序的重要性程度。在得到所有候選者的排序得分R后,如果候選者v的最終排序得分處在前pa%內,模型就會預測他在下一個時段 + 1內參與該信息級聯(lián)。
3. 實驗驗證與結果分析
表 1 展示了各基線模型 (CT、DT、GT)和三排序模型 (TR)在 Higgs 數據集的不同時段上的對比實驗結果。表中分別列出了各模型在不同規(guī)模的級聯(lián)測試集上的排名表 現,其中 candidates 指出了測試集中的待預測用戶數量。實驗結果表明本研究提出的三排序模型在所有時段的加權排名上都顯著優(yōu)于其他的基線模型,說明了所提出的三種時空特征建模方法與排序融合算法的有效性。同時,CT 和DT 模型的預測表現非常接近,這是因為這兩個模型都是基于社交影響力的傳播者預測模型,區(qū)別只是 DT 模型在計算社交影響力時引入了一個時間衰減因子。其他數據集上的對比實驗結果可以參考原文中的第 VII 節(jié)。
表 1:各基線模型 ( CT、DT、GT)和三排序模型 ( TR)在 Higgs 數據集的不同時段上的對比實驗結果。每一行對應一個時段上的預測結果,每一列對應了一種對比模型。每一行都用粗體標識了取得最好結果的模型。
同時,參考之前研究的做法[2],我們對三種排序的功能進行了可視化分析。圖 3 展示了使用 t-SNE 對每個候選用戶的特征向量降維后的結果。在圖 3(a)中,我們基于候選用戶的真實傳播標簽 (即 1 表示已參與傳播,0 表示未參與傳播)對其進行著色。在其余的子圖中,我們根據用戶不同的特征 (例如,社交引力分數)對節(jié)點進行著色。值得注意的是,為了比較本文提出的特征和常用節(jié)點重要性特征之間的差異,我們還在圖 3(b)中展示了各節(jié)點 PageRank [3]的可視化結果。此時,某個特征的著色結果與子圖 (a)越一致,則說明該特征對于模型的性能越重要。
基于可視化結果,不難看出:(1)圖 3(a) 和圖 3(b) 中的數據點被聚類成若干個團簇,每個團簇中的轉發(fā)用戶和未轉發(fā)用戶的比例是互補的。(2)圖 3(d)、圖 3(e)和圖 3(f)中的顏色模式與圖 3(a)中的正例的顏色模式一致,說明這三個特征對于預測用戶的轉發(fā)行為是非常重要的。因此,這些可視化結果證明了本文提出的三種排序特征在分時信息傳播者預測任務上的有效性。三種特征分別從社交影響力、級聯(lián)中的時序和位次信息的角度刻畫了用戶參與信息級聯(lián)的傾向性。
圖 3:t-SNE 可視化結果。圖中的每個點都代表測試集中的一個用戶。我們基于特征值或者標簽值對這些點進行著色。紅色表示較大值,藍色表示較小值。子圖上方的標題則對應了每個特征或標簽的名稱。
4. 結語
這項研究對信息傳播領域的研究具有重要的理論和應用價值,尤其是社交影響力、曝光時間與級聯(lián)相似性概念的提出給社交網絡分析以及圖數據相關領域的研究提供了新的視角。其次,由于三排序模型在計算復雜度上的優(yōu)勢,它在大規(guī)模社交網絡以及需要實時反饋的下游應用中將扮演重要的角色。隨著研究的深入,我們在未來的研究中將進一步整合文本內容特征與動態(tài)網絡演化,探索多模態(tài)數據下的傳播模型。此外,課題組計劃將三排序模型的應用場景擴展至跨平臺信息傳播,以驗證其泛化能力。
參考文獻:
[1] Perozzi, B., Al-Rfou, R., Skiena, S. Deepwalk: Online learning of social representations[C]//Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining. 2014: 701-710.
[2] Li, C., Ma, J., Guo, X., et al. Deepcas: An end-to-end predictor of information cascades[C]//Proceedings of the 26th International Conference on World Wide Web. 2017: 577-586.
[3] Bianchini, M., Gori, M., Scarselli, F. Inside pagerank[J]. ACM Transactions on Internet Technology (TOIT), 2005, 5(1): 92-128.
[4] Myers, S. A., Zhu, C., Leskovec, J. Information diffusion and external influence in networks [C]//Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining. 2012: 33-41.
復雜網絡動力學讀書會
集智俱樂部聯(lián)合合肥工業(yè)大學物理系教授李明、同濟大學副教授張毅超、北京師范大學特聘副研究員史貴元與在讀博士生邱仲普、張章共同發(fā)起 。本次讀書會將探討:同步相變的臨界性、如何普適地刻畫多穩(wěn)態(tài)與臨界點、如何識別并預測臨界轉變、如何通過局部干預來調控系統(tǒng)保持或回到期望穩(wěn)態(tài)、爆炸逾滲臨界行為的關鍵特征、不同類型的級聯(lián)過程對逾滲相變的影響有何異同、高階相互作用的影響能否等效為若干簡單機制的疊加、如何有效地促進人類個體間的合作等問題。
讀書會計劃從3月7日開始,每周五晚19:30-21:30進行,持續(xù)8-10周。誠摯邀請領域內研究者、尋求跨領域融合的研究者加入,共同探討。
詳情請見:
1.
2.
3.
4.
5.
6.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.