胡安寧
復旦大學
社會發展與公共政策學院
社會學系特聘教授
結構流動:基于調整—分解的分析策略
來源 | 《社會學研究》2024年第6期
作者 | 胡安寧
責任編輯 |胡含之
本文系統梳理了結構流動研究在理論支撐、混淆因素控制、概念化、統計模型復雜度以及統計推斷等方面的局限,并提出了調整—分解的分析策略。通過綜合采用德明—斯蒂芬算法和流動表的三元分解法,這一分析策略直接針對流動表的邊際分布構建“反事實”流動表,并以非建模對比的方式呈現結構流動、交換流動以及二者的交互作用。除此之外,潛在的混淆因素可以通過調整的方法予以控制,相關的統計推斷可以通過參數分布建模或者自助法來實現。本文通過兩個經驗示例對這一分析策略進行了呈現。
一、引言
社會流動過程中個體境遇的改變既是因為行動者個人的努力和選擇,又與宏觀社會環境的變化息息相關。例如,伴隨著產業升級和大規模城市化的進程,大量的“農家子弟”成為城市白領,實現代際間的職業階層躍遷(Bearman & Deane,1992)。同理,高等教育擴招也會給大量家庭帶來“第一位大學生”,從而實現代際之間向上的教育流動(Breen,2010)。將社會流動過程中的結構性因素抽離出來單獨進行考察的研究需求催生了社會流動研究中的“結構流動—交換流動(structural mobility-exchange mobility)”分析框架(Breen,1985;Cobalti,1988)。基于這一分析框架,一個社會的總體流動情況可以進一步細分為結構流動和交換流動兩種類型,前者可以定義為由不同階層群體的宏觀“分布”差異帶來的流動,后者則是指在總體流動中“扣除了”結構流動之后所剩余的不同社會階層位置之間的交換(Sobel et al.,1985)。
“結構流動—交換流動”的二分框架是“二戰”以后直至20世紀70年代社會流動問題研究的主流分析框架。但是,自20世紀70年代末以來,社會流動研究的理論興趣逐漸發生轉移,從探究結構流動轉向考察以發生比(odds ratio)為測量指標的相對流動(relative mobility)及其變化模式(Breen,1985)。此時,體現結構流動的邊際分布只是在考察絕對流動(absolute mobility)時使用。結構流動這一概念逐漸淡出了學者們的視野。
但是,結構流動反映了形塑個體生活境遇變化和流動過程的一個不可忽視的社會性力量,對其進行考察仍然具有重要的理論和現實意義。就學術價值而言,與一般的量化社會學研究類似,當下社會流動研究往往呈現陳云松(2022)所指出的“微觀旨趣”的路徑依賴,對于結構性的、宏觀性的影響因素關注不足。一個具體的表現是,雖然幾乎沒有學者會否認結構變遷對于社會流動模式的影響,但是鮮有研究在經驗層面上具體呈現結構流動的影響力。隨著高質量個體數據的不斷積累,學者們實際上獲得了豐富的信息資源,可以使用多種策略來探究結構流動。在這個意義上,在社會流動研究中使用新的經驗分析策略、恢復對結構流動—交換流動的考察是重拾社會學傳統的“宏觀觀照”,對當下的社會流動研究有所補益。就現實價值而言,在轉型期的中國社會中,個體先賦地位和自致地位之間的變化體現了諸如“改革紅利”“人口紅利”等社會宏觀結構性變遷(干春暉、鄭若谷,2009;魏杰、汪浩,2016;蔡昉,2020)。因此,結構流動研究可以聯結宏觀社會層面的轉型和微觀個體資源獲取模式的變遷,反映宏觀“全局性”政策調整可能達成的社會效果,為理解轉型時期中國社會結構變遷的影響提供一個獨特的評估路徑。因此,如果說相對流動呈現的是針對特定行業或者領域的流動藩籬(高勇,2009),結構流動揭示的則是更為宏大的結構性藩籬(或者機會)。可見,結構流動仍是社會學研究中應當著力考察的一個重要議題。
綜上所述,社會流動研究在借鑒國際優秀成果的同時,不應急切地拋棄結構流動的相關議題。然而,既有結構流動的經驗分析策略在理論支撐、混淆因素控制、概念化、模型設定以及統計推斷等多個方面都存在局限性。因此,為了更好地研究結構流動,本文在系統梳理既有結構流動分析方法的基礎上,提出一個調整—分解的分析策略,并通過具體經驗示例來展現其價值。
二、結構流動:一個應該被“放棄”的概念?
如前文所述,有關結構流動以及結構流動和交換流動的區分框架經歷了一個逐漸式微的過程。在1983年的一篇論文中,社會學者索貝爾(Michael E. Sobel)甚至建議“研究者需要放棄‘結構vs.流動’的分析框架”(Sobel,1983: 722)。結構流動研究式微的原因可以歸結為以下三方面:首先,從概念設定上講,索貝爾以及之前的很多學者所談及的結構流動,指的是單一流動表的行邊際分布和列邊際分布之間的差異。研究者之所以關注單一流動表,在一定程度上是因為早期社會流動研究所用分析資料多是官方統計資料,故而研究人員所能確定的信息往往只有在特定的時點上根據兩代人的職業特征或者教育水平所構建的列聯表。與之伴隨的是,很多與社會流動相關的測量指標也是針對單一流動表設計的(Blau & Duncan,1967)。其次,從測量工具上講,基于單一流動表來估計結構流動的方法有其局限性。索貝爾就對霍普(Keith Hope)的中途模型(Hope,1982)(具體技術細節,參見下一節)提出了尖銳的批評(Sobel,1983)。盡管針對索貝爾的批評也有一系列的反駁聲音,但是經歷了這些批評之后,加之基于發生比的對數線性模型逐漸興起(Breen,1985),學者們逐漸把注意力從“結構流動—交換流動”的分析框架轉向適配對數線性模型的“相對流動—絕對流動”的分析框架。最后,從社會現實上講,結構流動所代表的宏觀社會變遷在發生后的一段時間內基本會維持在一個比較穩定的狀態。與之相比,由于涉及社會階層之間壁壘的微觀變化,在給定結構特征后,基于發生比的相對流動會持續變化。因此,對于社會科學研究者而言,對結構流動的探究在一段時間之內有可能“畢其功于一役”。尤其是在既有研究關注較多的歐美國家中,隨著社會職業與教育結構日趨穩定,結構流動逐漸成為一個“常量”。
由于上述多重原因,結構流動概念及其研究方法的影響力逐漸弱化。但是,這并不意味著結構流動本身是一個應該被放棄的學術概念(Slomczynski & Krauze,1984)。我們針對上述三重式微原因,同樣可以發現一系列“復興”結構流動概念的有利條件。首先,從概念界定上來講,由于大規模調查資料的不斷累積,我們現在完全可以將傳統單一流動表的行—列差異分析拓展到多個流動表的對比分析,同時借助個體數據來完成統計推斷的工作。在這方面,一些早期的研究可資借鑒(Hazelrigg,1974;Hazelrigg & Garnier,1976)。其次,與上面提到的多流動表拓展相呼應,研究人員也有可能超越既有方法策略,尋求和開發更為直觀便捷的分析工具。這正是本文的研究主題,下面會展開討論。最后,就社會現實而言,處于轉型期的中國社會充分體現了社會結構轉型如何形塑社會流動狀態。正如白爾曼(Peter S. Bearman)和迪恩(Glenn Deane)所言,“將流動機制中的結構性和交換性成分區分開來,是理解流動在其歷史背景下的社會和政治后果的基本前提”(Bearman & Deane,1992:31)。這一判斷與關于中國社會轉型的社會學研究既有結論一致(例如Whyte,2010; Wu,2011;Xie,2016)。因此,無論是更好地理解當下中國社會的整體流動狀態,還是進一步通過改革來提升社會整體的開放和包容程度,都離不開對結構流動的分析與考察。
三、結構流動的研究方法梳理
在現有文獻中,針對結構流動的經驗分析策略大致可以分為三類。為了便于討論,我們將其分別命名為指數法、模型參數法和計算法。在這一部分的討論中,我們將梳理這三類分析策略中具有代表性的方法。
(一)指數法
指數法是指通過建構一個特定的指數來衡量結構流動。由于對于單一流動表而言,結構流動即行邊際分布和列邊際分布的差異,因此一個非常直觀的測量指數便是差異指數(index of dissimilarity)(Cobalti,1988)。以教育流動為例,假設某一流動表可以表示為一個k×k的矩陣(k為教育類別)。樣本總量為n..,針對某一特定教育水平i的行加總表示為ni.,列加總為n.i。差異指數就是每一個教育水平i的行—列邊際差異ni.-n.i的絕對值加總后除以兩倍的總樣本量。用Δ來表示差異指數,我們可得
。差異指數的計算過程雖然簡單直觀,但是從總流動人口中減去因為邊際分布差異帶來的流動人口數的操作卻掩蓋了因為結構流動所帶來的交換流動。換言之,受結構流動影響的那部分交換流動在差異指數的計算和使用過程中被歸為結構流動,因此無形中會低估交換流動而高估結構流動(Cobalti,1988)。
除了差異指數,另外一個常用的指數是流動比率(mobility ratio)。這一統計量常被用于衡量剝離了結構流動效應之后的交換流動水平,因此也間接與結構流動的測量相關。具體而言,對于流動表第i行第j列的個體而言,其流動比率是假設行與列之間彼此獨立(或者稱為完全流動[perfect mobility])的情況下個體期望的頻次數fij。顯然,既然行與列之間彼此獨立,那么個體出現在第i行第j列的概率等于其出現在第i行的概率乘以其出現在第j行的概率。前者可以表示為ni./n..,后者可以表示為n.j/n..。因此個體出現在第i-j單元格的概率就是二者的乘積,其期望頻次就是。流動比率就可以表示為fij=ni.×n.j/n..。如果說流動比率代表剔除了結構流動效應后的交換流動效應,而觀測到的流動表背后既有結構流動也有交換流動的效應,那么結構流動就可以用二者之間的差異來表示。如果我們用xij來表示流動表的第i行第j列的某一觀測值,那么對于第i-j單元格而言,其結構流動就可以表示為
。
流動比率自提出之后就受到多方面的批評。例如,布勞(Peter M. Blau)和鄧肯(Otis Dudley Duncan)指出,流動比率并沒有把流動表的邊際差異完全剔除(Blau & Duncan,1967)。這是因為其計算過程本身涉及邊際分布的頻數。也正如豪特(Michael Hout)所言,流動比率作為一個統計指標,既反映了邊際分布的規模,也反映了行與列之間的關聯性(Hout,1983)。因此,流動比率并不是單純反映交換流動,而是混合了結構流動和交換流動。
有必要指出的是,除了差異指數和流動比率之外,還有一些在其基礎上開發的修正指標,例如由兩種交換流動的比率構成的Yasuda指數(Yasuda,1964),具體表示為
。其中,Yasuda指數的分子是觀測到的流動表中去除結構流動后的交換流動,而分母是在完全流動(假設行與列彼此獨立)的情況下去除結構流動后的交換流動。但由于其構成要素本身結合了差異指數和流動比率,后兩者的局限性自然會體現在Yasuda指數之中。
(二)模型參數法
模型參數法是指通過擬合特定的統計模型,以模型的參數作為結構流動或者交換流動的測量。比較有代表性的是霍普的中途模型(halfway model)(Hope,1982)以及索貝爾等人提出的擬對稱模型(quasi-symmetry model)(Sobel et al.,1985)。
霍普所提出的中途模型立足于對流動表第i-j單元格預期頻次的特殊參數化。具體而言,中途模型以完全流動模型(perfect mobility model)為基礎進行參數變換。如上文所言,完全流動模型是指第i-j單元格的預期頻次僅取決于行效應ai和列效應bj,但是不取決于行與列之間的交互效應。之所以稱其為完全流動,是因為在此模型設定下,先賦地位(行變量)不影響自致地位(列變量),故而個體流動到哪一個自致地位類別都有可能。在這一模型設定中,預期頻次fij可以表示為fij=aibj。基于此,霍普對完全流動模型進行了再參數化,即fij=aibj=aiajbj/aj。在這個參數設定下,所謂的中途模型指前半部分(H表示halfway)
。中途模型提出了一個獨特的構建預期頻次的方法。如上文所示,傳統的流動比率通過假設行與列相互獨立來建構預期頻次,即。但是中途模型的計算為
。兩相對比,基于中途模型構建出的流動模式,其行與列的邊際分布一致,且生成的流動表內部頻次分布對稱。同時,中途模型不涉及行與列之間的交互,也沒有包含行與列之間的關聯。基于這些原因,霍普認為,以中途模型構建的流動表代表了去除結構因素的交換流動。與此同時,完全流動模型在去除中途模型之后剩余的部分被稱為差異模型(difference model),表示為
。顯然,差異模型代表了列效應與行效應之間的比值差異,因此被用以指代結構流動。
霍普的中途模型將完全流動模型分解為結構流動和交換流動兩個部分,具有創新性。但是,該模型自提出之后也被多方質疑。其中比較有代表性的便是上文提到的索貝爾的研究(Sobel,1983)。他指出,中途模型能夠用來指代交換流動的前提是完全流動模型可以很好地擬合數據,但是這一點并不必然能夠被保證,甚至在大多數社會學研究中根本無法保證。豪特也從模型擬合的角度對中途模型進行了批評。他認為,如果行與列之間確實存在某種關聯,完全流動模型的擬合度就會很差,此時采用中途模型就會低估結構流動(Hout,1989:89)。除此之外,針對中途模型的另一批評是,在以完全流動模型減去中途模型所剩余的差異模型中,其構建的流動表并不對應于觀測到的行與列的邊際分布差異。因此,差異模型的效度也受到質疑(Marks et al.,1996)。
當然,對于索貝爾和豪特基于模型擬合度對中途模型提出的批評也存在不同的意見。例如,瓊斯(Frank L. Jones)認為,中途模型將完全流動模型作為基準并不是因為完全流動模型是一個統計模型,能夠以數據擬合優劣予以評判,而是因為完全流動模型作為一種理論模型代表了“機會公平”這一理論上的“基準狀態”。因此,在經驗研究中,完全流動模型是一個很好的理論參照模型(Jones,1985)。除此之外,斯洛姆欽斯基(Kazimierz M. Slomczynski)和克勞茲(Tadeusz Krauze)認為索貝爾的批評有失偏頗。一則,索貝爾主要批評的對象是霍普的中途模型,但是不能因為一個方法存在局限就否定其他所有關于結構流動的經驗分析方法。再則,即使當時開發出的所有方法都有問題,也不意味著“結構流動—交換流動”的這個分析框架就應該被放棄(Slomczynski & Krauze,1984)。斯洛姆欽斯基和克勞茲的批評對于本文頗有啟示意義。
雖然索貝爾在1983年的論文中主張放棄“結構流動—交換流動”的這個分析框架,但是索貝爾本人并沒有放棄探究結構流動。模型參數法中的另外一個模型正是索貝爾及其同事提出的擬對稱模型。具體而言,擬對稱模型預設了一種邊際分布不對稱但內部頻次分布對稱的流動表結構。索貝爾等人提出,為了描述這種流動模式,流動表中第i行第j列的預期頻次可以寫成fij=αjβiβjγijδij(Sobel et al.,1985)。在這個設定中,αj是指造成列邊際分布與行邊際分布差異的非對稱結構效應,其無差別地作用于行變量的不同取值水平之上,因此其區分僅在于列變量的不同取值水平j。在擬對稱模型中,對于αj的限制條件是
。此外,βi與βj被稱為對稱結構效應,其本質上就是霍普中途模型的設定(Ultee & Luijkx,1986)。顯然,如果i=j,那么我們有βi=βj。因此,βiβj體現出的是對稱的結構效應。除了這些參數之外,γij為非對稱的行—列關聯效應,δij為對稱的行—列關聯效應。γij和δij的區別在于,后者在非對角線元素上是對稱的。如果擬對稱模型可以很好地擬合數據,那么我們便有理由認為該流動表除了邊際分布不對稱之外,其內部應當是對稱的,故而γij=1。此時,這一流動表背后的結構流動效應可以表示為αj,而交換流動則表示為βiβjδij。
擬對稱模型自提出之后,在很多社會流動議題中得到了應用(例如Bearman & Deane,1992;Hu & Leamaster,2015)。但是這個模型比一般意義上的關聯模型要復雜很多,且其模型設定也往往缺乏具有說服力的經驗或者理論依據。例如,通常而言,交換流動被定義為剔除結構流動后的剩余流動部分,但是擬對稱模型所估計出的交換流動要求i-j單元格和j-i單元格之間存在等量流動。在操作層面,交換流動也不僅僅通過給定邊際分布下行與列之間的相關關系來體現,而是包含了對稱化的邊際分布βiβj。換言之,交換流動是對稱關聯效應δij和對稱邊際效應βiβj的交互項。這些設定背后的實質性理由并不是很清晰。與上文討論的通過邊際分布差異來理解結構流動的分析視角不同,擬對稱模型主張結構流動由邊際分布差異αj和行與列之間非對稱相關關系γij組成。但是,我們并不是很清楚非對稱相關關系γij為何會影響結構差異。此外,正如索貝爾在對霍普中途模型的批評中所指出的那樣,在擬對稱模型的設定下,為了將αj理解為結構分布的測量,擬對稱模型必須很好地擬合數據以保證γij=1。但是,這同樣是一個經驗問題,并不能預先確定。最后,對于結構流動的參數αj,設置限制條件
的現實依據也不清晰。這使得擬對稱模型分析結果的可解釋性較差。學者們不得不采用一些替代手段對結果進行詮釋(例如,計算不同列變量取值水平下αj的比值,參見Bearman & Deane,1992;Hu & Leamaster,2015)。
(三)計算法
如果說20世紀50—70年代見證了結構流動研究中指數法逐漸向模型參數法的過渡,那么這部分要介紹的計算法在這一時期可謂是獨樹一幟。雖然后續采用這種方法的研究很少,但該方法體現了不同于上述兩種分析路徑的獨特思路。具體而言,所謂的計算法是指基于一定的前提假設,通過“計算”手段來建構結構流動和交換流動的矩陣。這方面的代表性研究來自克勞澤和斯洛姆琴斯基(Krauze & Slomczynski,1986)。假設一個特定的流動表矩陣N,其第i行第j列的構成元素表示為nij。那么,計算法設定了N由三部分構成:對角線元素所構成的不流動矩陣I、結構流動矩陣S和交換流動矩陣C。顯然,如果我們有一個指示變量δij,其對于對角線單元而言取值為1,非對角線單元取值為0,則可以得出I=δij×nij。
為了求得結構流動矩陣S,克勞澤與斯洛姆琴斯基設定了兩個基本限制條件:(1)如果結構流動矩陣存在,那么結構流動矩陣的邊際分布變化與實際觀測到的流動表的邊際分布變化相等,即
;(2)由于實際觀測到的流動表是結構流動和交換流動共同作用的結果,因此對于特定的i-j單元而言,結構流動矩陣的元素sij取值應當大于或等于0,但小于實際觀測到的元素nij的取值,即0≤sij≤nij。基于這兩個限制條件,結構流動可以表示為結構流動矩陣的元素之和,用表示,即。求解sij可以通過線性規劃算法完成,即在給定
的條件下,最小化(Slomczynski & Krauze,1984)。這種基于線性規劃算法的分析,也是我們將其稱為計算法的原因。對于交換流動矩陣C的構成元素cij,可以同樣采用線性規劃的方法完成計算。具體而言,交換流動矩陣C的對角線元素為0,非對角線元素應當小于其所對應位置的觀測矩陣元素nij。這一要求可以表示為0≤cij≤nij(1-δij)(Slomczynski & Krauze,1984)。此外,克勞澤與斯洛姆琴斯基設定,交換流動矩陣C的流出和流入應當保持平衡,即
。在以上限制條件下,通過最大化交換流動矩陣元素之和
,我們可以獲得cij的計算結果(Slomczynski & Krauze,1984)。
針對計算法,索貝爾等人主要提出了三點批評:第一,由于計算法直接通過線性規劃的手段生成相應的結構流動矩陣和交換流動矩陣,因此其生成過程主要依賴于計算手段,相應的計算過程所設定的條件也是為了滿足實現最優化計算的目標,其理論意義不是很明確;第二,將結構流動和交換流動各自界定為一個矩陣的做法和社會流動相關理論不是很匹配,且以矩陣來衡量結構與交換流動在操作上缺乏便利性;第三,由于計算過程直接以既有數據作為計算的基礎,直接生成的結構流動與交換流動矩陣沒有考慮到抽樣過程所帶來的統計誤差(Sobel et al.,1986)。
綜上所述,在分析結構流動問題的現有文獻中,社會學者或通過建構一種全局性的指標,或通過擬合結構模型,或通過計算法來達成對結構流動以及交換流動的經驗測量。但是正如表1所示,無論哪一種方法都存在一系列的局限性。因此,為了更好地分析結構流動,我們需要有針對性地對已有方法的局限提出應對策略。
四、調整—分解的分析策略
(一)結構流動分析需要解決的方法問題
綜合上文的方法梳理,在研究結構流動時,我們需要面對和解決以下五個方面的問題。
第一個問題是理論支撐問題。所謂理論支撐是指用以測量結構流動的指標是否和通行的理論主張相一致。現有研究的一個基本共識是流動研究中的結構流動需圍繞流動表的邊際分布展開。因此,在建構結構流動的測量指標時,一個基本要求是該指標能夠體現流動表的邊際分布變化。但無論是中途模型還是擬對稱模型,其復雜的參數設定都不能直觀地滿足這一要求,因而在方法上存在共同的局限。
第二個問題是混淆因素問題。傳統社會流動研究更多是一種描述性探索,雖然隱含了先賦性因素對自致性因素的因果性推論,但對于這種因果性并沒有嚴格的經驗識別。但是,隨著過去幾十年社會科學因果推斷方法的推廣,流動分析中先賦性因素對自致性因素的因果效應越發得到學界的關注(例如Hu & Wu 2021)。為此,研究者在考察流動表行變量對列變量的影響的同時,越發需要控制潛在的混淆因素。正如戈德索普(John H. Goldthorpe)等人所言:“我們并不能夠假定那些影響職業結構變遷的因素……與影響交換流動模式的因素互不相關”(Goldthorpe et al.,1978:64)。因此,在分析結構流動問題時,一些混淆因素需要予以控制,但前文所提及的方法均沒有考慮這一問題。
第三個問題是概念化問題。無論是指數法還是中途模型,一個共有的方法局限在于無法在完全剔除交換流動的前提下考察結構流動。這一方法局限的根源之一或許在于結構流動的概念化局限。在傳統的結構流動分析中,結構流動、交換流動和不流動三者形塑了特定的流動表。按照這種概念化路徑,交換流動和結構流動之間涇渭分明,各自代表了一類流動的主效應。此時,結構流動和交換流動之間的互相影響被忽略了。實際上,那些可以在交換流動中占據優勢地位的群體本身也有可能在結構變遷過程中占據優勢地位。這些群體的存在會讓整體的社會流動過程背后包含結構流動和交換流動的交互作用(Breen,1985)。顯然,對結構流動的概念化并沒有考慮兩種流動類型的交互作用。
第四個問題是統計模型的限制。雖然索貝爾等人偏向于通過結構模型來探究結構流動,但正如上文所述,過于復雜的結構模型本身反而會給實際研究帶來多重限制。例如,當模型設定復雜時,其解釋度就會比較差,而以結構模型來分析流動問題本身也可能會遇到模型的擬合度差的問題。此外,和其他基于結構模型的量化研究類似,結構模型作為一種統計模型,本身會遇到模型的不確定性問題,即同一個流動表數據有可能存在多個擬合度好的結構模型(胡安寧,2017)。由于這些模型的參數設定不同,它們所呈現的實質性信息可能彼此矛盾,但這種矛盾性并不能通過比較模型的擬合度高低來解決。
最后一個問題是統計推論上的局限。正如索貝爾等人對計算法的批評所言,在當下的流動表分析中,一個流動表中的相關信息往往來自抽樣數據,因此自然會受到抽樣誤差的影響。換言之,我們不能夠將其中的數字看成是固定的值,而應看作一個包含抽樣不確定性的值。但是計算法和指數法均沒有很好地考慮這種隨機抽樣帶來的誤差,因此在分析的完備性上存在缺陷。
綜上所述,我們在研究結構流動時,需要對理論支撐、混淆因素控制、概念界定、模型設定和統計推論這五個方面的局限性進行處理。如表2所示,由于理論支撐問題涉及的是結構流動測量和邊際分布的對應關系,因此一個解決思路是在構建結構流動測量的時候“直接”針對邊際分布進行處理。混淆因素問題則要求在進行流動表的比較過程中,除了控制行變量和列變量的邊際分布特征之外,還需要對其他潛在的混淆因素進行統計控制。圍繞概念界定,我們需要在考察結構流動和交換流動的主效應時引入二者的交互效應,而這一過程需要盡量避免結構模型帶來的諸多復雜限制。概念界定和模型設定上的限制可以通過分解的方法解決。最后,統計推斷問題可以通過設定流動表中相關頻次的統計分布或者自助法(bootstrap)來解決(DiCiccio & Efron,1996)。下面我們就詳細介紹調整和分解的策略。
(二)調整的策略
嚴格來講,調整并非指某種單一的統計方法,而是包含滿足某一特定要求的多種方法的統稱(Christiansen et al.,2021; Keele et al.,2023; Lu et al.,2023)。具體而言,調整的目的是希望通過統計分析手段,在給定的限制條件下,將特定變量分布下的某一統計值轉化為另外一個變量分布下的統計值。這里我們可以舉一個簡單的例子。假設在甲群體中,收入變量X的累積概率分布為P(x),在特定X取值為x的情況下的幸福感的取值為τ(例如,給定收入水平x下的平均幸福感得分)。那么,在甲數據中,幸福感的期望值就是φ=∫τdP(x)。但如果我們想知道在給定收入—幸福感聯結模式的情況下,在乙群體中人們的幸福感得分,那么,我們可以收集收入變量X在乙群體中的累積概率分布P′(x),并求得φ′=∫τdP′(x)。這便是基于乙群體的邊際分布情況來對甲群體得出的結論進行調整。顯然,從φ到φ′的調整過程取決于P(x)到P′(x)的差異大小。而為了表達從P(x)到P′(x)的差異,我們可以通過權重矩陣M,利用最優化算法,求得M的估計值
,以保證和P′(x)之間的距離度量最小化。這里的權重矩陣M反映了如何進行調整可以讓P(x)和P′(x)之間的“距離”最短。當然,衡量距離的度量有很多,比如歐氏距離(Euclidean Distance)、馬哈拉諾比斯(Mahalanobis)距離或者Kullback-Leibler散度。在量化研究中,調整的策略經常被用來探究某一研究結論在應用于不同群體時的外部效度(Pearl & Bareinboim,2014)。對于社會流動研究而言,一個最常見的調整算法是德明—斯蒂芬算法(D-S算法)(Deming & Stephan,1940)。這一算法通過迭代的方式,在給定一個流動邊際分布的前提下計算流動表內各單元的具體人數。限于篇幅,具體的計算過程可以聯系作者獲取。
在社會流動研究中,通過D-S算法探究結構流動并非沒有先例。實際上,早在20世紀70年代,黑澤里格(Lawrence Hazelrigg)便已經采用了D-S算法試圖把結構流動和交換流動區分開(Hazelrigg,1974;Hazelrigg & Garnier,1976)。但是黑澤里格的分析思路如“曇花一現”,并沒有得到學界太多的呼應。此外,如果回到上文論及的方法局限,黑澤里格的分析也沒有考慮到結構流動和交換流動的交互效應以及抽樣誤差。從這個意義上講,本文的分析是對黑澤里格研究思路的一種繼承和發展。
具體而言,以D-S算法為基礎的調整策略,可以幫助我們更好地探究結構流動。假設我們希望對比兩個流動表X和Y(例如,不同出生世代個體的先賦地位和自致地位所構成的流動表)。顯然,X和Y有不同的邊際分布特征和發生比取值。此時,我們可以采用D-S算法基于X流動表的邊際分布來將Y流動表調整為Y′。Y′所表現的是,當Y流動表的邊際分布不是其觀測值,而是X流動表的邊際分布取值時的流動狀態。因此,我們可以稱之為反事實流動表。同理,我們也可以基于Y流動表的邊際分布將X調整為X′,以此建構另外一個反事實流動表。對比這些矩陣,X與Y′之間以及Y與X′之間的邊際分布各自保持一致。由于D-S算法保留了發生比的取值,我們對比X和X′就會發現,二者的發生比是一樣的,區別只在于邊際分布。換言之,兩個流動表中的行變量和列變量之間的關聯度不變,而邊際分布在變化,故而兩相對比展現出的是結構流動的效力。另一方面,對比X和Y′,二者的邊際分布完全一樣,因此流動模式的差異可以歸因于交換流動。
調整的分析策略有助于解決上文提出的理論支撐問題和混淆因素問題。對于前者而言,D-S算法在探究結構流動的時候直接針對流動表的邊際分布進行調整,因此符合理論上的共識,即邊際分布體現結構流動。對于后者而言,雖然上面的經驗示例僅僅對行變量和列變量進行調整,但是D-S算法調整的對象并不僅局限于這兩個變量。除此之外,如果我們可以獲得個體層面其他變量的觀測數據,D-S算法完全可以對這些潛在混淆變量“同時”進行調整,以保證在對比流動表的時候被調整的這些其他變量的邊際分布保持恒定。更進一步的是,我們也可以調整其他變量與行變量或者列變量之間的聯合分布,這一特點對于控制潛在混淆因素而言尤為重要。
但是,僅使用調整的策略無法解決結構流動和交換流動的交互作用問題。這是因為,通過對比觀測流動表和反事實流動表,我們所能夠獲知的要么是結構流動的效應,要么是交換流動的效應,二者如何互相影響并沒有直接體現,而這則需要使用下述分解的策略來解決。
(三)分解的策略
對于量化社會學研究者而言,分解的分析策略并不陌生。例如,研究種族歧視問題時很常見的布林德—瓦哈卡分解(the Blinder-Oaxaca decomposition)將白人和黑人的組間收入差異分解為屬性(例如教育水平)差異和屬性回報率(例如教育回報率)差異。類似的分解策略也可以用來進行社會流動研究。假設流動模式是結構流動S和交換流動C的函數f,那么仿照布林德—瓦哈卡分解,我們可以對t0和t1兩個時點(或者出生世代)的流動表之間的差異作類似的分解:f(St1,Ct1)-f(St0,Ct0)=f(St1,Ct0)-f(St0,Ct0)+f(St1,Ct1)-f(St1,Ct0)。顯然,結構流動部分可以表示為f(St1,Ct0)-f(St0,Ct0),而交換流動部分則表示為f(St1,Ct1)-f(St1,Ct0)。
但是,雖然回應了既有方法的局限,以上的分解策略仍然沒有考慮結構流動和交換流動之間的交互關系。因此,為了將交互作用引入進來,我們基于別文(Martin Biewen)提出的分解策略(Biewen,2014),對兩個流動表之間的差異作三元分解,得到f(St1,Ct1)-f(St0,Ct0)=[f(St1,Ct0)-f(St0,Ct0)]+[f(St0,Ct1)-f(St0,Ct0)]+[f(St1,Ct1)-f(St1,Ct0)-f(St0,Ct1)+f(St0,Ct0)]。
在這一個拓展之后的分解策略下,結構流動和交換流動仍然可以分別表示為f(St1,Ct0)-f(St0,Ct0)和f(St0,Ct1)-f(St0,Ct0)。但除此之外,我們可以通過f(St1,Ct1)-f(St1,Ct0)-f(St0,Ct1)+f(St0,Ct0)來探究二者如何相互作用。這里我們可以對這一表達式作如下簡單的數學變換:f(St1,Ct1)-f(St1,Ct0)-f(St0,Ct1)+f(St0,Ct0)=[f(St1,Ct1)-f(St1,Ct0)]-[f(St0,Ct1)-f(St0,Ct0)]。前一個方括號表示在把結構流動水平固定在t1時點的時候交換流動的作用,而后一個括號表示在把結構流動水平固定在t0時點的時候交換流動的作用。二者的差值如果不為零,則意味著交換流動的作用大小受到結構流動的影響。當然,我們把各項的順序調換一下,也可以得到如下的表達式:f(St1,Ct1)-f(St1,Ct0)-f(St0,Ct1)+f(St0,Ct0)=[f(St1,Ct1)-f(St0,Ct1)]-[f(St1,Ct0)-f(St0,Ct0)]。比照上面的解釋,這個表達式可以理解為結構流動的取值受到交換流動的影響。
在具體操作過程中,函數f可以有很多選擇。例如,我們可以用f來指代總流動率,即具有流動經歷的個體的占比大小。此時,還是以從t0到t1的流動表變化為例(多時點的拓展參見下文的討論部分),前文的三元分解可以告訴研究者:(1)結構流動的變化如何影響總流動率的變化;(2)交換流動的變化如何影響總流動率的變化;(3)結構流動和交換流動的交互作用變化如何影響總流動率的變化。
除了總流動率之外,我們也可以使用向上流動率(發生了向上流動的個體占比)來指代f。此時,t0時點的向上流動率到t1時點的向上流動率的變化可以分解為結構流動變化、交換流動變化以及二者交互作用所帶來的變化。這里需要說明的是,上述各個部分的效應方向可能不一致。例如,結構流動的變化有可能提升向上流動率,但同時交換流動的變化可能會阻礙整體的向上流動率。因此,這里的分解結果有可能會出現效應方向上的差異。
通過引入f來進行三元分解的優勢是,我們不再在流動表矩陣的層面上考察結構流動變化所引發的流動表變化,而是在某一個總括性的函數上看結構流動、交換流動以及二者之間交互作用的大小。因此,我們所要研究的問題就不再是結構流動的具體數值是多少,而是看結構流動的影響力(占比)有多大。這無疑是三元分解方法的一個優勢。回到上文提到的結構流動研究中的方法困境,以分解的方式呈現的結構流動和交換流動的交互作用克服了傳統概念界定對于結構流動效應和交換流動效應的剛性二分。此外,無論是調整還是分解策略,二者都不涉及具體的結構模型,因此模型設定上的諸多限制便得以解決。
(四)關于統計推斷的說明
特定的流動表展現的是一個集合性的頻次數據,因此難以確定由抽樣所帶來的估計量的統計不確定性。在這種情況下,一個應對辦法是人為地賦予流動表中的頻次分布一個特定的參數統計分布,然后基于這樣的參數設定來進行統計推斷。但是,這種方法的參數設定隨意性比較大。此外,為了簡化計算過程,需要引入分布的統計趨近(statistical approximation),故而我們并不建議使用參數建模的方式來進行統計推斷。由于篇幅所限,具體操作程序可以聯系作者獲取。如果流動表是基于個體層面的測量建構起來的,我們可以采用自助法等再抽樣方法來探究調整—分解的分析過程所隱含的統計不確定性(Mooney,1996)。需要特別強調的是,這里的自助法所適用的分析單位并不是流動表的單元格頻次分布,而是特定調查樣本中的個人。我們并不建議直接針對流動表的各個單元頻次分布使用自助法。原因在于,流動表只能夠把個體分為有限的幾個單元,因此以自助法抽取的不同樣本之間的變異度會非常低,不利于進行統計推斷。
五、經驗示例
為了展現本文提出的調整—分解的分析策略,我們這里提供兩個經驗示例。第一個示例基于戈德索普對英國社會職業流動的經典分析而展開。戈德索普在研究中多次提到當時英國社會的宏觀變遷對于社會流動狀況的影響(例如去工業化、石油危機等宏觀事件,集中參見Goldthorpe, 1987: 253-277)。但是,他的分析仍然是從絕對流動—相對流動的區分角度展開的。但正如上文所言,結構性因素帶來的流動模式變化應當是結構流動分析的題中之義。采用戈德索普本人所使用的數據,但使用本文提出的新的分析結構流動的策略,正可以展示出本文所主張的重拾結構流動分析的獨特價值。
本文的第二個示例旨在分析中國綜合社會調查(Chinese General Social Survey,簡稱CGSS)多期數據所反映的教育流動模式。選擇這一分析場景的原因是自1998年開始的教育擴招正是從結構層面影響代際之間的教育流動。這一點雖然廣泛為學界所知,但大量的社會分層和教育社會學研究關注的卻是個體層面上微觀入學機會的變化。與個體的交換流動相較而言,擴招所帶來的結構變遷究竟有多大的影響力仍缺乏進一步的探究。此外,在第一個例子中,戈德索普采用的是宏觀層面的行政性數據,因此在第一個例子中我們沒有個體層面的資料,無法使用自助法來評估抽樣誤差,只能基于特定的參數分布設定來“近似”地計算P值(之所以說是“近似”,是因為需要使用正態分布來估計二項分布)。此外,由于我們缺乏個體層面其他變量的測量,我們也無法通過調整的方法來控制潛在混淆因素。相比于第一個例子中存在的這些局限性,在第二個例子中我們可以獲取個體層面的數據和其他變量的信息,因此能夠滿足基于自助法來評估抽樣不確定性以及控制混淆因素的需求。
無論在哪一個具體實例中,我們都可以展示如何利用本文提出的方法來實現對總體流動狀況的分解,即:總流動=結構流動+交換流動+兩種流動的交互作用。通過這種分解分析,我們可以作如下具有理論和現實啟發意義的判斷:(1)結構流動在總流動中的占比;(2)結構流動占比相比于交換流動在總流動中的占比,孰強孰弱;(3)結構流動的作用過程是否和交換流動產生交互。除了這種總體流動的分解之外,通過第二個經驗示例,我們還展現了如何在控制其他因素的情況下實現對結構流動的分析。這對于克服來自其他變量的潛在選擇偏誤具有實踐層面的意義。
(一)戈德索普的職業流動分析
戈德索普的職業流動分析數據來自牛津大學納菲爾德學院社會流動研究小組于1972年在英格蘭和威爾士針對20~64歲男性所作的調查。受訪者的職業等級評定根據其初職信息進行判定,受訪者父親的職業等級評定根據受訪者14歲時父親的職業信息進行判定。職業評級依據的是戈德索普的階層分類框架(侯利明、秦廣強,2019)。這一分類框架將職業細化為10個層次,分別標注為I、II、III、IVa、IVb、IVc、V、VI、VIIa和VIIb。為了分析的便利,我們采用了戈德索普原文中的三分類框架,即服務階層(I+II,service class)、中間階層(III-V, intermediate class)和工人階層(VI+VII, working class)(具體參見Goldthorpe,1987:70)。我們選取兩個世代,分別是出生于1908—1917年的世代和出生于1938—1947年的世代(相關數據參見Goldthorpe,1987:71)。利用D-S算法,我們針對兩個世代的職業流動表通過調整邊際分布信息構建了其各自的反事實矩陣(限于篇幅,具體數據從略)。基于觀測矩陣和反事實矩陣,我們采用上述的調整—分解的分析策略分析了從1908—1917世代到1938—1947世代的職業流動過程中,結構流動、交換流動以及二者的交互作用各自的影響。分析結果參見表3。
總流動情況是所有發生職業等級流動的個體占比。可以發現,兩個出生世代之間的總流動變化中有73.40%是通過結構流動來達成。與之相比,交換流動在總流動中的占比為22.24%,結構流動與交換流動的交互作用占比為4.36%。這一經驗發現表明,基于英格蘭和威爾士的調查資料所呈現的世代之間的職業流動很大程度上是由于整個社會的職業結構變化,這與戈德索普等人的研究結論一致。在此背景下,交換流動的解釋力度不足四分之一。基于參數分布設定的方法,我們也計算了總流動、結構流動、交換流動及結構與交換流動的交互作用各自的P值。據此可以判斷,總流動在0.05的顯著性水平上顯著,而結構流動的P值表明其只在邊際意義上統計顯著。交換流動和兩種流動的交互作用統計上都不顯著。當然,這些計算出的P值僅具有參考意義,不可過度解讀。
(二)當代中國的教育流動分析
本文的第二個示例是關于中國社會的代際教育流動。我們采用來自中國綜合社會調查2010、2015和2021年的數據。具體而言,我們將研究對象的年齡限定在30~35歲之間,其教育水平為調查時所獲得的最高教育程度,其父親的教育程度也是所獲得的最高教育程度。我們之所以選取這三年的調查資料,是因為這三次調查在詢問被研究對象和其父親的教育水平時采用了一致的問題表述和選項設置,這有助于我們排除問題設計差異對結論的影響,進行跨時期比較。由于CGSS問卷中的教育水平分類十分詳細,以此構建流動表容易出現大量零值,因此我們將被訪者及其父親的受教育程度統一編碼為五類:1=未受過正式教育;2=小學教育;3=初中教育;4=高中教育;5=大學教育及以上。由于CGSS提供了個體層面的多個變量,我們可以基于它們來控制影響父親教育水平和子女教育水平的潛在混淆因素。此外,我們也可以基于個體層面的觀測數據采用自助法來評估調整—分解分析策略的抽樣不確定性。出于示例展示的需要,我們這里選取的混淆因素是父親的出生年份。為了便于后續的調整分析,我們將父親的出生年份進行分組,分為1949年以前、1949—1959年、1959—1969年三組。需要特別說明的是,在CGSS2021年的調查中,少數被調查對象的父親的出生年份在1969年以后,但考慮到2010年和2015年CGSS的調查中均不存在此類個體,故而我們僅保留三組年齡組(這一操作僅作示例使用)。
基于調整—分解的策略,我們分析了教育總體代際流動情況,相關分析結果參見圖1。圖1a表明,從2010年到2015年,總體教育流動率的變化比例為7.1%。當我們控制交換流動后,結構流動的變化可以帶來總體教育流動率3.9%的變化。而在控制結構流動之后,交換流動的變化也可以帶來等量的3.9%的總體教育流動率的提升。我們利用自助法發現,無論是總教育流動率變化、結構流動帶來的變化還是交換流動帶來的變化,都在統計意義上顯著(其95%置信區間不包含零值)。結構流動和交換流動二者的交互作用為負,但在統計意義上不顯著。在圖1b中,我們控制了父親出生年份組的邊際分布、其與父親教育水平的聯合分布以及其與子女教育水平的聯合分布。與沒有進行這一控制操作的結果相比,結構流動的作用、交換流動的作用以及二者的交互作用的估計值都發生了擴大。這表明,伴隨著中國社會大規模的教育擴招,年輕人可以普遍從中“獲益”,從而獲得相較于父親一代更高的教育水平(Hu et al.,2020)。而從父代到子代,不同教育水平之間的流動壁壘也呈現隨時間推移而逐漸弱化的特點。但與戈德索普的研究結果類似的是,結構流動和交換流動的交互作用在控制了父親的出生年份之后顯著為負。這也就意味著,雖然伴隨著時間推移,教育代際流動的藩籬本身越發容易突破,但是在將教育擴招這種結構性變化考慮進來之后,教育擴招反而有可能會強化教育類型之間的壁壘。這或許可以用韋伯的閉合理論(closure theory)進行解釋,即當高教育成就越容易獲得時,人們反而越發強調教育的分層(區隔)作用(Hu,2015)。圖1c和圖1d展示了從2015年到2021年的教育代際流動的變化情況。如果我們將抽樣誤差考慮進來,可以發現教育的代際總體流動率并沒有在2015到2021年之間發生顯著的變化。與此同時,無論是結構流動、交換流動還是二者的交互作用,都不再對教育代際流動變化存在顯著影響。一個可能的解釋是,在經歷了數年快速的教育擴招之后,教育機會對教育流動的效應逐漸減弱。換言之,教育的代際流動出現了一種穩定化的態勢。
六、結語
結構流動是形塑轉型期社會流動基本樣態的重要機制。本文系統梳理和討論了現有文獻中分析結構流動的相關方法,并指出其在理論支撐、混淆因素控制、概念化、統計模型復雜度以及統計推斷等方面的局限。在此基礎上,本研究提出了調整—分解的分析策略。通過綜合采用德明—斯蒂芬算法和流動表的三元分解法,這一分析策略直接針對流動表的邊際分布構建反事實流動表,并以非建模對比的方式呈現結構流動、交換流動以及二者的交互作用對于流動樣態變化的影響。除此之外,潛在的混淆因素也可以通過調整的方式予以控制,相關的抽樣不確定性也可以通過參數分布設定或者自助法的方式進行分析。基于戈德索普經典分析的數據以及中國綜合社會調查中的代際教育流動相關數據,本文展示了調整—分解分析策略的兩個經驗示例。
本文所提出的調整—分解的分析策略可以從多個方面予以拓展。首先,除了D-S算法之外,研究者也可以采用其他的算法達成調整流動表邊際分布的目的。例如,那左迪(Anna Naszodi)和合作者提出的利用新的統計量進行交互分類表分解的方法(簡稱N-M算法)也可以用于分析結構流動(Naszodi,2023;Naszodi&Mendonca,2023,2024)。由于篇幅所限,具體示例可以聯系作者獲取。其次,在本研究中,父親的出生年份組是作為混淆因素進行了控制,其本身并沒有作為一個影響流動樣態的變量進行考量。而調整—分解的分析策略完全可以更進一步,考察三個或者更多因素對于流動樣態的影響。只是這方面的分解結果會過于復雜,不利于研究者對經驗結果進行解讀。這方面具體的分解過程可以聯系作者獲取。考慮到這種復雜性,我們并不建議針對多個影響因素進行調整—分解分析。再次,雖然本文以一種非模型對比的方式來使用調整—分解的分析策略,但相關的分析結果完全可以和統計模型結合起來。例如,我們如果有多期的流動表數據,那么相關的調整—分解結果就可以告訴我們,以第一期數據的流動表為參照,后面各期的流動表樣態變化如何受到結構流動和交換流動的影響。這一分析結果完全可以納入傳統的多層次模型中,與其他宏觀層面的變量或者個體層次的變量產生互動。最后,本文提出的調整—分解的分析策略雖然以分類變量為分析對象,但是類似的思路也可以應用到對連續型的分層變量(例如收入)的分析之中。在此情況下,我們可以選取適合連續型變量的統計量(如Copula函數等)來進行分解分析。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.