陳茁
南京大學(xué)
社會學(xué)院
助理研究員
社會結(jié)構(gòu)的文本大數(shù)據(jù)測量
——以中國社會職業(yè)地位變遷為例(1940—2015)
來源 | 《社會學(xué)研究》2025年第2期
作者 | 陳茁
責(zé)任編輯 |劉保中
基于問卷調(diào)查的社會結(jié)構(gòu)定量測量存在時間跨度有限、測量維度單一、隱性指標(biāo)不足等問題。為此本文闡述了一種基于文本大數(shù)據(jù),運用自然語言處理算法來測量不同時期的話語結(jié)構(gòu),進而反映社會結(jié)構(gòu)及其變遷規(guī)律的方法。以中國社會職業(yè)地位的歷史變遷(1940—2015)為例,本文基于書籍大數(shù)據(jù),從財富、權(quán)力、文化、聲望四個維度刻畫了職業(yè)地位和職業(yè)地位結(jié)構(gòu)的歷史變遷圖景。該方法對傳統(tǒng)問卷測量方法形成了重要的補充,為缺乏問卷資料的場景,特別是大歷史跨度下的主觀觀念結(jié)構(gòu)和客觀社會結(jié)構(gòu)變遷的測量提供了新的計算社會學(xué)工具。
一、導(dǎo)言
社會結(jié)構(gòu)是社會學(xué)研究的關(guān)鍵概念和重點研究對象。廣義上說,社會結(jié)構(gòu)的概念十分寬泛,指社會行動者在互動基礎(chǔ)上形成的相對穩(wěn)定的社會關(guān)系協(xié)調(diào)體系(鄭杭生、趙文龍,2003)。既有研究除了對社會結(jié)構(gòu)進行基于經(jīng)驗的觀察、歸納和抽象分析外,也在探索以數(shù)量分析生成測量和描述社會結(jié)構(gòu)變化的關(guān)鍵指標(biāo)。通過數(shù)據(jù)分析社會結(jié)構(gòu)能夠清晰地看到社會結(jié)構(gòu)不同層面的變動時序和軌跡,是對“傳統(tǒng)—現(xiàn)代”簡單二分法的有益補缺(李培林,1992)。
如何測量社會結(jié)構(gòu)?一方面,研究者可以直接依據(jù)宏觀社會經(jīng)濟統(tǒng)計指標(biāo)獲得社會結(jié)構(gòu)某一方面的測量,如收入分配、城鎮(zhèn)化率、人口年齡分布等;另一方面,研究者可以在科學(xué)抽樣的前提下通過調(diào)查問卷刻畫社會總體的職業(yè)地位、生活方式、文化消費結(jié)構(gòu)等。盡管這些嘗試豐富并繁榮了一代社會科學(xué)研究,但現(xiàn)有的社會結(jié)構(gòu)測量方式總體上依然存在以下三大問題。
第一,時間跨度有限。特別是對于發(fā)展中國家來說,學(xué)界對社會結(jié)構(gòu)的數(shù)據(jù)收集和分析測量往往起步較晚,如中國社會結(jié)構(gòu)調(diào)查在20世紀90年代后才逐漸普及與成熟。這意味著,關(guān)鍵指標(biāo)的生成實際僅限于回溯近30年的歷史變遷。
第二,測量維度單一。由于統(tǒng)計口徑和社會調(diào)查的時間、成本及操作限制,相關(guān)社會結(jié)構(gòu)的測量往往聚焦于少數(shù)核心指標(biāo),或者含義高度聚合的綜合性指標(biāo),較少從多維度更細致地進行詳細的數(shù)據(jù)收集。
第三,隱性指標(biāo)不足。社會結(jié)構(gòu)的傳統(tǒng)問卷測量更多倚重顯性的客觀事實性指標(biāo),對隱性的文化觀念指標(biāo)往往缺乏豐富的測量手段,而觀念本身也是社會結(jié)構(gòu)的重要組成部分。
那么,有沒有一種新的測量方式,能讓社會結(jié)構(gòu)的測量突破時間、維度和隱性測量的限制,相對準(zhǔn)確地反映社會結(jié)構(gòu)圖景和變化過程?本文認為,基于文本大數(shù)據(jù)和機器學(xué)習(xí)方法可以構(gòu)成測量社會結(jié)構(gòu)的計算社會學(xué)路徑,其基本思路是:運用圖書、新聞、史料、政策等文本語料,通過詞向量等自然語言處理方法,對不同時期的文本話語結(jié)構(gòu)進行量化,進而生成測量社會結(jié)構(gòu)的具體指標(biāo)。
不難發(fā)現(xiàn),該方法的邏輯前提是社會話語和社會現(xiàn)實之間、話語結(jié)構(gòu)與社會結(jié)構(gòu)之間的緊密關(guān)聯(lián)。一方面,話語反映社會結(jié)構(gòu),記載著社會現(xiàn)實、文化認知、集體心態(tài)和價值觀念;另一方面,話語建構(gòu)社會秩序,它直接生產(chǎn)、調(diào)節(jié)和控制各種形式的實踐、社會關(guān)系和社會結(jié)構(gòu)(辛斌,1996;黃國文、徐珺,2006)。同時,話語是歷史性的,不同時期的話語存在差異。這意味著,如果能對不同時期相對穩(wěn)定的話語結(jié)構(gòu)進行測量,就可以在認知層面直接測量主觀社會結(jié)構(gòu),同時在相當(dāng)程度上間接折射真實的社會結(jié)構(gòu)及其變遷過程。
由于社會結(jié)構(gòu)含義寬泛,不少研究將職業(yè)地位結(jié)構(gòu)看作社會結(jié)構(gòu)的核心組成部分(劉欣、田豐,2018)。因此,本文將以職業(yè)地位結(jié)構(gòu)為例進行具體的方法演示。本文第二部分將探討使用文本大數(shù)據(jù)和機器學(xué)習(xí)測量社會結(jié)構(gòu)的方法論基礎(chǔ);第三部分將提出基于語義分析方法測量職業(yè)地位的具體策略,并驗證方法有效性;第四部分將通過社會地位的描述總結(jié)中國近幾十年職業(yè)地位和職業(yè)地位結(jié)構(gòu)的變遷趨勢;第五部分將對這一分析方法的優(yōu)勢和局限進行反思。
二、方法論基礎(chǔ):基本前提和分析框架
(一)話語結(jié)構(gòu)與社會結(jié)構(gòu)
使用文本大數(shù)據(jù)來測量社會結(jié)構(gòu)的關(guān)鍵前提是:對特定語言的符號意義測量能夠產(chǎn)生對宏觀社會結(jié)構(gòu)的正式描述。根據(jù)索緒爾(Ferdinand de Saussure)的觀點,語言并不是主觀意圖的直接產(chǎn)物,而是一種宏觀結(jié)構(gòu)(de Saussure,2004)。符號、圖像、動作或事物的意義或多或少是固定在社會、空間、時間或歷史符號秩序中的(Keller,2011)。個人所表達的符號取自社會歷史生成的集體知識庫,語言的使用是與廣泛的社會文化過程聯(lián)系在一起的,社會創(chuàng)造了語言,因此參照這種慣例來描述語言單位,也是在考察真實的社會結(jié)構(gòu)(Lemert,1979)。
而話語就是規(guī)范、結(jié)構(gòu)化的符號使用實踐。它是特定歷史時期談?wù)撎囟ㄔ掝}的表述方式,它組織并構(gòu)造如何談?wù)撃骋辉掝}、對象和過程,它為社會和人的行為做出描述、規(guī)定、許可和限制(張錚等,2021)。??聦⒃捳Z視為社會歷史的實踐,將話語分析從特定的語言問題中解放出來(Keller,2011)。批評性話語分析學(xué)派進一步將話語是社會的構(gòu)成要素、語言反映現(xiàn)實并影響社會過程、話語具有歷史性等作為話語分析的核心觀點(Fairclough,2013)。與內(nèi)容分析將文本看作單純的信息流通過程不同,話語分析傾向于把文本置于歷史和社會語境中,揭示其背后的意義生產(chǎn)模式、意識形態(tài)和文化內(nèi)涵(胡春陽,2007)。
因此,分析文本中的話語結(jié)構(gòu)也就跟分析社會結(jié)構(gòu)聯(lián)系在了一起。而從話語結(jié)構(gòu)到社會結(jié)構(gòu)的邏輯實際上可以細化為兩個步驟:其一,直接測量主觀社會結(jié)構(gòu)。作為人類文化載體的文本大數(shù)據(jù)實際上蘊含了人類普遍的觀念結(jié)構(gòu),而對話語結(jié)構(gòu)的測量也就能直接反映人們對社會結(jié)構(gòu)的主觀認知。其二,間接反映客觀社會結(jié)構(gòu)。主觀社會結(jié)構(gòu)既是對客觀社會結(jié)構(gòu)的反映,又對客觀社會結(jié)構(gòu)存在導(dǎo)向和形塑作用,因此能在很大程度上折射出客觀的社會結(jié)構(gòu)狀態(tài)。換言之,文化架起了通往整體社會結(jié)構(gòu)的橋梁(陳云松,2022a),通過對文本大數(shù)據(jù)進行話語形態(tài)的變遷分析,能夠為主客觀社會結(jié)構(gòu)及其變遷的多維度測量提供另一種可能性。
(二)詞語關(guān)系與話語結(jié)構(gòu)
如何測量話語?目前主流的話語研究方法主要是對實際文本進行定性分析:基于少量話語,依賴研究者的主觀介入,采用自上而下的方法,在全文及語境下進行細致、深入的分析(Biber et al., 1998)。但傳統(tǒng)話語分析模式存在一定的局限,包括分析范圍小、主觀解釋存在偏見、微觀分析難以支持宏觀社會視角、研究結(jié)果不可重復(fù)等問題(Biber et al., 1998;辛志英,2020)。換言之,基于質(zhì)性研究的話語分析方法固然有其優(yōu)勢,但并不擅長利用文本大數(shù)據(jù)客觀地從宏觀層面把握整體社會結(jié)構(gòu)及其變遷趨勢。
除了定性話語分析之外,近年來語料庫話語分析迅速發(fā)展(Kennedy,2014)。語料庫話語分析將詞匯作為研究的中心,通過基于詞匯的量化統(tǒng)計找到術(shù)語之間的統(tǒng)計相關(guān)性,常用的方法包括語義編碼、詞頻分析、詞語共現(xiàn)和搭配模式分析等。通過大批量、標(biāo)準(zhǔn)化的數(shù)據(jù)分析模式,語料庫話語分析能夠幫助揭示直覺難以察覺的模式和規(guī)律,減少研究者的主觀偏見(McEnery & Hardie,2012)。但限于時代和技術(shù)發(fā)展,這樣來測量話語結(jié)構(gòu)依然存在局限:詞頻、詞語共現(xiàn)和搭配的統(tǒng)計只能揭示語言使用的表面模式,難以捕捉深層次的語義關(guān)系;通過人工語義標(biāo)注的方法(如標(biāo)注詞語意義、近反義詞關(guān)系、上下位詞關(guān)系)只能覆蓋有限的詞匯和短語,難以面向隨時間變化的詞語意義和話語結(jié)構(gòu)。
計算社會科學(xué)的發(fā)展為量化分析話語提供了新的可能性。根據(jù)語言學(xué)的理論,一個詞的含義由它所處的上下文語境來決定;兩個詞的使用語境越相似,也就越傾向于表達相同的含義(Harris,1954)。因此,詞匯的意義和功能可以通過它們在語言中的分布模式來推算,如果兩個詞在類似的上下文中頻繁出現(xiàn),它們很可能有相似的意義和功能。這一分布式語義假設(shè)成為目前自然語言處理的基礎(chǔ)理論之一,即機器學(xué)習(xí)可以通過分析大量文本數(shù)據(jù)學(xué)習(xí)每個詞在各種上下文中出現(xiàn)的模式,然后使用這些模式來表示詞的語義。分布式語義分析能夠基于海量數(shù)據(jù)并根據(jù)詞語之間的分布關(guān)系來“自下而上”地自動學(xué)習(xí)詞匯的含義,處理隨著時間變化而新出現(xiàn)的詞匯和話語結(jié)構(gòu),反映語言的變化。
(三)測量社會結(jié)構(gòu)的方法框架
在以上兩個前提的基礎(chǔ)上,測量社會結(jié)構(gòu)的基本思路是:基于文本大數(shù)據(jù),通過詞語之間的關(guān)系和詞表設(shè)定發(fā)現(xiàn)關(guān)于特定對象或話題的普遍表述模式,進而通過對話語結(jié)構(gòu)的測量反映社會結(jié)構(gòu)。這具體可以細分為以下五大步驟。
一是收集文本大數(shù)據(jù)。文本大數(shù)據(jù)是反映社會結(jié)構(gòu)的一手資料,大數(shù)據(jù)的選擇關(guān)系到測量何種形式的話語以及社會結(jié)構(gòu)。需要注意不同類型的文本反映了不同對象或者場域的話語結(jié)構(gòu),比如政府文件反映官方話語,新聞報道反映媒體話語,書籍小說反映大眾話語,消費廣告反映商業(yè)話語等。研究者可以收集不同類型的大數(shù)據(jù)進行互相驗證,也可以比較不同敘事主體的話語差異。另外,收集不同時期的大數(shù)據(jù)能夠分析社會結(jié)構(gòu)的歷時性變遷;收集不同地域的資料如地方志、跨國書籍等,能夠?qū)Σ煌瑓^(qū)域的社會結(jié)構(gòu)進行橫向比較。
二是訓(xùn)練自然語言模型。借助機器學(xué)習(xí)算法,研究者可以依據(jù)文本中詞和詞之間的關(guān)系,自下而上地將詞語轉(zhuǎn)化為能夠表征詞匯意義的向量和指標(biāo)。這些向量和指標(biāo)反映了語料中最普遍的用語模式,即話語結(jié)構(gòu)。研究者可以根據(jù)分析目標(biāo)選擇不同的模型:如果側(cè)重于進行多語料類型、跨時期、多空間的比較分析,則推薦直接基于不同屬性的子語料分別訓(xùn)練模型;如果分析側(cè)重于描述人類最普遍的話語結(jié)構(gòu),則推薦使用生成式大語言模型等已經(jīng)基于超大規(guī)模語料預(yù)訓(xùn)練好的模型,以提供“整體事實”的視角來反映人類的普遍觀念(梁玉成,2024)。
三是制定社會結(jié)構(gòu)的測量策略。社會結(jié)構(gòu)表現(xiàn)為方方面面,研究者需要針對具體的研究議題制定具體的指標(biāo)測量策略。首先,研究者應(yīng)該明確分析的對象,如職業(yè)、性別、國家、組織、亞群體、概念等,構(gòu)建分析對象詞表。其次研究者應(yīng)該明確分析的維度,構(gòu)建分析維度詞表,也即需要對研究對象的哪些方面進行測量。最后,研究者需要確定社會結(jié)構(gòu)指標(biāo)的計算方式。指標(biāo)的操作化過程比較靈活,一般來說,可以先計算分析對象詞匯與不同分析維度詞匯之間的空間距離,將分析對象投射在對應(yīng)的分析維度上,再根據(jù)需要進行更靈活和細致的計算分析。
研究者如何構(gòu)建分析對象和分析維度的詞表?一方面可以查閱詞典,或使用既有研究編撰的特定領(lǐng)域詞表。另一方面也可以采用數(shù)據(jù)驅(qū)動的方法,根據(jù)訓(xùn)練好的詞向量尋找同義詞,或者通過人工排查所有詞表的方式來完成。需要注意的是,如果要對基于不同語料訓(xùn)練的多個模型開展比較性分析,應(yīng)盡量先在同一個模型內(nèi)部生成指標(biāo)的標(biāo)準(zhǔn)化值,再進行跨模型比較。
四是驗證分析有效性。為保證對社會結(jié)構(gòu)指標(biāo)測量的效度,研究者需要驗證分析的有效性。在理想情況下,如果有社會調(diào)查數(shù)據(jù),可以直接對調(diào)查數(shù)據(jù)和基于文本大數(shù)據(jù)測量的社會結(jié)構(gòu)指標(biāo)進行比照;但使用文本方法測量社會結(jié)構(gòu)的情況大多是因為社會調(diào)查數(shù)據(jù)缺失,這時可以采用局部驗證整體的思路,對能夠與問卷數(shù)據(jù)相匹配的部分年份、部分維度指標(biāo)進行比照,進而推定整體模型。當(dāng)完全缺乏社會調(diào)查數(shù)據(jù)時,可以選擇多來源的文本大數(shù)據(jù),進行多重交叉驗證。
五是描述社會結(jié)構(gòu)。研究者使用驗證過的分析策略生成社會結(jié)構(gòu)的具體操作化指標(biāo),對社會結(jié)構(gòu)進行描述,呈現(xiàn)研究對象在不同維度下的現(xiàn)狀、在不同時期的變遷趨勢以及在不同區(qū)域下的結(jié)構(gòu)性差異。同時,研究者可以將該指標(biāo)與其他社會宏觀指標(biāo)進行鏈接,以便進一步探討社會結(jié)構(gòu)的影響機制。使用文本大數(shù)據(jù)測量社會結(jié)構(gòu)的方法框架見圖1。
事實上,已有一批研究運用類似方法對多個議題進行了測量。例如,科茲洛夫斯基(Austin C. Kozlowski)等人提出文化幾何學(xué),量化了階級與財富、就業(yè)、教育、修養(yǎng)等維度的關(guān)系和歷史變化趨勢,以此來理解階級在不同歷史階段的含義(Kozlowski et al., 2019);加格(Nikhil Garg)等運用類似的方法對100年來英語文化中的性別和種族觀念進行了量化(Garg et al., 2018)。在此基礎(chǔ)上,本文聚焦于這些研究通用的方法論價值,探討使用文本大數(shù)據(jù)和語義分析測量社會結(jié)構(gòu)的可能性、優(yōu)勢和局限。
三、職業(yè)地位的文本大數(shù)據(jù)測量:中國案例
社會結(jié)構(gòu)含義寬泛,可以細化為地位結(jié)構(gòu)、人口結(jié)構(gòu)、家庭結(jié)構(gòu)、組織結(jié)構(gòu)、城鄉(xiāng)結(jié)構(gòu)、消費結(jié)構(gòu)等(陸學(xué)藝,2010;李培林,2011;劉欣、田豐,2018)。由于職業(yè)地位常常被社會學(xué)家用來測量社會結(jié)構(gòu)分化的程度和形態(tài)分布,同時20世紀80年代涌現(xiàn)了一大批關(guān)于中國職業(yè)地位的調(diào)查研究,這為驗證方法有效性提供了參照標(biāo)準(zhǔn),因此本文將以“職業(yè)地位”為例詳細演示如何使用上述方法框架對大歷史跨度下的職業(yè)地位及其結(jié)構(gòu)變遷進行測量。
(一)職業(yè)地位的傳統(tǒng)測量方法
職業(yè)聲望是人們對各種職業(yè)做出的主觀評價,是最早和最廣泛使用的測量職業(yè)地位的指標(biāo)之一。測量職業(yè)聲望一般采用主觀評價法,即借助社會調(diào)查獲取訪問者對一些職業(yè)的評分,對職業(yè)進行打分、分級或者排序(高順文,2005)。在中國,關(guān)于職業(yè)地位測量的研究絕大多數(shù)采用主觀評價法(Lin & Xie,1988;李強,2000;許欣欣,2000,2005;李強、劉海洋,2009)。主觀評價法的測量方式簡單直接,且能夠捕獲更廣泛的社會文化因素和價值觀念。但由于數(shù)據(jù)收集方式的限制,這種方法只能測量少部分職業(yè),因而也難以描述和分析整個職業(yè)地位的分層體系(李春玲,2005a)。不止于此,職業(yè)聲望也并不總是與收入、教育等職業(yè)屬性相關(guān)(Hauser & Warren,1997)。
另一種常用的測量方法是以社會經(jīng)濟地位指數(shù)為代表的客觀測量方法,其基本思路是依據(jù)教育、收入等客觀指標(biāo),通過擬合模型和權(quán)重分配等方法,建立職業(yè)地位分數(shù)的方程模型。典型的研究是鄧肯(Otis Dudley Duncan)基于職業(yè)收入和教育程度來計算社會經(jīng)濟地位指數(shù)(Duncan,1961);在中國,邊燕杰、李春玲等學(xué)者也基于收入、教育等因素構(gòu)建了職業(yè)地位評價得分(Bian,1996;李春玲,2005a)。相比于主觀測量法,客觀測量法能依賴少量職業(yè)對大量甚至全部職業(yè)的地位指數(shù)進行計算和推測,且同時考慮職業(yè)相關(guān)的多個維度;但其缺點在于十分依賴權(quán)重和測量維度的科學(xué)設(shè)定,同時容易忽略文化價值觀念等難以量化的非經(jīng)濟因素。
不論是主觀還是客觀測量,測量職業(yè)地位事實上都繞不開一個關(guān)鍵問題,即職業(yè)地位包含哪些維度。社會學(xué)先驅(qū)韋伯最先提出社會地位三分法:由財產(chǎn)占有不同產(chǎn)生的經(jīng)濟地位差別,由權(quán)力占有而產(chǎn)生的政治地位差別,以及由社會評價和榮譽占有不同而產(chǎn)生的社會地位差別(韋伯,2010)。布迪厄的文化資本理論認為經(jīng)濟資本、文化資本和社會資本共同決定了一個人的社會地位,并將文化資本進一步納入社會地位的分析維度(Bourdieu,2018)。同時,賴特(2006)特別強調(diào)了專業(yè)技術(shù)與勞動過程的關(guān)系,認為專業(yè)技能不僅影響個體的職業(yè)地位,也決定了勞動者在生產(chǎn)體系中的階級屬性。這些研究表明,職業(yè)地位的測量并非僅僅包含一個單一指標(biāo),而是包含著內(nèi)涵豐富的子維度。
表1列舉了11項測量職業(yè)地位的代表性研究。如該表所示,中國最早的關(guān)于職業(yè)地位的測量可以追溯到1983年,20世紀90年代和21世紀初的相關(guān)調(diào)查與研究非常豐富。總體看來,盡管職業(yè)地位的相關(guān)研究已經(jīng)較為成熟,但仍然存在需要補足的空間。第一,從時空范圍上看,多數(shù)研究都是基于特定年份和一定地域的靜態(tài)研究,缺乏超大時間跨度和空間尺度的整體宏觀測量和變遷研究。第二,從測量的維度看,這些研究在測量分析時多采用一個綜合指標(biāo),對各個職業(yè)地位維度分項進行獨立分析的研究幾乎沒有。然而,職業(yè)地位的各個維度是相互關(guān)聯(lián)但不完全重合的,更好的選擇是獨立地分析每一個維度(Hauser & Warren,1997)。第三,從測量的隱性指標(biāo)看,客觀法直接剝離了職業(yè)地位的主觀評價維度,主觀法可能由于測量指標(biāo)相對抽象,并不總是與收入、教育程度等客觀屬性相關(guān)。
(二)職業(yè)地位的文化測量:數(shù)據(jù)、方法和效度
1.數(shù)據(jù)來源
書籍作為人類文化觀念表達和傳承的主要方式,反映著社會的文化認知、集體心態(tài)和價值觀念,為職業(yè)地位的測量提供了另一種可能性。已有相關(guān)學(xué)者基于書籍這一重要文化載體量化地測量和分析社會普遍的文化認知、集體心態(tài)和價值觀念(陳云松,2015)。
本文使用目前全球最大的數(shù)字化工程項目即谷歌圖書的中文圖書語料庫,來測量職業(yè)地位。截至2012年的官方統(tǒng)計數(shù)據(jù),谷歌圖書數(shù)據(jù)庫已經(jīng)囊括人類全部印刷總量的6%,其中涉及中文圖書30萬部,中文詞匯268億余個(Lin et al., 2012),并且依然在不斷補充和更新。為了規(guī)避可能的倫理問題,該數(shù)據(jù)庫開發(fā)了N-gram工具,對文本數(shù)據(jù)進行直接切分、斷句,實現(xiàn)以詞語或詞組為單位的統(tǒng)計分析。我們借鑒科茲洛夫斯基等人的研究思路(Kozlowski et al., 2019),選取所有5-gram的中文詞組作為分析原語料。5-gram是指由5個詞語組成的序列,可以被理解為一個詞組。根據(jù)N-gram的篩選規(guī)則,5個詞語在一起使用超過40次才會被作為5-gram統(tǒng)計。
而以谷歌圖書的中文5-gram語料為基礎(chǔ)來測量職業(yè)地位主要是基于以下三個原因。第一,作為最大的數(shù)字化圖書數(shù)據(jù)庫,它不僅體量大,而且還包含了多種類型的文檔,如小說、政府文件、科學(xué)文本、調(diào)查報告等,能盡可能地反映一定時期內(nèi)人們對職業(yè)的普遍觀念和文化共識。第二,超長時間的書籍可追溯性保證了大歷史跨度測量的可能性。第三,書籍生動具體的文本語境信息提供了靈活多樣的分析維度。一方面,我們可以對所有在書籍中出現(xiàn)過的職業(yè)進行測量,而不必拘泥于調(diào)查問卷中涉及的少量主要職業(yè);另一方面,我們可以靈活地選擇分析維度,構(gòu)建涉及財富、權(quán)力、文化、聲望等多方面的立體化測量指標(biāo)。
2.模型訓(xùn)練
近年來,詞嵌入方法已被廣泛用于測量語義信息(龔為綱等,2019;劉河慶、梁玉成,2021),本文采用該方法來衡量職業(yè)的文化意義。嵌入空間中詞語之間的距離通常用詞語向量間夾角的余弦值來評估,代表兩個詞語語義聯(lián)系的緊密程度。如果一些詞語有類似的上下文,或者經(jīng)常出現(xiàn)在一起,它們的向量表示在高維空間中將會靠得很近;反之,如果一些詞匯并不常共同出現(xiàn),且并不享有同樣的上下文,它們的向量距離則會較遠。例如,如果“科學(xué)家”和“發(fā)明”兩個詞的余弦相似度很高,則代表著兩個詞常常出現(xiàn)在同一語境中。
值得一提的是,在模型的訓(xùn)練過程中,目標(biāo)詞及其上下文的配對依賴動態(tài)滑動窗口的大小。從理論上來說,更大的滑動窗口會涵蓋更多的上下文信息,從而有更高的準(zhǔn)確度。但由于數(shù)據(jù)的限制,本文使用的數(shù)據(jù)為書籍中5個詞語組成的詞組(5-gram),這意味著模型訓(xùn)練窗口最大只能設(shè)定為4。而既有研究和文獻已從多角度證明了使用5-gram捕捉語義關(guān)系的有效性(Garg et al., 2018;Kozlowski et al., 2019)。事實上,Skip-gram模型訓(xùn)練過程中默認的滑動窗口也僅為5,且距離更遠的詞匯在訓(xùn)練時也會被賦予更低的權(quán)重。不止如此,一些研究者也比較了滑動窗口設(shè)置為2、5和10三種情況下的模型效果,在數(shù)據(jù)量夠大的情況下,三種效果并不存在顯著的效度差異(Levy et al., 2015)。
為了追蹤隨著時間推移的語義變化,本文以10年為時間范圍,5年為滑動間隔,將1940年到2015年共計75年的書籍大數(shù)據(jù)劃分為14個子語料庫,并在此基礎(chǔ)上分別訓(xùn)練了14個Word2Vec模型。這些模型分別代表了1940—1950、1945—1955、1950—1960等以此類推的階段性話語結(jié)構(gòu)。遵照相關(guān)標(biāo)準(zhǔn)(Mikolov et al., 2013),本文將詞向量維度設(shè)置為300,最大窗口設(shè)置為4,訓(xùn)練時刪去了出現(xiàn)次數(shù)小于50的詞。表2顯示了14個詞向量模型的基本情況。
3.職業(yè)地位的測量策略
依據(jù)詞嵌入和職業(yè)地位不同維度的單詞列表,我們可以測量一組職業(yè)的地位得分。具體來說,參照韋伯的社會地位三分法和布迪厄的資本理論(韋伯,2010;Bourdieu,2018),本文將職業(yè)地位的測量細分為四個維度:財富、權(quán)力、文化和聲望,代表四個場域資源在不同職業(yè)中的分配情況。我們參照加格等人測量性別刻板印象偏差的方法(Garg et al.,2018)構(gòu)建職業(yè)地位的測量策略。
首先,對于每一個維度分別構(gòu)建兩組詞,一組用來形容職業(yè)高資源集聚的狀態(tài),如“富有”“博學(xué)”等;另一組用來形容職業(yè)低資源集聚的狀態(tài),如“貧窮”“文盲”等,以此作為該維度的兩極。其次,以職業(yè)為中心詞,分別計算職業(yè)與高資源組詞和低資源組詞的距離,用以衡量該職業(yè)在多大程度上傾向于出現(xiàn)在高資源語境或者低資源語境中。最后,使用該職業(yè)與高職業(yè)組詞的平均距離減去該職業(yè)與低職業(yè)組詞的平均距離,以此作為該維度的具體得分。如果該得分為正值,意味著該職業(yè)更常出現(xiàn)在高資源語境中,人們對這一職業(yè)的認知和評價更高;反之則評價較低。四個維度得分的均值計為總體職業(yè)地位得分。
接下來,本文以財富維度為例更具體地說明計算過程。考慮現(xiàn)有的“富有”和“貧困”這兩個詞,計算“科學(xué)家”和“富有”兩個詞向量的余弦距離記為D1,計算“科學(xué)家”和“貧困”兩個向量的余弦距離記為D2,而D1和D2則分別代表“科學(xué)家”與“富有”或“貧困”共同出現(xiàn)的概率高低。由于單個詞語的計算難免會帶來偏差,我們進一步考慮兩組詞:一組是形容財產(chǎn)較多的詞,如“富?!薄案挥小薄皩捲!钡龋涣硪唤M是形容財產(chǎn)較少的詞,如“貧窮”“拮據(jù)”等。而后,我們分別計算每組的每一個詞與“科學(xué)家”的距離,并計算兩組詞與“科學(xué)家”的距離均值M1和M2。最后,M1-M2的值即為科學(xué)家在財富維度上的地位得分。
如果用公式表示,每一維度的職業(yè)地位得分即為:
其中,Sh代表職業(yè)與高地位詞語的平均距離,Sl代表職業(yè)與低地位詞語的平均距離,WO代表職業(yè)詞匯,Whi代表高地位詞匯,Wli代表低地位詞匯,Op代表該維度下某個職業(yè)的地位得分。
接下來,本文采用人工設(shè)定和數(shù)據(jù)驅(qū)動相結(jié)合的方法確定詞表。
(1)職業(yè)詞語的選擇
對于職業(yè)詞匯,最直接的辦法是參考《中華人民共和國職業(yè)分類大典》等官方文件,然而,將這些職業(yè)詞匯運用在本研究中存在兩個問題:其一,官方職業(yè)分類所用名稱十分規(guī)范,如“人民法院負責(zé)人”等,但書籍使用的詞匯偏向于更通俗的稱呼;其二,職業(yè)會隨時間改變,我們難以使用當(dāng)今的職業(yè)分類大典去衡量跨越長時間段的職業(yè)情況。因此,本文通過人工判斷的方法,以所有模型中包含的詞語為依據(jù),從四萬余個不重復(fù)的詞語中挑選出與職業(yè)有關(guān)的詞匯作為職業(yè)選詞,共計382個。
(2)維度詞語的選擇
對于財富、權(quán)力、文化和聲望四維度詞語的選擇按照如下步驟:首先,查閱現(xiàn)代漢語詞典,盡可能多地囊括能體現(xiàn)各維度下評價高低的詞匯,建立初步詞庫。但由于一些詞語可能存在一詞多義、特殊用法、詞義發(fā)生較大變動、出現(xiàn)頻率低等情況,將其納入會進一步帶來測量噪音,因此還需要對這些詞語做進一步篩選。具體的做法是,以社會調(diào)查計算的真實職業(yè)地位作為參照標(biāo)準(zhǔn),如果依據(jù)某個詞匯測量的結(jié)果與真實數(shù)據(jù)完全不相干甚至反相關(guān),則將其作為噪聲剔除。經(jīng)過人工篩選和數(shù)據(jù)驅(qū)動后,每個維度的測量詞表如表3所示。同時我們還構(gòu)建了一個每維度只包含10個詞語的子詞表進行穩(wěn)健性檢驗,其設(shè)計原理在于,同一維度下往往存在很多詞語且難以窮盡,如果只使用部分詞能夠得出類似的效果,則意味著盡管詞語未完全羅列,依然能夠得到準(zhǔn)確的操作化結(jié)果。
4.職業(yè)地位的測量效度
本研究所用的測量策略能在多大程度上反映真實社會的職業(yè)地位?本文將從書籍中測量的職業(yè)地位和基于社會調(diào)查的真實職業(yè)地位進行了比較。我們以從1982年到2009年、跨度為27年的6篇職業(yè)地位的實證調(diào)查為基準(zhǔn)(Lin & Xie,1988;陳嬰嬰,1995;許欣欣,2000,2005;李春玲,2005a;李強、劉海洋,2009),根據(jù)每項調(diào)查實施的年份,測試了1980年至2015年期間的六個模型。
圖2以2001年李春玲測量的職業(yè)地位分數(shù)為基準(zhǔn),詳細反映了調(diào)查數(shù)據(jù)和書籍?dāng)?shù)據(jù)測量的相關(guān)性情況。我們使用書籍測量結(jié)果對真實結(jié)果擬合了一條直線,大部分職業(yè)集聚在擬合線的兩側(cè),書籍測量的職業(yè)地位與真實數(shù)據(jù)測量的職業(yè)地位顯著正相關(guān)(
P=0.000;
R
2=0.509)。同時,兩者的皮爾遜相關(guān)系數(shù)為0.712。這意味著,基于圖書的測量能夠在很大程度上反映真實社會情況。
圖3反映了客觀調(diào)查與大數(shù)據(jù)測量的相對應(yīng)時間段職業(yè)地位間的皮爾遜相關(guān)系數(shù),包括全部選詞和部分選詞的穩(wěn)健性分析結(jié)果。事實上,基于大數(shù)據(jù)的測量策略所得的結(jié)果與所有調(diào)查分析結(jié)果的關(guān)系都十分顯著,相關(guān)系數(shù)均在0.5以上,意味著該方法有較大的效度。但基于書籍的測量又確實與客觀調(diào)查數(shù)據(jù)存在一定偏差:前者測量的實際上是人們對于職業(yè)地位的主觀認知結(jié)構(gòu),而通過觀念來折射客觀社會結(jié)構(gòu)仍可能與真實社會存在差異。
四、歷史變遷中的職業(yè)地位和職業(yè)地位結(jié)構(gòu)
(一)職業(yè)地位的歷史變遷
1.宏觀層面:量化職業(yè)地位的時代差異
從宏觀層面看,近幾十年來職業(yè)地位是否存在明顯的時代變化?圖4展示了基于各時期子語料計算的職業(yè)地位得分兩兩間的皮爾遜相關(guān)系數(shù),系數(shù)越高顏色越深,代表這兩個時期的整體職業(yè)地位得分越相似,職業(yè)地位變化越小。舉例來說,對角線上為兩個相同時期的職業(yè)地位,故相似度最高為1;1945年的職業(yè)地位與1950年的職業(yè)地位相似度最高,相關(guān)系數(shù)達到0.77。
總的來看,中國的職業(yè)地位變化并不總是穩(wěn)定的,在1980年前后存在非常明顯的分界線。1980年之前,職業(yè)地位總體不穩(wěn)定,僅僅相鄰年份的相似度比較高,職業(yè)地位處在不斷變化之中。特別是1945—1950年前后的新中國成立時期、1970年前后的“文化大革命”時期,社會地位變化極大。但同時,在1955—1960的社會主義革命時期臨近年相關(guān)系數(shù)達到0.88,預(yù)示著一個短暫的相對穩(wěn)定期。到1980年后,整體職業(yè)地位變化趨于穩(wěn)定,該時期職業(yè)地位相似度明顯呈現(xiàn)一個顏色相近的“矩陣塊”,職業(yè)地位相似度基本高于0.8。
圖5展示了四維度職業(yè)地位在不同時期兩兩間的相關(guān)系數(shù)??梢园l(fā)現(xiàn),在四維度地位中,權(quán)力地位維度的時代變化最為穩(wěn)定,財富地位最不穩(wěn)定。其中,財產(chǎn)地位的劇烈變動集中于20世紀60—70年代;文化和聲望地位的劇烈變動集中于20世紀70年代。20世紀80年代之后,四維度地位也均趨于穩(wěn)定,形成明顯的顏色更為接近的深色矩陣塊;但相比財富和文化維度而言,職業(yè)地位在聲望和權(quán)力維度的變化更為穩(wěn)定。
上述職業(yè)地位的時代變遷說明了什么?回看以往職業(yè)地位的研究,一種流行的觀點是:生活在不同時代、不同社會、同一社會不同的群體成員對職業(yè)地位的評價可能非常相似。特雷曼(Donald J. Treiman)對60個國家85項職業(yè)聲望的研究結(jié)果表明,聲望在時空上基本是不變的(Treiman,1977),這種穩(wěn)定性被稱作特雷曼常數(shù)。本文的實證結(jié)果發(fā)現(xiàn),從宏觀大歷史尺度看,特雷曼常數(shù)并不完全適用于經(jīng)歷了反帝反封建、社會主義改造和改革開放等重大變革的近現(xiàn)代中國社會,這挑戰(zhàn)了特雷曼關(guān)于職業(yè)聲望在時空上具有普遍穩(wěn)定性的觀點。同時,本文拓展了測量變遷的時間和維度邊界,量化了職業(yè)地位在不同時代的變遷程度以及重要時間轉(zhuǎn)折點,同時明確了財富、權(quán)力、文化和聲望變遷的不同穩(wěn)定程度。
2.微觀層面:多職業(yè)、多維度的變遷軌跡
中國的職業(yè)地位在特定時期具體是如何變動的?本部分將基于部分典型職業(yè)的微觀分析進一步展示變動的具體方式。為便于不同時期模型的比較,我們將同一時期的所有職業(yè)地位得分縮放標(biāo)準(zhǔn)化為0~100的得分。圖6詳細展示了部分典型職業(yè)地位在四大維度上的時間變化趨勢,其中,縱坐標(biāo)代表職業(yè)地位標(biāo)準(zhǔn)化得分,橫坐標(biāo)代表年份。微觀職業(yè)地位變遷特點主要有如下表現(xiàn)。
20世紀50—60年代,職業(yè)地位明顯提高的職業(yè)包括工程師、公務(wù)員、教師、軍人、工人等。伴隨著新中國工業(yè)化建設(shè)以及城鄉(xiāng)二元結(jié)構(gòu)的出現(xiàn),體制內(nèi)外的社會分割強化,城市居民、體制內(nèi)人員的職業(yè)地位提升,農(nóng)民地位在20世紀50年代略有下降。
20世紀70年代是職業(yè)地位變動最劇烈的時期之一,劇烈變動典型表現(xiàn)為科學(xué)家、工程師、公務(wù)員、畫家、作家、教師等職業(yè)地位下降,飛行員、運動員、警察、服務(wù)員、廚師等職業(yè)地位上升。其中,知識、文化類職業(yè)地位由于“文化大革命”而受到打擊;20世紀70年代飛行員和運動員職業(yè)地位的變化與我國航天事業(yè)、國家外交和綜合國力聯(lián)系緊密。
20世紀80—90年代,改革開放后的職業(yè)地位變化表現(xiàn)為:首先,專業(yè)技術(shù)類職業(yè)的地位重新上升,科學(xué)家、工程師、教師、記者、醫(yī)生、畫家、作家等職業(yè)地位重新提高。其次,飛行員、運動員職業(yè)地位相對下降,可能與這兩個職業(yè)的政治、外交屬性相對剝離相關(guān)。服務(wù)員、司機、保姆等傳統(tǒng)服務(wù)業(yè)職業(yè)和農(nóng)民的職業(yè)地位也有不同程度地下降。
21世紀初,職業(yè)地位變化總體保持穩(wěn)定,其中公務(wù)員職業(yè)地位隨著市場化改革的深化而小幅度下降,官本位呈現(xiàn)淡化趨勢;醫(yī)生、導(dǎo)演、作家等專業(yè)技術(shù)和文化藝術(shù)類職業(yè)地位小幅度上升;司機、服務(wù)員等傳統(tǒng)服務(wù)類職業(yè)的地位繼續(xù)下降。
上述職業(yè)地位在不同時期呈現(xiàn)變化的內(nèi)在動力是什么?本文嘗試對上述描述性結(jié)果進行推測性解釋,將成因歸納為三大軸線。一是政治力量主導(dǎo)的軸線。從新中國成立、三大改造、“文化大革命”到改革開放,政治力量幾乎是20世紀80年代前職業(yè)地位變化的最主導(dǎo)因素。高知型和文體類職業(yè)是這一時期受到影響最大的職業(yè)類型,同時工程建設(shè)、航空航天、體育事業(yè)等相關(guān)職業(yè)也在很大程度上因與國家綜合實力和外交聲譽聯(lián)系緊密而被賦予高社會地位。二是產(chǎn)業(yè)結(jié)構(gòu)發(fā)展的軸線。產(chǎn)業(yè)發(fā)展剛起步時相關(guān)職業(yè)往往被賦予較高的職業(yè)地位,如20世紀60年代工業(yè)發(fā)展初期的工程師、廠長和工人,20世紀70年代服務(wù)業(yè)發(fā)展初期的司機、廚師和服務(wù)員。改革開放之后,市場要素配置帶來的最直接影響是專業(yè)技術(shù)職業(yè)地位的提升,第一、第二產(chǎn)業(yè)和傳統(tǒng)服務(wù)業(yè)的職業(yè)地位下降或趨于穩(wěn)定,文娛類(如導(dǎo)演、作家)職業(yè)地位提升。三是傳統(tǒng)文化觀念的軸線。在尊師重教和官本位文化傳統(tǒng)的影響下,知識型和公職類職業(yè)地位一直較高,且知識型職業(yè)具有極高的職業(yè)聲望。
通過分析職業(yè)內(nèi)部四維度職業(yè)地位的分化與重疊,同樣可以發(fā)現(xiàn)有趣的現(xiàn)象。從實證分析結(jié)果看,職業(yè)的財富、權(quán)力、文化、聲望地位并不總是一致的。例如,科學(xué)家、教師等知識型職業(yè)的典型特點是聲望和文化地位高,而權(quán)力和財富地位相對較低。尊師重教的中華文化傳統(tǒng)讓人們對這些職業(yè)充滿敬重和贊譽,同時這些職業(yè)也被賦予無私奉獻的理想化形象。又如,文化類職業(yè)(導(dǎo)演、畫家、作家、記者等)表現(xiàn)為高聲望、高文化、高財富、低權(quán)力的分化。服務(wù)類職業(yè)(司機、服務(wù)員、保姆等)雖然財富、權(quán)力、文化地位較低,但聲望地位相對較高。
四維度地位的一致性分析可以為測量社會結(jié)構(gòu)提供一個具體、連續(xù)的量化視角。關(guān)于中國的社會結(jié)構(gòu)特征,學(xué)界一直以來存在“碎片化”和“結(jié)構(gòu)化”的爭論(李春玲,2005b)。持“碎片化”觀點的學(xué)者認為當(dāng)前的社會是一個多元分化的社會,利益群體在不同分化坐標(biāo)上是相互交叉的,不存在絕對的分界線(李強,2008)。持“結(jié)構(gòu)化”觀點的學(xué)者認為多維度的地位分化趨于一致,特別是經(jīng)濟地位的差異擴散到其他領(lǐng)域,各維度資源的疊加形成整體性社會聚合體(李路路,2003)。實際上,碎片化和結(jié)構(gòu)化都是描述社會結(jié)構(gòu)分化的理想類型,本文的分析結(jié)果顯示,社會分化表現(xiàn)出碎片化和結(jié)構(gòu)化并存的局面:職員、工人、農(nóng)民、軍人等職業(yè)表現(xiàn)出更高的地位一致性;而其他職業(yè)特別是專業(yè)技術(shù)類職業(yè)多存在一定程度的維度分化。
(二)職業(yè)地位結(jié)構(gòu)的歷史變遷
在刻畫完職業(yè)地位變遷的基礎(chǔ)上,本部分將進一步結(jié)合職業(yè)地位得分和職業(yè)頻率,刻畫社會整體職業(yè)地位結(jié)構(gòu)的變遷情況。圖7(A)反映了1940—2015年14個子語料庫下的職業(yè)地位結(jié)構(gòu),每一時期的地位結(jié)構(gòu)圖包含左右兩個部分,左邊為地位分布曲線,高度為職業(yè)地位的得分,寬度為某一職業(yè)在書籍中出現(xiàn)的頻率;右邊為地位分布箱線圖,反映了所有職業(yè)地位的四分位分布。圖7(B)進一步呈現(xiàn)了反映地位結(jié)構(gòu)的具體指標(biāo),一是反映職業(yè)地位的最大分化程度的極差,即該時期最高和最低職業(yè)地位的差值;二是反映職業(yè)多樣性和均衡程度的職業(yè)熵,由信息熵公式計算得出,如果該時期文本大數(shù)據(jù)中出現(xiàn)的職業(yè)種類越多樣,不同職業(yè)間分布的數(shù)量越均衡,則職業(yè)熵越大。
各時期職業(yè)地位箱線圖的中位數(shù)值(箱子中的黑色線)反映了職業(yè)人群的中間值所處的地位水平??偟膩砜?,近幾十年我國的職業(yè)地位結(jié)構(gòu)經(jīng)歷了整體的結(jié)構(gòu)性上移。進一步,不同時代職業(yè)地位結(jié)構(gòu)也呈現(xiàn)不同的分布特點。
20世紀50—60年代初的職業(yè)地位結(jié)構(gòu)表現(xiàn)為多層分化的塔型結(jié)構(gòu)。戰(zhàn)后經(jīng)濟恢復(fù)時期的職業(yè)地位極差存在短暫的小幅度上漲,但職業(yè)的多樣性和均衡程度則不斷下降。在過渡時期,由于一系列社會改組措施,職業(yè)地位結(jié)構(gòu)呈現(xiàn)不連續(xù)多峰分布,意味著職業(yè)階層分化明顯;同時地位結(jié)構(gòu)的中下部分更寬,呈現(xiàn)整體的塔型分布。
20世紀60—70年代的職業(yè)地位結(jié)構(gòu)表現(xiàn)為斷裂的平均主義結(jié)構(gòu)。該時期職業(yè)地位結(jié)構(gòu)僅存在兩到三個明顯的波峰,且波峰間存在巨大的鴻溝,職業(yè)地位結(jié)構(gòu)斷裂明顯;而職業(yè)地位極差和職業(yè)熵在這一段均達到最低峰值。伴隨著人民公社化運動、“文化大革命”等社會運動的開展,對階級和身份制度差異的強調(diào)與身份群體內(nèi)部的地位均等化并存。
20世紀80年代后的職業(yè)地位結(jié)構(gòu)表現(xiàn)為相對連續(xù)的紡錘型結(jié)構(gòu)。改革開放初期,社會結(jié)構(gòu)迅速變化,不同職業(yè)間的區(qū)隔程度漸趨減小,地位極差和職業(yè)熵不斷增大,意味著社會分化迅猛加劇,不平等程度拉大,職業(yè)也變得多樣。21世紀以來,社會結(jié)構(gòu)保持紡錘型并向更健康的形態(tài)發(fā)展。一方面,四分位距更為集中,社會結(jié)構(gòu)的中間部分愈發(fā)聚集;另一方面,職業(yè)地位極差逐漸縮小,特別是極低值不斷提高,尾部分布不斷稀疏,職業(yè)熵也顯示職業(yè)分布變得更多樣和均衡。
社會結(jié)構(gòu)分層形態(tài)一直是社會分層研究的經(jīng)典議題,學(xué)者對不同時期的社會分層形態(tài)做過各種概括和解讀。例如,孫立平提出“斷裂化”觀點,認為社會分化成相互隔絕、差異鮮明的兩部分(孫立平,2003);陸學(xué)藝等人提出“中產(chǎn)化”觀點,認為社會中間層日益壯大,底層和頂層逐漸縮?。憣W(xué)藝,2002)。本文的結(jié)果顯示,在改革開放初期,社會分化加大且存在明顯的分層,這在21世紀初期變得尤為明顯。但伴隨著改革開放的深化、社會保障的完善和更合理的收入分配,社會分化得到有效控制,中間群體越來越龐大。
五、結(jié)語
社會學(xué)對社會結(jié)構(gòu)的量化測量長期以來多倚靠宏觀社會經(jīng)濟指標(biāo)或微觀社會調(diào)查。但由于時間、成本和測量方式的限制,指標(biāo)的測量依然存在時間跨度有限、測量維度單一、隱性指標(biāo)不足等問題。而大數(shù)據(jù)和機器學(xué)習(xí)為測量社會結(jié)構(gòu)提供了一條新的計算社會學(xué)路徑:基于圖書、史料、政策文件等文本大數(shù)據(jù),使用詞嵌入等自然語言算法對不同歷史時期相對穩(wěn)定的話語形態(tài)進行量化測量,進而反映深層次的社會結(jié)構(gòu)、集體認知和社會觀念?;凇霸捳Z結(jié)構(gòu)反映社會結(jié)構(gòu)”和“詞語關(guān)系反映話語結(jié)構(gòu)”的前提,本文對使用文本大數(shù)據(jù)測量社會結(jié)構(gòu)的方法合理性進行了論述,并提出了通用的測量方法框架。
本文以“職業(yè)地位”為例,展示了1940—2015年中國社會結(jié)構(gòu)變遷的具體圖景。分析結(jié)果顯示,中國職業(yè)地位的變化呈現(xiàn)明顯的時代特征,改革開放之后才出現(xiàn)相對穩(wěn)定的變化趨勢。從不同維度資源的整合情況看,社會地位的四大維度不總是一致的,中國的職業(yè)結(jié)構(gòu)呈現(xiàn)結(jié)構(gòu)化和碎片化并存的特點。從宏觀的社會地位結(jié)構(gòu)變化看,中國的整體地位結(jié)構(gòu)逐漸從新中國成立前后的“多層分化的塔型結(jié)構(gòu)”轉(zhuǎn)變?yōu)樘厥鈺r期的“斷裂的平均主義結(jié)構(gòu)”,再發(fā)展成改革開放后的“相對連續(xù)的紡錘型結(jié)構(gòu)”,總體結(jié)構(gòu)向更合理的方向邁進。而這些發(fā)現(xiàn)都為以調(diào)查問卷為主的傳統(tǒng)職業(yè)地位測量方法提供了重要的補充。
基于文本大數(shù)據(jù)和機器學(xué)習(xí)的計算社會學(xué)路徑實際上為社會結(jié)構(gòu)的測量提供了雙重價值。第一,直接測量主觀社會結(jié)構(gòu)的價值。人類的文化認知、價值觀念、意識形態(tài)本就是社會結(jié)構(gòu)的一部分,但常常隱藏在非自覺的深層集體觀念下難以被有效測量。作為人類文化觀念的載體的文本大數(shù)據(jù)能直接反映人類的觀念結(jié)構(gòu)。第二,間接測量客觀社會結(jié)構(gòu)的價值。由于觀念結(jié)構(gòu)在很大程度上是對客觀社會現(xiàn)實的反映,并且會進一步形塑客觀社會結(jié)構(gòu),因此可以基于主觀社會結(jié)構(gòu)的折射來間接測量客觀社會結(jié)構(gòu)。這實際上能夠在缺乏真實數(shù)據(jù)的情況下為客觀社會結(jié)構(gòu)的測量提供很好的補充。而不管是對主觀還是客觀社會結(jié)構(gòu)的測量,都可以基于文本大數(shù)據(jù)的屬性,進一步在時間、空間和情境上拓展:借助文本時間標(biāo)簽,對大歷史跨度下的宏觀結(jié)構(gòu)變遷進行趨勢分析;借助文本空間屬性,對跨區(qū)域的社會結(jié)構(gòu)差異開展比較分析;基于文本的內(nèi)容屬性,對多維度、多情境的社會結(jié)構(gòu)進行立體深描。
但任何方法都有局限性,我們同樣需要辯證地反思計算方法測量的挑戰(zhàn)。首先,文本中反映的主觀社會結(jié)構(gòu)和客觀社會結(jié)構(gòu)之間存在一定張力。主觀社會結(jié)構(gòu)可以間接折射客觀社會結(jié)構(gòu),但并不能夠完全代表真實的社會結(jié)構(gòu)。文化觀念是現(xiàn)實的反映,但同樣受到文化傳統(tǒng)、政治力量、經(jīng)濟環(huán)境、媒體建構(gòu)等多方面的影響,從而導(dǎo)致主觀認知與客觀現(xiàn)實之間的偏差。從另一方面來說,研究和討論主觀結(jié)構(gòu)和客觀結(jié)構(gòu)之間的差異,本身也是社會學(xué)的關(guān)鍵議題。其次,文本大數(shù)據(jù)的類型、敘事方式和時代發(fā)表特征可能帶來潛在問題。文本數(shù)據(jù)是分析的基礎(chǔ),不同文本類型代表不同的話語場域和敘事主體,如政策文本、學(xué)術(shù)文本、小說文本、新聞文本代表著不同群體的視角和敘事方式。研究者也可以比較不同敘事主體和話語場域下的結(jié)構(gòu)差異。同時,文本數(shù)據(jù)可能存在早期語料稀缺和出版滯后問題,從而導(dǎo)致在時間回溯和新現(xiàn)象挖掘上的不足。最后,以詞語為分析單位的測量方法可能存在偏差。一方面,分析詞表的選擇需要準(zhǔn)確細致,但存在一定的主觀性;另一方面,不同時代、區(qū)域存在特殊用詞,且部分詞語一詞多義,含義也可能隨時間變化。因此,分析應(yīng)盡量選擇意義單一、詞義穩(wěn)定的詞表,同時使用多個大樣本詞語來保證分析的穩(wěn)健性。
本文并不主張使用文本大數(shù)據(jù)和社會計算的方法來代替?zhèn)鹘y(tǒng)社會調(diào)查的價值。作為一種間接的測量手段,該方法可能不如調(diào)查那樣直接和準(zhǔn)確,但卻能夠在缺乏問卷數(shù)據(jù)的情況下為社會結(jié)構(gòu)的測量提供很好的補充,特別是能夠在宏觀大時空尺度下對多維度社會結(jié)構(gòu)進行全局測量和比較分析(陳云松,2022b)。放眼看來,中國近百年間經(jīng)歷了一系列重大社會變革,社會結(jié)構(gòu)的變遷涉及各個領(lǐng)域,這在人類發(fā)展史上也是絕無僅有的寶貴案例。開展以中國為對象、以中國為方法、以中國之治為旨趣的研究,是建構(gòu)中國自主知識體系的重要議題(陳云松,2025)。但中國的量化社會調(diào)查起步較晚,許多歷史社會指標(biāo)時常無跡可尋。這份獨特的寶貴財富不能因此被埋沒,扎根于豐富文本大數(shù)據(jù)的社會結(jié)構(gòu)測量方法無疑為處于知識生產(chǎn)后發(fā)進程中的中國社會學(xué)建設(shè)提供了新的可能性。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.