陳茁
南京大學
社會學院
助理研究員
社會結構的文本大數據測量
——以中國社會職業地位變遷為例(1940—2015)
來源 | 《社會學研究》2025年第2期
作者 | 陳茁
責任編輯 |劉保中
基于問卷調查的社會結構定量測量存在時間跨度有限、測量維度單一、隱性指標不足等問題。為此本文闡述了一種基于文本大數據,運用自然語言處理算法來測量不同時期的話語結構,進而反映社會結構及其變遷規律的方法。以中國社會職業地位的歷史變遷(1940—2015)為例,本文基于書籍大數據,從財富、權力、文化、聲望四個維度刻畫了職業地位和職業地位結構的歷史變遷圖景。該方法對傳統問卷測量方法形成了重要的補充,為缺乏問卷資料的場景,特別是大歷史跨度下的主觀觀念結構和客觀社會結構變遷的測量提供了新的計算社會學工具。
一、導言
社會結構是社會學研究的關鍵概念和重點研究對象。廣義上說,社會結構的概念十分寬泛,指社會行動者在互動基礎上形成的相對穩定的社會關系協調體系(鄭杭生、趙文龍,2003)。既有研究除了對社會結構進行基于經驗的觀察、歸納和抽象分析外,也在探索以數量分析生成測量和描述社會結構變化的關鍵指標。通過數據分析社會結構能夠清晰地看到社會結構不同層面的變動時序和軌跡,是對“傳統—現代”簡單二分法的有益補缺(李培林,1992)。
如何測量社會結構?一方面,研究者可以直接依據宏觀社會經濟統計指標獲得社會結構某一方面的測量,如收入分配、城鎮化率、人口年齡分布等;另一方面,研究者可以在科學抽樣的前提下通過調查問卷刻畫社會總體的職業地位、生活方式、文化消費結構等。盡管這些嘗試豐富并繁榮了一代社會科學研究,但現有的社會結構測量方式總體上依然存在以下三大問題。
第一,時間跨度有限。特別是對于發展中國家來說,學界對社會結構的數據收集和分析測量往往起步較晚,如中國社會結構調查在20世紀90年代后才逐漸普及與成熟。這意味著,關鍵指標的生成實際僅限于回溯近30年的歷史變遷。
第二,測量維度單一。由于統計口徑和社會調查的時間、成本及操作限制,相關社會結構的測量往往聚焦于少數核心指標,或者含義高度聚合的綜合性指標,較少從多維度更細致地進行詳細的數據收集。
第三,隱性指標不足。社會結構的傳統問卷測量更多倚重顯性的客觀事實性指標,對隱性的文化觀念指標往往缺乏豐富的測量手段,而觀念本身也是社會結構的重要組成部分。
那么,有沒有一種新的測量方式,能讓社會結構的測量突破時間、維度和隱性測量的限制,相對準確地反映社會結構圖景和變化過程?本文認為,基于文本大數據和機器學習方法可以構成測量社會結構的計算社會學路徑,其基本思路是:運用圖書、新聞、史料、政策等文本語料,通過詞向量等自然語言處理方法,對不同時期的文本話語結構進行量化,進而生成測量社會結構的具體指標。
不難發現,該方法的邏輯前提是社會話語和社會現實之間、話語結構與社會結構之間的緊密關聯。一方面,話語反映社會結構,記載著社會現實、文化認知、集體心態和價值觀念;另一方面,話語建構社會秩序,它直接生產、調節和控制各種形式的實踐、社會關系和社會結構(辛斌,1996;黃國文、徐珺,2006)。同時,話語是歷史性的,不同時期的話語存在差異。這意味著,如果能對不同時期相對穩定的話語結構進行測量,就可以在認知層面直接測量主觀社會結構,同時在相當程度上間接折射真實的社會結構及其變遷過程。
由于社會結構含義寬泛,不少研究將職業地位結構看作社會結構的核心組成部分(劉欣、田豐,2018)。因此,本文將以職業地位結構為例進行具體的方法演示。本文第二部分將探討使用文本大數據和機器學習測量社會結構的方法論基礎;第三部分將提出基于語義分析方法測量職業地位的具體策略,并驗證方法有效性;第四部分將通過社會地位的描述總結中國近幾十年職業地位和職業地位結構的變遷趨勢;第五部分將對這一分析方法的優勢和局限進行反思。
二、方法論基礎:基本前提和分析框架
(一)話語結構與社會結構
使用文本大數據來測量社會結構的關鍵前提是:對特定語言的符號意義測量能夠產生對宏觀社會結構的正式描述。根據索緒爾(Ferdinand de Saussure)的觀點,語言并不是主觀意圖的直接產物,而是一種宏觀結構(de Saussure,2004)。符號、圖像、動作或事物的意義或多或少是固定在社會、空間、時間或歷史符號秩序中的(Keller,2011)。個人所表達的符號取自社會歷史生成的集體知識庫,語言的使用是與廣泛的社會文化過程聯系在一起的,社會創造了語言,因此參照這種慣例來描述語言單位,也是在考察真實的社會結構(Lemert,1979)。
而話語就是規范、結構化的符號使用實踐。它是特定歷史時期談論特定話題的表述方式,它組織并構造如何談論某一話題、對象和過程,它為社會和人的行為做出描述、規定、許可和限制(張錚等,2021)。福柯將話語視為社會歷史的實踐,將話語分析從特定的語言問題中解放出來(Keller,2011)。批評性話語分析學派進一步將話語是社會的構成要素、語言反映現實并影響社會過程、話語具有歷史性等作為話語分析的核心觀點(Fairclough,2013)。與內容分析將文本看作單純的信息流通過程不同,話語分析傾向于把文本置于歷史和社會語境中,揭示其背后的意義生產模式、意識形態和文化內涵(胡春陽,2007)。
因此,分析文本中的話語結構也就跟分析社會結構聯系在了一起。而從話語結構到社會結構的邏輯實際上可以細化為兩個步驟:其一,直接測量主觀社會結構。作為人類文化載體的文本大數據實際上蘊含了人類普遍的觀念結構,而對話語結構的測量也就能直接反映人們對社會結構的主觀認知。其二,間接反映客觀社會結構。主觀社會結構既是對客觀社會結構的反映,又對客觀社會結構存在導向和形塑作用,因此能在很大程度上折射出客觀的社會結構狀態。換言之,文化架起了通往整體社會結構的橋梁(陳云松,2022a),通過對文本大數據進行話語形態的變遷分析,能夠為主客觀社會結構及其變遷的多維度測量提供另一種可能性。
(二)詞語關系與話語結構
如何測量話語?目前主流的話語研究方法主要是對實際文本進行定性分析:基于少量話語,依賴研究者的主觀介入,采用自上而下的方法,在全文及語境下進行細致、深入的分析(Biber et al., 1998)。但傳統話語分析模式存在一定的局限,包括分析范圍小、主觀解釋存在偏見、微觀分析難以支持宏觀社會視角、研究結果不可重復等問題(Biber et al., 1998;辛志英,2020)。換言之,基于質性研究的話語分析方法固然有其優勢,但并不擅長利用文本大數據客觀地從宏觀層面把握整體社會結構及其變遷趨勢。
除了定性話語分析之外,近年來語料庫話語分析迅速發展(Kennedy,2014)。語料庫話語分析將詞匯作為研究的中心,通過基于詞匯的量化統計找到術語之間的統計相關性,常用的方法包括語義編碼、詞頻分析、詞語共現和搭配模式分析等。通過大批量、標準化的數據分析模式,語料庫話語分析能夠幫助揭示直覺難以察覺的模式和規律,減少研究者的主觀偏見(McEnery & Hardie,2012)。但限于時代和技術發展,這樣來測量話語結構依然存在局限:詞頻、詞語共現和搭配的統計只能揭示語言使用的表面模式,難以捕捉深層次的語義關系;通過人工語義標注的方法(如標注詞語意義、近反義詞關系、上下位詞關系)只能覆蓋有限的詞匯和短語,難以面向隨時間變化的詞語意義和話語結構。
計算社會科學的發展為量化分析話語提供了新的可能性。根據語言學的理論,一個詞的含義由它所處的上下文語境來決定;兩個詞的使用語境越相似,也就越傾向于表達相同的含義(Harris,1954)。因此,詞匯的意義和功能可以通過它們在語言中的分布模式來推算,如果兩個詞在類似的上下文中頻繁出現,它們很可能有相似的意義和功能。這一分布式語義假設成為目前自然語言處理的基礎理論之一,即機器學習可以通過分析大量文本數據學習每個詞在各種上下文中出現的模式,然后使用這些模式來表示詞的語義。分布式語義分析能夠基于海量數據并根據詞語之間的分布關系來“自下而上”地自動學習詞匯的含義,處理隨著時間變化而新出現的詞匯和話語結構,反映語言的變化。
(三)測量社會結構的方法框架
在以上兩個前提的基礎上,測量社會結構的基本思路是:基于文本大數據,通過詞語之間的關系和詞表設定發現關于特定對象或話題的普遍表述模式,進而通過對話語結構的測量反映社會結構。這具體可以細分為以下五大步驟。
一是收集文本大數據。文本大數據是反映社會結構的一手資料,大數據的選擇關系到測量何種形式的話語以及社會結構。需要注意不同類型的文本反映了不同對象或者場域的話語結構,比如政府文件反映官方話語,新聞報道反映媒體話語,書籍小說反映大眾話語,消費廣告反映商業話語等。研究者可以收集不同類型的大數據進行互相驗證,也可以比較不同敘事主體的話語差異。另外,收集不同時期的大數據能夠分析社會結構的歷時性變遷;收集不同地域的資料如地方志、跨國書籍等,能夠對不同區域的社會結構進行橫向比較。
二是訓練自然語言模型。借助機器學習算法,研究者可以依據文本中詞和詞之間的關系,自下而上地將詞語轉化為能夠表征詞匯意義的向量和指標。這些向量和指標反映了語料中最普遍的用語模式,即話語結構。研究者可以根據分析目標選擇不同的模型:如果側重于進行多語料類型、跨時期、多空間的比較分析,則推薦直接基于不同屬性的子語料分別訓練模型;如果分析側重于描述人類最普遍的話語結構,則推薦使用生成式大語言模型等已經基于超大規模語料預訓練好的模型,以提供“整體事實”的視角來反映人類的普遍觀念(梁玉成,2024)。
三是制定社會結構的測量策略。社會結構表現為方方面面,研究者需要針對具體的研究議題制定具體的指標測量策略。首先,研究者應該明確分析的對象,如職業、性別、國家、組織、亞群體、概念等,構建分析對象詞表。其次研究者應該明確分析的維度,構建分析維度詞表,也即需要對研究對象的哪些方面進行測量。最后,研究者需要確定社會結構指標的計算方式。指標的操作化過程比較靈活,一般來說,可以先計算分析對象詞匯與不同分析維度詞匯之間的空間距離,將分析對象投射在對應的分析維度上,再根據需要進行更靈活和細致的計算分析。
研究者如何構建分析對象和分析維度的詞表?一方面可以查閱詞典,或使用既有研究編撰的特定領域詞表。另一方面也可以采用數據驅動的方法,根據訓練好的詞向量尋找同義詞,或者通過人工排查所有詞表的方式來完成。需要注意的是,如果要對基于不同語料訓練的多個模型開展比較性分析,應盡量先在同一個模型內部生成指標的標準化值,再進行跨模型比較。
四是驗證分析有效性。為保證對社會結構指標測量的效度,研究者需要驗證分析的有效性。在理想情況下,如果有社會調查數據,可以直接對調查數據和基于文本大數據測量的社會結構指標進行比照;但使用文本方法測量社會結構的情況大多是因為社會調查數據缺失,這時可以采用局部驗證整體的思路,對能夠與問卷數據相匹配的部分年份、部分維度指標進行比照,進而推定整體模型。當完全缺乏社會調查數據時,可以選擇多來源的文本大數據,進行多重交叉驗證。
五是描述社會結構。研究者使用驗證過的分析策略生成社會結構的具體操作化指標,對社會結構進行描述,呈現研究對象在不同維度下的現狀、在不同時期的變遷趨勢以及在不同區域下的結構性差異。同時,研究者可以將該指標與其他社會宏觀指標進行鏈接,以便進一步探討社會結構的影響機制。使用文本大數據測量社會結構的方法框架見圖1。
事實上,已有一批研究運用類似方法對多個議題進行了測量。例如,科茲洛夫斯基(Austin C. Kozlowski)等人提出文化幾何學,量化了階級與財富、就業、教育、修養等維度的關系和歷史變化趨勢,以此來理解階級在不同歷史階段的含義(Kozlowski et al., 2019);加格(Nikhil Garg)等運用類似的方法對100年來英語文化中的性別和種族觀念進行了量化(Garg et al., 2018)。在此基礎上,本文聚焦于這些研究通用的方法論價值,探討使用文本大數據和語義分析測量社會結構的可能性、優勢和局限。
三、職業地位的文本大數據測量:中國案例
社會結構含義寬泛,可以細化為地位結構、人口結構、家庭結構、組織結構、城鄉結構、消費結構等(陸學藝,2010;李培林,2011;劉欣、田豐,2018)。由于職業地位常常被社會學家用來測量社會結構分化的程度和形態分布,同時20世紀80年代涌現了一大批關于中國職業地位的調查研究,這為驗證方法有效性提供了參照標準,因此本文將以“職業地位”為例詳細演示如何使用上述方法框架對大歷史跨度下的職業地位及其結構變遷進行測量。
(一)職業地位的傳統測量方法
職業聲望是人們對各種職業做出的主觀評價,是最早和最廣泛使用的測量職業地位的指標之一。測量職業聲望一般采用主觀評價法,即借助社會調查獲取訪問者對一些職業的評分,對職業進行打分、分級或者排序(高順文,2005)。在中國,關于職業地位測量的研究絕大多數采用主觀評價法(Lin & Xie,1988;李強,2000;許欣欣,2000,2005;李強、劉海洋,2009)。主觀評價法的測量方式簡單直接,且能夠捕獲更廣泛的社會文化因素和價值觀念。但由于數據收集方式的限制,這種方法只能測量少部分職業,因而也難以描述和分析整個職業地位的分層體系(李春玲,2005a)。不止于此,職業聲望也并不總是與收入、教育等職業屬性相關(Hauser & Warren,1997)。
另一種常用的測量方法是以社會經濟地位指數為代表的客觀測量方法,其基本思路是依據教育、收入等客觀指標,通過擬合模型和權重分配等方法,建立職業地位分數的方程模型。典型的研究是鄧肯(Otis Dudley Duncan)基于職業收入和教育程度來計算社會經濟地位指數(Duncan,1961);在中國,邊燕杰、李春玲等學者也基于收入、教育等因素構建了職業地位評價得分(Bian,1996;李春玲,2005a)。相比于主觀測量法,客觀測量法能依賴少量職業對大量甚至全部職業的地位指數進行計算和推測,且同時考慮職業相關的多個維度;但其缺點在于十分依賴權重和測量維度的科學設定,同時容易忽略文化價值觀念等難以量化的非經濟因素。
不論是主觀還是客觀測量,測量職業地位事實上都繞不開一個關鍵問題,即職業地位包含哪些維度。社會學先驅韋伯最先提出社會地位三分法:由財產占有不同產生的經濟地位差別,由權力占有而產生的政治地位差別,以及由社會評價和榮譽占有不同而產生的社會地位差別(韋伯,2010)。布迪厄的文化資本理論認為經濟資本、文化資本和社會資本共同決定了一個人的社會地位,并將文化資本進一步納入社會地位的分析維度(Bourdieu,2018)。同時,賴特(2006)特別強調了專業技術與勞動過程的關系,認為專業技能不僅影響個體的職業地位,也決定了勞動者在生產體系中的階級屬性。這些研究表明,職業地位的測量并非僅僅包含一個單一指標,而是包含著內涵豐富的子維度。
表1列舉了11項測量職業地位的代表性研究。如該表所示,中國最早的關于職業地位的測量可以追溯到1983年,20世紀90年代和21世紀初的相關調查與研究非常豐富。總體看來,盡管職業地位的相關研究已經較為成熟,但仍然存在需要補足的空間。第一,從時空范圍上看,多數研究都是基于特定年份和一定地域的靜態研究,缺乏超大時間跨度和空間尺度的整體宏觀測量和變遷研究。第二,從測量的維度看,這些研究在測量分析時多采用一個綜合指標,對各個職業地位維度分項進行獨立分析的研究幾乎沒有。然而,職業地位的各個維度是相互關聯但不完全重合的,更好的選擇是獨立地分析每一個維度(Hauser & Warren,1997)。第三,從測量的隱性指標看,客觀法直接剝離了職業地位的主觀評價維度,主觀法可能由于測量指標相對抽象,并不總是與收入、教育程度等客觀屬性相關。
(二)職業地位的文化測量:數據、方法和效度
1.數據來源
書籍作為人類文化觀念表達和傳承的主要方式,反映著社會的文化認知、集體心態和價值觀念,為職業地位的測量提供了另一種可能性。已有相關學者基于書籍這一重要文化載體量化地測量和分析社會普遍的文化認知、集體心態和價值觀念(陳云松,2015)。
本文使用目前全球最大的數字化工程項目即谷歌圖書的中文圖書語料庫,來測量職業地位。截至2012年的官方統計數據,谷歌圖書數據庫已經囊括人類全部印刷總量的6%,其中涉及中文圖書30萬部,中文詞匯268億余個(Lin et al., 2012),并且依然在不斷補充和更新。為了規避可能的倫理問題,該數據庫開發了N-gram工具,對文本數據進行直接切分、斷句,實現以詞語或詞組為單位的統計分析。我們借鑒科茲洛夫斯基等人的研究思路(Kozlowski et al., 2019),選取所有5-gram的中文詞組作為分析原語料。5-gram是指由5個詞語組成的序列,可以被理解為一個詞組。根據N-gram的篩選規則,5個詞語在一起使用超過40次才會被作為5-gram統計。
而以谷歌圖書的中文5-gram語料為基礎來測量職業地位主要是基于以下三個原因。第一,作為最大的數字化圖書數據庫,它不僅體量大,而且還包含了多種類型的文檔,如小說、政府文件、科學文本、調查報告等,能盡可能地反映一定時期內人們對職業的普遍觀念和文化共識。第二,超長時間的書籍可追溯性保證了大歷史跨度測量的可能性。第三,書籍生動具體的文本語境信息提供了靈活多樣的分析維度。一方面,我們可以對所有在書籍中出現過的職業進行測量,而不必拘泥于調查問卷中涉及的少量主要職業;另一方面,我們可以靈活地選擇分析維度,構建涉及財富、權力、文化、聲望等多方面的立體化測量指標。
2.模型訓練
近年來,詞嵌入方法已被廣泛用于測量語義信息(龔為綱等,2019;劉河慶、梁玉成,2021),本文采用該方法來衡量職業的文化意義。嵌入空間中詞語之間的距離通常用詞語向量間夾角的余弦值來評估,代表兩個詞語語義聯系的緊密程度。如果一些詞語有類似的上下文,或者經常出現在一起,它們的向量表示在高維空間中將會靠得很近;反之,如果一些詞匯并不常共同出現,且并不享有同樣的上下文,它們的向量距離則會較遠。例如,如果“科學家”和“發明”兩個詞的余弦相似度很高,則代表著兩個詞常常出現在同一語境中。
值得一提的是,在模型的訓練過程中,目標詞及其上下文的配對依賴動態滑動窗口的大小。從理論上來說,更大的滑動窗口會涵蓋更多的上下文信息,從而有更高的準確度。但由于數據的限制,本文使用的數據為書籍中5個詞語組成的詞組(5-gram),這意味著模型訓練窗口最大只能設定為4。而既有研究和文獻已從多角度證明了使用5-gram捕捉語義關系的有效性(Garg et al., 2018;Kozlowski et al., 2019)。事實上,Skip-gram模型訓練過程中默認的滑動窗口也僅為5,且距離更遠的詞匯在訓練時也會被賦予更低的權重。不止如此,一些研究者也比較了滑動窗口設置為2、5和10三種情況下的模型效果,在數據量夠大的情況下,三種效果并不存在顯著的效度差異(Levy et al., 2015)。
為了追蹤隨著時間推移的語義變化,本文以10年為時間范圍,5年為滑動間隔,將1940年到2015年共計75年的書籍大數據劃分為14個子語料庫,并在此基礎上分別訓練了14個Word2Vec模型。這些模型分別代表了1940—1950、1945—1955、1950—1960等以此類推的階段性話語結構。遵照相關標準(Mikolov et al., 2013),本文將詞向量維度設置為300,最大窗口設置為4,訓練時刪去了出現次數小于50的詞。表2顯示了14個詞向量模型的基本情況。
3.職業地位的測量策略
依據詞嵌入和職業地位不同維度的單詞列表,我們可以測量一組職業的地位得分。具體來說,參照韋伯的社會地位三分法和布迪厄的資本理論(韋伯,2010;Bourdieu,2018),本文將職業地位的測量細分為四個維度:財富、權力、文化和聲望,代表四個場域資源在不同職業中的分配情況。我們參照加格等人測量性別刻板印象偏差的方法(Garg et al.,2018)構建職業地位的測量策略。
首先,對于每一個維度分別構建兩組詞,一組用來形容職業高資源集聚的狀態,如“富有”“博學”等;另一組用來形容職業低資源集聚的狀態,如“貧窮”“文盲”等,以此作為該維度的兩極。其次,以職業為中心詞,分別計算職業與高資源組詞和低資源組詞的距離,用以衡量該職業在多大程度上傾向于出現在高資源語境或者低資源語境中。最后,使用該職業與高職業組詞的平均距離減去該職業與低職業組詞的平均距離,以此作為該維度的具體得分。如果該得分為正值,意味著該職業更常出現在高資源語境中,人們對這一職業的認知和評價更高;反之則評價較低。四個維度得分的均值計為總體職業地位得分。
接下來,本文以財富維度為例更具體地說明計算過程。考慮現有的“富有”和“貧困”這兩個詞,計算“科學家”和“富有”兩個詞向量的余弦距離記為D1,計算“科學家”和“貧困”兩個向量的余弦距離記為D2,而D1和D2則分別代表“科學家”與“富有”或“貧困”共同出現的概率高低。由于單個詞語的計算難免會帶來偏差,我們進一步考慮兩組詞:一組是形容財產較多的詞,如“富裕”“富有”“寬裕”等;另一組是形容財產較少的詞,如“貧窮”“拮據”等。而后,我們分別計算每組的每一個詞與“科學家”的距離,并計算兩組詞與“科學家”的距離均值M1和M2。最后,M1-M2的值即為科學家在財富維度上的地位得分。
如果用公式表示,每一維度的職業地位得分即為:
其中,Sh代表職業與高地位詞語的平均距離,Sl代表職業與低地位詞語的平均距離,WO代表職業詞匯,Whi代表高地位詞匯,Wli代表低地位詞匯,Op代表該維度下某個職業的地位得分。
接下來,本文采用人工設定和數據驅動相結合的方法確定詞表。
(1)職業詞語的選擇
對于職業詞匯,最直接的辦法是參考《中華人民共和國職業分類大典》等官方文件,然而,將這些職業詞匯運用在本研究中存在兩個問題:其一,官方職業分類所用名稱十分規范,如“人民法院負責人”等,但書籍使用的詞匯偏向于更通俗的稱呼;其二,職業會隨時間改變,我們難以使用當今的職業分類大典去衡量跨越長時間段的職業情況。因此,本文通過人工判斷的方法,以所有模型中包含的詞語為依據,從四萬余個不重復的詞語中挑選出與職業有關的詞匯作為職業選詞,共計382個。
(2)維度詞語的選擇
對于財富、權力、文化和聲望四維度詞語的選擇按照如下步驟:首先,查閱現代漢語詞典,盡可能多地囊括能體現各維度下評價高低的詞匯,建立初步詞庫。但由于一些詞語可能存在一詞多義、特殊用法、詞義發生較大變動、出現頻率低等情況,將其納入會進一步帶來測量噪音,因此還需要對這些詞語做進一步篩選。具體的做法是,以社會調查計算的真實職業地位作為參照標準,如果依據某個詞匯測量的結果與真實數據完全不相干甚至反相關,則將其作為噪聲剔除。經過人工篩選和數據驅動后,每個維度的測量詞表如表3所示。同時我們還構建了一個每維度只包含10個詞語的子詞表進行穩健性檢驗,其設計原理在于,同一維度下往往存在很多詞語且難以窮盡,如果只使用部分詞能夠得出類似的效果,則意味著盡管詞語未完全羅列,依然能夠得到準確的操作化結果。
4.職業地位的測量效度
本研究所用的測量策略能在多大程度上反映真實社會的職業地位?本文將從書籍中測量的職業地位和基于社會調查的真實職業地位進行了比較。我們以從1982年到2009年、跨度為27年的6篇職業地位的實證調查為基準(Lin & Xie,1988;陳嬰嬰,1995;許欣欣,2000,2005;李春玲,2005a;李強、劉海洋,2009),根據每項調查實施的年份,測試了1980年至2015年期間的六個模型。
圖2以2001年李春玲測量的職業地位分數為基準,詳細反映了調查數據和書籍數據測量的相關性情況。我們使用書籍測量結果對真實結果擬合了一條直線,大部分職業集聚在擬合線的兩側,書籍測量的職業地位與真實數據測量的職業地位顯著正相關(
P=0.000;
R
2=0.509)。同時,兩者的皮爾遜相關系數為0.712。這意味著,基于圖書的測量能夠在很大程度上反映真實社會情況。
圖3反映了客觀調查與大數據測量的相對應時間段職業地位間的皮爾遜相關系數,包括全部選詞和部分選詞的穩健性分析結果。事實上,基于大數據的測量策略所得的結果與所有調查分析結果的關系都十分顯著,相關系數均在0.5以上,意味著該方法有較大的效度。但基于書籍的測量又確實與客觀調查數據存在一定偏差:前者測量的實際上是人們對于職業地位的主觀認知結構,而通過觀念來折射客觀社會結構仍可能與真實社會存在差異。
四、歷史變遷中的職業地位和職業地位結構
(一)職業地位的歷史變遷
1.宏觀層面:量化職業地位的時代差異
從宏觀層面看,近幾十年來職業地位是否存在明顯的時代變化?圖4展示了基于各時期子語料計算的職業地位得分兩兩間的皮爾遜相關系數,系數越高顏色越深,代表這兩個時期的整體職業地位得分越相似,職業地位變化越小。舉例來說,對角線上為兩個相同時期的職業地位,故相似度最高為1;1945年的職業地位與1950年的職業地位相似度最高,相關系數達到0.77。
總的來看,中國的職業地位變化并不總是穩定的,在1980年前后存在非常明顯的分界線。1980年之前,職業地位總體不穩定,僅僅相鄰年份的相似度比較高,職業地位處在不斷變化之中。特別是1945—1950年前后的新中國成立時期、1970年前后的“文化大革命”時期,社會地位變化極大。但同時,在1955—1960的社會主義革命時期臨近年相關系數達到0.88,預示著一個短暫的相對穩定期。到1980年后,整體職業地位變化趨于穩定,該時期職業地位相似度明顯呈現一個顏色相近的“矩陣塊”,職業地位相似度基本高于0.8。
圖5展示了四維度職業地位在不同時期兩兩間的相關系數。可以發現,在四維度地位中,權力地位維度的時代變化最為穩定,財富地位最不穩定。其中,財產地位的劇烈變動集中于20世紀60—70年代;文化和聲望地位的劇烈變動集中于20世紀70年代。20世紀80年代之后,四維度地位也均趨于穩定,形成明顯的顏色更為接近的深色矩陣塊;但相比財富和文化維度而言,職業地位在聲望和權力維度的變化更為穩定。
上述職業地位的時代變遷說明了什么?回看以往職業地位的研究,一種流行的觀點是:生活在不同時代、不同社會、同一社會不同的群體成員對職業地位的評價可能非常相似。特雷曼(Donald J. Treiman)對60個國家85項職業聲望的研究結果表明,聲望在時空上基本是不變的(Treiman,1977),這種穩定性被稱作特雷曼常數。本文的實證結果發現,從宏觀大歷史尺度看,特雷曼常數并不完全適用于經歷了反帝反封建、社會主義改造和改革開放等重大變革的近現代中國社會,這挑戰了特雷曼關于職業聲望在時空上具有普遍穩定性的觀點。同時,本文拓展了測量變遷的時間和維度邊界,量化了職業地位在不同時代的變遷程度以及重要時間轉折點,同時明確了財富、權力、文化和聲望變遷的不同穩定程度。
2.微觀層面:多職業、多維度的變遷軌跡
中國的職業地位在特定時期具體是如何變動的?本部分將基于部分典型職業的微觀分析進一步展示變動的具體方式。為便于不同時期模型的比較,我們將同一時期的所有職業地位得分縮放標準化為0~100的得分。圖6詳細展示了部分典型職業地位在四大維度上的時間變化趨勢,其中,縱坐標代表職業地位標準化得分,橫坐標代表年份。微觀職業地位變遷特點主要有如下表現。
20世紀50—60年代,職業地位明顯提高的職業包括工程師、公務員、教師、軍人、工人等。伴隨著新中國工業化建設以及城鄉二元結構的出現,體制內外的社會分割強化,城市居民、體制內人員的職業地位提升,農民地位在20世紀50年代略有下降。
20世紀70年代是職業地位變動最劇烈的時期之一,劇烈變動典型表現為科學家、工程師、公務員、畫家、作家、教師等職業地位下降,飛行員、運動員、警察、服務員、廚師等職業地位上升。其中,知識、文化類職業地位由于“文化大革命”而受到打擊;20世紀70年代飛行員和運動員職業地位的變化與我國航天事業、國家外交和綜合國力聯系緊密。
20世紀80—90年代,改革開放后的職業地位變化表現為:首先,專業技術類職業的地位重新上升,科學家、工程師、教師、記者、醫生、畫家、作家等職業地位重新提高。其次,飛行員、運動員職業地位相對下降,可能與這兩個職業的政治、外交屬性相對剝離相關。服務員、司機、保姆等傳統服務業職業和農民的職業地位也有不同程度地下降。
21世紀初,職業地位變化總體保持穩定,其中公務員職業地位隨著市場化改革的深化而小幅度下降,官本位呈現淡化趨勢;醫生、導演、作家等專業技術和文化藝術類職業地位小幅度上升;司機、服務員等傳統服務類職業的地位繼續下降。
上述職業地位在不同時期呈現變化的內在動力是什么?本文嘗試對上述描述性結果進行推測性解釋,將成因歸納為三大軸線。一是政治力量主導的軸線。從新中國成立、三大改造、“文化大革命”到改革開放,政治力量幾乎是20世紀80年代前職業地位變化的最主導因素。高知型和文體類職業是這一時期受到影響最大的職業類型,同時工程建設、航空航天、體育事業等相關職業也在很大程度上因與國家綜合實力和外交聲譽聯系緊密而被賦予高社會地位。二是產業結構發展的軸線。產業發展剛起步時相關職業往往被賦予較高的職業地位,如20世紀60年代工業發展初期的工程師、廠長和工人,20世紀70年代服務業發展初期的司機、廚師和服務員。改革開放之后,市場要素配置帶來的最直接影響是專業技術職業地位的提升,第一、第二產業和傳統服務業的職業地位下降或趨于穩定,文娛類(如導演、作家)職業地位提升。三是傳統文化觀念的軸線。在尊師重教和官本位文化傳統的影響下,知識型和公職類職業地位一直較高,且知識型職業具有極高的職業聲望。
通過分析職業內部四維度職業地位的分化與重疊,同樣可以發現有趣的現象。從實證分析結果看,職業的財富、權力、文化、聲望地位并不總是一致的。例如,科學家、教師等知識型職業的典型特點是聲望和文化地位高,而權力和財富地位相對較低。尊師重教的中華文化傳統讓人們對這些職業充滿敬重和贊譽,同時這些職業也被賦予無私奉獻的理想化形象。又如,文化類職業(導演、畫家、作家、記者等)表現為高聲望、高文化、高財富、低權力的分化。服務類職業(司機、服務員、保姆等)雖然財富、權力、文化地位較低,但聲望地位相對較高。
四維度地位的一致性分析可以為測量社會結構提供一個具體、連續的量化視角。關于中國的社會結構特征,學界一直以來存在“碎片化”和“結構化”的爭論(李春玲,2005b)。持“碎片化”觀點的學者認為當前的社會是一個多元分化的社會,利益群體在不同分化坐標上是相互交叉的,不存在絕對的分界線(李強,2008)。持“結構化”觀點的學者認為多維度的地位分化趨于一致,特別是經濟地位的差異擴散到其他領域,各維度資源的疊加形成整體性社會聚合體(李路路,2003)。實際上,碎片化和結構化都是描述社會結構分化的理想類型,本文的分析結果顯示,社會分化表現出碎片化和結構化并存的局面:職員、工人、農民、軍人等職業表現出更高的地位一致性;而其他職業特別是專業技術類職業多存在一定程度的維度分化。
(二)職業地位結構的歷史變遷
在刻畫完職業地位變遷的基礎上,本部分將進一步結合職業地位得分和職業頻率,刻畫社會整體職業地位結構的變遷情況。圖7(A)反映了1940—2015年14個子語料庫下的職業地位結構,每一時期的地位結構圖包含左右兩個部分,左邊為地位分布曲線,高度為職業地位的得分,寬度為某一職業在書籍中出現的頻率;右邊為地位分布箱線圖,反映了所有職業地位的四分位分布。圖7(B)進一步呈現了反映地位結構的具體指標,一是反映職業地位的最大分化程度的極差,即該時期最高和最低職業地位的差值;二是反映職業多樣性和均衡程度的職業熵,由信息熵公式計算得出,如果該時期文本大數據中出現的職業種類越多樣,不同職業間分布的數量越均衡,則職業熵越大。
各時期職業地位箱線圖的中位數值(箱子中的黑色線)反映了職業人群的中間值所處的地位水平。總的來看,近幾十年我國的職業地位結構經歷了整體的結構性上移。進一步,不同時代職業地位結構也呈現不同的分布特點。
20世紀50—60年代初的職業地位結構表現為多層分化的塔型結構。戰后經濟恢復時期的職業地位極差存在短暫的小幅度上漲,但職業的多樣性和均衡程度則不斷下降。在過渡時期,由于一系列社會改組措施,職業地位結構呈現不連續多峰分布,意味著職業階層分化明顯;同時地位結構的中下部分更寬,呈現整體的塔型分布。
20世紀60—70年代的職業地位結構表現為斷裂的平均主義結構。該時期職業地位結構僅存在兩到三個明顯的波峰,且波峰間存在巨大的鴻溝,職業地位結構斷裂明顯;而職業地位極差和職業熵在這一段均達到最低峰值。伴隨著人民公社化運動、“文化大革命”等社會運動的開展,對階級和身份制度差異的強調與身份群體內部的地位均等化并存。
20世紀80年代后的職業地位結構表現為相對連續的紡錘型結構。改革開放初期,社會結構迅速變化,不同職業間的區隔程度漸趨減小,地位極差和職業熵不斷增大,意味著社會分化迅猛加劇,不平等程度拉大,職業也變得多樣。21世紀以來,社會結構保持紡錘型并向更健康的形態發展。一方面,四分位距更為集中,社會結構的中間部分愈發聚集;另一方面,職業地位極差逐漸縮小,特別是極低值不斷提高,尾部分布不斷稀疏,職業熵也顯示職業分布變得更多樣和均衡。
社會結構分層形態一直是社會分層研究的經典議題,學者對不同時期的社會分層形態做過各種概括和解讀。例如,孫立平提出“斷裂化”觀點,認為社會分化成相互隔絕、差異鮮明的兩部分(孫立平,2003);陸學藝等人提出“中產化”觀點,認為社會中間層日益壯大,底層和頂層逐漸縮小(陸學藝,2002)。本文的結果顯示,在改革開放初期,社會分化加大且存在明顯的分層,這在21世紀初期變得尤為明顯。但伴隨著改革開放的深化、社會保障的完善和更合理的收入分配,社會分化得到有效控制,中間群體越來越龐大。
五、結語
社會學對社會結構的量化測量長期以來多倚靠宏觀社會經濟指標或微觀社會調查。但由于時間、成本和測量方式的限制,指標的測量依然存在時間跨度有限、測量維度單一、隱性指標不足等問題。而大數據和機器學習為測量社會結構提供了一條新的計算社會學路徑:基于圖書、史料、政策文件等文本大數據,使用詞嵌入等自然語言算法對不同歷史時期相對穩定的話語形態進行量化測量,進而反映深層次的社會結構、集體認知和社會觀念。基于“話語結構反映社會結構”和“詞語關系反映話語結構”的前提,本文對使用文本大數據測量社會結構的方法合理性進行了論述,并提出了通用的測量方法框架。
本文以“職業地位”為例,展示了1940—2015年中國社會結構變遷的具體圖景。分析結果顯示,中國職業地位的變化呈現明顯的時代特征,改革開放之后才出現相對穩定的變化趨勢。從不同維度資源的整合情況看,社會地位的四大維度不總是一致的,中國的職業結構呈現結構化和碎片化并存的特點。從宏觀的社會地位結構變化看,中國的整體地位結構逐漸從新中國成立前后的“多層分化的塔型結構”轉變為特殊時期的“斷裂的平均主義結構”,再發展成改革開放后的“相對連續的紡錘型結構”,總體結構向更合理的方向邁進。而這些發現都為以調查問卷為主的傳統職業地位測量方法提供了重要的補充。
基于文本大數據和機器學習的計算社會學路徑實際上為社會結構的測量提供了雙重價值。第一,直接測量主觀社會結構的價值。人類的文化認知、價值觀念、意識形態本就是社會結構的一部分,但常常隱藏在非自覺的深層集體觀念下難以被有效測量。作為人類文化觀念的載體的文本大數據能直接反映人類的觀念結構。第二,間接測量客觀社會結構的價值。由于觀念結構在很大程度上是對客觀社會現實的反映,并且會進一步形塑客觀社會結構,因此可以基于主觀社會結構的折射來間接測量客觀社會結構。這實際上能夠在缺乏真實數據的情況下為客觀社會結構的測量提供很好的補充。而不管是對主觀還是客觀社會結構的測量,都可以基于文本大數據的屬性,進一步在時間、空間和情境上拓展:借助文本時間標簽,對大歷史跨度下的宏觀結構變遷進行趨勢分析;借助文本空間屬性,對跨區域的社會結構差異開展比較分析;基于文本的內容屬性,對多維度、多情境的社會結構進行立體深描。
但任何方法都有局限性,我們同樣需要辯證地反思計算方法測量的挑戰。首先,文本中反映的主觀社會結構和客觀社會結構之間存在一定張力。主觀社會結構可以間接折射客觀社會結構,但并不能夠完全代表真實的社會結構。文化觀念是現實的反映,但同樣受到文化傳統、政治力量、經濟環境、媒體建構等多方面的影響,從而導致主觀認知與客觀現實之間的偏差。從另一方面來說,研究和討論主觀結構和客觀結構之間的差異,本身也是社會學的關鍵議題。其次,文本大數據的類型、敘事方式和時代發表特征可能帶來潛在問題。文本數據是分析的基礎,不同文本類型代表不同的話語場域和敘事主體,如政策文本、學術文本、小說文本、新聞文本代表著不同群體的視角和敘事方式。研究者也可以比較不同敘事主體和話語場域下的結構差異。同時,文本數據可能存在早期語料稀缺和出版滯后問題,從而導致在時間回溯和新現象挖掘上的不足。最后,以詞語為分析單位的測量方法可能存在偏差。一方面,分析詞表的選擇需要準確細致,但存在一定的主觀性;另一方面,不同時代、區域存在特殊用詞,且部分詞語一詞多義,含義也可能隨時間變化。因此,分析應盡量選擇意義單一、詞義穩定的詞表,同時使用多個大樣本詞語來保證分析的穩健性。
本文并不主張使用文本大數據和社會計算的方法來代替傳統社會調查的價值。作為一種間接的測量手段,該方法可能不如調查那樣直接和準確,但卻能夠在缺乏問卷數據的情況下為社會結構的測量提供很好的補充,特別是能夠在宏觀大時空尺度下對多維度社會結構進行全局測量和比較分析(陳云松,2022b)。放眼看來,中國近百年間經歷了一系列重大社會變革,社會結構的變遷涉及各個領域,這在人類發展史上也是絕無僅有的寶貴案例。開展以中國為對象、以中國為方法、以中國之治為旨趣的研究,是建構中國自主知識體系的重要議題(陳云松,2025)。但中國的量化社會調查起步較晚,許多歷史社會指標時常無跡可尋。這份獨特的寶貴財富不能因此被埋沒,扎根于豐富文本大數據的社會結構測量方法無疑為處于知識生產后發進程中的中國社會學建設提供了新的可能性。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.