陳茁
詞海浮沉,結構之間
作者 |陳茁
作者單位 |南京大學社會學院
原文 |
論文《社會結構的文本大數據測量——以中國社會職業地位變遷為例(1940—2015)》有幸發表于《社會學研究》2025年第2期。衷心感謝導師、匿名評審專家、編輯部和眾多師友的幫助和啟發。正文如果是穿“正裝”,手記則可以擺“素顏”。感謝編輯部提供撰寫手記的機會,允許我說點題外話,交代那些學術語言里不曾展現的思考,猶疑、執念、失敗。
我開始入門社會計算研究方法是從文本分析開始的。詞向量、情感分析、主題挖掘。初入計算法門的我拿著這文本分析的三板斧做了很多嘗試:影視電影梗概、馬克思恩格斯全集、耽美小說、以及微博知乎等關于各種話題的討論。由于三板斧太通用了,通用到什么語料都可以用它們來比劃比劃,時間長了難免產生一些單調重復的感覺,隱約總感覺少了些研究問題上的“切問”。舉例來說,詞向量的常規用法,是以一個詞為中心,尋找與其語義最接近的鄰居,比如詢問與“科學家”最相近的詞,可能會得到“物理學家”或“專家”。這種方法往往用于通過數據驅動啟發性地測量詞語的具體含義,但常常產生大量無意義的相似詞,難以更深入地解釋具體的學術問題。
對詞向量分析方法認識的轉折來源于我的同門馬文跟我分享的一篇研究,Kozlowski等人在ASR上發表的文化幾何學(The geometry of culture)。由于我們一起合作完成了一些文本分析的前期成果,當見到Kozlowski等人將各種運動類型投射到Poor-Rich的半球狀的語義之軸時,都深感驚艷并印象深刻。組會上,導師陳云松教授一針見血的指出用文本大數據測量社會結構的巨大潛力,帶著我們興奮的討論了很多個可行的方向,從職業、階層、性別到區域文化差異,每一個都是有趣的文化測量切口,引燃了我們腦中無數尚未成形的設想。
讓我心生憧憬興致勃勃的開展這項研究的動力,還有方法和數據兩個方面對我的觸動。首先是詞向量的應用方法。不是去問誰和“科學家”最接近,而是去問,科學家更靠近“富有”還是“貧窮”?更靠近“權勢”還是更靠近“屈從”?這依然是基于詞向量的距離計算,但詞與詞之間的距離被嵌入在研究者所關心的財富或權力高低的社會語義坐標中,被賦予了方向性和價值判斷。把特定的分析對象投射在特定的維度坐標軸中,是一種理論先行的思路,研究者也不再是語義空間的旁觀者,而是圍繞研究問題制定游戲規則的建構者。這種思維方式的巧妙轉變恰恰是我文本分析的長期困惑下想要獲得的抓手,我仿佛可以用對象+維度的坐標參照系,去回應我長期想追尋的研究問題上的“切問”。
其二是研究數據。好的文本語料庫也是我長期以來頗為頭疼的難題。自媒體文本最好收集,但內容瑣碎且時間回溯不足;新聞報刊獲取容易且時間可追溯性較長,但反映官方或媒體話語,并不一定代表普遍觀念;書籍數據時間長且代表普遍觀念,但大規模長時段的數字化書籍非常難以收集。谷歌圖書的N-gram數據曾被我視作“只能用來做詞頻統計”的資源,但斯坦福大學的“HistWords歷史文本詞嵌入項目”又刷新了我的認知:僅僅利用5-gram的詞組數據,也足夠搭建起詞語之間龐大的語義關系網絡,捕捉詞語之間的語義聯系。這意味著利用谷歌圖書中文圖書5-gram這套略顯碎片但具有超大體量和時間跨度的詞組數據,也許能拼出中國百年來文化觀念的長河。
我心中升起一種朦朧卻強烈的愿望,想好好完成這個龐大的研究工程。這種感覺最神奇之處在于,曾經熟悉的數據和方法,仿佛換了一件馬甲重新站在你面前,油然產生一種猶抱琵琶半遮面的新鮮感。福柯的話語理論在我腦海中不斷回響:話語不僅是語言的集合,更是知識、權力與社會結構的交織之所。憑借語義關系之間的向量計算,也許可以去實證地接近福柯所說的“話語秩序”。過去我們總是試圖通過問卷、訪談了解社會,現在,是否可以通過詞與詞之間的向量關系,從文本中“讀出”那些潛藏的結構性認知?
數據下載和模型訓練的過程并不順利。我把三塊10T的硬盤外接在服務器上,以處理每次清洗完又重新寫入的TB級大數據。即便使用了256G內存和高性能并行處理器,面對龐大的5-gram語料和高頻數據密度,每一步都像在給模型喂“大象”——必須小心翼翼地切塊、喂食、迭代,并依賴多核并行才能勉強消化。還有突如其來的停電、服務器無預警重啟、內存計算過載導致任務崩潰……十幾個模型像接力賽一樣不間斷運行在電腦上,持續了三個多月,像是一場漫長的拉鋸戰。
模型訓練的過程雖長,但是步驟是明晰且可控的。在整個研究過程中,最讓我反復遲疑、不斷推翻又重新建立的,是在操作化職業地位的過程中,對分析對象和分析維度兩大詞表的選擇。選得過少,測量不穩健;選得過多,反而引入了噪音。首先是職業對象的選詞,大量正式職業名稱在語料中幾乎未曾出現,取而代之的是各種非正式、口語化的表達。為了盡可能不遺漏,我最終選擇了笨拙但有效的方式:將所有模型中出現的所有四萬多個不重復詞語逐條篩查,人工判斷是否為職業名稱,并對部分相似的稱呼進行合并。維度詞表的構建則更為棘手。代表財富、權力等維度資源高低的多為語義邊界模糊的形容詞。以“富裕”為例,除了“富有”“殷實”這樣的直接表達,還有“體面”“講究”等更為間接的表述。一開始,我依賴近反義詞詞典和模型的詞表資源,為每個維度挑選了幾十到上百個詞匯,試圖通過數量來提高模型的穩健性。但分析結果卻顯示,詞過多,模型反而與真實數據的相關性下降。這讓我意識到,詞表的關鍵并不在多,而在準,詞語一旦帶入微弱的歧義或語義漂移,可能對測量結果產生不可預期的偏移。
我對如何選詞來對社會地位進行操作化做了非常多的嘗試。但無論我再怎么嘗試,書籍中的職業地位得分和真實的職業地位得分的相關性都無法進一步突破0.8的上限。正如外審專家所說,“既可以說兩者相當一致,也可以說兩者存在難以忽視的差異。”我反思過很多可能的原因:文化數據的測量策略,只能實現對一類職業地位的模糊測量,無法區分同一職業稱呼在不同部門、不同級別的差異;測量結果反映的是書籍中的話語結構和職業地位,在書籍中的觀念可能與真實社會存在一定張力;書籍測量的四維度地位的均值,其測量意涵也跟調查數據的測量對象不甚一致……盡管曾經PNAS和ASR類似研究文章得到的有效性也都在這個范圍內,但指標操作化的效度問題還是讓有些完美主義傾向的我頗感糾結,研究甚至一度陷入停滯。我不斷懷疑,到底能不能用詞語之間的相似度,去度量社會結構?到底什么是測量的標準,達到多少方法才算是有意義的?
導師陳云松教授給了我極大的點撥:從話語結構到社會結構的邏輯里有一個十分關鍵的步驟:書籍中詞與詞之間的關系實際上反映的是人們關于社會結構的主觀認知,而從主觀認知結構到客觀社會結構的測量,是一種間接的折射。間接折射雖然不如直接調查那么精準,卻可以穿越歷史,在沒有社會調查或者調查問卷不涉及相關問題時,為社會結構的測量提供極為重要的補充參照。也正是在這一點上,我開始走出懷疑與內耗以更辯證的方式看待測量本身,既不盲目自信,也不輕易否定,而是明確方法的定位、優勢和局限。當然,陳老師對這篇文章的幫助遠不止于此,從選題立意到結構謀劃,從文本措辭到圖表配色,他都悉心指導,毫無保留。他是這篇文章的幕后英雄。
這篇文章的形成還離不開眾多師友的幫助和指導。文章曾在北大社會研究中心“量化社會科學工作坊”報告過,得到了謝宇老師、董浩老師和一眾師友的指導和鼓勵,這也是這篇文章快速成稿的一大動力。初稿曾與胡安寧老師、田豐老師、李雪老師以及各位師兄弟妹們交流和討論,獲得非常多有益的建議。還有兩位匿審專家,非常專業、嚴謹又包容地給出建設性意見,為這篇文章的方法、邏輯和論述,增色良多。同時,衷心感謝編輯劉保中老師和社研編輯部從投稿到發表期間事無巨細提供的所有指導和幫助。
社會結構不裸露于表層,它藏匿于我們每日使用的語言、集體共享的觀念、沉積于歷史的文本之中。如果語言有記憶,文本就能說出歷史,若語義可量化,社會就可以被描述。回到最初的問題:我們究竟能否通過詞語之間的語義距離,去度量社會結構?這個問題,我曾無數次地懷疑、推翻、重建,也很多次向師友請益、接受批評。現在我的答案是:未必精準,但一定很有意義。文本中的詞語關系、社會觀念和社會結構之間,有張力,有縫隙,但更重要的是它們在一起產生的神奇脈動。它接納模糊與主觀,卻又蘊含著穩定的秩序與可證性。浮沉詞海之間,社會結構隱現其形,文章多有不足,敬請各位師友同仁多多批評指正。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.