陳茁
詞海浮沉,結(jié)構(gòu)之間
作者 |陳茁
作者單位 |南京大學(xué)社會(huì)學(xué)院
原文 |
論文《社會(huì)結(jié)構(gòu)的文本大數(shù)據(jù)測量——以中國社會(huì)職業(yè)地位變遷為例(1940—2015)》有幸發(fā)表于《社會(huì)學(xué)研究》2025年第2期。衷心感謝導(dǎo)師、匿名評(píng)審專家、編輯部和眾多師友的幫助和啟發(fā)。正文如果是穿“正裝”,手記則可以擺“素顏”。感謝編輯部提供撰寫手記的機(jī)會(huì),允許我說點(diǎn)題外話,交代那些學(xué)術(shù)語言里不曾展現(xiàn)的思考,猶疑、執(zhí)念、失敗。
我開始入門社會(huì)計(jì)算研究方法是從文本分析開始的。詞向量、情感分析、主題挖掘。初入計(jì)算法門的我拿著這文本分析的三板斧做了很多嘗試:影視電影梗概、馬克思恩格斯全集、耽美小說、以及微博知乎等關(guān)于各種話題的討論。由于三板斧太通用了,通用到什么語料都可以用它們來比劃比劃,時(shí)間長了難免產(chǎn)生一些單調(diào)重復(fù)的感覺,隱約總感覺少了些研究問題上的“切問”。舉例來說,詞向量的常規(guī)用法,是以一個(gè)詞為中心,尋找與其語義最接近的鄰居,比如詢問與“科學(xué)家”最相近的詞,可能會(huì)得到“物理學(xué)家”或“專家”。這種方法往往用于通過數(shù)據(jù)驅(qū)動(dòng)啟發(fā)性地測量詞語的具體含義,但常常產(chǎn)生大量無意義的相似詞,難以更深入地解釋具體的學(xué)術(shù)問題。
對(duì)詞向量分析方法認(rèn)識(shí)的轉(zhuǎn)折來源于我的同門馬文跟我分享的一篇研究,Kozlowski等人在ASR上發(fā)表的文化幾何學(xué)(The geometry of culture)。由于我們一起合作完成了一些文本分析的前期成果,當(dāng)見到Kozlowski等人將各種運(yùn)動(dòng)類型投射到Poor-Rich的半球狀的語義之軸時(shí),都深感驚艷并印象深刻。組會(huì)上,導(dǎo)師陳云松教授一針見血的指出用文本大數(shù)據(jù)測量社會(huì)結(jié)構(gòu)的巨大潛力,帶著我們興奮的討論了很多個(gè)可行的方向,從職業(yè)、階層、性別到區(qū)域文化差異,每一個(gè)都是有趣的文化測量切口,引燃了我們腦中無數(shù)尚未成形的設(shè)想。
讓我心生憧憬興致勃勃的開展這項(xiàng)研究的動(dòng)力,還有方法和數(shù)據(jù)兩個(gè)方面對(duì)我的觸動(dòng)。首先是詞向量的應(yīng)用方法。不是去問誰和“科學(xué)家”最接近,而是去問,科學(xué)家更靠近“富有”還是“貧窮”?更靠近“權(quán)勢”還是更靠近“屈從”?這依然是基于詞向量的距離計(jì)算,但詞與詞之間的距離被嵌入在研究者所關(guān)心的財(cái)富或權(quán)力高低的社會(huì)語義坐標(biāo)中,被賦予了方向性和價(jià)值判斷。把特定的分析對(duì)象投射在特定的維度坐標(biāo)軸中,是一種理論先行的思路,研究者也不再是語義空間的旁觀者,而是圍繞研究問題制定游戲規(guī)則的建構(gòu)者。這種思維方式的巧妙轉(zhuǎn)變恰恰是我文本分析的長期困惑下想要獲得的抓手,我仿佛可以用對(duì)象+維度的坐標(biāo)參照系,去回應(yīng)我長期想追尋的研究問題上的“切問”。
其二是研究數(shù)據(jù)。好的文本語料庫也是我長期以來頗為頭疼的難題。自媒體文本最好收集,但內(nèi)容瑣碎且時(shí)間回溯不足;新聞報(bào)刊獲取容易且時(shí)間可追溯性較長,但反映官方或媒體話語,并不一定代表普遍觀念;書籍?dāng)?shù)據(jù)時(shí)間長且代表普遍觀念,但大規(guī)模長時(shí)段的數(shù)字化書籍非常難以收集。谷歌圖書的N-gram數(shù)據(jù)曾被我視作“只能用來做詞頻統(tǒng)計(jì)”的資源,但斯坦福大學(xué)的“HistWords歷史文本詞嵌入項(xiàng)目”又刷新了我的認(rèn)知:僅僅利用5-gram的詞組數(shù)據(jù),也足夠搭建起詞語之間龐大的語義關(guān)系網(wǎng)絡(luò),捕捉詞語之間的語義聯(lián)系。這意味著利用谷歌圖書中文圖書5-gram這套略顯碎片但具有超大體量和時(shí)間跨度的詞組數(shù)據(jù),也許能拼出中國百年來文化觀念的長河。
我心中升起一種朦朧卻強(qiáng)烈的愿望,想好好完成這個(gè)龐大的研究工程。這種感覺最神奇之處在于,曾經(jīng)熟悉的數(shù)據(jù)和方法,仿佛換了一件馬甲重新站在你面前,油然產(chǎn)生一種猶抱琵琶半遮面的新鮮感。福柯的話語理論在我腦海中不斷回響:話語不僅是語言的集合,更是知識(shí)、權(quán)力與社會(huì)結(jié)構(gòu)的交織之所。憑借語義關(guān)系之間的向量計(jì)算,也許可以去實(shí)證地接近福柯所說的“話語秩序”。過去我們總是試圖通過問卷、訪談了解社會(huì),現(xiàn)在,是否可以通過詞與詞之間的向量關(guān)系,從文本中“讀出”那些潛藏的結(jié)構(gòu)性認(rèn)知?
數(shù)據(jù)下載和模型訓(xùn)練的過程并不順利。我把三塊10T的硬盤外接在服務(wù)器上,以處理每次清洗完又重新寫入的TB級(jí)大數(shù)據(jù)。即便使用了256G內(nèi)存和高性能并行處理器,面對(duì)龐大的5-gram語料和高頻數(shù)據(jù)密度,每一步都像在給模型喂“大象”——必須小心翼翼地切塊、喂食、迭代,并依賴多核并行才能勉強(qiáng)消化。還有突如其來的停電、服務(wù)器無預(yù)警重啟、內(nèi)存計(jì)算過載導(dǎo)致任務(wù)崩潰……十幾個(gè)模型像接力賽一樣不間斷運(yùn)行在電腦上,持續(xù)了三個(gè)多月,像是一場漫長的拉鋸戰(zhàn)。
模型訓(xùn)練的過程雖長,但是步驟是明晰且可控的。在整個(gè)研究過程中,最讓我反復(fù)遲疑、不斷推翻又重新建立的,是在操作化職業(yè)地位的過程中,對(duì)分析對(duì)象和分析維度兩大詞表的選擇。選得過少,測量不穩(wěn)健;選得過多,反而引入了噪音。首先是職業(yè)對(duì)象的選詞,大量正式職業(yè)名稱在語料中幾乎未曾出現(xiàn),取而代之的是各種非正式、口語化的表達(dá)。為了盡可能不遺漏,我最終選擇了笨拙但有效的方式:將所有模型中出現(xiàn)的所有四萬多個(gè)不重復(fù)詞語逐條篩查,人工判斷是否為職業(yè)名稱,并對(duì)部分相似的稱呼進(jìn)行合并。維度詞表的構(gòu)建則更為棘手。代表財(cái)富、權(quán)力等維度資源高低的多為語義邊界模糊的形容詞。以“富裕”為例,除了“富有”“殷實(shí)”這樣的直接表達(dá),還有“體面”“講究”等更為間接的表述。一開始,我依賴近反義詞詞典和模型的詞表資源,為每個(gè)維度挑選了幾十到上百個(gè)詞匯,試圖通過數(shù)量來提高模型的穩(wěn)健性。但分析結(jié)果卻顯示,詞過多,模型反而與真實(shí)數(shù)據(jù)的相關(guān)性下降。這讓我意識(shí)到,詞表的關(guān)鍵并不在多,而在準(zhǔn),詞語一旦帶入微弱的歧義或語義漂移,可能對(duì)測量結(jié)果產(chǎn)生不可預(yù)期的偏移。
我對(duì)如何選詞來對(duì)社會(huì)地位進(jìn)行操作化做了非常多的嘗試。但無論我再怎么嘗試,書籍中的職業(yè)地位得分和真實(shí)的職業(yè)地位得分的相關(guān)性都無法進(jìn)一步突破0.8的上限。正如外審專家所說,“既可以說兩者相當(dāng)一致,也可以說兩者存在難以忽視的差異。”我反思過很多可能的原因:文化數(shù)據(jù)的測量策略,只能實(shí)現(xiàn)對(duì)一類職業(yè)地位的模糊測量,無法區(qū)分同一職業(yè)稱呼在不同部門、不同級(jí)別的差異;測量結(jié)果反映的是書籍中的話語結(jié)構(gòu)和職業(yè)地位,在書籍中的觀念可能與真實(shí)社會(huì)存在一定張力;書籍測量的四維度地位的均值,其測量意涵也跟調(diào)查數(shù)據(jù)的測量對(duì)象不甚一致……盡管曾經(jīng)PNAS和ASR類似研究文章得到的有效性也都在這個(gè)范圍內(nèi),但指標(biāo)操作化的效度問題還是讓有些完美主義傾向的我頗感糾結(jié),研究甚至一度陷入停滯。我不斷懷疑,到底能不能用詞語之間的相似度,去度量社會(huì)結(jié)構(gòu)?到底什么是測量的標(biāo)準(zhǔn),達(dá)到多少方法才算是有意義的?
導(dǎo)師陳云松教授給了我極大的點(diǎn)撥:從話語結(jié)構(gòu)到社會(huì)結(jié)構(gòu)的邏輯里有一個(gè)十分關(guān)鍵的步驟:書籍中詞與詞之間的關(guān)系實(shí)際上反映的是人們關(guān)于社會(huì)結(jié)構(gòu)的主觀認(rèn)知,而從主觀認(rèn)知結(jié)構(gòu)到客觀社會(huì)結(jié)構(gòu)的測量,是一種間接的折射。間接折射雖然不如直接調(diào)查那么精準(zhǔn),卻可以穿越歷史,在沒有社會(huì)調(diào)查或者調(diào)查問卷不涉及相關(guān)問題時(shí),為社會(huì)結(jié)構(gòu)的測量提供極為重要的補(bǔ)充參照。也正是在這一點(diǎn)上,我開始走出懷疑與內(nèi)耗以更辯證的方式看待測量本身,既不盲目自信,也不輕易否定,而是明確方法的定位、優(yōu)勢和局限。當(dāng)然,陳老師對(duì)這篇文章的幫助遠(yuǎn)不止于此,從選題立意到結(jié)構(gòu)謀劃,從文本措辭到圖表配色,他都悉心指導(dǎo),毫無保留。他是這篇文章的幕后英雄。
這篇文章的形成還離不開眾多師友的幫助和指導(dǎo)。文章曾在北大社會(huì)研究中心“量化社會(huì)科學(xué)工作坊”報(bào)告過,得到了謝宇老師、董浩老師和一眾師友的指導(dǎo)和鼓勵(lì),這也是這篇文章快速成稿的一大動(dòng)力。初稿曾與胡安寧老師、田豐老師、李雪老師以及各位師兄弟妹們交流和討論,獲得非常多有益的建議。還有兩位匿審專家,非常專業(yè)、嚴(yán)謹(jǐn)又包容地給出建設(shè)性意見,為這篇文章的方法、邏輯和論述,增色良多。同時(shí),衷心感謝編輯劉保中老師和社研編輯部從投稿到發(fā)表期間事無巨細(xì)提供的所有指導(dǎo)和幫助。
社會(huì)結(jié)構(gòu)不裸露于表層,它藏匿于我們每日使用的語言、集體共享的觀念、沉積于歷史的文本之中。如果語言有記憶,文本就能說出歷史,若語義可量化,社會(huì)就可以被描述。回到最初的問題:我們究竟能否通過詞語之間的語義距離,去度量社會(huì)結(jié)構(gòu)?這個(gè)問題,我曾無數(shù)次地懷疑、推翻、重建,也很多次向師友請(qǐng)益、接受批評(píng)。現(xiàn)在我的答案是:未必精準(zhǔn),但一定很有意義。文本中的詞語關(guān)系、社會(huì)觀念和社會(huì)結(jié)構(gòu)之間,有張力,有縫隙,但更重要的是它們?cè)谝黄甬a(chǎn)生的神奇脈動(dòng)。它接納模糊與主觀,卻又蘊(yùn)含著穩(wěn)定的秩序與可證性。浮沉詞海之間,社會(huì)結(jié)構(gòu)隱現(xiàn)其形,文章多有不足,敬請(qǐng)各位師友同仁多多批評(píng)指正。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.