99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

作者手記|詞海浮沉,結構之間

0
分享至


陳茁

詞海浮沉,結構之間

作者 |陳茁

作者單位 |南京大學社會學院

原文 |

論文《社會結構的文本大數據測量——以中國社會職業地位變遷為例(1940—2015)》有幸發表于《社會學研究》2025年第2期。衷心感謝導師、匿名評審專家、編輯部和眾多師友的幫助和啟發。正文如果是穿“正裝”,手記則可以擺“素顏”。感謝編輯部提供撰寫手記的機會,允許我說點題外話,交代那些學術語言里不曾展現的思考,猶疑、執念、失敗。

我開始入門社會計算研究方法是從文本分析開始的。詞向量、情感分析、主題挖掘。初入計算法門的我拿著這文本分析的三板斧做了很多嘗試:影視電影梗概、馬克思恩格斯全集、耽美小說、以及微博知乎等關于各種話題的討論。由于三板斧太通用了,通用到什么語料都可以用它們來比劃比劃,時間長了難免產生一些單調重復的感覺,隱約總感覺少了些研究問題上的“切問”。舉例來說,詞向量的常規用法,是以一個詞為中心,尋找與其語義最接近的鄰居,比如詢問與“科學家”最相近的詞,可能會得到“物理學家”或“專家”。這種方法往往用于通過數據驅動啟發性地測量詞語的具體含義,但常常產生大量無意義的相似詞,難以更深入地解釋具體的學術問題。

對詞向量分析方法認識的轉折來源于我的同門馬文跟我分享的一篇研究,Kozlowski等人在ASR上發表的文化幾何學(The geometry of culture)。由于我們一起合作完成了一些文本分析的前期成果,當見到Kozlowski等人將各種運動類型投射到Poor-Rich的半球狀的語義之軸時,都深感驚艷并印象深刻。組會上,導師陳云松教授一針見血的指出用文本大數據測量社會結構的巨大潛力,帶著我們興奮的討論了很多個可行的方向,從職業、階層、性別到區域文化差異,每一個都是有趣的文化測量切口,引燃了我們腦中無數尚未成形的設想。

讓我心生憧憬興致勃勃的開展這項研究的動力,還有方法和數據兩個方面對我的觸動。首先是詞向量的應用方法。不是去問誰和“科學家”最接近,而是去問,科學家更靠近“富有”還是“貧窮”?更靠近“權勢”還是更靠近“屈從”?這依然是基于詞向量的距離計算,但詞與詞之間的距離被嵌入在研究者所關心的財富或權力高低的社會語義坐標中,被賦予了方向性和價值判斷。把特定的分析對象投射在特定的維度坐標軸中,是一種理論先行的思路,研究者也不再是語義空間的旁觀者,而是圍繞研究問題制定游戲規則的建構者。這種思維方式的巧妙轉變恰恰是我文本分析的長期困惑下想要獲得的抓手,我仿佛可以用對象+維度的坐標參照系,去回應我長期想追尋的研究問題上的“切問”。

其二是研究數據。好的文本語料庫也是我長期以來頗為頭疼的難題。自媒體文本最好收集,但內容瑣碎且時間回溯不足;新聞報刊獲取容易且時間可追溯性較長,但反映官方或媒體話語,并不一定代表普遍觀念;書籍數據時間長且代表普遍觀念,但大規模長時段的數字化書籍非常難以收集。谷歌圖書的N-gram數據曾被我視作“只能用來做詞頻統計”的資源,但斯坦福大學的“HistWords歷史文本詞嵌入項目”又刷新了我的認知:僅僅利用5-gram的詞組數據,也足夠搭建起詞語之間龐大的語義關系網絡,捕捉詞語之間的語義聯系。這意味著利用谷歌圖書中文圖書5-gram這套略顯碎片但具有超大體量和時間跨度的詞組數據,也許能拼出中國百年來文化觀念的長河。

我心中升起一種朦朧卻強烈的愿望,想好好完成這個龐大的研究工程。這種感覺最神奇之處在于,曾經熟悉的數據和方法,仿佛換了一件馬甲重新站在你面前,油然產生一種猶抱琵琶半遮面的新鮮感。福柯的話語理論在我腦海中不斷回響:話語不僅是語言的集合,更是知識、權力與社會結構的交織之所。憑借語義關系之間的向量計算,也許可以去實證地接近福柯所說的“話語秩序”。過去我們總是試圖通過問卷、訪談了解社會,現在,是否可以通過詞與詞之間的向量關系,從文本中“讀出”那些潛藏的結構性認知?

數據下載和模型訓練的過程并不順利。我把三塊10T的硬盤外接在服務器上,以處理每次清洗完又重新寫入的TB級大數據。即便使用了256G內存和高性能并行處理器,面對龐大的5-gram語料和高頻數據密度,每一步都像在給模型喂“大象”——必須小心翼翼地切塊、喂食、迭代,并依賴多核并行才能勉強消化。還有突如其來的停電、服務器無預警重啟、內存計算過載導致任務崩潰……十幾個模型像接力賽一樣不間斷運行在電腦上,持續了三個多月,像是一場漫長的拉鋸戰。

模型訓練的過程雖長,但是步驟是明晰且可控的。在整個研究過程中,最讓我反復遲疑、不斷推翻又重新建立的,是在操作化職業地位的過程中,對分析對象和分析維度兩大詞表的選擇。選得過少,測量不穩健;選得過多,反而引入了噪音。首先是職業對象的選詞,大量正式職業名稱在語料中幾乎未曾出現,取而代之的是各種非正式、口語化的表達。為了盡可能不遺漏,我最終選擇了笨拙但有效的方式:將所有模型中出現的所有四萬多個不重復詞語逐條篩查,人工判斷是否為職業名稱,并對部分相似的稱呼進行合并。維度詞表的構建則更為棘手。代表財富、權力等維度資源高低的多為語義邊界模糊的形容詞。以“富裕”為例,除了“富有”“殷實”這樣的直接表達,還有“體面”“講究”等更為間接的表述。一開始,我依賴近反義詞詞典和模型的詞表資源,為每個維度挑選了幾十到上百個詞匯,試圖通過數量來提高模型的穩健性。但分析結果卻顯示,詞過多,模型反而與真實數據的相關性下降。這讓我意識到,詞表的關鍵并不在多,而在準,詞語一旦帶入微弱的歧義或語義漂移,可能對測量結果產生不可預期的偏移。

我對如何選詞來對社會地位進行操作化做了非常多的嘗試。但無論我再怎么嘗試,書籍中的職業地位得分和真實的職業地位得分的相關性都無法進一步突破0.8的上限。正如外審專家所說,“既可以說兩者相當一致,也可以說兩者存在難以忽視的差異。”我反思過很多可能的原因:文化數據的測量策略,只能實現對一類職業地位的模糊測量,無法區分同一職業稱呼在不同部門、不同級別的差異;測量結果反映的是書籍中的話語結構和職業地位,在書籍中的觀念可能與真實社會存在一定張力;書籍測量的四維度地位的均值,其測量意涵也跟調查數據的測量對象不甚一致……盡管曾經PNAS和ASR類似研究文章得到的有效性也都在這個范圍內,但指標操作化的效度問題還是讓有些完美主義傾向的我頗感糾結,研究甚至一度陷入停滯。我不斷懷疑,到底能不能用詞語之間的相似度,去度量社會結構?到底什么是測量的標準,達到多少方法才算是有意義的?

導師陳云松教授給了我極大的點撥:從話語結構到社會結構的邏輯里有一個十分關鍵的步驟:書籍中詞與詞之間的關系實際上反映的是人們關于社會結構的主觀認知,而從主觀認知結構到客觀社會結構的測量,是一種間接的折射。間接折射雖然不如直接調查那么精準,卻可以穿越歷史,在沒有社會調查或者調查問卷不涉及相關問題時,為社會結構的測量提供極為重要的補充參照。也正是在這一點上,我開始走出懷疑與內耗以更辯證的方式看待測量本身,既不盲目自信,也不輕易否定,而是明確方法的定位、優勢和局限。當然,陳老師對這篇文章的幫助遠不止于此,從選題立意到結構謀劃,從文本措辭到圖表配色,他都悉心指導,毫無保留。他是這篇文章的幕后英雄。

這篇文章的形成還離不開眾多師友的幫助和指導。文章曾在北大社會研究中心“量化社會科學工作坊”報告過,得到了謝宇老師、董浩老師和一眾師友的指導和鼓勵,這也是這篇文章快速成稿的一大動力。初稿曾與胡安寧老師、田豐老師、李雪老師以及各位師兄弟妹們交流和討論,獲得非常多有益的建議。還有兩位匿審專家,非常專業、嚴謹又包容地給出建設性意見,為這篇文章的方法、邏輯和論述,增色良多。同時,衷心感謝編輯劉保中老師和社研編輯部從投稿到發表期間事無巨細提供的所有指導和幫助。

社會結構不裸露于表層,它藏匿于我們每日使用的語言、集體共享的觀念、沉積于歷史的文本之中。如果語言有記憶,文本就能說出歷史,若語義可量化,社會就可以被描述。回到最初的問題:我們究竟能否通過詞語之間的語義距離,去度量社會結構?這個問題,我曾無數次地懷疑、推翻、重建,也很多次向師友請益、接受批評。現在我的答案是:未必精準,但一定很有意義。文本中的詞語關系、社會觀念和社會結構之間,有張力,有縫隙,但更重要的是它們在一起產生的神奇脈動。它接納模糊與主觀,卻又蘊含著穩定的秩序與可證性。浮沉詞海之間,社會結構隱現其形,文章多有不足,敬請各位師友同仁多多批評指正。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
丁字褲那根帶子,聞起來到底有多臭?

丁字褲那根帶子,聞起來到底有多臭?

beebee
2025-02-20 11:20:25
離婚僅半載,黃圣依未料到前夫楊子竟迅速露出真面目

離婚僅半載,黃圣依未料到前夫楊子竟迅速露出真面目

陳意小可愛
2025-07-19 15:38:12
布朗尼:我能進入NBA,跟我爸是詹姆斯一點關系都沒有!

布朗尼:我能進入NBA,跟我爸是詹姆斯一點關系都沒有!

田先生籃球
2025-07-19 15:01:41
《十六歲的花季》演員現狀:2位戲骨遺憾離世,漂亮的陳非兒未婚

《十六歲的花季》演員現狀:2位戲骨遺憾離世,漂亮的陳非兒未婚

鄉野小珥
2025-07-18 04:52:22
以色列終于碰上硬茬,埃爾多安叫停敘利亞局勢,沒給美國任何面子

以色列終于碰上硬茬,埃爾多安叫停敘利亞局勢,沒給美國任何面子

阿芒娛樂說
2025-07-19 14:42:34
拖欠物業費!40度高溫被停電!西安暴雷盤,業主太慘了~

拖欠物業費!40度高溫被停電!西安暴雷盤,業主太慘了~

愛下廚的阿釃
2025-07-19 15:35:41
被傳拒絕出席中國閱兵后,李在明打破沉默,希望美國不要誤會自己

被傳拒絕出席中國閱兵后,李在明打破沉默,希望美國不要誤會自己

董董歷史燴
2025-07-18 14:21:21
油價大跌超6毛/升,創“今年新低”的油價,7月或再迎“兩連跌”

油價大跌超6毛/升,創“今年新低”的油價,7月或再迎“兩連跌”

油價早知道
2025-07-19 00:47:05
央視點名痛批!花光84億造不出一輛車,卻能花5000萬給員工買零食

央視點名痛批!花光84億造不出一輛車,卻能花5000萬給員工買零食

說說史事
2025-05-08 17:42:56
牛彈琴:全世界看得目瞪口呆

牛彈琴:全世界看得目瞪口呆

大象新聞
2025-07-18 07:48:38
正式完成交易!廣東男籃引進外援,上賽季曾效力廣州龍獅

正式完成交易!廣東男籃引進外援,上賽季曾效力廣州龍獅

德譯洋洋
2025-07-19 17:46:17
基輔啟動“武器測試”計劃,烏克蘭淪為武器試驗場,朝鮮恐成贏家

基輔啟動“武器測試”計劃,烏克蘭淪為武器試驗場,朝鮮恐成贏家

碳基生物關懷組織
2025-07-19 17:25:41
這才是100年前的清朝!德國人一路又拍又畫,看看古代人真實生活

這才是100年前的清朝!德國人一路又拍又畫,看看古代人真實生活

筆下生園
2024-01-05 17:49:07
美國宣布對中國石墨加征102%關稅!特斯拉、三星、松下即將斷供

美國宣布對中國石墨加征102%關稅!特斯拉、三星、松下即將斷供

南南說娛
2025-07-19 13:52:59
B/S創始人:詹姆斯是湖人隊史上最失敗的人之一 他毀了這支球隊

B/S創始人:詹姆斯是湖人隊史上最失敗的人之一 他毀了這支球隊

直播吧
2025-07-19 10:10:47
宗家海外資產大曝光!購買洛杉磯1.8億豪宅,網友:比貪官好百倍

宗家海外資產大曝光!購買洛杉磯1.8億豪宅,網友:比貪官好百倍

逍遙史記
2025-07-19 09:45:56
還沒等來「Model Y 殺手」,特斯拉就掀桌子了

還沒等來「Model Y 殺手」,特斯拉就掀桌子了

藍字計劃
2025-07-18 16:34:57
芬蘭總統稱普京為“蠢貨和失敗者”,俄軍的坦克已經按捺不住了

芬蘭總統稱普京為“蠢貨和失敗者”,俄軍的坦克已經按捺不住了

科羅廖夫
2025-07-18 16:20:31
79年中央高層大調整,陳云:汪東興當領導,全黨都不會答應,為何

79年中央高層大調整,陳云:汪東興當領導,全黨都不會答應,為何

文史旺旺旺
2025-06-05 19:47:05
咸魚再現灰色交易!一條狗賣26000:特會配,一次40分鐘,男勿擾

咸魚再現灰色交易!一條狗賣26000:特會配,一次40分鐘,男勿擾

社會醬
2025-07-18 17:30:51
2025-07-19 18:27:00
社會學研究雜志 incentive-icons
社會學研究雜志
《社會學研究》官方帳號
907文章數 933關注度
往期回顧 全部

教育要聞

開學就測!四、六、八年級體測評分和加分標準一覽,還有專家支招——

頭條要聞

越南前國家領導人阮春福、武文賞等3人被解除黨內職務

頭條要聞

越南前國家領導人阮春福、武文賞等3人被解除黨內職務

體育要聞

韋德:楊瀚森讓我想起王治郅 打球都非常聰明

娛樂要聞

肖戰微博改名:去掉X玖少年團頭銜

財經要聞

娃哈哈爭產大戰:杜建英的進擊

科技要聞

工信部等約談17家車企巨頭,競爭劃新紅線

汽車要聞

中汽中心新能源檢驗中心煥新發布"汽車行車控制安全技術驗證VCTA"

態度原創

藝術
教育
旅游
公開課
軍事航空

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

震驚!北大竟然在江蘇都沒招滿?還有0人投檔

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:印巴沖突期間有5架戰機被擊落

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 商南县| 离岛区| 理塘县| 余姚市| 金沙县| 盖州市| 大田县| 广昌县| 广安市| 宝兴县| 前郭尔| 阿克陶县| 武川县| 龙江县| 循化| 台州市| 黄山市| 灵石县| 囊谦县| 永平县| 红原县| 庐江县| 乐亭县| 施甸县| 成都市| 烟台市| 盐山县| 扶绥县| 沂南县| 阜新市| 平远县| 温州市| 蓝田县| 万载县| 阜平县| 望谟县| 文水县| 剑川县| 汪清县| 上高县| 师宗县|