空間人文與場所計算實驗室(SHAPC lab)已經在地圖書知識庫正式發布“數字人文視角下的唐代邊塞詩文化挖掘研究數據集”。地址:https://www.ditushu.com/book/144/
該數據集由天津大學何捷教授團隊制作并發布。何捷教授任哈爾濱工業大學(深圳)建筑學院城鄉規劃系教授。此前曾任天津大學建筑學院風景園林系副教授、天津大學數字化設計研究所副所長、香港中文大學太空與地球信息科學研究所副研究員、香港中文大學“高級環境規劃技術理學碩士”課程副主任等職。所帶領的“空間人文與場所計算”團隊追求超越學科邊界的知識前沿探索性研究、以及新途徑和新方法回歸建筑、城市與景觀專業問題的創見。
數據集制作團隊包括天津大學2019級風景園林碩士研究生郭佳欣、天津大學2020級風景園林學碩士研究生沈孫樂、天津大學2020級風景園林學碩士研究生張舒、天津大學2020級風景園林學碩士研究生袁詩雨、天津大學2020級風景園林碩士研究生楊明。
數據來源與獲取:全唐詩文本集選用《全唐詩》版本出自 “文學 100”網站——根據劉昭麟等的對比,該網站提供的公共可獲取電子版本是已知質量最好的,共 900 卷,42213首。確定版本后,將數據按照“ID、卷號、題目、作者、詩文內容等信息”進行結構化處理。結合陳鐵民等人考證出的詩歌文本集 600 余首作為本次機器篩選的訓練集,使用機器學習文本分類算法決策樹(Decision Tree)、支持向量機(Support Vector Machine,SVM)、樸素貝葉斯(Na?ve Bayes)等方法共得到 2000 余首測試集,選取了三種方法都判斷為“是“的邊塞詩文本集 1223 首作為最終的核心邊塞詩歌文本集。
詩歌的時間標注:根據詩人所處年代定位邊塞詩的時期,粗分為初(唐高祖武德元年—唐玄宗先天元年,618—712)、盛(唐玄宗開元元年—唐代宗永泰二年,713—766)、中(唐代宗永泰二年—唐文宗太和九年 766—835)、晚(唐文宗—唐哀帝 836—907)四期。詩人的生卒年。依據 CBDB 相關詩人[41]數據,爬取詩人的生卒年,并粗估詩人活躍年份。
文本分類:在統計了 600 余首考證確定為邊塞詩的詩歌文本集后,采用了無監督的隱馬爾可夫模型(kenlm+HMM)和進一步干預對詩歌文本集進行了分詞預處理。很多自然語言問題可以通過對文字進行標注,把任務轉化為序列順序優化問題從而進行處理。有了語料標注的數據后,可以利用隱式馬爾可夫模型(HMM)等進行分詞。隱馬爾可夫模型是一個比較簡易的分詞模型,通過使用各個狀態的轉移概率與各個字對應狀態的概率分布即字的標簽概率,來進行預測(無監督分詞是通過計算出 N-gram 語言模型,即以統計得到字詞組合的頻率,再反推出字的標簽概率)。這種方法總結出了語料中用語的習慣,然后基于用詞習慣進行分詞,常常出現在一起的字符就會被認為是同一個詞,但是中文尤其古代詩歌語言的使用有時并不完全符合統計規律,會存在不符合規律的情況,但在無法取得大規模標注語料的情況下,無監督分詞也不失為一種可用的方法。(例如“花下 | 忘歸 | 因 | 美景 , 尊前 | 勸酒 | 是 | 春風”,其中“花下”、 “尊前”等可能不是一個詞組的兩個字也被組合在了一起)。為保證結果的準確性與可靠性,故而后續又對所有詩歌分詞結果進行了人工糾正與調整。
數字人文視角下的唐代邊塞詩文化挖掘研究數據集,依托于國家自然科學基金面上項目(項目負責人:何捷):《全唐詩》邊塞詩中景觀認知的數字化信息挖掘和平臺研究(51978448), 2020-2023進行開展。依托該課題項目及數據發表多篇研究論文及相關學術筆記:
1.馬昭儀,何捷*,劉帥帥. 中國古典敘事文學的時空敘事數字模型研究——以《李娃傳》為例.地球信息科學學報,2020, 22(5): 967-977 (DOI: 10.12082/dqxxkx.2020)
2.郭佳欣,馬昭儀,肖天意, 何捷*.《長安十二時辰》對長安城市空間的當代重構——一種文學制圖的視角.數字人文研究, 2021, (2): 9-20
3.Ma Z, He J*, Liu S. Representation of the spatio–temporal narrative of The Tale of Li Wa李娃傳. PLoS ONE, 2020, 15(4): e0231529 (DOI: 10.1371/journal.pone.0231529)
4.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.