空間人文與場(chǎng)所計(jì)算實(shí)驗(yàn)室(SHAPC lab)已經(jīng)在地圖書知識(shí)庫(kù)正式發(fā)布“數(shù)字人文視角下的唐代邊塞詩(shī)文化挖掘研究數(shù)據(jù)集”。地址:https://www.ditushu.com/book/144/
該數(shù)據(jù)集由天津大學(xué)何捷教授團(tuán)隊(duì)制作并發(fā)布。何捷教授任哈爾濱工業(yè)大學(xué)(深圳)建筑學(xué)院城鄉(xiāng)規(guī)劃系教授。此前曾任天津大學(xué)建筑學(xué)院風(fēng)景園林系副教授、天津大學(xué)數(shù)字化設(shè)計(jì)研究所副所長(zhǎng)、香港中文大學(xué)太空與地球信息科學(xué)研究所副研究員、香港中文大學(xué)“高級(jí)環(huán)境規(guī)劃技術(shù)理學(xué)碩士”課程副主任等職。所帶領(lǐng)的“空間人文與場(chǎng)所計(jì)算”團(tuán)隊(duì)追求超越學(xué)科邊界的知識(shí)前沿探索性研究、以及新途徑和新方法回歸建筑、城市與景觀專業(yè)問(wèn)題的創(chuàng)見(jiàn)。
數(shù)據(jù)集制作團(tuán)隊(duì)包括天津大學(xué)2019級(jí)風(fēng)景園林碩士研究生郭佳欣、天津大學(xué)2020級(jí)風(fēng)景園林學(xué)碩士研究生沈?qū)O樂(lè)、天津大學(xué)2020級(jí)風(fēng)景園林學(xué)碩士研究生張舒、天津大學(xué)2020級(jí)風(fēng)景園林學(xué)碩士研究生袁詩(shī)雨、天津大學(xué)2020級(jí)風(fēng)景園林碩士研究生楊明。
數(shù)據(jù)來(lái)源與獲取:全唐詩(shī)文本集選用《全唐詩(shī)》版本出自 “文學(xué) 100”網(wǎng)站——根據(jù)劉昭麟等的對(duì)比,該網(wǎng)站提供的公共可獲取電子版本是已知質(zhì)量最好的,共 900 卷,42213首。確定版本后,將數(shù)據(jù)按照“ID、卷號(hào)、題目、作者、詩(shī)文內(nèi)容等信息”進(jìn)行結(jié)構(gòu)化處理。結(jié)合陳鐵民等人考證出的詩(shī)歌文本集 600 余首作為本次機(jī)器篩選的訓(xùn)練集,使用機(jī)器學(xué)習(xí)文本分類算法決策樹(Decision Tree)、支持向量機(jī)(Support Vector Machine,SVM)、樸素貝葉斯(Na?ve Bayes)等方法共得到 2000 余首測(cè)試集,選取了三種方法都判斷為“是“的邊塞詩(shī)文本集 1223 首作為最終的核心邊塞詩(shī)歌文本集。
詩(shī)歌的時(shí)間標(biāo)注:根據(jù)詩(shī)人所處年代定位邊塞詩(shī)的時(shí)期,粗分為初(唐高祖武德元年—唐玄宗先天元年,618—712)、盛(唐玄宗開元元年—唐代宗永泰二年,713—766)、中(唐代宗永泰二年—唐文宗太和九年 766—835)、晚(唐文宗—唐哀帝 836—907)四期。詩(shī)人的生卒年。依據(jù) CBDB 相關(guān)詩(shī)人[41]數(shù)據(jù),爬取詩(shī)人的生卒年,并粗估詩(shī)人活躍年份。
文本分類:在統(tǒng)計(jì)了 600 余首考證確定為邊塞詩(shī)的詩(shī)歌文本集后,采用了無(wú)監(jiān)督的隱馬爾可夫模型(kenlm+HMM)和進(jìn)一步干預(yù)對(duì)詩(shī)歌文本集進(jìn)行了分詞預(yù)處理。很多自然語(yǔ)言問(wèn)題可以通過(guò)對(duì)文字進(jìn)行標(biāo)注,把任務(wù)轉(zhuǎn)化為序列順序優(yōu)化問(wèn)題從而進(jìn)行處理。有了語(yǔ)料標(biāo)注的數(shù)據(jù)后,可以利用隱式馬爾可夫模型(HMM)等進(jìn)行分詞。隱馬爾可夫模型是一個(gè)比較簡(jiǎn)易的分詞模型,通過(guò)使用各個(gè)狀態(tài)的轉(zhuǎn)移概率與各個(gè)字對(duì)應(yīng)狀態(tài)的概率分布即字的標(biāo)簽概率,來(lái)進(jìn)行預(yù)測(cè)(無(wú)監(jiān)督分詞是通過(guò)計(jì)算出 N-gram 語(yǔ)言模型,即以統(tǒng)計(jì)得到字詞組合的頻率,再反推出字的標(biāo)簽概率)。這種方法總結(jié)出了語(yǔ)料中用語(yǔ)的習(xí)慣,然后基于用詞習(xí)慣進(jìn)行分詞,常常出現(xiàn)在一起的字符就會(huì)被認(rèn)為是同一個(gè)詞,但是中文尤其古代詩(shī)歌語(yǔ)言的使用有時(shí)并不完全符合統(tǒng)計(jì)規(guī)律,會(huì)存在不符合規(guī)律的情況,但在無(wú)法取得大規(guī)模標(biāo)注語(yǔ)料的情況下,無(wú)監(jiān)督分詞也不失為一種可用的方法。(例如“花下 | 忘歸 | 因 | 美景 , 尊前 | 勸酒 | 是 | 春風(fēng)”,其中“花下”、 “尊前”等可能不是一個(gè)詞組的兩個(gè)字也被組合在了一起)。為保證結(jié)果的準(zhǔn)確性與可靠性,故而后續(xù)又對(duì)所有詩(shī)歌分詞結(jié)果進(jìn)行了人工糾正與調(diào)整。
數(shù)字人文視角下的唐代邊塞詩(shī)文化挖掘研究數(shù)據(jù)集,依托于國(guó)家自然科學(xué)基金面上項(xiàng)目(項(xiàng)目負(fù)責(zé)人:何捷):《全唐詩(shī)》邊塞詩(shī)中景觀認(rèn)知的數(shù)字化信息挖掘和平臺(tái)研究(51978448), 2020-2023進(jìn)行開展。依托該課題項(xiàng)目及數(shù)據(jù)發(fā)表多篇研究論文及相關(guān)學(xué)術(shù)筆記:
1.馬昭儀,何捷*,劉帥帥. 中國(guó)古典敘事文學(xué)的時(shí)空敘事數(shù)字模型研究——以《李娃傳》為例.地球信息科學(xué)學(xué)報(bào),2020, 22(5): 967-977 (DOI: 10.12082/dqxxkx.2020)
2.郭佳欣,馬昭儀,肖天意, 何捷*.《長(zhǎng)安十二時(shí)辰》對(duì)長(zhǎng)安城市空間的當(dāng)代重構(gòu)——一種文學(xué)制圖的視角.數(shù)字人文研究, 2021, (2): 9-20
3.Ma Z, He J*, Liu S. Representation of the spatio–temporal narrative of The Tale of Li Wa李娃傳. PLoS ONE, 2020, 15(4): e0231529 (DOI: 10.1371/journal.pone.0231529)
4.
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.