一聲輕鳴,燈光亮起,高光譜成像儀啟動(dòng),一枚躺在玻璃管里的簡(jiǎn)牘被緩緩?fù)迫搿2坏桨敕昼?,?jiǎn)牘的高光譜成像圖已經(jīng)出現(xiàn)在屏幕上。
在甘肅省簡(jiǎn)牘智能計(jì)算與數(shù)字人文工程研究中心的實(shí)驗(yàn)室里,研究中心負(fù)責(zé)人、西北師范大學(xué)教授張強(qiáng)盯著紅外圖像和光譜曲線仔細(xì)分析:“很多簡(jiǎn)牘文物封存在玻璃管里,不能輕易打開(kāi)。利用高光譜成像儀掃描和算法處理,可以清晰提取其紅外圖像信息,為數(shù)據(jù)集提供更多支持?!?/p>
張強(qiáng)所說(shuō)的數(shù)據(jù)集,是指簡(jiǎn)牘字符檢測(cè)與識(shí)別大規(guī)模數(shù)據(jù)集,名為DeepJiandu數(shù)據(jù)集。今年3月,張強(qiáng)團(tuán)隊(duì)聯(lián)合甘肅簡(jiǎn)牘博物館等單位推出數(shù)據(jù)集,面向全球開(kāi)放。
甘肅是全國(guó)簡(jiǎn)牘出土最豐富的地區(qū)之一。20世紀(jì)以來(lái),甘肅出土7萬(wàn)余枚簡(jiǎn)牘,以漢簡(jiǎn)居多,內(nèi)容涉及軍事、政務(wù)、醫(yī)藥、民俗等。
簡(jiǎn)牘材料相對(duì)脆弱,經(jīng)過(guò)長(zhǎng)期埋藏,經(jīng)常出現(xiàn)字符模糊、字跡缺損等情況。傳統(tǒng)的簡(jiǎn)牘研究,處理一枚簡(jiǎn)牘的工作量非常大,從定位文字、辨認(rèn)字形,到記錄保存、成果分享都需要人工完成。
張強(qiáng)長(zhǎng)期從事計(jì)算機(jī)科學(xué)與管理科學(xué)交叉研究工作,“我們?nèi)绾瓮ㄟ^(guò)多學(xué)科交叉融合,運(yùn)用人工智能為簡(jiǎn)牘學(xué)研究賦能?”張強(qiáng)帶領(lǐng)團(tuán)隊(duì),聯(lián)合甘肅簡(jiǎn)牘博物館、上海中西書(shū)局、甘肅文化出版社等,先后收集4萬(wàn)多枚簡(jiǎn)牘圖版,整理4.5萬(wàn)多條釋文、近20萬(wàn)個(gè)字形等數(shù)據(jù)。去年6月,簡(jiǎn)牘學(xué)術(shù)資源數(shù)據(jù)共享平臺(tái)正式上線,面向全球公開(kāi)免費(fèi)使用。
在共享平臺(tái)的研發(fā)、應(yīng)用中,張強(qiáng)團(tuán)隊(duì)提出了推出DeepJiandu數(shù)據(jù)集的想法?!按罅靠此茝?fù)雜的簡(jiǎn)牘特征信息是可以被提取的,該數(shù)據(jù)集為利用人工智能實(shí)現(xiàn)簡(jiǎn)牘文字智能識(shí)別的特征提取提供了基礎(chǔ)和可能?!睆垙?qiáng)說(shuō)。
數(shù)據(jù)集就像“養(yǎng)料”,張強(qiáng)團(tuán)隊(duì)不斷地將其“喂給”各類分析算法。例如,對(duì)于一枚簡(jiǎn)牘,團(tuán)隊(duì)通過(guò)圖像增強(qiáng)、補(bǔ)全、定位等算法,通過(guò)大量數(shù)據(jù)模型訓(xùn)練和算法優(yōu)化,就能對(duì)其文字進(jìn)行智能檢測(cè)和識(shí)別。
制作這樣的數(shù)據(jù)集,并非簡(jiǎn)單地“把文字粘貼到表格里”。有些簡(jiǎn)牘字跡模糊、書(shū)寫(xiě)風(fēng)格復(fù)雜,有些簡(jiǎn)牘還存在著彎曲、斷裂等物理變形,加上不同簡(jiǎn)牘的年代、地域不同,字體形態(tài)差異巨大、規(guī)范性差……經(jīng)過(guò)反復(fù)試錯(cuò)、細(xì)致標(biāo)注,一個(gè)字一個(gè)字地“摳”,團(tuán)隊(duì)開(kāi)展了多輪對(duì)比測(cè)試。不斷調(diào)整優(yōu)化后,基于DeepJiandu數(shù)據(jù)集的文字檢測(cè)精度提升至92%以上,對(duì)于一些常見(jiàn)漢字,數(shù)據(jù)集的表現(xiàn)更加穩(wěn)定。
兩年中,張強(qiáng)團(tuán)隊(duì)從不到5人擴(kuò)展到30多人,人員學(xué)術(shù)背景構(gòu)成也拓展到計(jì)算機(jī)、歷史、文學(xué)和管理等學(xué)科領(lǐng)域,目前正在穩(wěn)步開(kāi)展智能識(shí)別簡(jiǎn)牘書(shū)寫(xiě)風(fēng)格、殘簡(jiǎn)斷簡(jiǎn)智能綴合、簡(jiǎn)牘知識(shí)圖譜構(gòu)建等研究項(xiàng)目。“希望更多人愿意加入進(jìn)來(lái),挖掘簡(jiǎn)牘學(xué)的寶貴價(jià)值?!睆垙?qiáng)說(shuō)。
來(lái)源|《人民日?qǐng)?bào)》(版權(quán)歸原作者所有,如有侵權(quán)請(qǐng)聯(lián)系刪除),歡迎留言、轉(zhuǎn)發(fā)、分享。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.