人工智能輔助古文字研究,是學科未來的發(fā)展趨勢,目前已涌現(xiàn)不少成果,如甲骨綴合產(chǎn)品“綴多多”“知微綴”、銅器斷代產(chǎn)品“吉金識辨”等。在戰(zhàn)國文字研究領(lǐng)域,文字資料豐富,有大量古書文獻,非常適合引入大語言模型進行長文本理解任務(wù),使出土文獻中的文本和思想價值得到更好的傳播與弘揚。
開源大語言模型的優(yōu)勢
在古籍整理領(lǐng)域,已有訓練大語言模型的先例,主要有直接訓練(如“AI太炎”)和模型微調(diào)(如“荀子古籍大語言模型”“AI九思”等)兩種實現(xiàn)路徑。自DeepSeek引發(fā)熱議以來,各大企業(yè)紛紛發(fā)布開源模型,模型微調(diào)能快速適用于包括戰(zhàn)國文字資料整理在內(nèi)的不同專業(yè)場景。在戰(zhàn)國文字研究領(lǐng)域,開源大語言模型的優(yōu)勢主要有以下三點。
一是預先優(yōu)化的特性。早在2021年,莫伯峰已嘗試利用谷歌的BERT模型進行戰(zhàn)國文字資料的文本歸納,但效果不太理想。如今,國內(nèi)主流的大語言模型大多針對中文的分詞和表達習慣作了改進,并引入了大量中文互聯(lián)網(wǎng)語料,其漢語理解和表達能力得到大幅提升。筆者嘗試向DeepSeek提問,提供上博簡《魯邦大旱》中文本,交由模型進行句讀并解釋大意,模型斷讀為“魯邦大旱。哀公謂孔子:‘子不為我圖之?’孔子答曰:‘邦大旱,毋乃失諸刑與德乎?’”DeepSeek不僅句讀準確,還能翻譯大意并作思想分析,若經(jīng)過專業(yè)數(shù)據(jù)集的微調(diào),便可以處理更加復雜的戰(zhàn)國文字問題。
二是更低的訓練成本。大語言模型的性能取決于參數(shù)規(guī)模和訓練數(shù)據(jù)量。戰(zhàn)國文字資料的文本量有限,不足以為模型提供全面的語言能力訓練,還需要引入古籍和大量現(xiàn)代漢語語料來提升模型的語言能力。戰(zhàn)國文字畢竟屬于“冷門絕學”,投入的資源有限。可以通過調(diào)用大語言模型快速構(gòu)建訓練數(shù)據(jù)集,如解讀楚簡文本并生成結(jié)構(gòu)化數(shù)據(jù)和知識圖譜,自動提取人地族名等信息,減少人力標注的時間和精力。DeepSeek等大語言模型相比以往費用大大降低,還可以用來“蒸餾”出適合戰(zhàn)國文字研究規(guī)模的模型,節(jié)省設(shè)備投入,緩解經(jīng)費壓力。學者也可以將更多精力集中在構(gòu)建知識庫、模型微調(diào)等任務(wù)上,在較短時間內(nèi)取得更好的成果。
三是更好的推理能力。大語言模型在之前就已經(jīng)引入了思維鏈技術(shù)。思維鏈是指模型將復雜問題拆解成相對簡單清晰的子問題,最終整合到提示詞中來引導自身生成更為準確的答案。DeepSeek這樣的推理模型會將這個過程顯性地展示出來。思維鏈與古文字考釋中的“辭例推勘法”高度契合。例如,面對難以辨識的戰(zhàn)國文字,模型可以輕而易舉地通過檢索知識庫找到相似語料,借助思維鏈推敲上下文語義邏輯,或是歸納相似材料的交集,鎖定合理答案。相比以往需要學者多年熟讀古書和反復檢索,大語言模型具有極大的效率優(yōu)勢。
推進戰(zhàn)國文字開源數(shù)據(jù)集建設(shè)
開源大語言模型是一套優(yōu)質(zhì)“廚具”,接下來就是如何準備上等的“食材”了。運用戰(zhàn)國文字材料訓練語言模型仍存在一些瓶頸。一是缺乏高質(zhì)量語料。戰(zhàn)國文字語料長期由各單位自己手工制作,大多含有缺乏統(tǒng)一規(guī)范的符號和簡號,并混排了古文字圖片。二是模型處理通假字的表現(xiàn)尚可提高。DeepSeek對較簡單的通假用例已能正確解讀,但仍有不足。比如,《左傳》昭公七年“乃筑臺于章華之上,闕為石郭,陂漢,以象帝舜。罷弊楚國,以間陳、蔡”,由于模型缺乏對戰(zhàn)國文字通假知識的理解,未能將“間”字讀破成“縣”,而是理解成了“離間”的意思。戰(zhàn)國文字存在大量通假、異寫、訛寫甚至同義換讀等情況,對于大語言模型的文本理解能力提出了更高要求。因此,制作一系列開源數(shù)據(jù)集成為緊迫的任務(wù)。目前來看,至少還有以下三類數(shù)據(jù)集亟待建設(shè)。
一是字符數(shù)據(jù)集。許多戰(zhàn)國文字的隸定字未經(jīng)Unicode編碼,過去學術(shù)界通常制作圖片字插入文檔中,這樣形成的文檔很難用于模型訓練。并且,不同的人常針對同一個字造了大同小異的圖片,這樣模型在解析圖片時就容易視其為兩個不同的字,使得本就數(shù)據(jù)不足的樣本還被進一步分散。因此,有必要為戰(zhàn)國文字制作專用字庫。圖片字大多是生僻字,還需要標注這些字的結(jié)構(gòu)信息,通過漢字結(jié)構(gòu)特征數(shù)據(jù)來強化模型對生僻字的感知能力。
二是語料數(shù)據(jù)集。在戰(zhàn)國文字字庫的基礎(chǔ)上,可以著手將戰(zhàn)國文字的語料轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)集。針對戰(zhàn)國文獻中廣泛存在的標注符號(如“()”標注通假、“〈〉”標識訛誤),建議采用兩個階段的數(shù)據(jù)處理策略:第一階段提供無標注純凈文本,通過無干擾語義建模使模型掌握基礎(chǔ)文言理解能力;第二階段注入帶標注監(jiān)督信號 (如將“〈〉”轉(zhuǎn)換為[訛誤]標簽),從而設(shè)計序列標注任務(wù)以訓練模型識別通假映射(古音通轉(zhuǎn)規(guī)則)與字形訛變規(guī)律(部件形變路徑)的能力。
三是字詞關(guān)系數(shù)據(jù)集。構(gòu)建通假字資源庫能夠有效提高大語言模型識別通假字的能力。除通假關(guān)系外,戰(zhàn)國文字語料中還可以定義出異體關(guān)系、正訛關(guān)系、同形關(guān)系、同義換讀關(guān)系等,兩個字之間能否形成某種關(guān)系,還需要大量的前置條件。比如,“浴”字作為“谷”字的異體字時,是專造用來表示“山谷”這個含義的,這組關(guān)系主要是戰(zhàn)國時楚地的用字習慣。表示“沐浴”的“浴”則是其他時代和地域另外造的字,它與表示“山谷”的“浴”是一組沒有時空交集的同形字。這樣一組字詞關(guān)系的數(shù)據(jù)至少應(yīng)包含發(fā)生關(guān)系的兩個字的鍵值對、關(guān)系的定義、作用的詞義范疇、時代和地域范圍、用例等。如果將戰(zhàn)國文字中的這些字詞關(guān)系整理成數(shù)據(jù)集,模型理解戰(zhàn)國文獻的能力將大大提高,甚至可能借助龐大的知識系統(tǒng)提出創(chuàng)新性的解讀。
在這個大變革的時代,也許還應(yīng)考慮戰(zhàn)國文字這樣的“冷門絕學”能為人工智能做些什么?大語言模型在生成對話的過程中總是難免出現(xiàn)“幻覺”問題(即不準確內(nèi)容)。在引用古籍原文時,“幻覺”會導致大語言模型出現(xiàn)張冠李戴或胡編亂造的現(xiàn)象,給學習者帶來誤導。語料越冷門,模型就越容易出現(xiàn)幻覺。出土戰(zhàn)國文獻的文本相較古籍更為冷僻,這樣一來,模型生成的知識對于不了解傳統(tǒng)文化的愛好者可能會造成誤導,似是而非的文本在互聯(lián)網(wǎng)中進一步傳播,也會大大增加文化普及的工作量和復雜程度。“幻覺”雖然很難被消除,但仍可以通過檢索增強生成(Retrieval-Augmented Generation,RAG)和調(diào)整專業(yè)領(lǐng)域知識的權(quán)重得到改善,因此也更需要從業(yè)者付出時間來整理高質(zhì)量的數(shù)據(jù)集。想獨立完成高質(zhì)量的整理任務(wù)是很困難的。有必要發(fā)揮群體的力量,依托現(xiàn)成的開源社區(qū)來營造古文字的開源生態(tài)。我們可以先發(fā)布一系列較為粗糙的數(shù)據(jù)集,寄希望于后來者踩在先驅(qū)者的肩膀上,在已有開源數(shù)據(jù)集的基礎(chǔ)上不斷完善和迭代。開源開放是大語言模型未來的潮流,這股潮流也將潤及戰(zhàn)國文字研究領(lǐng)域。
本文系國家社科基金重大項目“戰(zhàn)國文字研究大數(shù)據(jù)云平臺建設(shè)”(21&ZD307)階段性成果
作者系中山大學古文字研究所研究員;中山大學中國語言文學系教授
來源:中國社會科學報
責任編輯:崔晉
新媒體編輯:曾煜婷
如需交流可聯(lián)系我們
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.