大語言模型與戰(zhàn)國文字研究

2025-07-20 13:36:06　來源: 中國社會科學網(wǎng)

北京舉報

分享至

人工智能輔助古文字研究，是學科未來的發(fā)展趨勢，目前已涌現(xiàn)不少成果，如甲骨綴合產(chǎn)品“綴多多”“知微綴”、銅器斷代產(chǎn)品“吉金識辨”等。在戰(zhàn)國文字研究領(lǐng)域，文字資料豐富，有大量古書文獻，非常適合引入大語言模型進行長文本理解任務(wù)，使出土文獻中的文本和思想價值得到更好的傳播與弘揚。

開源大語言模型的優(yōu)勢

在古籍整理領(lǐng)域，已有訓練大語言模型的先例，主要有直接訓練（如“AI太炎”）和模型微調(diào)（如“荀子古籍大語言模型”“AI九思”等）兩種實現(xiàn)路徑。自DeepSeek引發(fā)熱議以來，各大企業(yè)紛紛發(fā)布開源模型，模型微調(diào)能快速適用于包括戰(zhàn)國文字資料整理在內(nèi)的不同專業(yè)場景。在戰(zhàn)國文字研究領(lǐng)域，開源大語言模型的優(yōu)勢主要有以下三點。

一是預先優(yōu)化的特性。早在2021年，莫伯峰已嘗試利用谷歌的BERT模型進行戰(zhàn)國文字資料的文本歸納，但效果不太理想。如今，國內(nèi)主流的大語言模型大多針對中文的分詞和表達習慣作了改進，并引入了大量中文互聯(lián)網(wǎng)語料，其漢語理解和表達能力得到大幅提升。筆者嘗試向DeepSeek提問，提供上博簡《魯邦大旱》中文本，交由模型進行句讀并解釋大意，模型斷讀為“魯邦大旱。哀公謂孔子：‘子不為我圖之？’孔子答曰：‘邦大旱，毋乃失諸刑與德乎？’”DeepSeek不僅句讀準確，還能翻譯大意并作思想分析，若經(jīng)過專業(yè)數(shù)據(jù)集的微調(diào)，便可以處理更加復雜的戰(zhàn)國文字問題。

二是更低的訓練成本。大語言模型的性能取決于參數(shù)規(guī)模和訓練數(shù)據(jù)量。戰(zhàn)國文字資料的文本量有限，不足以為模型提供全面的語言能力訓練，還需要引入古籍和大量現(xiàn)代漢語語料來提升模型的語言能力。戰(zhàn)國文字畢竟屬于“冷門絕學”，投入的資源有限。可以通過調(diào)用大語言模型快速構(gòu)建訓練數(shù)據(jù)集，如解讀楚簡文本并生成結(jié)構(gòu)化數(shù)據(jù)和知識圖譜，自動提取人地族名等信息，減少人力標注的時間和精力。DeepSeek等大語言模型相比以往費用大大降低，還可以用來“蒸餾”出適合戰(zhàn)國文字研究規(guī)模的模型，節(jié)省設(shè)備投入，緩解經(jīng)費壓力。學者也可以將更多精力集中在構(gòu)建知識庫、模型微調(diào)等任務(wù)上，在較短時間內(nèi)取得更好的成果。

三是更好的推理能力。大語言模型在之前就已經(jīng)引入了思維鏈技術(shù)。思維鏈是指模型將復雜問題拆解成相對簡單清晰的子問題，最終整合到提示詞中來引導自身生成更為準確的答案。DeepSeek這樣的推理模型會將這個過程顯性地展示出來。思維鏈與古文字考釋中的“辭例推勘法”高度契合。例如，面對難以辨識的戰(zhàn)國文字，模型可以輕而易舉地通過檢索知識庫找到相似語料，借助思維鏈推敲上下文語義邏輯，或是歸納相似材料的交集，鎖定合理答案。相比以往需要學者多年熟讀古書和反復檢索，大語言模型具有極大的效率優(yōu)勢。

推進戰(zhàn)國文字開源數(shù)據(jù)集建設(shè)

開源大語言模型是一套優(yōu)質(zhì)“廚具”，接下來就是如何準備上等的“食材”了。運用戰(zhàn)國文字材料訓練語言模型仍存在一些瓶頸。一是缺乏高質(zhì)量語料。戰(zhàn)國文字語料長期由各單位自己手工制作，大多含有缺乏統(tǒng)一規(guī)范的符號和簡號，并混排了古文字圖片。二是模型處理通假字的表現(xiàn)尚可提高。DeepSeek對較簡單的通假用例已能正確解讀，但仍有不足。比如，《左傳》昭公七年“乃筑臺于章華之上，闕為石郭，陂漢，以象帝舜。罷弊楚國，以間陳、蔡”，由于模型缺乏對戰(zhàn)國文字通假知識的理解，未能將“間”字讀破成“縣”，而是理解成了“離間”的意思。戰(zhàn)國文字存在大量通假、異寫、訛寫甚至同義換讀等情況，對于大語言模型的文本理解能力提出了更高要求。因此，制作一系列開源數(shù)據(jù)集成為緊迫的任務(wù)。目前來看，至少還有以下三類數(shù)據(jù)集亟待建設(shè)。

一是字符數(shù)據(jù)集。許多戰(zhàn)國文字的隸定字未經(jīng)Unicode編碼，過去學術(shù)界通常制作圖片字插入文檔中，這樣形成的文檔很難用于模型訓練。并且，不同的人常針對同一個字造了大同小異的圖片，這樣模型在解析圖片時就容易視其為兩個不同的字，使得本就數(shù)據(jù)不足的樣本還被進一步分散。因此，有必要為戰(zhàn)國文字制作專用字庫。圖片字大多是生僻字，還需要標注這些字的結(jié)構(gòu)信息，通過漢字結(jié)構(gòu)特征數(shù)據(jù)來強化模型對生僻字的感知能力。

二是語料數(shù)據(jù)集。在戰(zhàn)國文字字庫的基礎(chǔ)上，可以著手將戰(zhàn)國文字的語料轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)集。針對戰(zhàn)國文獻中廣泛存在的標注符號（如“（）”標注通假、“〈〉”標識訛誤），建議采用兩個階段的數(shù)據(jù)處理策略：第一階段提供無標注純凈文本，通過無干擾語義建模使模型掌握基礎(chǔ)文言理解能力；第二階段注入帶標注監(jiān)督信號（如將“〈〉”轉(zhuǎn)換為[訛誤]標簽），從而設(shè)計序列標注任務(wù)以訓練模型識別通假映射（古音通轉(zhuǎn)規(guī)則）與字形訛變規(guī)律（部件形變路徑）的能力。

三是字詞關(guān)系數(shù)據(jù)集。構(gòu)建通假字資源庫能夠有效提高大語言模型識別通假字的能力。除通假關(guān)系外，戰(zhàn)國文字語料中還可以定義出異體關(guān)系、正訛關(guān)系、同形關(guān)系、同義換讀關(guān)系等，兩個字之間能否形成某種關(guān)系，還需要大量的前置條件。比如，“浴”字作為“谷”字的異體字時，是專造用來表示“山谷”這個含義的，這組關(guān)系主要是戰(zhàn)國時楚地的用字習慣。表示“沐浴”的“浴”則是其他時代和地域另外造的字，它與表示“山谷”的“浴”是一組沒有時空交集的同形字。這樣一組字詞關(guān)系的數(shù)據(jù)至少應(yīng)包含發(fā)生關(guān)系的兩個字的鍵值對、關(guān)系的定義、作用的詞義范疇、時代和地域范圍、用例等。如果將戰(zhàn)國文字中的這些字詞關(guān)系整理成數(shù)據(jù)集，模型理解戰(zhàn)國文獻的能力將大大提高，甚至可能借助龐大的知識系統(tǒng)提出創(chuàng)新性的解讀。

在這個大變革的時代，也許還應(yīng)考慮戰(zhàn)國文字這樣的“冷門絕學”能為人工智能做些什么？大語言模型在生成對話的過程中總是難免出現(xiàn)“幻覺”問題（即不準確內(nèi)容）。在引用古籍原文時，“幻覺”會導致大語言模型出現(xiàn)張冠李戴或胡編亂造的現(xiàn)象，給學習者帶來誤導。語料越冷門，模型就越容易出現(xiàn)幻覺。出土戰(zhàn)國文獻的文本相較古籍更為冷僻，這樣一來，模型生成的知識對于不了解傳統(tǒng)文化的愛好者可能會造成誤導，似是而非的文本在互聯(lián)網(wǎng)中進一步傳播，也會大大增加文化普及的工作量和復雜程度。“幻覺”雖然很難被消除，但仍可以通過檢索增強生成（Retrieval-Augmented Generation，RAG）和調(diào)整專業(yè)領(lǐng)域知識的權(quán)重得到改善，因此也更需要從業(yè)者付出時間來整理高質(zhì)量的數(shù)據(jù)集。想獨立完成高質(zhì)量的整理任務(wù)是很困難的。有必要發(fā)揮群體的力量，依托現(xiàn)成的開源社區(qū)來營造古文字的開源生態(tài)。我們可以先發(fā)布一系列較為粗糙的數(shù)據(jù)集，寄希望于后來者踩在先驅(qū)者的肩膀上，在已有開源數(shù)據(jù)集的基礎(chǔ)上不斷完善和迭代。開源開放是大語言模型未來的潮流，這股潮流也將潤及戰(zhàn)國文字研究領(lǐng)域。

本文系國家社科基金重大項目“戰(zhàn)國文字研究大數(shù)據(jù)云平臺建設(shè)”（21&ZD307）階段性成果

作者系中山大學古文字研究所研究員；中山大學中國語言文學系教授

來源：中國社會科學報

責任編輯：崔晉

新媒體編輯：曾煜婷

如需交流可聯(lián)系我們

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.