99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

大語言模型與戰(zhàn)國文字研究

0
分享至


人工智能輔助古文字研究,是學科未來的發(fā)展趨勢,目前已涌現(xiàn)不少成果,如甲骨綴合產(chǎn)品“綴多多”“知微綴”、銅器斷代產(chǎn)品“吉金識辨”等。在戰(zhàn)國文字研究領(lǐng)域,文字資料豐富,有大量古書文獻,非常適合引入大語言模型進行長文本理解任務(wù),使出土文獻中的文本和思想價值得到更好的傳播與弘揚。


開源大語言模型的優(yōu)勢

在古籍整理領(lǐng)域,已有訓練大語言模型的先例,主要有直接訓練(如“AI太炎”)和模型微調(diào)(如“荀子古籍大語言模型”“AI九思”等)兩種實現(xiàn)路徑。自DeepSeek引發(fā)熱議以來,各大企業(yè)紛紛發(fā)布開源模型,模型微調(diào)能快速適用于包括戰(zhàn)國文字資料整理在內(nèi)的不同專業(yè)場景。在戰(zhàn)國文字研究領(lǐng)域,開源大語言模型的優(yōu)勢主要有以下三點。

一是預先優(yōu)化的特性。早在2021年,莫伯峰已嘗試利用谷歌的BERT模型進行戰(zhàn)國文字資料的文本歸納,但效果不太理想。如今,國內(nèi)主流的大語言模型大多針對中文的分詞和表達習慣作了改進,并引入了大量中文互聯(lián)網(wǎng)語料,其漢語理解和表達能力得到大幅提升。筆者嘗試向DeepSeek提問,提供上博簡《魯邦大旱》中文本,交由模型進行句讀并解釋大意,模型斷讀為“魯邦大旱。哀公謂孔子:‘子不為我圖之?’孔子答曰:‘邦大旱,毋乃失諸刑與德乎?’”DeepSeek不僅句讀準確,還能翻譯大意并作思想分析,若經(jīng)過專業(yè)數(shù)據(jù)集的微調(diào),便可以處理更加復雜的戰(zhàn)國文字問題。

二是更低的訓練成本。大語言模型的性能取決于參數(shù)規(guī)模和訓練數(shù)據(jù)量。戰(zhàn)國文字資料的文本量有限,不足以為模型提供全面的語言能力訓練,還需要引入古籍和大量現(xiàn)代漢語語料來提升模型的語言能力。戰(zhàn)國文字畢竟屬于“冷門絕學”,投入的資源有限。可以通過調(diào)用大語言模型快速構(gòu)建訓練數(shù)據(jù)集,如解讀楚簡文本并生成結(jié)構(gòu)化數(shù)據(jù)和知識圖譜,自動提取人地族名等信息,減少人力標注的時間和精力。DeepSeek等大語言模型相比以往費用大大降低,還可以用來“蒸餾”出適合戰(zhàn)國文字研究規(guī)模的模型,節(jié)省設(shè)備投入,緩解經(jīng)費壓力。學者也可以將更多精力集中在構(gòu)建知識庫、模型微調(diào)等任務(wù)上,在較短時間內(nèi)取得更好的成果。

三是更好的推理能力。大語言模型在之前就已經(jīng)引入了思維鏈技術(shù)。思維鏈是指模型將復雜問題拆解成相對簡單清晰的子問題,最終整合到提示詞中來引導自身生成更為準確的答案。DeepSeek這樣的推理模型會將這個過程顯性地展示出來。思維鏈與古文字考釋中的“辭例推勘法”高度契合。例如,面對難以辨識的戰(zhàn)國文字,模型可以輕而易舉地通過檢索知識庫找到相似語料,借助思維鏈推敲上下文語義邏輯,或是歸納相似材料的交集,鎖定合理答案。相比以往需要學者多年熟讀古書和反復檢索,大語言模型具有極大的效率優(yōu)勢。

推進戰(zhàn)國文字開源數(shù)據(jù)集建設(shè)

開源大語言模型是一套優(yōu)質(zhì)“廚具”,接下來就是如何準備上等的“食材”了。運用戰(zhàn)國文字材料訓練語言模型仍存在一些瓶頸。一是缺乏高質(zhì)量語料。戰(zhàn)國文字語料長期由各單位自己手工制作,大多含有缺乏統(tǒng)一規(guī)范的符號和簡號,并混排了古文字圖片。二是模型處理通假字的表現(xiàn)尚可提高。DeepSeek對較簡單的通假用例已能正確解讀,但仍有不足。比如,《左傳》昭公七年“乃筑臺于章華之上,闕為石郭,陂漢,以象帝舜。罷弊楚國,以間陳、蔡”,由于模型缺乏對戰(zhàn)國文字通假知識的理解,未能將“間”字讀破成“縣”,而是理解成了“離間”的意思。戰(zhàn)國文字存在大量通假、異寫、訛寫甚至同義換讀等情況,對于大語言模型的文本理解能力提出了更高要求。因此,制作一系列開源數(shù)據(jù)集成為緊迫的任務(wù)。目前來看,至少還有以下三類數(shù)據(jù)集亟待建設(shè)。

一是字符數(shù)據(jù)集。許多戰(zhàn)國文字的隸定字未經(jīng)Unicode編碼,過去學術(shù)界通常制作圖片字插入文檔中,這樣形成的文檔很難用于模型訓練。并且,不同的人常針對同一個字造了大同小異的圖片,這樣模型在解析圖片時就容易視其為兩個不同的字,使得本就數(shù)據(jù)不足的樣本還被進一步分散。因此,有必要為戰(zhàn)國文字制作專用字庫。圖片字大多是生僻字,還需要標注這些字的結(jié)構(gòu)信息,通過漢字結(jié)構(gòu)特征數(shù)據(jù)來強化模型對生僻字的感知能力。

二是語料數(shù)據(jù)集。在戰(zhàn)國文字字庫的基礎(chǔ)上,可以著手將戰(zhàn)國文字的語料轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)集。針對戰(zhàn)國文獻中廣泛存在的標注符號(如“()”標注通假、“〈〉”標識訛誤),建議采用兩個階段的數(shù)據(jù)處理策略:第一階段提供無標注純凈文本,通過無干擾語義建模使模型掌握基礎(chǔ)文言理解能力;第二階段注入帶標注監(jiān)督信號 (如將“〈〉”轉(zhuǎn)換為[訛誤]標簽),從而設(shè)計序列標注任務(wù)以訓練模型識別通假映射(古音通轉(zhuǎn)規(guī)則)與字形訛變規(guī)律(部件形變路徑)的能力。

三是字詞關(guān)系數(shù)據(jù)集。構(gòu)建通假字資源庫能夠有效提高大語言模型識別通假字的能力。除通假關(guān)系外,戰(zhàn)國文字語料中還可以定義出異體關(guān)系、正訛關(guān)系、同形關(guān)系、同義換讀關(guān)系等,兩個字之間能否形成某種關(guān)系,還需要大量的前置條件。比如,“浴”字作為“谷”字的異體字時,是專造用來表示“山谷”這個含義的,這組關(guān)系主要是戰(zhàn)國時楚地的用字習慣。表示“沐浴”的“浴”則是其他時代和地域另外造的字,它與表示“山谷”的“浴”是一組沒有時空交集的同形字。這樣一組字詞關(guān)系的數(shù)據(jù)至少應(yīng)包含發(fā)生關(guān)系的兩個字的鍵值對、關(guān)系的定義、作用的詞義范疇、時代和地域范圍、用例等。如果將戰(zhàn)國文字中的這些字詞關(guān)系整理成數(shù)據(jù)集,模型理解戰(zhàn)國文獻的能力將大大提高,甚至可能借助龐大的知識系統(tǒng)提出創(chuàng)新性的解讀。

在這個大變革的時代,也許還應(yīng)考慮戰(zhàn)國文字這樣的“冷門絕學”能為人工智能做些什么?大語言模型在生成對話的過程中總是難免出現(xiàn)“幻覺”問題(即不準確內(nèi)容)。在引用古籍原文時,“幻覺”會導致大語言模型出現(xiàn)張冠李戴或胡編亂造的現(xiàn)象,給學習者帶來誤導。語料越冷門,模型就越容易出現(xiàn)幻覺。出土戰(zhàn)國文獻的文本相較古籍更為冷僻,這樣一來,模型生成的知識對于不了解傳統(tǒng)文化的愛好者可能會造成誤導,似是而非的文本在互聯(lián)網(wǎng)中進一步傳播,也會大大增加文化普及的工作量和復雜程度。“幻覺”雖然很難被消除,但仍可以通過檢索增強生成(Retrieval-Augmented Generation,RAG)和調(diào)整專業(yè)領(lǐng)域知識的權(quán)重得到改善,因此也更需要從業(yè)者付出時間來整理高質(zhì)量的數(shù)據(jù)集。想獨立完成高質(zhì)量的整理任務(wù)是很困難的。有必要發(fā)揮群體的力量,依托現(xiàn)成的開源社區(qū)來營造古文字的開源生態(tài)。我們可以先發(fā)布一系列較為粗糙的數(shù)據(jù)集,寄希望于后來者踩在先驅(qū)者的肩膀上,在已有開源數(shù)據(jù)集的基礎(chǔ)上不斷完善和迭代。開源開放是大語言模型未來的潮流,這股潮流也將潤及戰(zhàn)國文字研究領(lǐng)域。

本文系國家社科基金重大項目“戰(zhàn)國文字研究大數(shù)據(jù)云平臺建設(shè)”(21&ZD307)階段性成果

作者系中山大學古文字研究所研究員;中山大學中國語言文學系教授

來源:中國社會科學報

責任編輯:崔晉

新媒體編輯:曾煜婷

如需交流可聯(lián)系我們

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
喬治12歲生日,威爾士三寶意外現(xiàn)身有深意,威廉凱特下了一步妙棋

喬治12歲生日,威爾士三寶意外現(xiàn)身有深意,威廉凱特下了一步妙棋

小嵩
2025-07-23 16:02:41
湖南63歲大爺,收留16歲女子,3年后產(chǎn)下一子,10年后,大爺卻后悔了

湖南63歲大爺,收留16歲女子,3年后產(chǎn)下一子,10年后,大爺卻后悔了

坦然風云
2025-07-15 20:29:34
杭州67歲阿姨深夜上山抓知了失聯(lián)!30多人,找到次日凌晨2點

杭州67歲阿姨深夜上山抓知了失聯(lián)!30多人,找到次日凌晨2點

觀察鑒娛
2025-07-23 09:43:20
特朗普宣布與日本達成大規(guī)模貿(mào)易協(xié)議,對中國經(jīng)濟有何影響?

特朗普宣布與日本達成大規(guī)模貿(mào)易協(xié)議,對中國經(jīng)濟有何影響?

火星宏觀
2025-07-23 11:00:48
網(wǎng)傳驚天大瓜:宗馥莉結(jié)過婚,而且在美國生下一對龍鳳胎

網(wǎng)傳驚天大瓜:宗馥莉結(jié)過婚,而且在美國生下一對龍鳳胎

纏師門徒
2025-07-22 12:42:04
宗澤后再發(fā)長文,直指大哥宗慶后是罪魁禍首,他的怨念從何而來?

宗澤后再發(fā)長文,直指大哥宗慶后是罪魁禍首,他的怨念從何而來?

東方不敗然多多
2025-07-23 02:57:48
很突然!被曝大規(guī)模閉店!浙江街頭曾到處可見……

很突然!被曝大規(guī)模閉店!浙江街頭曾到處可見……

FM93浙江交通之聲
2025-07-22 15:03:04
霍啟剛:因失去3千億繼承權(quán),遭前任拋棄,郭晶晶為何愿嫁他

霍啟剛:因失去3千億繼承權(quán),遭前任拋棄,郭晶晶為何愿嫁他

手工制作阿殲
2025-07-23 05:12:33
記者:曼聯(lián)認為1.275億英鎊簽庫尼亞+姆伯莫堪稱超值交易

記者:曼聯(lián)認為1.275億英鎊簽庫尼亞+姆伯莫堪稱超值交易

雷速體育
2025-07-23 19:13:29
1.2萬億,20年,中國為什么要修墨脫水電站?一文為你解析

1.2萬億,20年,中國為什么要修墨脫水電站?一文為你解析

大道微言
2025-07-22 06:47:57
保姆陳宇萍被執(zhí)行死刑前,多次拒絕吃斷頭飯,行刑時已渾身癱軟

保姆陳宇萍被執(zhí)行死刑前,多次拒絕吃斷頭飯,行刑時已渾身癱軟

青絲人生
2024-05-05 21:53:44
老太花8萬買黃花梨木桌,孫子擦桌子發(fā)現(xiàn)桌底4個暗扣,打開后懵了

老太花8萬買黃花梨木桌,孫子擦桌子發(fā)現(xiàn)桌底4個暗扣,打開后懵了

嘉琪Feel
2025-06-27 20:20:04
有同行太珍惜跟詹姆斯對位,把這一幕紋在身上!

有同行太珍惜跟詹姆斯對位,把這一幕紋在身上!

氧氣是個地鐵
2025-07-23 19:57:33
哈利伯頓:跟腱斷裂后完全發(fā)不了力,科比竟然還能去罰球

哈利伯頓:跟腱斷裂后完全發(fā)不了力,科比竟然還能去罰球

雷速體育
2025-07-23 07:31:50
20年前借10萬給同事,沒想到他卻消失,一天收到銀行消息我愣住了

20年前借10萬給同事,沒想到他卻消失,一天收到銀行消息我愣住了

白云故事
2025-07-10 09:00:13
娘家哥嫂讓我出錢供侄子上大學,我拒絕,卻借20萬給大姑姐買房子

娘家哥嫂讓我出錢供侄子上大學,我拒絕,卻借20萬給大姑姐買房子

我是三月魚H
2025-07-23 17:41:09
毛阿敏北京聚餐,90歲谷建芬精神足,董文華變化大,蘇紅讓人心疼

毛阿敏北京聚餐,90歲谷建芬精神足,董文華變化大,蘇紅讓人心疼

銀河史記
2025-07-22 19:19:56
為什么中國一定要禁槍?1993年的沉痛教訓,至今不敢忘

為什么中國一定要禁槍?1993年的沉痛教訓,至今不敢忘

諾言卿史錄
2025-07-22 07:55:06
舊社會花船上的花魁有多慘?窗戶是琉璃做的,岸邊的人啥都能瞧見

舊社會花船上的花魁有多慘?窗戶是琉璃做的,岸邊的人啥都能瞧見

午夜故事會
2025-07-15 21:25:47
終于理解了汪峰為啥拋棄章子怡!日本度假的森林北,一張圖成絕殺

終于理解了汪峰為啥拋棄章子怡!日本度假的森林北,一張圖成絕殺

梁佇愛玩車
2025-07-21 17:16:15
2025-07-23 21:07:00
中國社會科學網(wǎng) incentive-icons
中國社會科學網(wǎng)
中國社會科學院官方網(wǎng)站
17477文章數(shù) 25541關(guān)注度
往期回顧 全部

科技要聞

別自嗨了!XREAL徐馳:AI眼鏡只有5歲智商

頭條要聞

網(wǎng)紅被索要非婚生女兒撫養(yǎng)費 稱與女方是"不正當關(guān)系"

頭條要聞

網(wǎng)紅被索要非婚生女兒撫養(yǎng)費 稱與女方是"不正當關(guān)系"

體育要聞

英格蘭最紅球星 也是加勒比島國驕傲

娛樂要聞

汪峰森林北同游日本 各帶各娃互不耽誤

財經(jīng)要聞

律師解析娃哈哈遺產(chǎn)案:遺囑是最大變數(shù)

汽車要聞

德系大招放盡 場地極限測試全新奧迪A5L

態(tài)度原創(chuàng)

手機
藝術(shù)
數(shù)碼
教育
公開課

手機要聞

HarmonyOS 6.0(20) Beta2:已發(fā)布!華為Mate80系列:更穩(wěn)了!

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

數(shù)碼要聞

GPU-Z v2.67更新,新增英偉達RTX 5050、RTX 3050 A等顯卡支持

教育要聞

“地域歧視?”廣西30多所大學招生艱難,西安一院校顆粒無收

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 五莲县| 大田县| 九龙坡区| 乌鲁木齐市| 永顺县| 仪陇县| 汉川市| 萍乡市| 平邑县| 平塘县| 龙南县| 灵山县| 承德市| 南安市| 平遥县| 鲜城| 卓资县| 莆田市| 灵石县| 开鲁县| 会泽县| 嵩明县| 凌源市| 凭祥市| 瑞丽市| 邵阳县| 宜兴市| 黄石市| 仪征市| 特克斯县| 得荣县| 永康市| 香港 | 长乐市| 鸡东县| 子洲县| 清新县| 赣榆县| 呼图壁县| 铜山县| 长沙县|