近些年來,我一直在從事數(shù)字人文平臺(tái)和數(shù)據(jù)庫的建設(shè)工作,先后建成了“學(xué)術(shù)地圖發(fā)布平臺(tái)”(http://amap.zju.edu.cn)、“智慧古籍平臺(tái)”(https://csab.zju.edu.cn)及“云四庫智能問答系統(tǒng)”(https://www.aiysk.cn)三個(gè)平臺(tái)。一方面,AI確實(shí)很智能,能夠幫助我們解決一些問題。另一方面,AI也并非如我們想象的那么智能,面對(duì)新的技術(shù),我們還需理性對(duì)待。
AI是智能的工具,虛擬的王國
人與動(dòng)物的區(qū)別,就在于是否會(huì)制造和使用工具。從遠(yuǎn)古的刀耕火種,到現(xiàn)代社會(huì)的工業(yè)文明,人類發(fā)展的歷史就是一部制造工具和使用工具的歷史。如今,人類文明已步入了智能文明時(shí)代,而作為這一階段的代表性工具,AI無疑是有史以來最智能的工具了,它應(yīng)用于人類生活的各個(gè)領(lǐng)域。譬如,醫(yī)生利用AI給人看病,軍事領(lǐng)域利用AI來制造武器等。在人文領(lǐng)域,智能的機(jī)器識(shí)別(OCR)、智能的標(biāo)點(diǎn)、智能的標(biāo)引及現(xiàn)在火爆的通用大語言模型如DeepSeek、通義千問等,都有極好的場(chǎng)景應(yīng)用。
對(duì)于AI,人文學(xué)者應(yīng)該秉持親近和擁抱的態(tài)度,而不是排斥和疏離的態(tài)度。首先,人文學(xué)者應(yīng)了解和學(xué)習(xí)各種AI工具及其功能,學(xué)著利用AI來解決問題。譬如,我們可以利用大模型來識(shí)別和標(biāo)注古籍、標(biāo)點(diǎn)和翻譯古籍、撰寫篇目和古籍提要等。再如,我們可以利用大模型的文生圖和文生視頻功能,來創(chuàng)作適合文化傳播的文創(chuàng)產(chǎn)品。又如,我們可以建設(shè)自己的知識(shí)庫,利用通用大模型的快速搜索和回答功能,使其與數(shù)據(jù)結(jié)合,來回答我們的專業(yè)問題。當(dāng)然,使用者要掌握基于計(jì)算機(jī)語言的AI工具,需要較長時(shí)間的學(xué)習(xí),甚至還要有一定的編程基礎(chǔ)。
對(duì)于AI,我們不能僅將其視為智能工具。實(shí)際上,包括AI在內(nèi)的基于計(jì)算機(jī)語言的各種大數(shù)據(jù)技術(shù)已為人類創(chuàng)造了一個(gè)虛擬世界。譬如,讓青少年沉迷其中的網(wǎng)游世界、讓大眾沉迷其中的短視頻世界、讓學(xué)者不得不面對(duì)的數(shù)據(jù)庫等,都是一種虛擬的存在,我們可以稱之為虛擬的數(shù)字王國或世界。這個(gè)虛擬世界與我們的現(xiàn)實(shí)世界既有普遍聯(lián)系,又有很大區(qū)別。像網(wǎng)絡(luò)游戲,游戲任務(wù)、情節(jié)是虛擬的,但網(wǎng)絡(luò)成癮這一社會(huì)問題卻是真實(shí)的。
馬克思曾說,“在這個(gè)必然王國的彼岸,作為目的本身的人類能力的發(fā)揮,真正的自由王國,就開始了。但是,這個(gè)自由王國只有建立在必然王國的基礎(chǔ)上,才能繁榮起來。工作日的縮短是根本條件”。如果我們將人文學(xué)者的知識(shí)生產(chǎn)看成一個(gè)從必然王國到自由王國的發(fā)展過程,那么,由數(shù)字構(gòu)成的虛擬世界則是我們無法繞過的。必然王國的“必然”,是指人類社會(huì)在生產(chǎn)力和生產(chǎn)關(guān)系的制約下,人們的行為和活動(dòng)受到客觀規(guī)律的支配,人們?yōu)榱松姹仨氉裱匀缓蜕鐣?huì)的規(guī)律。同樣,在計(jì)算機(jī)構(gòu)建的虛擬王國中,我們要到達(dá)自由王國,也要受到計(jì)算機(jī)語言相關(guān)法則的支配,必須遵循這個(gè)虛擬王國的客觀規(guī)律來進(jìn)行勞動(dòng)和生產(chǎn)。
AI并沒有真正解決古文的語義交互問題
被稱為“國運(yùn)”級(jí)別的語言大模型DeepSeek已在海內(nèi)外產(chǎn)生巨大的影響,得到了大范圍的應(yīng)用。但是,就個(gè)人的實(shí)踐和觀察來說,它在古文語義交互這一問題上,表現(xiàn)還有待提升。我建的“云四庫智能問答系統(tǒng)”,使用了阿里的通義千問系列(Qwen-72b、Qwq、Qwen-Plus、Qwen-Max)及杭州深度求索(DeepSeek-V3、DeepSeek-R1)等大模型作為底層基座,在此基礎(chǔ)上搭建了二次增強(qiáng)平臺(tái),添加了大量標(biāo)點(diǎn)后的古書、研究著作及論文。通過較長時(shí)間的問答測(cè)試,這些大模型在古文翻譯、出處查找、詩詞賞析、提要撰寫等方面表現(xiàn)相當(dāng)不錯(cuò)。譬如,讓機(jī)器查找“昔周室闇弱,靜帝幼沖,高祖以外戚之尊入握朝權(quán),都督諸軍,遂假黃鉞,開丞相府”這一段話的出處,機(jī)器很快給出答案:“這段文字的出處為宋濂所撰寫的《隋室興亡論》。該文見于《宋濂集》與《宋濂全集》中,主要論述了隋朝建立前后的歷史背景及關(guān)鍵事件。文中提到的‘昔周室闇弱,靜帝幼沖,高祖以外戚之尊入握朝權(quán),都督諸軍,遂假黃鉞,開丞相府’一句,是對(duì)隋高祖楊堅(jiān)在北周時(shí)期逐步掌握大權(quán)、最終代周建隋這一歷史進(jìn)程的概述。具體來說,此句描述的是北周靜帝宇文闡年幼即位、政權(quán)暗弱之時(shí),隋高祖楊堅(jiān)憑借外戚身份掌控朝政,并設(shè)立丞相府以總攬軍國大事的歷史情境。相關(guān)內(nèi)容亦可在《隋書》《北史》等正史中找到相應(yīng)的記載作為補(bǔ)充和佐證。”除了沒標(biāo)出卷數(shù)這一小遺憾外,其他內(nèi)容機(jī)器還是給出了準(zhǔn)確的回答。
在知識(shí)問答方面,DeepSeek和通義千問也能進(jìn)行簡(jiǎn)單的古文語義交互。譬如,我問:“有個(gè)朝代,北京的宦官比官吏多,女子比男子多,要飯的比商人多,這是哪本書上寫的,原文是怎樣的?”機(jī)器回答:“您提到的這段描述出自明代謝肇淛的《五雜俎》。原文如下(略)。這段文字描述了明代北京城的社會(huì)狀況,指出宦官、女子和乞丐的數(shù)量分別超過了官吏、男子、良婦和商人。同時(shí),謝肇淛還提到北京城中各種不良風(fēng)氣和人物的聚集,認(rèn)為這些現(xiàn)象使得北京成了一個(gè)‘陸海’,即繁華而復(fù)雜的城市。希望這段原文對(duì)您有所幫助。”我以翻譯后的一段文字向機(jī)器提問,讓其回答出處,它給出了正確答案。這表明機(jī)器在白話文和古文的對(duì)應(yīng)關(guān)系上,還是能作出一些反應(yīng)的。
但是,白話文與古文的語義交互,機(jī)器也只能停留在查找出處,遠(yuǎn)未達(dá)到如現(xiàn)代語言自由語義交互的階段。譬如,我要問宋濂的佛學(xué)思想,機(jī)器只能根據(jù)宋濂的研究論著來回答,而不能根據(jù)《宋濂全集》中宋濂寫的佛教文章來回答。再如,我讓機(jī)器回答朱元璋的反腐措施及效果,它只會(huì)根據(jù)《中國反貪史》等著作回答,而不能根據(jù)原始文獻(xiàn)來回答。假如機(jī)器能根據(jù)古籍等原始文獻(xiàn),通過檢索和分析來回答問題,那么,我們可以說,古籍的活化利用才到達(dá)了一種理想的狀態(tài)。在DeepSeek火爆出圈的前夕,我曾聯(lián)系到杭州深度求索的CEO,表達(dá)共同開發(fā)古籍大語言模型的愿望。遺憾的是,對(duì)方告訴我,他們目前暫時(shí)還無暇顧及古籍大模型的研發(fā)。
AI時(shí)代的挑戰(zhàn)與機(jī)遇
以知識(shí)傳授和搬運(yùn)為職業(yè)的教師,在強(qiáng)大的大語言模型和虛擬機(jī)器人的沖擊下,可能面臨需求銳減的趨勢(shì)。因此,如何應(yīng)對(duì)AI對(duì)文科相關(guān)職業(yè)產(chǎn)生的沖擊、AI時(shí)代文學(xué)教育如何進(jìn)行等一系列問題都需要我們積極回應(yīng)。
古籍是中國古代文化最大的信息源,開發(fā)出真正能活化利用的古籍大模型勢(shì)必有助于中華優(yōu)秀傳統(tǒng)文化的弘揚(yáng)與傳播。AI在帶來技術(shù)革命的同時(shí),也在為有識(shí)者創(chuàng)造一些機(jī)會(huì)。譬如,數(shù)字人文里的“眾包技術(shù)”,可以解決大量文科生的就業(yè)問題。就古籍整理來說,老祖宗給我們留下了浩如煙海的文化典籍。這些古籍的影像數(shù)字化、文本數(shù)字化、標(biāo)點(diǎn)及標(biāo)引等工作,需要幾代人的努力才能夠完成。目前,浙江大學(xué)的“智慧古籍平臺(tái)”、中華書局的古聯(lián)公司、北京大學(xué)與字節(jié)跳動(dòng)合作的“識(shí)典古籍”等都利用了“眾包技術(shù)”,參與者可以在線上校點(diǎn)古籍。除了古籍,還有大量的現(xiàn)代出版物也需要數(shù)字化、文本化,這是人工智能時(shí)代對(duì)數(shù)據(jù)這一新質(zhì)生產(chǎn)力的迫切需求。雖然排印本的近現(xiàn)代出版物,其OCR的準(zhǔn)確率可以達(dá)到95%—98%,但由于近現(xiàn)代出版物回溯工程的量特別巨大,仍然需要大量專業(yè)人員從事校對(duì)工作。
此外,大量結(jié)構(gòu)化的數(shù)據(jù)需要人工完成。譬如,古今人物的行跡數(shù)據(jù),就需要受過一定學(xué)術(shù)訓(xùn)練的專業(yè)人員來制作。“學(xué)術(shù)地圖發(fā)布平臺(tái)”經(jīng)過五六年的努力,也才完成了800多位人物的結(jié)構(gòu)化行跡數(shù)據(jù)。而從先秦到當(dāng)代,需要制作的人物行跡數(shù)據(jù)數(shù)以萬計(jì)。再如,哈佛大學(xué)和復(fù)旦大學(xué)史地所合作的“中國歷史地理信息系統(tǒng)”(CHGIS),目前只有省、府、縣三級(jí)。如果要對(duì)中國古代留存下來的各個(gè)省、府、縣地方志中的地名進(jìn)行文本化、結(jié)構(gòu)化,必將是一個(gè)龐大的工程。已出版的大量工具書,包括圖像等,都面臨這樣的需求。
算力、算法、模型和數(shù)據(jù),是人工智能的四要素。人文社會(huì)科學(xué)優(yōu)質(zhì)數(shù)據(jù)的生產(chǎn)離不開專業(yè)人員的勞動(dòng)。AI時(shí)代已經(jīng)到來,我們要抓住歷史機(jī)遇,從容應(yīng)對(duì)時(shí)代挑戰(zhàn)。
(作者系浙江大學(xué)中文系教授)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.