“數字”(digital)何以走進人文學科(humanities)的視野?一般認為,“數字人文”可追溯至1949年“人文計算”(humanities computing), 意大利耶穌會修士羅伯特·布薩在IBM公司的幫助下將圣托馬斯·阿奎相關著作制作為電子索引,至此開啟了計算機在語言學、文學、歷史學等諸多人文學科的熱潮。
簡單說,“數字人文”就是用電子信息技術來處理人文問題。目前,數字技術為人文學科提供的便利已得到承認,但是數字技術和人文學科的融合還存在諸多模糊和爭議的命題。要厘清數字人文相關命題,需要重返數字人文的理論基礎。
數字人文研究的理論基礎
作者/金觀濤
科學(哲學)研究的兩種對象
今天,人類的所有知識系統都已離不開計算機。人文研究、自然科學與社會科學都面臨日新月異數位分析的沖擊。對于自然科學和社會科學,它們和數字分析技術的關系是明確的。這就是隨著計算機數據庫的普遍建立,數字分析技術越來越成為自然科學與社會科學研究不可缺少的部分。但是,數字分析在今后的人文研究中究竟是什么位置?它們是對立的嗎?人文研究是否應如二十世紀初反對科學主義那樣再次起來捍衛自己的純粹性?還是承認數字方法在人文研究中有著不可取代的意義?為了回答這些問題,必須重返人文研究的理論(哲學)基礎。
大約在70年前,哲學家EnstCassirer在《人文科學的邏輯》一書的開篇會這樣發問:“柏拉圖曾經說過,驚異其實乃是一種哲學的激情,并且說,一切哲學思維之根本,都可溯源于這一種驚異。假如柏拉圖是對的話,便馬上產生一個問題:最原先喚醒人類之驚異的,并且把人類引導入哲學反省之途徑的,到底是一些怎樣的對象——它們是一些‘物理性’的(physische)對象嗎?抑或是一些‘精神性’的(geistige)對象呢?此中居于樞紐地位的,到底是自然秩序,抑或是人類自身的創作(dieeigenen Schopfungen der Menschen)呢?”
ErnstCassirer敏感地意識到,存在著兩種完全不同的對象。一種是自然界,另一種是人文世界。這兩種對象的研究分別構成了自然科學和人文科學。鑒于自然科學和人文科學本質的不同。判斷這兩類對象知識真實性遵循的原則大相徑庭。(Ernst Cassirer:《人文科學的邏輯》,關子尹譯,聯經出版社,1986年,頁1。)
在自然科學研究中,為了達到知識的真實性,必須建立研究對象客觀性原則,即有關對象的知識必須做到和研究者主體無關,不受人的價值系統影響。在人文研究的領域中,詮釋者和人的價值系統是不可能從研究對象的知識中排除出去的。這時,為了達到知識的真實性,必須提出和自然科學根本不同的方法。例如韋伯早就提出了理解方法,而Ernst Cassirer則在《人文科學的邏輯》進一步提出“視域融合”或“文本分析”等類似于當代詮釋學和符號學的研究方法。
今日,韋伯的理解方法、Ernst Cassirer的人文科學邏輯和當代詮釋學、符號學的研究方法已被人文研究者公認。但是,這些不同于自然科學和社會科學、作為人文研究本質的方法和數字技術是什么關系?它們是互相沖突的嗎?為此,我們必須去進一步追問:為什么只有用這些方法獲得的人文對象的知識才是可靠的?其前提又是什么?這時,探討人文研究和自然科學、社會科學的差別再一次成為分析的出發點。
眾所周知,在自然科學和社會科學研究中,追求真實是通過訴諸研究的客觀性來達到的。所謂研究的客觀性,通常是指排除觀察者或研究者的價值取向和主觀觀念對研究對象的影響,該方法成立的根據是研究對象為不依賴觀察者和研究者(主體)的獨立存在,我們可以將其稱為從研究對象中排除主體的客觀性(或價值中立)原則。
自柏拉圖以降,該原則已在知識論中牢牢地樹立。它一度被認為是對一切知識領域都成立的,故從十七世紀至今,它一直在向各個領域推進。十九世紀以后,客觀性原則已大規模地把各種學科包括進來,如經濟、政治和社會的知識,也被認為必須滿足該原則,它是建立社會科學的基礎。很多人看來,人文研究獲得的知識亦應該滿足該原則,歷史學就是例子。
我們可以用蘭克(Leopold von Ranke)的主張來說明這一點。為了排除主體價值取向和觀念系統對史實的歪曲,蘭克不相信二手史料,甚至認為過去歷史著作都是不可靠的。這樣,弄清歷史事實真相的唯一途徑就是窮本溯源,去研究“目擊者”是如何記載事實的。在判定一手原始資料是否真實的過程中,蘭克提出類似于清代漢學家考據的原則:愈是接近事件發生時間證人的陳述愈可靠。在蘭克那里,因為可靠的史料是和研究者的觀念無關的,故他反對針對史實做解釋,甚至視一切歷史理論(包括對重大事件因果關系的解釋和社會行動的模式)為虛妄。
雖然蘭克的研究方法至今仍是史學界的金科玉律,但是歷史學家愈來越感到上述客觀性原則在歷史研究中幾乎是做不到的,或者說即使做到了亦無意義。因為該原則充其量只是排除歷史研究中研究者的主觀價值,而不能消除歷史紀錄本身的主觀性。歷史事件的記錄和自然科學的觀察、社會科學的記錄(它們可以做到價值中立)有一巨大差別,即通常人只記錄他認為重要和值得記錄的事件,而什么是重要和值得記下來的,則往往取決于記錄者的價值系統。也就是說,原始史料作為人的社會行動記錄,從一開始訴諸文字時就和記錄者的觀念不可分離?;蛘哒f,它不是和記錄者或行動者的觀念可以分離的獨立存在。
舉一個例子,1789年7月14日是法國民眾攻占巴士底監獄的重要日子,今日歷史學家將其視為法國大革命的開始。但是,路易十六在那一天的日記中寫下:“今日,無事”,可見路易十六當天并不特別重視這一重大歷史事件,它只是頻頻發生的政治騷亂之一。顯而易見,今日歷史研究者不會從這條當事人的記錄來寫法國革命史,而要去參看有關那一天的其他大量歷史記錄。
但問題本質在于:任何人都從自己的價值系統出發記下認為那一天值得記錄的事,而要窮盡那一天所有發生的事又是不可能的。我們真的可以撇開一切觀念去談1789年7月14日真的發生了什么嗎?事實上,對攻占巴士底獄這一事件重要性的定位,它本身亦是某種觀念系統的產物。如果今天大多數人所持的觀念和路易十六相同,關于法國大革命是否存在就會變成有爭議的。法國大革命之所以成為歷史學家不斷研究的對象,是因為我們認為路易十六那一天的日記不代表歷史真實。而判別何種記錄為真,則依賴于我們的觀念和當時記錄者的觀念是否同構或可以互相理解。
由此可見,作為何年何月發生了什么這種歷史記錄(請注意:這是歷史記錄的核心部分),大多是不能當作不依賴于記錄者和研究者觀念之“客觀存在”的。一方面歷史事件原始記錄不能排除主觀價值,更重要的是,在判斷某一歷史事件是否真實和重要時,存在著研究者和觀察者(記錄者)觀念同構或可理解等價值判別原則。這時,即使如蘭克所說排除了研究者的主觀價值,也并不能達到歷史研究的客觀性。換言之,客觀性原則不能保證歷史知識的可靠性。
真實性和可理解(重演)性
那么,歷史學家用什么原則判斷史料的真假呢?顯然,在判斷上述歷史知識是否可靠時,我們應做的不是將事件當作和支配(或記錄)它的觀念無關之存在,反而是去準確地發現支配該歷史事件的觀念和記錄者之所以認為該事件值得記錄的理由。例如去“理解”為何路易十六在1789年7月14日日記中寫下“今日,無事”的原因等。這里所謂“理解”就是韋伯提出的理解方法。所謂“理解”,是設身處地去認識某一歷史事件發生的情景和支配其發生的價值系統。自然科學在研究水的性質時,不能做如下預設:如果我是水分子,水的性質會如何?因為水不是由人組成的,而社會卻不同。人既可以是社會行動的參與者,也可以是觀察者和反思者。這樣,在研究社會和人文對象時,是可以假定我是那個時代的行動者和歷史記錄者,即通過我會如何行動或會記錄哪些事件來理解當時情景。人可以設身處地地進入歷史情境去理解,保證了歷史知識的真實性。
實際上,任何人文知識的真實性都是用和上述理解方式類似的方法達到的。當我們面對的不是歷史事件記錄而是文本時,不也正是通過理解作者、引用者和詮釋者的觀念,將其和文本分析結合、發現該文本“所謂”、“當謂”等各層面意義,研究其“所指”和“能指”嗎?也就是說,準確地恢復人文對象中的觀念和價值,而不是想當然地用今日研究者的價值或想象來解讀文本,更不是從文本中排除觀念和價值,是人文研究中判斷知識可靠性的基本方法。眾所周知,正是上述方法構成文本分析、詮釋學和符號學的本質。
那么,在什么條件下,自然科學的客觀性原則也可以用來研究人文和社會現象呢?
我們發現,客觀性原則在歷史研究中可以運用需有一個前提,這就是支配(或記錄)該事件的觀念可懸置,即在人類歷史長河中,這些觀念自古以來就存在,而且從未改變過。如經濟上謀利動機、政治上追求權力等,在研究這些觀念支配的事件時,研究者根據我們當今已知的觀念就能判斷古人在做什么以及為什么這樣做。這時,因研究者的觀念和支配或記錄歷史事件的觀念相同,“理解”是不成問題的。
或者說,研究者在讀這些史料時,因“理解”輕而易舉,要做的僅是防止在理解過程中對其作歪曲性想象或解釋。這時,將其當作和研究者主體無關的存在有助于達到理解的準確性。換言之,因觀念的不變性,它可以懸置起來,只研究它支配的事件本身即可。在觀念可懸置前提下,有關人的社會行動的知識和人面對自然對象的知識類似。經濟學和政治學之所以可以貫徹客觀性原則成為社會科學,其原因正在于此。
而在絕大多情況,歷史事件的記錄和人文研究對象不滿足支配(或記錄)該事件(該對象)的觀念可懸置條件,故其和科學(社會科學)的觀察記錄是不同的,屬于純人文領域。因為研究對象中的動機和價值系統已和今日不同,如果不用人文研究方法去理解或恢復這些支配當時人們行動的普遍觀念和普遍價值,連鑒別該記錄的真假都不可能。
上述分析得到一個驚人的結論:從追求真實性的方法論本質來講,社會科學方法只是人文科學方法的特殊情況。換言之,人文科學研究方法原則上是包含了社會科學甚至自然科學的方法的。這對于今日處于自然科學和社會科學不斷擴張的壓迫下、正在一天天退縮并不斷起來反對科學主義和實證主義的人文研究來講,確實是某種鼓舞。但是,人們仍然懷疑,今日如此廣泛及普遍的自然科學和社會科學方法,在作為追求知識真實性原則的視野中,怎么可能是看來不甚精確、不甚可靠人文研究方法的特例呢?我們上面的分析正確嗎?
讓我們來分析人研究的對象(客體)和主體(研究者)的關系。其實,即使在自然科學領域,也并不是一定能將研究對象視為不依賴于觀察者(研究者)的獨立存在。當作為被研究的對象不能獨立主體存在,即外部存在離不開人的主體選擇和建構時,這時主客觀關系如圖1(上)所示。早在1980年代,二階控制論已證明這種被選擇、被建構的外部存在,是圖1(上)所示的系統本征態。[Heinz VonFoerster,On Constructing a Reality,in P. Watzawick(Ed.),The invented reality:Howdo we know what we believe we know(Contribution to Constructivism)(New York:Norton,1984)]
對于本征態而言,真實性就是操作系統經驗的可重復性。它有兩重含義:第一,作為觀察者個人某一經驗的可重復,它意味著觀察者可以反復觀察到某一種特定的現象,只要他進行某種特定的操作,他就能進入他曾經進入過的某一種特定的環境。經驗可重復的第二重含義是:不僅僅這一個觀察者可以重復這一經驗,任何其他觀察者只要實現相同的條件,他們也能進入相同的環境,看到同樣的東西。而只有當觀察者對研究對象的反作用(建構)可以忽略不計時,對象知識的獲得才可以簡化為如圖1(下)所示的系統。圖1(下)相對應的研究方法即客觀性原則,它是圖1(上)研究方法、即用被操控經驗的可重復性的一種特例。(金觀濤,《系統的哲學》,北京:新星出版社,2005年,頁40、頁62-63。)
在自然科學研究中,受控實驗中觀察可重復性是比客觀性更為普遍的有關對象知識真實性的原則。例如在量子力學中,對象的性質是不能視為和觀察者無關的客觀實在,觀察的真實性必須用受控實驗的可重復性來保證。只有對宏觀對象,觀察者對其作用可忽略不計,客觀性原則才生效。把量子力學和牛頓力學中觀察者和對象的關系和社會科學與人文科學中主體和對象關系作一對比是饒有趣味的。
顯然,如果把研究對象和主體不可分離的圖一(上)代表人文研究,研究對象和主體可以分離的圖一(下)是圖一(上)的特例,它正好代表社會科學研究。換言之,社會科學方法作為人文研究方法特例與自然科學中牛頓力學是量子力學的特殊情況一樣。當然,在人文社會研究中不能用受控實驗,自然科學判定本征態真實性方法不能直接拿到人文研究中來。但是,“理解”相當于在研究者心中重演歷史上(文本中)價值支配事件的過程,它與受控實驗的可重復性很類似。我曾將這種保證知識可靠性的方法稱為“擬受控實驗原則”,懸置觀念后達到的客觀性原則正是它的特例。換言之,我們得到的客觀真實性與經驗可重演真實性的關系是普遍成立的。
雖然歷史事件是一次性的,不會重演,但是應該注意到歷史事件是人的社會行動,它是在人的參與和控制下發生的;人的行動又是在價值目標支配下產生做某事的動機時而發生的。我們認為,由這一認識出發,就可以把受控實驗原則引入歷史研究,用于判斷某社會行動是否發生以及是怎樣發生的,也即可用于判斷社會行動的真實性。
“把受控實驗原則運用到判斷歷史上發生過的社會行動的真實性”是什么意思呢?這就是說我們在研究歷史事件的記錄時,必須去尋找導致該事件發生的支配參與者行動的普遍觀念。研究支配歷史事件的普遍動機和思想原因,實質上是研究者在自己心中重演該事件發生的過程,這一過程很類似于對受控過程做思想試驗。簡言之,因為歷史事件的核心是人的行動,人的行動受動機支配,動機又和價值系統與觀念互相關聯,也就是說,我們可以把分析人的行動動機和價值系統與觀念如何互相作用而引致事件的發生,看作與受控實驗存在著同構性。動機和與動機相聯系的價值系統或相應的觀念,相當于受控實驗條件中的X集(或X集中的大部分元素)。
因此,我們認為用受控實驗判別真實性原則是可以用于歷史研究的。這樣,我們就可以得到如下重要定義:所謂歷史事件的可重復性,并非真的是讓該社會行動再發生一次,而是指后人對該事件的可理解性。這里所謂的可理解性,是指歷史學家通過理解支配該社會行動的觀念(動機)把自己想象為當時的行動者(參與者),并根據觀念如何支配動機以及社會行動如何反作用于觀念,設身處地的想象整個參與過程。由此,我們達到歷史研究真實性的第一個普遍原則,這就是:當歷史記錄是人的行動或社會行動時,闡明支配該社會行動發生的價值系統和觀念(包括行動后果如何反作用于觀念)是呈現歷史真相的前提。我們將其稱為“擬受控實驗原則”。參見金觀濤、劉青峰,《觀念史研究:中國現代重要政治術語的形成》,香港:中文大學當代中國文化研究中心,2008年,頁430。
觀念史、科林伍德三定律和概念史
一旦認識到社會科學方法和人文研究中知識可靠性原則的關系,就可以考察數字分析在人文研究中的位置了。數字技術在社會科學中的運用主要是用來處理大量有關社會和經濟事實的觀察數據,其目的是用于提出或鑒別理論,而不是判斷數據的真實性。數字分析在人文研究中的運用主要不是針對數據統計(事實分析),而是處理歷史文獻和各式各樣的文本。
什么是文本?文本與事實不同,社會事實作為研究對象時,其背后的觀念和價值系統往往已被懸置(或大部分被忽略),而作為文本的原始文獻是包含著觀念和價值系統的。因此在某種意義上講,數字技術對人文研究的意義比社會科學更為重要,因為它針對的就是觀念和價值系統,這與判別人文知識的真實性直接相關。
請回憶一下上一節的討論,人文研究者如何重演歷史上有過的社會行動?他又如何進入那曾盛行一時但現在已被遺忘的觀念?顯而易見,除了去讀那個時代的文本之外別無它法。而數字分析在文本意義挖掘中的應用,正是可以幫助我們在大量文獻中,去發現已消失的觀念和價值系統。也就是說,數字分析技術在判別知識真實性層面和人文研究相關,而不是如在社會科學中僅僅是處理和統計的方法而已。由此可見,只要嚴格分析社會科學知識可靠性前提和人文知識可靠性前提的關系,就可以得到一個結論。這就是:當社會科學研究對象向人文研究對象轉化時,研究對象的擴大沒有限制數字分析技術的應用范圍,反而使其顯得更重要了。數字技術不僅和人文研究兼容,而且它在人文研究中的地位比在社會科學中更接近核心!
事實上,人文研究在二十世紀的發展,正是逐步發現數字分析在人文研究中核心地位的過程。我們可以用觀念史研究為例說明這一點。觀念史是在十九、二十世紀之交興起的,它在人文研究一直占據中心位置。觀念史研究的意義之所以被高度強調,這是因為人文學者感到必須對抗歷史和社會研究中,越演越烈的科學主義對人文精神的傷害。
所謂“科學主義”是指在人文研究中,忽略人的主體性和價值取向之實證主義,它根據社會事實的外在表征把統一的人文對象分解成互相隔裂的專業。正如ArthusO. Lovejoy所說:“觀念研究的不自然分裂,至少分隔了十二個學門。文學、藝術、科學、神學、教育、社會思想的學者,每個人都強行帶走西方思想體系的一部分,彼此孤立地在他們的秘室里極其仔細地去分割它,而整個有機體便在這種過程里死亡了,沒有人能恢復其生命,除非一個名為‘觀念史’的學科才能使它起死為生?!保ˋrthus O. Lovejoy:The Historiography ofIdeas,Essay in the History of Ideas,1948)正是在觀念史研究最盛的二十世紀20至30年代,用可重演性作為判別歷史事件真實性原則被發現了,這就是歷史哲學家科林伍德(R.GCollingwood)關于“一切歷史都是思想的歷史”的著名論斷。
科林伍德發現,如果某一歷史過程不能在歷史學家心里重演,研究者根本不能了解其真相,甚至不能判斷它是否真的發生過。他這樣論述:“歷史學家在自己的心靈里重演他所敘述的那些行動者的所作所為的思想與動機;而任何事件的繼續卻不是歷史的繼續,除非它所包括的行動動機,至少原則上如此,是能夠這樣加以重演的。”[柯林伍德(R.G.Collingwood)著,何兆武、張文杰譯,《歷史的觀念》,北京:商務印書館,1997年,頁174。]這樣一來,所謂歷史真實并非是過去發生過的事情,而是在心靈中可重演的,即它是“活著的過去”。
自1920年代起,科林伍德把上述發現概括為三條基本原則。除了歷史是活著的過去這第一條原理外,第二條原理是任何歷史研究都涉及二階歷史(關于該問題的思想史)。第三條原理則更為廣泛,認為歷史知識是濃縮(incapsulated)于今日思想結構中的。科林伍德意識到自己發現的重要性,認為歷史對二十世紀的重要性將猶如科學在十九世紀的重要位置。今日看來,他是第一個認識到各個時代的文本分析在歷史研究中核心位置的。
從來,在歷史研究中存在著兩種史料,一種是以文本形式存在的歷史記錄,另一種是從實物形態存在的證據(考古發現,活化石般的人類學知識等)。歷史研究的社會科學化往往把歷史想象成客觀的事實序列,即歷史進程和主體無關(或主體是可懸置的)。這樣,文本雖然是史料的核心,但歷史學家傾向于離開文本描繪客觀歷史,甚至更重視第二種史料??屏治榈氯勺铙@人的發現在于:如果沒有第一類史料(文本中那個意義世界),第二類史料是不可理解的。換言之,歷史知識本質是人文的而不是社會科學的,歷史學甚至是觀念史的一部分。
雖然科林伍德已差不多接近發現文本分析和研究歷史真實之關系,但是科林伍德的觀點在相當長時間沒有得到重視。直到1950年代德國歷史學家科塞雷克(ReinhartKoselleck)的概念史(Geschichtliche Grundbegriffe)研究才把科林伍德的發現推進一步,開關了日后可以走向數字人文研究的道路。何為“概念”?科塞雷克將其表達為和語境相聯系的觀念。他認為,一個概念(Grundbegriffe)是一個能捕捉到多種意思的觀念,其意義取決于它被使用的語境。換言之,概念是必須用語言(詞匯或術語)加以表達的。
但科塞雷克認為概念與詞匯(words)不同。在語義表達中,詞匯的意思相當明確。而概念的意思是不明確的。[ReinhartKoselleck, A Response to Comments on the Geschichtliche, in Lehmann/Richter(Eds.), The Meaning of Historical Terms and Concepts: New Studies onBegriffsgeschicht, (Edited by Hartmut Lehmann and Melvin Richter, GermanHistorical Instifute, 1996).]一旦把科林伍德的觀念轉化為和語言有關的概念,“歷史知識濃縮(incapsulated)于思想結構”就轉化為“歷史沉淀于特定概念”,文本分析的一個重要方面即詞匯的歷史語義學考察,由此就與概念變遷研究建立起了聯系。
科塞雷克的主要貢獻是他主編或參與撰寫的德國《概念史文庫》(1955)、《哲學歷史詞典》(1971-2007)以及《歷史中的基本概念:德國政治和社會語言歷史辭典》(1972-1997)(下簡稱《歷史中的基本概念》)。特別是《歷史中的基本概念》一書,收錄了115個在歐洲講德語的地域從1750至1850年間的基本政治社會概念(socialand political concepts)。眾所周知,這一百年是歐陸,特別是德國從傳統向現代轉型時期?!稓v史中的基本概念》通過詞匯歷史語義的考察,從這一百多個概念(詞匯)的起源、定型和變遷中揭示德國現代思想的形成。
實際上,在德國現代觀念形成的背后,是整個德意志民族形成的近現代史。由于概念的變遷并非空泛的哲學思辨,而是可從用述語語義變遷來證明的,這套規??涨暗陌司碓~典系列,被評為“至今為止嘗試過的最深刻細致的政治社會概念史研究”。
科塞雷克的概念史研究雖考察了1750-1850年大量文本,但是他沒有建立有關歷史文本的數據庫,亦沒有做到數字分析技術在詞匯使用頻度和意義類型統計中的應用。概念史研究更沒有想到的是,可以把類似的方法推廣到觀念史以外的歷史,甚至整個人文研究中去。雖然如此,文本分析和人文研究之間的障礙已經打通。只要大量歷史和人文研究的文本電子化,數字技術和人文研究的交融是遲早出現的!用數據庫和數字技術進行文本和述語的統計分析,最早出現在1990年代開始的中國現代觀念起源和演變的研究中。中國觀念史的研究成為數字人文學的第一個領域。
數據庫與中國當代觀念的形成
眾所周知,中國的近代是從1840年開始的。如果在觀念史領域審視中國社會變遷,其現代觀念在西方沖擊下的起源、形成和重構正好比德國晚一百年。其演變的軌跡亦深藏在有關述語的歷史語義之變遷中,和德國不同的是:將反映這一百年觀念變遷的文獻數字化遠比歐陸容易。因為中國現代觀念形成和演變過程只涉及中、日、韓三國的互動,且1895年前三國通用漢字,即文獻的語種比歐陸單純,故最有利建立歷史文獻電子文本的數據庫。
只要建立了這一百年政治思想文獻數據庫,可以用關鍵詞(keyword)頻度分析和意義類型演變揭示中國現代觀念的起源、形成和變遷。因為科塞雷克的“歷史沉淀于特定概念”可簡化為“歷史沉淀于特定的關鍵詞”,對這些特定關鍵詞的起源和語義變化的考察就如同DNA分析一樣,可以揭示一個個中國現代觀念起源和演變的歷史過程。而數據庫和數字分析為此提供了不可缺少統計的工具。
早在1997年,我和青峰提出的“中國現代政治觀念起源的計量研究”課題計劃獲得香港研究資助局(RGC)資助,利用數據庫方法通過關鍵詞統計分析以揭示中國近現代觀念起源和演變的研究已經開始。經過近十年的努力,我們建立了從晚清到五四新文化運動包含約一億兩千萬字文獻的“中國近現代思想史研究專業數據庫(1830-1930)”,通過近一百個重要政治術語歷史語義的統計分析,基本搞清了諸如“科學”、“民主”、“權利”、“社會”、“革命”等最重要的十大現代觀念從1830年到1924年百年來意義的變化。[這一系列研究計劃參見金觀濤、劉青峰《觀念史研究:中國現代重要政治術語的形成》一書的致謝。數據庫文獻目錄及說明參見《觀念史研究:中國現代重要政治術語的形成》一書的附錄一:“中國近現代思想史研究專業數據庫(1830-1930)”文獻目錄,而《觀念史研究:中國現代重要政治術語的形成》則收集了過去十年發表的相關主要論文。該書附錄二則為百個現代政治術語詞意匯編。]
實證研究得到如下兩個結論:第一,如果僅僅考察一個個現代觀念本身,忽略觀念之間的關系,今日中國人所持的基本現代觀念,無論其意義還是結構,都和五四新文化運動后期一模一樣。這無疑證明我們在思想史研究中十分強調的“觀念是建構新道德意識形態基本要素”的觀點。意識形態作為觀念系統,其形成和解體一般不影響組成它的基本觀念。當代中國人的觀念,都是馬列主義和三民主義這兩種意識形態除魅解體后游離出來的碎片。這些碎片比意識形態更基本,所謂中國現代觀念的起源和形成,是指這些組成意識形態基本要素的形成。確實,只要再往前追溯,立即發現所有這些現代觀念意義和結構在十九世紀至二十世紀初不同時期呈現出巨大差異。也就是說這些組成新道德意識形態的現代觀念都是在新文化運動中定型的,故我們將其稱為中國當代政治觀念。
第二,所有中國當代政治觀念的形成都經歷了三個階段。第一個階段是十九世紀中葉以后洋務運動時期,其特點是用中國原有的政治文化觀念對西方現代觀念意義進行選擇性的吸收:如西方現代觀念和中國傳統觀念無意義相交之處,即該觀念完全是新的,則出現中國文化對該觀念的拒斥。第二階段是從甲午后(1895-1900年)到新文化運動前(1915年)這二十年,這是一個中國人以最開放的心態接受西方現代觀念的時期。很多中國文化中不存在的新觀念都是在該階段傳入,而且以前經選擇性吸收的現代觀念亦變得較接近西方原意,故可稱為學習階段。
第三階段則是新文化運動時期(1915-1924年),我們看到的是對所有外來觀念進行重構,使其意義和第二階段不同。有的觀念回到第一階段相近的意義和結構,有的觀念形成了中國特有的意義。也就是說重構產生了中國式的現代觀念,并用它們建構了革命意識形態。
這一發現,對于我們來說是觸目驚心的。因為它和流行的現代性學習說嚴重不合?,F代性學習說把中國現代化進程分為器物層面向西方學習(洋務運動)、制度層面向西方學習(從戊戌變法到立憲共和)、價值層面向西方學習(新文化運動)三階段。如果說,我們講的第一階段選擇性吸收勉強可以用器物現代化來解釋,第二階段和第三階段和人們原來想象的完全不同?,F代性本起源于西方,故在現代化過程中,學習西方現代觀念(現代性)是極為重要的。但對于中國,它只是夾在三階段中間的一環,更重要的是:作為啟蒙的新文化運動,其真正意義不是原來想象的價值層面西化,而是對學習結果重構,使其變成中國式的;并用它們建立新的道德意識形態。
這三階段所揭示的中國傳統社會轉型之分期,亦和今日通行的史觀不同。第一階段是從鴉片戰爭到洋務運動,中國把向西方學習納入儒學經世致用的軌道。該時期中國社會的基本結構和傳統社會一模一樣,根本不屬于近現代。正是甲午中日戰爭證明其虛妄,中國傳統社會開始現代轉型,如引進西方現代政治經濟制度并建立現代民族國家。第二階段的學習導致嚴重社會整合危機,它引發了中國文化對西方引進的現代觀念重構時期,這就是新文化運動。這在其它社會現代轉型過程中很少看到,新文化運動既是次啟蒙運動,亦是歷史上中國文化融合外來文化經驗的復活。正因為如此,新文化運動才成為新道德意識形態形成時期,新道德意識形態迅速取代儒家意識形態整合社會。中國進入馬列主義(毛澤東思想)和三民主義建立黨國并互相競爭的時代。因此被稱為五四以后的中國當代史,實為和傳統社會同構的新道德有機體的形成和變遷之歷史。只有當道德意識形態式微,中國社會才回到社會現代轉型的基本軌道上來。
更使我們驚奇不已的是,本來我們研究的目標只是中國現代觀念起源和演變,它被嚴格限定在觀念史領域;但我們得到的卻是中國近現代社會轉型的歷史分期,這是一個橫跨政治史、經濟史和思想史更廣大的領域。也就是說,用數字分析方法對關鍵詞歷史語義分析的觀念史研究,似乎有一種不斷擴大研究領域的特點。它會越出原先嚴格規定的專業,指向宏大的歷史視野。
我們終于發現,關鍵詞的歷史語義分析比觀念史的范圍大得多,只有當關鍵詞代表概念時,其歷史語義分析才是概念史。實際上,關鍵詞除了可以代表概念外,它還大量用于指涉事件、主體、價值、空間及事物,它可以是文本中的任何東西。對這些指涉對象歷史語義的研究涵蓋歷史、語言變遷、事物形成等在內的所有人文領域。在數據庫建立之前,關鍵詞研究至多是編字典(收集新形成的語義)或相關研究,以幫助人們可認讀懂各種文本。一旦有完備的數據庫,各種關鍵詞歷史語義及其互相關系的研究是在探討人類意義世界的演變,它是一門新學科,我們可稱其為數字人文學。
數位人文學
正是在中國現代觀念起源和演變的研究和教學中,我們逐漸意識到數字人文學的基本方法和內容。它是從用數據庫方法研究各種類型的關鍵詞開始的。首先,必須根據研究目標確定涉及關鍵詞的類型和數目;然后,根據關鍵詞的性質將該研究分解為若干單元;最后,結論是將各單元研究綜合起來得出的。其每一個單元都包含如下三個基本步驟,每一個步驟都和數字技術有關:
第一步是通過數據庫特定關鍵詞檢索找到包含該關鍵詞的所有句子,這些句子形成一個龐大的句庫,它們是數字分析要處理的對象。第二步是確定該關鍵詞在每個句子和文本中的意義。因為文本由句子構成,而句子又由詞匯組成。這樣任何一個關鍵詞必定存在兩種意義。一是“詞典意義”,它規定了作為表達意義的最小單位的詞所指涉的對象。根據詞典意義和文法我們可以讀懂句子,句子的意義會給每一個關鍵詞以第二重意義,我們稱之為句子賦予關鍵詞的意義,或“使用中的意義”。由句子構成文本,文本的意義亦進一步在關鍵詞使用意義中烙下自己的印痕,即將新內涵添加到“使用中的意義”中去。
關鍵詞的“使用中的意義”可能和當時的“詞典意義”相同,亦可以不同。當兩者不完全相同時,就構成關鍵詞新意義的萌芽。當新意義越來越被普遍接受,意味著該關鍵詞意義結構已發生改變,它不再是(或限于)剛使用時的字典意義。第三步是對新意義的各種成分進行統計,去發現關鍵詞意義結構的歷史變化。也就是勾畫出每一個關鍵詞的意義譜系。
在這三個步驟中,每一步都離不開數字分析技術。第一步最簡單,只涉及數據庫建立和通過人機互動尋找關鍵詞并用檢索建立句庫。第二步涉及的數字分析技術相當復雜。當關鍵詞頻度超過數千次以上時,研究者用手工確立關鍵詞使用意義的各種成分已不可能。這時需要用關鍵詞叢或較高級程序來處理數以萬計的句子。第三步是利用數字技術的統計功能,它基本上和數字技術社會科學中的運用相同。
這三個步驟構成研究過程的一個基本單元,它準確地刻畫了一個關鍵詞的意義在歷史上產生和演變的過程。通過這樣一個個基本研究單元的展開,一組關鍵詞歷史語義變遷可定量地呈現在研究者面前。分析它們之間的關系,可以揭示關鍵詞某種語義的起源、普及和演變,以及它和另一個關鍵詞歷史語義的生命史如何糾纏。該復雜的歷史意義網絡是我們的意義世界變遷的一部分,也是用數字人文分析從文本中發現的東西。
假定被研究的關鍵詞代表的是觀念(或科塞雷克所說的“概念”),上述統計分析就是揭示該概念的歷史語義變遷,完整地刻畫了觀念的起源形成和演變之過程。假定被研究的關鍵詞代表的是一歷史事件,其統計表明某一歷史事件如何在人們心里發生,并印在具有某種思想和價值取向的人群中,成為觀念史圖像中的事件,它亦揭示了觀念史圖像中歷史事件如何流變。
科林伍德所謂歷史是活著的過去,通過上述研究得到的成果表明:這活著的過去,是如何隨著一代代人而處于流變之中的。如果被研究的關鍵詞表達的是某一主體,那么該主體歷史意義結構形成和變遷可以揭示它是如何被界定的,其屬性如何形成以及凝聚成某種特定的觀念。如果被研究的關鍵詞表達的是具體的事物,則關鍵詞意義結構分析刻畫了該事物起源的過程。
必須強調的是,因為人的整個意義世界都是用語言加以表達的,專業數據庫的建立原則上可以涵蓋歷史上所有文本,這樣關鍵詞檢索形成的句庫,以及用數字分析工具得到的意義歷史結構,幾乎涵蓋了人文研究的全部對象。我們可以用關鍵詞指涉的對象,對觀念、觀念史圖像中的事件、思想價值系統(歷史記憶中)的主體、客體、地理空間和事物等給出嚴格準確的定義。其中每一個都和人類整個意義世界互相交融,組成數字人文研究的對象。我們可作如下定義,并根據對象確定人文研究的門類:
一、觀念是文本中用一個或一組關鍵詞中的某一個表達的思想。對它的研究構成觀念史的基本內容。一旦把詞匯在語句中的意義(詞典意義)和它在文本中的意義聯系起來考察,立即會發現把概念和觀念區別開來是沒有必要的。因為根本不存在語境以外的觀念。
二、觀念史圖像中的事件是文本中用一個或一組關鍵詞中某一個表達的事件。對它的研究構成歷史記憶中事件的研究,它是歷史學的核心。(金觀濤、劉青峰,《觀念史研究:中國現代重要政治術語的形成》,頁434。)
三、歷史記憶中的主體是文本中用一個或一組關鍵詞中某一個表達的和“自我”及“我們”有關的對象。對它的研究構成人類自我認知和認同演變的新領域。
四、用上述方法還可以定義文本中用關鍵詞指涉的各種對象。如人物、事物、地區、國家、事物狀態、行為等等。它們都是人文研究中重要課題。
上述所有關鍵詞的句庫構成了數字人文研究的對象。既然人文和歷史知識是蘊含在文本意義世界之中,建立了文本各種關鍵詞句庫及其意義類型的分析,就是文本的意義挖掘(data mining)。而只有數字分析或統計技術才能實現大量文獻的關鍵詞檢索、統計其頻度以及展開關鍵詞叢頻度分析,并尋找有效的法則將其和意義世界相對應。也就是說,數字技術將成為人文研究方法的核心組成部分,故可稱之為數字人文學。
長程的二階(second order)反思
數字人文學和一般的人文研究有什么不同?既然文本的數字分析方法是如此重要,它和通常人文研究者熟悉的文本分析又是什么關系?顯而易見,數字分析不能代替人通過讀文獻進入過去的觀念,亦無法做到歷史過程在研究者心中重演,甚至無法判斷應該去尋找哪些關鍵詞。再復雜的計算機程序都不能區分關鍵詞的“所指”與“能指”,不會辨認關鍵詞在使用中的意義,數據庫和數字分析技術的功能僅在于可以加快人文研究的各個環節。也就是說,它只是人文研究的基本方法如理解方法、詮釋學方法和符號學方法的輔助工具。
但是,因數據庫包含的文獻量是任何一個研究者無法掌握、甚至窮畢生精力都無法閱讀的,其挖掘、處理數據能力大大超過研究者組成群體的總和。這樣,以數據庫和數字分析為基本工具的數字人文學和一般人文研究不同,它有如下兩個特點:
首先,原作為反思存在的人文研究成為可以用經驗檢驗的。長期以來,人文研究包含哲學、文學、歷史等不同學科,它是對人類意義世界之研究,構成反思意識的核心。在人文研究中有一個重要問題一直沒有解決,即它的結果如何具備必要的可檢驗性。當然,對于哲學和文學研究,可檢驗性不是一定總是需要的。但當人文研究和歷史有關時,如思想史、文學史、美術史等都涉及歷史知識的真實性,可檢驗性是不可回避的。
要求研究具備可檢驗性一直是人文研究的內在動力,它導致人文科學社會科學化,可人文研究一旦社會科學化,立即帶來科學主義和實證主義的弊病。數據庫和數字人文學的出現,不僅使得人文研究成為可檢驗的,而且其檢驗過程和社會科學化不同。一方面,其量化分析和社會科學一樣準確,甚至更準確;但另一方面,它不會損害人文研究中對主體和價值系統的強調,不需要人文研究對象把觀念懸置起來。這不得不說是人文研究的一個巨大進步。
數字人文學的出現帶來人文研究的另一個重大變化在于,長程宏觀的人文研究從此獲得自己的生命,人類長程二階反思的意識得以形成。在十八、十九世紀,宏大的歷史問題、歷史展開模式一直是人文研究的重要課題,甚至是其核心。但是正因為其知識的不可檢驗性,二十世紀人文研究日益放棄這種探索,集中到較小、較具體的領域。數字人文學的出現重新使研究者視野變得宏大,長程的歷史的人文研究再一次獲得其意義。
讓我們舉一個例子。重大歷史事件如何改變人們的普遍觀念,是一個重要但很難研究的問題。在數字人文學中,它實際上是去分析觀念史圖像中的事件和普遍觀念變遷之間的關系。我們會以《新青年》群體為何放棄自由主義為例,對這類研究做了嘗試。首先,我們通過關鍵詞檢索找出《新青年》雜志中提及的所有事件,它們為觀念史圖像中的事件,可以對每一事件標出其文本意義并做出統計。同時,亦可以通過關鍵詞檢索研究觀念的變化。把兩條線索綜合起來,就可以找到觀念史圖像中的事件如何改變觀念,新觀念一旦形成又如何對原有觀念史圖像中的事件再定位過程。我們發現,促使《新青年》群體放棄自由主義的是第一次世界大戰和五四運動等事件,而不是原先認為的十月革命和巴黎和會等。
一旦理解歷史事件(觀念史圖像中的事件)如何改變觀念,對于特定主體,歷史展開的全貌就呈現出來,這就是普遍觀念支配社會行動導致某些歷史事件發生,這些社會行動作為觀念史圖像中的事件進一步反作用于觀念的過程。歷史是普遍觀念與社會的互動,歷史展開的模式就是互動的模式,在相當長的時間里,歷史展開的模式被認為是沒有意義的,現在我們知道,歷史研究中獨特的因果律就是觀念史圖像中的事件如何改變觀念的模式,它亦是數字人文學研究的對象。數字人文學因處理的文獻量巨大、歷史時段長而具備一般人文研究不可能有的長程宏大視野,而人文研究相對于表達意義世界的文本而言,是建構二階知識以形成二階反思。
在此意義上講,數字人文學的研究有助于一種大尺度長程二階反思意識的形成。反思的本質是人可以從他當下生活的意義世界中跳出來,或退而遠瞻,或進入他所陌生而不喜歡的價值系統,以獲得對意義世界的新認識。數字人文研究使得人類在進行反思時再次可以進入宏大長程的視野,沉寂了一百多年的歷史哲學將恢復其青春。這確實是令人神往的。
本文原載于項潔主編:《數位人文研究的新視野:基礎與想象》,國立臺灣大學出版中心2011年版,頁45-84。配圖源于網絡,如有侵權請聯系后臺刪除。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.