本文轉自“語言文字周報”,旨在知識分享,如有侵權,敬請聯系小編刪除。
近日,筆者在網絡媒體上讀到一篇學術論文,其中引用《大唐新語》“終南捷徑”的典故說:“(盧)藏用指終南山謂之曰:‘此中大有佳處,何必在遠!’(司馬)承禎徐答曰:‘以仆所觀,乃仕宦快捷方式耳?!崩^而搜索“終南快捷方式”,“百度漢語”里竟然收有這一詞條,釋義依據即是《大唐新語》?!敖K南快捷方式”顯然是“終南捷徑”之誤。這個錯訛在許多嚴肅的學術著作里屢見不鮮,葉圣陶先生1914年發表過一篇文言小說《終南捷徑》,也被有些研究者誤作《終南快捷方式》。
究其原因,這一錯誤的產生與漢語詞匯的繁簡轉換有關。由于計算機專有名詞shortcut 在內地和港臺的翻譯不同,內地譯作“快捷方式”,港臺譯作“捷徑”,因此在對這類譯詞進行繁簡轉換時,即使上下文不涉及翻譯用語,也會出現繁體字“捷徑”變成簡體字“快捷方式”的現象。
01
時值畢業季,筆者在審讀各類論文時發現,除了單個漢字繁簡轉換不對應的常見錯誤(比如“皇后”誤成“皇後”、“千里”誤成“千裏”),整個詞語轉換時發生的錯訛也大量存在,其中“終南快捷方式”這類由繁轉簡的訛變相對較少,更多的是由簡轉繁時帶來的訛誤,如:資料→數據、信息→資訊、申請項目→申請專案、數字化→數位化。更有甚者,如:海內存知己→海記憶體知己、卜算子→卜運算元、途中奔馳→途中賓士、魯隱公元年→魯隱西元年?!百Y料”變成“數據”、“信息”變成“資訊”還并不影響文意,但“海內存知己”變成“海記憶體知己”就會讓一般讀者感到莫名其妙。這些錯誤的發生可歸因于內地與港臺對同一事物的稱名不同,尤其譯名分歧最多,于是按詞繁簡轉換時就會出現錯誤的關聯。類似現象,江慶柏先生《電腦自動轉換中文簡繁字產生的問題》(《古籍整理出版情況簡報》2014 年第1 期)一文已有揭示,但未引起足夠重視,各類出版物中繁簡轉換錯誤層出不窮。
實際上,互聯網時代的文字錯訛,除了繁簡轉換之誤,還有不少新的衍生類型。例如,因電腦、手機輸入法產生的錯訛?,F今最常用的是拼音輸入法,由于輸入拼音后在候選項里會有多組備選字詞,在選取時操作不慎或者判斷失誤會導致文本中音近訛字的出現。同樣,使用形碼輸入法,如五筆字型輸入法以及手寫輸入法等,可能會導致形近訛字的出現。
此外,還有一類非常特殊的錯訛,因九宮格輸入而產生。九宮格是手機拼音輸入法最常用的一種鍵盤布局,將ABC……XYZ 等26 個字母分布在8 個鍵位上,這樣一來,比如拼寫“早上”和“晚上”是完全相同的鍵位,在備選詞里又毗鄰,容易導致“早”“晚”混用的情況,這類不涉及漢字形音義關系的錯誤關聯在傳統書寫中不會發生。
再如,因OCR(Optical Character Recognition,光學字符識別)產生的錯訛。OCR 的原理就是通過掃描紙本等載體上的文字,確定其形狀,然后根據計算機程序進行匹配識別轉譯成字符。簡而言之,就是把圖像上的文字轉換成文本字符。OCR 軟件在許多領域應用廣泛,如果識別的對象本身是規范的排版文本,識別率非常高,人工校讀也簡便易行。但是在涉及古籍文本時,就容易發生形近而訛,如果人工校讀不仔細,就會遺患無窮。比如幾年前,在全國各地售賣糖炒栗子的包裝上,常會看到板栗簡介中援引《詩經》的“樹之棒果”,其實“棒果”是“榛栗”之訛。通過查檢發現,這可能是某篇學術論文在進行OCR時發生的錯誤,導致網上關于板栗的簡介以訛傳訛,最終傳播到了大眾生活中。
02
漢語文獻的文字訛誤類型,以形近而訛和音近而訛為主。從文字的書寫主體即人自身來看,形近而訛主要與視覺判斷有關,音近而訛主要與聽覺判斷有關。
筆者在以往的研究中還發現,書寫對象的特點也會帶來一定的影響。比如漢字中形聲字數量龐大,尤其進入楷書階段以后,形聲字比例大增,到了南宋已占漢字的90% 以上。大量形聲字的存在,使得同一聲旁且形旁相近的文字最易發生訛混。如“楊(楊)”與“揚(揚)”,皆從“昜”聲,而形旁“木”與“扌”相近,整個字形尤為相似,且讀音相同,字義也存相關性,于是在書寫與傳抄過程中,極易發生異變與混同。漢語中的訛字、異體字、通假字的孳生往往與形聲字這個特性有關。如今電腦拼音輸入法產生的錯誤,也是這一歷史問題的延續與變體,有時看似操作不慎,其實是因為受到形聲字這一特性的干擾。再者,漢字的結構特點與書寫習慣也會影響文字的正誤,如古人直行豎寫,就會發生《戰國策》中“觸龍言”被寫成“觸讋”的錯誤。
可見,傳統文字錯訛的原因主要在兩個層面:一是書寫主體( 書寫者)判斷疏失,一是書寫對象(漢字、文本等)特性干擾。但是前文例舉的錯訛“終南快捷方式”、“早”“晚”混用、“樹之棒果”等,已超出了這兩個層面,它們有個共同之處—— 都和新型的書寫媒介有關。無論是繁簡轉換,還是九宮格輸入、OCR 文字識別,錯誤都可能發生在這些中間環節。這讓我們意識到,互聯網時代書寫主體和書寫對象之間還存在著一個機器智能的媒介。新型文字錯訛本質上是機器智能帶來的副作用。要化解機器智能的不足和局限,只有不斷提升技術工具性能,并且增加人工干預。
03
面對新型文字錯訛,總體而言,要大力發展信息技術,如人工智能、大數據、構建知識關聯,來解決新時代的新問題。以前文例舉的幾種錯訛類型而言,如繁簡轉換,可以在word 軟件里關閉“轉換常用詞匯”,只按字轉換,不按詞轉換。由于一個簡體字對應多個繁體字,由繁轉簡時,一般較少出現訛誤,這種方法能夠有效規避“終南捷徑”轉成“終南快捷方式”的問題。但是由簡轉繁,這種方法又會帶來不少繁簡單字不對應的錯誤,必須輔以嚴格的校對。另一方面,需要通過更新技術手段解決詞匯在轉換過程中帶來的關聯錯誤,比如在計算機中建立繁簡詞表,并標明具體對應的時間與地域信息,如是古代的繁體字詞,還是港臺當代的繁體字詞,進而構建歷時性的繁簡詞庫與共時性的繁簡詞庫。至于九宮格輸入、OCR 文字識別等新型錯訛,目前除了技術革新,比如基于大數據的聚類分析,恐怕還得依靠人工校正。
當然,最徹底有效的規范手段,是加強語言文字知識的普及教育,從文字使用者角度樹立規范與責任意識,防患于未然。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.