網易首頁 > 網易號 > 正文申請入駐

蘇芃：互聯網時代的文字錯訛

2025-06-17 10:32:02　來源: 尚曦讀史

吉林舉報

分享至

本文轉自“語言文字周報”，旨在知識分享，如有侵權，敬請聯系小編刪除。

近日，筆者在網絡媒體上讀到一篇學術論文，其中引用《大唐新語》“終南捷徑”的典故說：“（盧）藏用指終南山謂之曰：‘此中大有佳處，何必在遠！’（司馬）承禎徐答曰：‘以仆所觀，乃仕宦快捷方式耳?！崩^而搜索“終南快捷方式”，“百度漢語”里竟然收有這一詞條，釋義依據即是《大唐新語》?！敖K南快捷方式”顯然是“終南捷徑”之誤。這個錯訛在許多嚴肅的學術著作里屢見不鮮，葉圣陶先生1914年發表過一篇文言小說《終南捷徑》，也被有些研究者誤作《終南快捷方式》。

究其原因，這一錯誤的產生與漢語詞匯的繁簡轉換有關。由于計算機專有名詞shortcut 在內地和港臺的翻譯不同，內地譯作“快捷方式”，港臺譯作“捷徑”，因此在對這類譯詞進行繁簡轉換時，即使上下文不涉及翻譯用語，也會出現繁體字“捷徑”變成簡體字“快捷方式”的現象。

時值畢業季，筆者在審讀各類論文時發現，除了單個漢字繁簡轉換不對應的常見錯誤（比如“皇后”誤成“皇後”、“千里”誤成“千裏”），整個詞語轉換時發生的錯訛也大量存在，其中“終南快捷方式”這類由繁轉簡的訛變相對較少，更多的是由簡轉繁時帶來的訛誤，如：資料→數據、信息→資訊、申請項目→申請專案、數字化→數位化。更有甚者，如：海內存知己→海記憶體知己、卜算子→卜運算元、途中奔馳→途中賓士、魯隱公元年→魯隱西元年?！百Y料”變成“數據”、“信息”變成“資訊”還并不影響文意，但“海內存知己”變成“海記憶體知己”就會讓一般讀者感到莫名其妙。這些錯誤的發生可歸因于內地與港臺對同一事物的稱名不同，尤其譯名分歧最多，于是按詞繁簡轉換時就會出現錯誤的關聯。類似現象，江慶柏先生《電腦自動轉換中文簡繁字產生的問題》（《古籍整理出版情況簡報》2014 年第1 期）一文已有揭示，但未引起足夠重視，各類出版物中繁簡轉換錯誤層出不窮。

實際上，互聯網時代的文字錯訛，除了繁簡轉換之誤，還有不少新的衍生類型。例如，因電腦、手機輸入法產生的錯訛?，F今最常用的是拼音輸入法，由于輸入拼音后在候選項里會有多組備選字詞，在選取時操作不慎或者判斷失誤會導致文本中音近訛字的出現。同樣，使用形碼輸入法，如五筆字型輸入法以及手寫輸入法等，可能會導致形近訛字的出現。

此外，還有一類非常特殊的錯訛，因九宮格輸入而產生。九宮格是手機拼音輸入法最常用的一種鍵盤布局，將ABC……XYZ 等26 個字母分布在8 個鍵位上，這樣一來，比如拼寫“早上”和“晚上”是完全相同的鍵位，在備選詞里又毗鄰，容易導致“早”“晚”混用的情況，這類不涉及漢字形音義關系的錯誤關聯在傳統書寫中不會發生。

再如，因OCR（Optical Character Recognition，光學字符識別）產生的錯訛。OCR 的原理就是通過掃描紙本等載體上的文字，確定其形狀，然后根據計算機程序進行匹配識別轉譯成字符。簡而言之，就是把圖像上的文字轉換成文本字符。OCR 軟件在許多領域應用廣泛，如果識別的對象本身是規范的排版文本，識別率非常高，人工校讀也簡便易行。但是在涉及古籍文本時，就容易發生形近而訛，如果人工校讀不仔細，就會遺患無窮。比如幾年前，在全國各地售賣糖炒栗子的包裝上，常會看到板栗簡介中援引《詩經》的“樹之棒果”，其實“棒果”是“榛栗”之訛。通過查檢發現，這可能是某篇學術論文在進行OCR時發生的錯誤，導致網上關于板栗的簡介以訛傳訛，最終傳播到了大眾生活中。

漢語文獻的文字訛誤類型，以形近而訛和音近而訛為主。從文字的書寫主體即人自身來看，形近而訛主要與視覺判斷有關，音近而訛主要與聽覺判斷有關。

筆者在以往的研究中還發現，書寫對象的特點也會帶來一定的影響。比如漢字中形聲字數量龐大，尤其進入楷書階段以后，形聲字比例大增，到了南宋已占漢字的90% 以上。大量形聲字的存在，使得同一聲旁且形旁相近的文字最易發生訛混。如“楊（楊）”與“揚（揚）”，皆從“昜”聲，而形旁“木”與“扌”相近，整個字形尤為相似，且讀音相同，字義也存相關性，于是在書寫與傳抄過程中，極易發生異變與混同。漢語中的訛字、異體字、通假字的孳生往往與形聲字這個特性有關。如今電腦拼音輸入法產生的錯誤，也是這一歷史問題的延續與變體，有時看似操作不慎，其實是因為受到形聲字這一特性的干擾。再者，漢字的結構特點與書寫習慣也會影響文字的正誤，如古人直行豎寫，就會發生《戰國策》中“觸龍言”被寫成“觸讋”的錯誤。

可見，傳統文字錯訛的原因主要在兩個層面：一是書寫主體（書寫者）判斷疏失，一是書寫對象（漢字、文本等）特性干擾。但是前文例舉的錯訛“終南快捷方式”、“早”“晚”混用、“樹之棒果”等，已超出了這兩個層面，它們有個共同之處—— 都和新型的書寫媒介有關。無論是繁簡轉換，還是九宮格輸入、OCR 文字識別，錯誤都可能發生在這些中間環節。這讓我們意識到，互聯網時代書寫主體和書寫對象之間還存在著一個機器智能的媒介。新型文字錯訛本質上是機器智能帶來的副作用。要化解機器智能的不足和局限，只有不斷提升技術工具性能，并且增加人工干預。

面對新型文字錯訛，總體而言，要大力發展信息技術，如人工智能、大數據、構建知識關聯，來解決新時代的新問題。以前文例舉的幾種錯訛類型而言，如繁簡轉換，可以在word 軟件里關閉“轉換常用詞匯”，只按字轉換，不按詞轉換。由于一個簡體字對應多個繁體字，由繁轉簡時，一般較少出現訛誤，這種方法能夠有效規避“終南捷徑”轉成“終南快捷方式”的問題。但是由簡轉繁，這種方法又會帶來不少繁簡單字不對應的錯誤，必須輔以嚴格的校對。另一方面，需要通過更新技術手段解決詞匯在轉換過程中帶來的關聯錯誤，比如在計算機中建立繁簡詞表，并標明具體對應的時間與地域信息，如是古代的繁體字詞，還是港臺當代的繁體字詞，進而構建歷時性的繁簡詞庫與共時性的繁簡詞庫。至于九宮格輸入、OCR 文字識別等新型錯訛，目前除了技術革新，比如基于大數據的聚類分析，恐怕還得依靠人工校正。

當然，最徹底有效的規范手段，是加強語言文字知識的普及教育，從文字使用者角度樹立規范與責任意識，防患于未然。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.