過去二十年,無數(shù)中國人學(xué)會(huì)了使用電腦后,都患上了一種“病”:提筆忘字。
對(duì)著一張白紙,腦子里想的字呼之欲出,卻怎么也寫不出來。
病根大家都知道:拼音輸入。
拼音輸入是一種真正的“無記憶、無障礙”的輸入法,幾乎統(tǒng)治了現(xiàn)在的漢字輸入法市場(chǎng)。
但是很少人知道,在90年代以前,拼音輸入根本沒有市場(chǎng),“以形為主”的漢字輸入法才是主導(dǎo),那個(gè)時(shí)候,學(xué)電腦就是學(xué)WPS和五筆字型。
那拼音輸入到底是怎么發(fā)展起來的呢?
0 1
明快打字機(jī)
之前看過一個(gè)中文鍵盤輸入法的搞笑圖:
這幅圖充分說明了中文輸入的難點(diǎn):字符實(shí)在太多了,常用字就有3500個(gè)。
不像英文的26個(gè)字母,每個(gè)字母都有鍵盤對(duì)應(yīng),所見即所得。
所以,中文信息處理的前輩們考慮的第一個(gè)問題就是,如何用較少的鍵來處理更多的漢字。
20世紀(jì)40年代,著名作家,《京華煙云》的作者林語堂發(fā)明了一個(gè)叫做“明快”的中文打字機(jī)。
他自創(chuàng)了一種“上下形檢字法 ”,放棄了筆順,只要知道一個(gè)漢字的左上和右下部分,就能完成輸入。
但是漢字眾多,只靠左上和右下的部分,可能會(huì)出現(xiàn)同樣結(jié)構(gòu)的字。
林語堂就把這些同樣結(jié)構(gòu)的字放到一個(gè)叫做“魔眼”的窗格中,用數(shù)字的方式來選取。
對(duì)于一個(gè)字來說,需要按三次鍵:首鈕,末鈕和數(shù)字鍵。
林語堂把打字的過程變成了一個(gè)搜索的過程,這已經(jīng)有了點(diǎn)現(xiàn)代輸入法的雛形。
這個(gè)小小的、機(jī)械結(jié)構(gòu)的打字機(jī),竟然承載了8000多個(gè)漢字,可以想象,背后的設(shè)計(jì)和編碼都是非常巧妙的。
實(shí)際上,從醞釀想法到做出來,明快打字機(jī)花費(fèi)30年之久,耗資12萬美元(40年代,這是個(gè)天文數(shù)字),林語堂甚至賣掉麥哈頓的房子,背負(fù)了一身債務(wù)。
1946年,林語堂向美國專利局遞交了專利申請(qǐng),開始尋找可以生產(chǎn)打字機(jī)的公司,雷明頓打字機(jī)公司表示了興趣,邀請(qǐng)林語堂去做一次演示。
悲催的是,像很多偉大產(chǎn)品的演示一樣,尷尬的事情發(fā)生了,按下打字機(jī)的一個(gè)鍵時(shí),機(jī)器沒有反應(yīng)。
故障雖然容易解決,但林語堂失去了和雷明頓打字機(jī)公司合作的機(jī)會(huì)。
林語堂四處奔走,利用自己多年積累的全部關(guān)系網(wǎng)來推廣,依然沒有公司敢于冒險(xiǎn)生產(chǎn)這個(gè)復(fù)雜的機(jī)器。
這個(gè)天才的機(jī)器就這么夭折了。
0 2
SinoType
如果說林語堂的明快打字機(jī)還需要獨(dú)特的鍵盤的話,那么1959年問世的SinoType則率先實(shí)現(xiàn)了用QWERTY鍵盤來輸入中文。
SinoType的發(fā)明人是麻省理工的教授考德威爾,這是一位邏輯電路設(shè)計(jì)領(lǐng)域的頂尖專家。
考德威爾剛開始并不懂中文,在一次和學(xué)生的聚餐中,學(xué)生李凡向他解釋說漢字書寫有一套標(biāo)準(zhǔn)的筆畫,當(dāng)不同的人書寫同一個(gè)漢字時(shí),使用的基本筆畫是相同的。
也就是說,中文是有“拼寫”的,中國人總用同樣的方式來拼寫一個(gè)字。
考德威爾立刻意識(shí)到,他可以建立一個(gè)邏輯電路來控制這個(gè)過程。
考德威爾和李凡等人研究了中國古代的書法歷史,確定了使用21個(gè)基本筆畫,然后又分析了每個(gè)筆畫出現(xiàn)的頻率,這樣在電路設(shè)計(jì)中,可以把最短的編碼分配給最常用的筆畫。
每個(gè)筆畫,在鍵盤上都有一個(gè)鍵來對(duì)應(yīng)。
例如想輸入“牛”,需要按GBBD。
但問題是“午”,也是GBBD,為解決同形異義詞問題,考德威爾像林語堂那樣,用數(shù)字1,2,3來選擇。
SinoType計(jì)算機(jī)的測(cè)試結(jié)果也令人振奮,在鍵盤上練習(xí)20小時(shí)以后,中文輸入速度可以接近英文打字速度。
考德威爾進(jìn)一步研究發(fā)現(xiàn),很多時(shí)候,對(duì)于多筆畫的漢字,操作員通常只需要輸入幾個(gè)筆畫,SinoType就能匹配到正確的漢字!
漢字的“最小拼寫長度”實(shí)在是驚人,只要達(dá)到最小拼寫長度,實(shí)際上就可以鎖定鍵盤,不用輸入了。
考德威爾在不知不覺中發(fā)明了“自動(dòng)完成”的功能。
1960年考德威爾猝然離世,SinoType失去了首席科學(xué)家,更重要的是,五角大樓認(rèn)為,作為宣傳戰(zhàn)的武器,“Sinotype”的殺傷力還不夠大。
沒錯(cuò),在冷戰(zhàn)時(shí)期,SinoType被賦予了意識(shí)形態(tài)斗爭(zhēng)的重任。
造出了原型機(jī)以后,SinoType被束之高閣。
0 3
牛棚中的發(fā)明
支秉彝曾是留學(xué)德國的博士,電信工程和測(cè)量?jī)x器專家,曾任上海市電工儀器研究所所長。
1968年,他被誣為“反革命學(xué)術(shù)權(quán)威”,關(guān)進(jìn)“牛棚”,那段時(shí)間,陪伴他的只有墻上的八個(gè)大字:“坦白從寬,抗拒從嚴(yán)”。
支秉彝怔怔地看著這八個(gè)字,驟然間萌發(fā)了一個(gè)研究想法:能不能把漢字編成一種有規(guī)律的代碼,用以替代打電報(bào)的老辦法?
更進(jìn)一步,能不能進(jìn)而讓漢字同西文一樣直接進(jìn)入計(jì)算機(jī)?
支秉彝憑早年在德國任教漢語的根基,潛心思考,運(yùn)用26個(gè)字母逐個(gè)編碼漢字。
當(dāng)時(shí),支秉彝手頭有筆,卻沒有紙,就利用茶杯蓋子,幾十個(gè)漢字編滿了,抹了再編。沒有字典,就憑記憶。
1969年,支秉彝離開“牛棚”,去勞動(dòng)改造,掃地,看守倉庫,閑下來的時(shí)候繼續(xù)研究編碼。
之前無論是林語堂“明快”還是考德威爾的“SinoType”,他們都喜歡以字型為基礎(chǔ)進(jìn)行分析和分類。
但是支秉彝有了一個(gè)全新的武器:漢語拼音。
新中國成立初期,我國文盲率達(dá)80%,為了能迅速改變落后面貌,中國開展了漢字簡(jiǎn)化、推廣普通話和制定推行漢語拼音方案三大任務(wù)。
1958年,中國公布了由漢語拼音方案委員會(huì)制定的《漢語拼音方案》,并迅速在全國推廣。
拼音的誕生,不但開啟了“語同音”的時(shí)代,也為漢字輸入提供了全新的思路。
他仔細(xì)研究和總結(jié)了國外編碼方法的優(yōu)缺點(diǎn),創(chuàng)造了打破單一分解漢字字形的方式,與眾不同地綜合分析漢字字音、字形、筆劃和拼音之間的關(guān)系。
關(guān)鍵是用26個(gè)字母進(jìn)行編碼,以4個(gè)字母表示一個(gè)漢字,規(guī)則簡(jiǎn)單,易于掌握。
如“路”字,可拆成口、止、文、口四部分,取部首拼音讀音的第一個(gè)字母,即組成“路”的代碼KZWK 。
這種編碼方案建立在字音和字形的雙重關(guān)系上,見字就能識(shí)碼,見字就能打碼,不必死記硬背,并且可以用普通鍵盤來輸入。
1978年,支秉彝發(fā)布了他的“見字識(shí)碼”系統(tǒng),引發(fā)國內(nèi)轟動(dòng)。
1983年,上海儀器儀表研究所以“支碼”為基礎(chǔ),為全國50多個(gè)單位提供了電腦漢字信息處理技術(shù)和設(shè)備,標(biāo)志著我國電腦漢字信息處理進(jìn)入了應(yīng)用推廣階段。
0 4
五筆字型
林語堂的“明快”打字機(jī)和SinoType采用的是字形檢字法,支秉彝的“支碼”用的是字形拼音結(jié)合法,這么發(fā)展下去,簡(jiǎn)單易學(xué)的純拼音輸出法應(yīng)該出現(xiàn)了吧?
其實(shí)并沒有,拼音輸入法最大的問題是重碼率高,每個(gè)音節(jié)都有數(shù)十個(gè)備選!
記得早期的智能ABC輸入法,那叫一個(gè)慢,每次輸入完畢,還得手工翻頁選詞,極其麻煩。
解決這個(gè)問題的辦法就是用詞庫來保存各種各樣的詞,短語,這樣就能從打字變成打短語,甚至打句子。
然后,即使是最基礎(chǔ)的詞庫,也需要幾百M(fèi)空間來保存,那些包含專業(yè)術(shù)語、網(wǎng)絡(luò)用語和口音變體的詞庫,更是高達(dá)幾個(gè)G。
80年代和90年代初期,電腦硬盤都很小,也就幾十M到上百M(fèi),是沒法玩兒拼音輸入法的。
所以,還是折騰字形吧。
同樣在1983年,一個(gè)僅僅占用幾百K空間的輸入法問世了:五筆字型。
它的發(fā)明人是河南南陽人王永民。
五筆字型不僅小巧,而且打字速度超快,它鍵碼短、輸入快,多簡(jiǎn)碼,一個(gè)字或一個(gè)詞組最多只有四個(gè)碼。
普通人每分鐘可以輕松達(dá)到120~140字,而專業(yè)人士可以達(dá)到200字以上。
在"五筆字型全國大賽"中,在"錯(cuò)一罰五"的嚴(yán)厲比賽規(guī)則下,21歲的女孩王君創(chuàng)下了每分鐘輸入293個(gè)漢字的世界記錄,人眼一分鐘也就能看300個(gè)字左右,王君的錄入速度已接近人眼瀏覽極限。
五筆字型唯一的問題是:學(xué)起來太難!
用戶得掌握拆字技巧,記住口訣,然后反復(fù)練習(xí)指法,很費(fèi)時(shí)間。
但是,80年代計(jì)算機(jī)還是絕對(duì)的“高科技”產(chǎn)品,它的使用者多為辦公人員或?qū)I(yè)技術(shù)人員,這些人對(duì)輸入效率要求較高,愿意花時(shí)間學(xué)習(xí)五筆字型。
五筆字型雖然學(xué)習(xí)門檻高,但掌握后回報(bào)率極大,所以五筆就迅速成為輸入法領(lǐng)域的老大了。
那時(shí)候一說學(xué)電腦,就是學(xué)WPS,加上五筆字型,各位文印店里的電腦五筆字型是標(biāo)配,那些年輕的打字員雙手翻飛,打起字來劈里啪啦,蔚為壯觀。
0 5
拼音稱霸
90年代后期,電腦配置越來越高,像我第一臺(tái)電腦,已經(jīng)有了4.3G的硬盤了,拼音輸入法所需要的字庫慢慢不再是障礙。
2000年3月,紫光拼音輸入法推出了最新版,共收錄了8萬多條名詞、短語、地名以及人名等詞匯,一經(jīng)發(fā)布便受到廣泛好評(píng),并迅速普及開來。
2006年6月,馬占凱創(chuàng)造性地把搜索和輸入結(jié)合起來,推出了搜狗輸入法,它通過搜索引擎技術(shù),將互聯(lián)網(wǎng)變成了一個(gè)巨大的“活”詞庫。
“活”詞庫可以隨著熱點(diǎn)不斷自動(dòng)更新,以往的輸入法都打不出那些詞,搜狗輸入法都能搞定。
這種互聯(lián)網(wǎng)的思維方式,搜狗輸入法得以后來居上。到了2009,搜狗輸入法竟然占據(jù)了80%的市場(chǎng)份額!
后來,QQ輸入法,百度輸入法,Google輸入法層出不窮,但無一例外,走的全是拼音的路子,五筆字型慢慢收縮到了專業(yè)人士使用的領(lǐng)域。
至于它們搞彈窗廣告、捆綁軟件之類的惡行,那是后話了。
從字形到拼音,中文輸入法度過了40多年的時(shí)光,技術(shù)的發(fā)展給人們提供了便利,也帶來了提筆忘字這種普遍的現(xiàn)象。
未來會(huì)怎么樣呢?
剛才,我看到孩子對(duì)著手機(jī)在說話,她正在用語音輸入寫一篇文章,這也許就是未來的趨勢(shì)吧!
參考資料
《中文打字機(jī)》
《漢字王國》
《THE CHINESE COMPUTER》
《中國工程師史 第三卷》漢字編碼技術(shù)的創(chuàng)立者
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.