本文根據3月10日的《這就是中國》 節目 里 汪濤的演講稿改編。
首先來講一下最近國外流行的中式英語熱。
英語現在的造詞方式,事實上與中國4千年前的漢字發展過程有些類似,就是每遇到一個新事物,就造一個新詞。
類似英語的字母文字,造一個新詞確實比象形文字造一個新字要容易很多,但這也導致了英語詞匯量過快的增長,每年都會增加幾百個新詞。
但是現在,很多人發現中文用新詞組來表達新事物的方法非常有效,所以開始用中式英語來極大簡化英文。大家也很容易聽懂。例如:
wash wash to sleep洗洗睡吧
You think beautiful你想得美
No zuo no die不作不死
You can you up你行你上
想起二十年前,我在做國際市場時就與外國人調侃中國人發明出來的中式英語段子。如出了一個車禍,中國司機要給警察報警:
One car come,one car go,two car peng peng, one car die
一輛車往這里來,一輛車往那里去,兩輛車砰砰,一輛車壞了。
這些都只是太過直接的極簡中式英語,但還有一些真是準備改革英文的基礎邏輯,把英語的時態、語法都準備干掉了。
例如英語的數字,從0到12都是專門的單詞,13到19有一定規律,但也是特定的規律。中式英語要革命它們的命:
Tenone 十一
Tentwo 十二
Tennine 十九
不用再去背eleven,twelve......fifteen,nineteen
Week one 星期一
Week two 星期二
Week seven 星期七
不用再去背Monday,Tuesday,...Sunday,這多好。
one month 一月
two month 二月
tentwo month 十二月
不用再去背January,February...... 多簡單
這樣一來,英文單詞不僅不用再新增,反而可能極大縮減。
英語的時態也逐步被拋諸腦后。例如:
我2019年去了倫敦。我剛去倫敦。用傳統英語翻譯是這樣:
I went to London in 2019.
I just went to London.
用中式英語是這樣:
I go London 2019.
I just go London.
看了以上這些,就很容易理解這一點:為什么在人工智能時代,中文有巨大的技術優勢。
DeepSeek之所以爆火,主要并不是它技術性能上獲得了突破性的進展,而是其效率獲得了數量級的提升,從而使實現相同性能的成本下降了20倍。
之所以如此,是因為研發團隊幾乎是將各種可能的提升效率的技術都充分挖掘了。例如:
更多采用底層編程語言PTX,一般來說越是更底層的編程語言效率越高,但編程的難度越大。另外還有適當地降低精度,采用一個字節的8比特浮點運算,而不是32比特,從而成倍減少存儲量和運算量。這個專業術語叫“量化”。
還有采用蒸餾方法極大減少參數,另外還有混合專家架構(專業術語叫MoE)、多頭潛在注意力技術(專業術語叫MLA)。
這些技術本身并非完全由DeepSeek獨創,美國人工智能界也都知道,但為什么是DeepSeek把這些充分利用了呢?
這里面涉及到兩國信息技術發展中的文化傾向:為了降低成本而盡量采用低開發難度但運行效率也低的高級語言,以及關注研發的降成本而不是運算芯片的降成本。
另一個問題甚至是,核心芯片廠商故意引導軟件運算效率低下的商業模式,以便形成更高性能芯片更大的市場需求。
以上這些相對比較專業的內容,對普通觀眾可能理解起來比較困難,所以我們今天就談一個大家比較容易理解的、也非常有意思的方面:就是中文在人工智能時代的技術優勢。
DeepSeek充分利用了中文的這種優勢,所以在它爆火之后很多人開始注意到這一點。
如果我們回顧一下兩百多年來的歷史,我們對于中文在現代科技中的作用,經歷了一個從最初很自負、到自卑、然后重新開始自信的認知轉變過程。
在中國古代,我們對自己的文化很自負。中國對周邊國家在文化上有壓倒性的優勢,其他地區對中國是非常仰慕的心態。
近代中國落后,尤其是甲午戰爭中國失敗以后,導致很多中國知識階層開始反思中國的文化,包括自己的語言文字。這種反思很快發展到極端,甚至認為漢語文字阻礙了中國進入現代科技文明。也有人認為中國應當放棄中文的象形文字,改成拼音的字母文字。
隨著以電子計算機為代表的信息技術出現以后,中文在計算機鍵盤輸入上存在一定困難。計算機的鍵盤是來自英文打字機,所以,輸入英文當然最簡單方便。因此,曾經認為中文阻礙了中國進入現代科技文明的觀點和思潮,在信息技術時代又再次興起。
但是,20世紀80年代,中國科技界在漢字輸入上做了大量的工作,在當時稱為“萬碼奔騰”。這些漢字輸入的努力,在很大程度上降低了中文電腦輸入的困難。其中比較著名和主流的有五筆字型輸入法,也叫王碼,由王永明發明。我個人也曾經在王碼電腦公司工作過。
另一個常用的輸入法是拼音輸入法??陀^上講,直到今天,輸入中文還是比輸入英文等字母文字要稍微麻煩一點。但這些中文輸入法已經在很大程度上解決了中文的計算機輸入。在五筆字型基礎上充分采用詞組輸入后,輸入效率甚至可以超過英文輸入。
到了人工智能時代,情況發生了很大逆轉,中文在技術上開始展現出很大的優勢。
在40多年前,我剛開始接觸到語音識別技術時,就知道中文在技術上有很大優勢。這是當時業界就公認的一個看法,只是普通人可能關注不到這一點,因為給當時語音識別技術也還沒成熟商用。現在我們已經普遍使用人工智能語音識別功能了。
中文的這種優勢,更加充分地體現在今天流行的大語言模型中。為什么中文在人工智能中存在技術優勢,主要的原因有如下這些:
首先是漢字非常規整,或者說非常整齊。
漢字無論是書寫還是發音,尺寸都是一樣的,非常整齊。這種規整對于計算機處理非常方便。比如要進行語音識別,中文每個字發音都是聲母加韻母,發音長度一樣。這樣的話就相對比較容易區分出一句話中每一個字的發音。
相比之下,英文一個單詞的長度從一個字母,到十幾個字母的都有,這樣字母文字每個單詞發音的長度都可能不一樣。英文中一個字母的單詞如a,意思是“一個”;還有i,就是一個字母i,意思是“我”。但象英文的“祝賀”是Congratulations,就有15個字母。
我們可能會好奇,最長的英文單詞會有多少個字母?
如果我們從網上去搜索,可能答案會不一樣,比較有名的一個是pneumonoultramicroscopicsilicovolcanoconiosis,由45個字母組成,意為“火山矽肺病”。
還有一個問題是,很多英文句字發音會有連讀的情況,這就更加難以區分出每個單詞。雖然現在這些問題在人工智能中解決了,但其技術難度都比中文要困難很多,需要更大的運算量。幾乎所有字母文字都存在這個問題。
第二是漢字的信息密度一般比字母文字高。
這個體現在很多方面,漢字是表意文字,內涵豐富,可以用詞組、成語等很少的漢字就能表達非常豐富的含義,尤其文言文信息密度更高。
對于人工智能來說,最終體現的是相同含義的一段語言或文章,在計算機中需要多少存儲量和計算量。一般來說中文的存儲量和計算量都是最少的。
如果我們對比一下書面相同內容的中文和英文或其他字母文字,中文一般都是頁數或幅面最少的。
但我們要注意這個優勢并不絕對,英文也有優點,比如較為嚴謹,所以在比較嚴謹的論文或法律文書中,有可能英文的信息密度與中文相差并不大。
但是絕大多數情況下中文的信息密度確實比較高,所以在訓練人工智能時,對于相同內容,中文訓練的存儲量和計算量就會比較少。這是中文效率優勢的一個體現。
第三是穩定性。
漢字是相對比較穩定的——我們今天所使用的漢字,與幾千年前的甲骨文大都非常接近。在2千多年前秦朝統一六國,并且統一文字之后,漢字基本上就很少再發生變化了。
總的趨勢是:生僻字使用得越來越少,對于新出現的事物,漢字是通過常用字去建立新的詞組來適應,并且這樣組成的詞組天然地會存在有規律分類的特性。
例如機器的“機”字,可以組成拖拉機、播種機、飛機、紡紗機、發動機、蒸汽機、計算機......如此之多的機器,漢字都可以用“機”來形成詞組。
漢字的穩定性對人工智能帶來的好處是,訓練的參數可以更少,有效的重復可以更多,準確性就更高。
相比之下,英文每年都會增加大量新詞,常用單詞都可能發生變化。400年前英國作家莎士比亞的作品,現代英國人去閱讀會很困難,但中國人閱讀2千年前的作品依然很容易看懂。
當然,我們提到中文在人工智能時代的技術優勢,并不是要把它過度拔高。只是希望通過了解不同時代中文技術優劣的變化,更客觀地看待中國的文化。
進入人工智能時代后,我們更應該發揮中文的優勢,使得中國在人工智能時代可以獲得更快的發展,并且有更好的經濟效益。
從我們對自己語言的態度變化中,我們可以獲得一些啟示:就是如何用科學的態度去看待自己的文化。
中文有自己的特點,這些特點相對不同的技術要求,可能有利有弊。所謂利弊或優劣勢,永遠針對相對特定的需求。不能說遇到某種劣勢,就簡單地自我否定;也不能遇到優勢,就自我膨脹。
科學的態度是:如果是劣勢,我們就想辦法通過技術改進去消除或至少減少這種劣勢。有了這種技術改進,劣勢可能就不再是劣勢或是變得無關緊要了。
如果是優勢,我們就要想辦法去充分地開發利用它。即使是優勢,如果你不去充分地開發利用,它也不會自動地體現出來,或者體現得不夠充分。這是我今天的演講希望能表達的。
(完)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.