99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

你不知道,中文在人工智能時代的優(yōu)勢有多大

0
分享至

本文根據(jù)3月10日的《這就是中國》 節(jié)目 里 汪濤的演講稿改編。

首先來講一下最近國外流行的中式英語熱。

英語現(xiàn)在的造詞方式,事實上與中國4千年前的漢字發(fā)展過程有些類似,就是每遇到一個新事物,就造一個新詞。

類似英語的字母文字,造一個新詞確實比象形文字造一個新字要容易很多,但這也導(dǎo)致了英語詞匯量過快的增長,每年都會增加幾百個新詞。

但是現(xiàn)在,很多人發(fā)現(xiàn)中文用新詞組來表達(dá)新事物的方法非常有效,所以開始用中式英語來極大簡化英文。大家也很容易聽懂。例如:

wash wash to sleep洗洗睡吧

You think beautiful你想得美

No zuo no die不作不死

You can you up你行你上

想起二十年前,我在做國際市場時就與外國人調(diào)侃中國人發(fā)明出來的中式英語段子。如出了一個車禍,中國司機要給警察報警:

One car come,one car go,two car peng peng, one car die

一輛車往這里來,一輛車往那里去,兩輛車砰砰,一輛車壞了。

這些都只是太過直接的極簡中式英語,但還有一些真是準(zhǔn)備改革英文的基礎(chǔ)邏輯,把英語的時態(tài)、語法都準(zhǔn)備干掉了。

例如英語的數(shù)字,從0到12都是專門的單詞,13到19有一定規(guī)律,但也是特定的規(guī)律。中式英語要革命它們的命:

Tenone 十一

Tentwo 十二

Tennine 十九

不用再去背eleven,twelve......fifteen,nineteen

Week one 星期一

Week two 星期二

Week seven 星期七

不用再去背Monday,Tuesday,...Sunday,這多好。

one month 一月

two month 二月

tentwo month 十二月

不用再去背January,F(xiàn)ebruary...... 多簡單

這樣一來,英文單詞不僅不用再新增,反而可能極大縮減。

英語的時態(tài)也逐步被拋諸腦后。例如:

我2019年去了倫敦。我剛?cè)惗亍S脗鹘y(tǒng)英語翻譯是這樣:

I went to London in 2019.

I just went to London.

用中式英語是這樣:

I go London 2019.

I just go London.

看了以上這些,就很容易理解這一點:為什么在人工智能時代,中文有巨大的技術(shù)優(yōu)勢。


DeepSeek之所以爆火,主要并不是它技術(shù)性能上獲得了突破性的進(jìn)展,而是其效率獲得了數(shù)量級的提升,從而使實現(xiàn)相同性能的成本下降了20倍。

之所以如此,是因為研發(fā)團(tuán)隊幾乎是將各種可能的提升效率的技術(shù)都充分挖掘了。例如:

更多采用底層編程語言PTX,一般來說越是更底層的編程語言效率越高,但編程的難度越大。另外還有適當(dāng)?shù)亟档途龋捎靡粋€字節(jié)的8比特浮點運算,而不是32比特,從而成倍減少存儲量和運算量。這個專業(yè)術(shù)語叫“量化”。

還有采用蒸餾方法極大減少參數(shù),另外還有混合專家架構(gòu)(專業(yè)術(shù)語叫MoE)、多頭潛在注意力技術(shù)(專業(yè)術(shù)語叫MLA)。

這些技術(shù)本身并非完全由DeepSeek獨創(chuàng),美國人工智能界也都知道,但為什么是DeepSeek把這些充分利用了呢?

這里面涉及到兩國信息技術(shù)發(fā)展中的文化傾向:為了降低成本而盡量采用低開發(fā)難度但運行效率也低的高級語言,以及關(guān)注研發(fā)的降成本而不是運算芯片的降成本。

另一個問題甚至是,核心芯片廠商故意引導(dǎo)軟件運算效率低下的商業(yè)模式,以便形成更高性能芯片更大的市場需求。

以上這些相對比較專業(yè)的內(nèi)容,對普通觀眾可能理解起來比較困難,所以我們今天就談一個大家比較容易理解的、也非常有意思的方面:就是中文在人工智能時代的技術(shù)優(yōu)勢。

DeepSeek充分利用了中文的這種優(yōu)勢,所以在它爆火之后很多人開始注意到這一點。

如果我們回顧一下兩百多年來的歷史,我們對于中文在現(xiàn)代科技中的作用,經(jīng)歷了一個從最初很自負(fù)、到自卑、然后重新開始自信的認(rèn)知轉(zhuǎn)變過程。

在中國古代,我們對自己的文化很自負(fù)。中國對周邊國家在文化上有壓倒性的優(yōu)勢,其他地區(qū)對中國是非常仰慕的心態(tài)。

近代中國落后,尤其是甲午戰(zhàn)爭中國失敗以后,導(dǎo)致很多中國知識階層開始反思中國的文化,包括自己的語言文字。這種反思很快發(fā)展到極端,甚至認(rèn)為漢語文字阻礙了中國進(jìn)入現(xiàn)代科技文明。也有人認(rèn)為中國應(yīng)當(dāng)放棄中文的象形文字,改成拼音的字母文字。

隨著以電子計算機為代表的信息技術(shù)出現(xiàn)以后,中文在計算機鍵盤輸入上存在一定困難。計算機的鍵盤是來自英文打字機,所以,輸入英文當(dāng)然最簡單方便。因此,曾經(jīng)認(rèn)為中文阻礙了中國進(jìn)入現(xiàn)代科技文明的觀點和思潮,在信息技術(shù)時代又再次興起。

但是,20世紀(jì)80年代,中國科技界在漢字輸入上做了大量的工作,在當(dāng)時稱為“萬碼奔騰”。這些漢字輸入的努力,在很大程度上降低了中文電腦輸入的困難。其中比較著名和主流的有五筆字型輸入法,也叫王碼,由王永明發(fā)明。我個人也曾經(jīng)在王碼電腦公司工作過。

另一個常用的輸入法是拼音輸入法。客觀上講,直到今天,輸入中文還是比輸入英文等字母文字要稍微麻煩一點。但這些中文輸入法已經(jīng)在很大程度上解決了中文的計算機輸入。在五筆字型基礎(chǔ)上充分采用詞組輸入后,輸入效率甚至可以超過英文輸入。

到了人工智能時代,情況發(fā)生了很大逆轉(zhuǎn),中文在技術(shù)上開始展現(xiàn)出很大的優(yōu)勢。

在40多年前,我剛開始接觸到語音識別技術(shù)時,就知道中文在技術(shù)上有很大優(yōu)勢。這是當(dāng)時業(yè)界就公認(rèn)的一個看法,只是普通人可能關(guān)注不到這一點,因為給當(dāng)時語音識別技術(shù)也還沒成熟商用。現(xiàn)在我們已經(jīng)普遍使用人工智能語音識別功能了。

中文的這種優(yōu)勢,更加充分地體現(xiàn)在今天流行的大語言模型中。為什么中文在人工智能中存在技術(shù)優(yōu)勢,主要的原因有如下這些:

首先是漢字非常規(guī)整,或者說非常整齊。

漢字無論是書寫還是發(fā)音,尺寸都是一樣的,非常整齊。這種規(guī)整對于計算機處理非常方便。比如要進(jìn)行語音識別,中文每個字發(fā)音都是聲母加韻母,發(fā)音長度一樣。這樣的話就相對比較容易區(qū)分出一句話中每一個字的發(fā)音。

相比之下,英文一個單詞的長度從一個字母,到十幾個字母的都有,這樣字母文字每個單詞發(fā)音的長度都可能不一樣。英文中一個字母的單詞如a,意思是“一個”;還有i,就是一個字母i,意思是“我”。但象英文的“祝賀”是Congratulations,就有15個字母。

我們可能會好奇,最長的英文單詞會有多少個字母?

如果我們從網(wǎng)上去搜索,可能答案會不一樣,比較有名的一個是pneumonoultramicroscopicsilicovolcanoconiosis,由45個字母組成,意為“火山矽肺病”。

還有一個問題是,很多英文句字發(fā)音會有連讀的情況,這就更加難以區(qū)分出每個單詞。雖然現(xiàn)在這些問題在人工智能中解決了,但其技術(shù)難度都比中文要困難很多,需要更大的運算量。幾乎所有字母文字都存在這個問題。

第二是漢字的信息密度一般比字母文字高。

這個體現(xiàn)在很多方面,漢字是表意文字,內(nèi)涵豐富,可以用詞組、成語等很少的漢字就能表達(dá)非常豐富的含義,尤其文言文信息密度更高。

對于人工智能來說,最終體現(xiàn)的是相同含義的一段語言或文章,在計算機中需要多少存儲量和計算量。一般來說中文的存儲量和計算量都是最少的。

如果我們對比一下書面相同內(nèi)容的中文和英文或其他字母文字,中文一般都是頁數(shù)或幅面最少的。


但我們要注意這個優(yōu)勢并不絕對,英文也有優(yōu)點,比如較為嚴(yán)謹(jǐn),所以在比較嚴(yán)謹(jǐn)?shù)恼撐幕蚍晌臅校锌赡苡⑽牡男畔⒚芏扰c中文相差并不大。

但是絕大多數(shù)情況下中文的信息密度確實比較高,所以在訓(xùn)練人工智能時,對于相同內(nèi)容,中文訓(xùn)練的存儲量和計算量就會比較少。這是中文效率優(yōu)勢的一個體現(xiàn)。

第三是穩(wěn)定性。

漢字是相對比較穩(wěn)定的——我們今天所使用的漢字,與幾千年前的甲骨文大都非常接近。在2千多年前秦朝統(tǒng)一六國,并且統(tǒng)一文字之后,漢字基本上就很少再發(fā)生變化了。


總的趨勢是:生僻字使用得越來越少,對于新出現(xiàn)的事物,漢字是通過常用字去建立新的詞組來適應(yīng),并且這樣組成的詞組天然地會存在有規(guī)律分類的特性。

例如機器的“機”字,可以組成拖拉機、播種機、飛機、紡紗機、發(fā)動機、蒸汽機、計算機......如此之多的機器,漢字都可以用“機”來形成詞組。

漢字的穩(wěn)定性對人工智能帶來的好處是,訓(xùn)練的參數(shù)可以更少,有效的重復(fù)可以更多,準(zhǔn)確性就更高。

相比之下,英文每年都會增加大量新詞,常用單詞都可能發(fā)生變化。400年前英國作家莎士比亞的作品,現(xiàn)代英國人去閱讀會很困難,但中國人閱讀2千年前的作品依然很容易看懂。

當(dāng)然,我們提到中文在人工智能時代的技術(shù)優(yōu)勢,并不是要把它過度拔高。只是希望通過了解不同時代中文技術(shù)優(yōu)劣的變化,更客觀地看待中國的文化。

進(jìn)入人工智能時代后,我們更應(yīng)該發(fā)揮中文的優(yōu)勢,使得中國在人工智能時代可以獲得更快的發(fā)展,并且有更好的經(jīng)濟(jì)效益。

從我們對自己語言的態(tài)度變化中,我們可以獲得一些啟示:就是如何用科學(xué)的態(tài)度去看待自己的文化。

中文有自己的特點,這些特點相對不同的技術(shù)要求,可能有利有弊。所謂利弊或優(yōu)劣勢,永遠(yuǎn)針對相對特定的需求。不能說遇到某種劣勢,就簡單地自我否定;也不能遇到優(yōu)勢,就自我膨脹。

科學(xué)的態(tài)度是:如果是劣勢,我們就想辦法通過技術(shù)改進(jìn)去消除或至少減少這種劣勢。有了這種技術(shù)改進(jìn),劣勢可能就不再是劣勢或是變得無關(guān)緊要了。

如果是優(yōu)勢,我們就要想辦法去充分地開發(fā)利用它。即使是優(yōu)勢,如果你不去充分地開發(fā)利用,它也不會自動地體現(xiàn)出來,或者體現(xiàn)得不夠充分。這是我今天的演講希望能表達(dá)的。

(完)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
“我們才不要你的238億遺產(chǎn)”,邵逸夫離世,4個子女不送終不繼承

“我們才不要你的238億遺產(chǎn)”,邵逸夫離世,4個子女不送終不繼承

聚合大娛
2025-05-08 11:55:09
俄烏戰(zhàn)爭打這么久俄的經(jīng)濟(jì)為何沒有崩盤你是根本不知道我接多少單

俄烏戰(zhàn)爭打這么久俄的經(jīng)濟(jì)為何沒有崩盤你是根本不知道我接多少單

侃神評故事
2025-07-17 20:21:26
石破茂,“三連敗”

石破茂,“三連敗”

中國新聞周刊
2025-07-23 11:18:46
河南42歲老光棍,娶回19歲俄羅斯姑娘,洞房花燭夜他懵了

河南42歲老光棍,娶回19歲俄羅斯姑娘,洞房花燭夜他懵了

溫情郵局
2025-05-29 09:31:19
不是被控制,是雙向奔赴!單依純高調(diào)回應(yīng)常石磊爭議

不是被控制,是雙向奔赴!單依純高調(diào)回應(yīng)常石磊爭議

阿器談史
2025-07-22 17:12:49
港股東方電氣跌超11%

港股東方電氣跌超11%

證券時報
2025-07-23 15:58:06
奶奶墓地到期,一次性交20年管理費19200元!不續(xù)就按無主墓處理

奶奶墓地到期,一次性交20年管理費19200元!不續(xù)就按無主墓處理

火山詩話
2025-07-22 15:08:42
2025上半年燃油車銷量TOP20出爐:國產(chǎn)最高排第五

2025上半年燃油車銷量TOP20出爐:國產(chǎn)最高排第五

智車情報局
2025-07-23 14:18:35
“排13年才能吃上飯?”北京一餐廳排隊時長被質(zhì)疑“饑餓營銷”,回應(yīng):一周開放一桌

“排13年才能吃上飯?”北京一餐廳排隊時長被質(zhì)疑“饑餓營銷”,回應(yīng):一周開放一桌

瀟湘晨報
2025-07-23 16:02:11
記者:利物浦沒收到拜仁對迪亞斯的最新報價,沒在談羅德里戈

記者:利物浦沒收到拜仁對迪亞斯的最新報價,沒在談羅德里戈

懂球帝
2025-07-24 00:24:35
郭麒麟,正式開除德云社。

郭麒麟,正式開除德云社。

會說話的舌
2025-07-18 13:40:49
康祈宗郭昶病逝19年,女兒已嫁3年,太太“蘭姨”卻立誓永不再婚

康祈宗郭昶病逝19年,女兒已嫁3年,太太“蘭姨”卻立誓永不再婚

陳意小可愛
2025-07-23 14:37:30
克里斯蒂:我在湖人時就很欣賞拉塞爾,很高興和能他在獨行俠重聚

克里斯蒂:我在湖人時就很欣賞拉塞爾,很高興和能他在獨行俠重聚

稻谷與小麥
2025-07-24 00:01:52
這個動作有點狠啊!德爾加多無球狀態(tài)肘擊,孫正傲滿臉是血

這個動作有點狠啊!德爾加多無球狀態(tài)肘擊,孫正傲滿臉是血

直播吧
2025-07-23 20:54:36
天安門廣場70年未解謎:紀(jì)念碑上155字竟藏毛主席的深謀遠(yuǎn)慮

天安門廣場70年未解謎:紀(jì)念碑上155字竟藏毛主席的深謀遠(yuǎn)慮

近史談
2025-04-01 18:59:19
男子花3萬買二手奧迪,洗車發(fā)現(xiàn)后排座椅高10公分,拆開直接報警

男子花3萬買二手奧迪,洗車發(fā)現(xiàn)后排座椅高10公分,拆開直接報警

罪案洞察者
2025-07-14 16:05:54
吳宗憲小S疑鬧掰和陳孝萱有關(guān)?多年前《康熙來了》片段早印證此事!

吳宗憲小S疑鬧掰和陳孝萱有關(guān)?多年前《康熙來了》片段早印證此事!

草莓解說體育
2025-07-24 00:41:08
他接受紀(jì)律審查和監(jiān)察調(diào)查

他接受紀(jì)律審查和監(jiān)察調(diào)查

錫望
2025-07-23 10:40:32
A股:不用等周四開盤,盤面非常明顯了,明天行情會這樣走!

A股:不用等周四開盤,盤面非常明顯了,明天行情會這樣走!

財經(jīng)大拿
2025-07-23 14:52:28
足協(xié)杯四強出爐!國安點球大戰(zhàn)淘汰西海岸,河南隊10輪點球勝申花

足協(xié)杯四強出爐!國安點球大戰(zhàn)淘汰西海岸,河南隊10輪點球勝申花

順靜自然
2025-07-24 01:10:36
2025-07-24 02:00:49
疫苗與科學(xué) incentive-icons
疫苗與科學(xué)
預(yù)防接種知識科普
795文章數(shù) 11074關(guān)注度
往期回顧 全部

教育要聞

對抗學(xué)習(xí)崩潰的38種方法。

頭條要聞

印度、孟加拉關(guān)切雅魯藏布江下游水電站工程 中方回應(yīng)

頭條要聞

印度、孟加拉關(guān)切雅魯藏布江下游水電站工程 中方回應(yīng)

體育要聞

英格蘭最紅球星 也是加勒比島國驕傲

娛樂要聞

汪峰森林北同游日本 各帶各娃互不耽誤

財經(jīng)要聞

律師解析娃哈哈遺產(chǎn)案:遺囑是最大變數(shù)

科技要聞

別自嗨了!XREAL徐馳:AI眼鏡只有5歲智商

汽車要聞

德系大招放盡 場地極限測試全新奧迪A5L

態(tài)度原創(chuàng)

時尚
健康
藝術(shù)
公開課
軍事航空

搶戲《醬園弄》、尬演《長安荔枝》,雷佳音的舒適圈正在反噬

呼吸科專家破解呼吸道九大謠言!

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美國核彈頭重回英國牽動全球神經(jīng)

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 莱州市| 广饶县| 高密市| 英德市| 安顺市| 衡阳县| 北碚区| 商都县| 探索| 廊坊市| 台湾省| 怀宁县| 克拉玛依市| 乌鲁木齐县| 思南县| 封开县| 敖汉旗| 西青区| 桂阳县| 措美县| 沿河| 霍林郭勒市| 武强县| 黄石市| 尼勒克县| 佳木斯市| 镇雄县| 嵩明县| 常州市| 罗源县| 银川市| 南部县| 沈阳市| 滦平县| 临澧县| 岐山县| 清水县| 台北市| 玉环县| 大渡口区| 万载县|