隨著DeepSeek等中文大語言模型異軍突起,中國在大語言模型開發(fā)和應(yīng)用方面與美國并駕齊驅(qū)。目前全球前50大語言模型中,中美兩國占據(jù)超80%席位。但“中美兩國競技”的故事和大模型的技術(shù)共性不應(yīng)遮蔽中美大模型在語言載體、歷史根基和發(fā)展路徑層面的實質(zhì)性差異——美國大模型依托的是自近代英國向外擴(kuò)張以來成為世界語言的英語,中國大模型依托的中文非但不曾享受“殖民紅利”,反而在近現(xiàn)代數(shù)次面臨發(fā)展危機(jī)。根植于中國式現(xiàn)代化歷史土壤并對廣大南方國家有更直接參考和應(yīng)用價值的中文大模型的崛起,并非技術(shù)擴(kuò)散或迭代可以概括,其對人類文明的全局性貢獻(xiàn)亦遠(yuǎn)超具體技術(shù)參數(shù)范疇。
大語言模型對人類語言等級的內(nèi)化與放大
自計算機(jī)出現(xiàn)以來,人類長期通過本質(zhì)上是一種精確的、不受語境干擾的、總量有限的指令集的編程語言與計算機(jī)交互。而所有編程語言最終都可以編譯為最基本的二進(jìn)制機(jī)器指令來驅(qū)動計算機(jī)硬件運行。編程語言盡管多樣,但任意一種編程語言不會因為地域、歷史的原因分化出多種形態(tài)。硅谷、北京或是印度班加羅爾的程序員使用的Python遵循同一套嚴(yán)格的語法。相比編程語言,人類自然語言的生成卻會因語境有別,自然語言表達(dá)的語義和語用并不像編程語言那么精確,但這種模糊性卻又蘊(yùn)含了無限的創(chuàng)造性。大語言模型憑借計算機(jī)遠(yuǎn)超人類個體的信息儲存和處理能力,通過統(tǒng)計海量人類自然語言文本中詞語的共現(xiàn)規(guī)律生成回答,高效地以人類自然語言完成文本生成、翻譯、回答等任務(wù)。但也因為這個原因,基于自然語言學(xué)習(xí)技術(shù)的大語言模型比以往的任何計算機(jī)技術(shù)都更接近人類自然語言體系的延展。
以龐大而多樣的語言符號體系為載體和媒介的文化既是人類文明的核心組成部分,同時也是人類歷史發(fā)展的產(chǎn)物。當(dāng)代世界的語言格局受制于現(xiàn)代世界體系,存在中心語言與邊緣語言的不平等結(jié)構(gòu)。自近代以來,英語開始在通行范圍上超越其他語言。尤其是19世紀(jì)中期英國在印度等地推廣以殖民官員托馬斯·麥考利命名的、培育接受全英語教育的精英階層的“麥考利主義”后,南亞、東南亞和非洲殖民地也源源不斷向英語世界輸送人力和思想,為英語全面超越其他殖民宗主國語言奠定了基礎(chǔ)。
由來自世界各地的以英語為通用語的科技人才在美國硅谷合力開發(fā)的、以人類自然語言為學(xué)習(xí)對象的大語言模型,在其興起之初比其他計算機(jī)技術(shù)在更大程度上內(nèi)化甚至放大了以英語為中心語言的等級結(jié)構(gòu)。英語是使用人口最多的語言,是50多個國家的官方語言,母語人口排名全球第三。相比之下,GPT-3訓(xùn)練過程中使用的語料92.65%為英語,第二大訓(xùn)練語料法語只占1.82%,中文僅占0.1%。
因此,到中文大模型崛起之前,大語言模型的發(fā)展軌跡印證了過去幾十年美國向世界講述的單一中心的發(fā)展故事——美國負(fù)責(zé)創(chuàng)新,他人負(fù)責(zé)模仿。美國AI概念股連創(chuàng)新高、美國“斷崖式領(lǐng)先”的宣傳達(dá)到空前程度,也是AI大語言模型內(nèi)化并放大人類自然語言及現(xiàn)代世界體系“中心—邊緣”結(jié)構(gòu)的產(chǎn)物。
中文大模型異軍突起的歷史根源
引領(lǐng)發(fā)生在美國的大模型技術(shù)突破的OpenAI的核心技術(shù)團(tuán)隊來自世界各地。相應(yīng)地,ChatGPT的技術(shù)突破也順著這一跨國人員流動和知識生產(chǎn)網(wǎng)絡(luò)傳播到世界各地。隨著大語言模型技術(shù)的不斷迭代,即便對訓(xùn)練語料高度稀缺的小語種,也可以通過多語詞典或翻譯對齊等數(shù)據(jù)增強(qiáng)策略提升多語言大模型的訓(xùn)練效果,減少對傳統(tǒng)語言資源的依賴。雖然這些方法仍不足以完全克服低資源導(dǎo)致的劣勢,即由大規(guī)模語言模型及其背后的Scal-ing Laws驅(qū)動的模型泛化性和從數(shù)據(jù)中捕獲復(fù)雜模式的能力,但已經(jīng)可以確保弱勢語種不至于在人工智能時代完全出局。大語言模型一如人類歷史上其他重大技術(shù)突破一樣,不再受困于具體的政治、文化邊界。那么,為何中文而非其他非西方語言率先在大語言模型方面形成可以與硅谷并駕齊驅(qū)的技術(shù)創(chuàng)新?
要回答這一問題,我們可以比較向硅谷輸送了大量技術(shù)人才的中國和印度。印度是英國“麥考利主義”政策的試驗區(qū),以本民族語言為通用語的下層民眾與以英語為通用語的上層精英的隔閡巨大。自幼接受英語教育的印度孩子讀寫本民族語言水平參差不齊。理工醫(yī)等現(xiàn)代自然科學(xué)以及學(xué)院派人文社科研究主要以英語為學(xué)術(shù)語言,印地語等民族語言并沒有建立起完整的知識體系。以上原因?qū)е掠《燃埫鏀?shù)據(jù)規(guī)模可觀的青年人才紅利因語言—階層隔閡難以釋放活力,印地語等民族語言語料庫的知識體系也存在先天不足。
中國學(xué)生向英語世界大規(guī)模留學(xué)起步較晚。但是,新中國的教育體系成功地使中文教育和研究覆蓋社會各階層,并涵蓋文理農(nóng)工醫(yī)等各學(xué)科。這不僅避免了中國出現(xiàn)限制人才紅利釋放的語言—階層隔閡,更為日后中文大模型訓(xùn)練積累起知識門類齊全的中文語料庫。在此基礎(chǔ)上,改革開放后投入大量人力、物力鋪開的英語教育迅速提升了中國知識生產(chǎn)對話、吸收外部經(jīng)驗的能力。中國海外留學(xué)人員回國服務(wù),進(jìn)而拉動知識和產(chǎn)業(yè)發(fā)展的實效,為在本土高校直接培養(yǎng)國際前沿科技人才、在新賽道上追趕和超越播下了種子。
“雙重破窗效應(yīng)”及其前景
發(fā)生在美國的大語言模型創(chuàng)新是全球化的重要智慧結(jié)晶。中國和其他國家的留學(xué)生為美國學(xué)界和業(yè)界提供了優(yōu)秀的勞動者,擴(kuò)大了英語學(xué)術(shù)對其他歐洲語言的優(yōu)勢地位,帶動了美國科技產(chǎn)業(yè)的發(fā)展。若美國能客觀理性地看待中外人員和科技交流,本可釋放出更大的活力。不過,美國限制對華高端算力出口,也反過來刺激了中國科技行業(yè)開發(fā)出更能發(fā)揮中文語言優(yōu)勢、低算力需求的中文大模型,從而出乎美國業(yè)界和政界意料,引發(fā)了由“效率革命”和“開源革命”構(gòu)成的、對“中心—邊緣”結(jié)構(gòu)有巨大破壞作用的“雙重破窗效應(yīng)”。
DeepSeek等中文大模型通過技術(shù)創(chuàng)新,實現(xiàn)了一次“參數(shù)效率革命”。通過混合專家模型和基于低秩聯(lián)合壓縮的多頭潛在注意力機(jī)制顯著優(yōu)化了模型架構(gòu),從而在較低算力需求下實現(xiàn)了與頂級模型相當(dāng)?shù)闹悄芩健F浜诵膹?qiáng)化學(xué)習(xí)算法GRPO以及高質(zhì)量的長思維鏈訓(xùn)練樣本進(jìn)一步提升了GPU運算效率和推理效果。鑒于人工智能相比人類智能的一大劣勢便是高能耗,可以說DeepSeek的“輕量化突圍”是一次人工智能技術(shù)的重大創(chuàng)新。
除向世界證明完全可以用非西方語言訓(xùn)練出高質(zhì)量大模型外,中文大模型的另一大貢獻(xiàn)在于開源。縱觀人類歷史,生產(chǎn)力技術(shù)或因為種種歷史偶然性興起于特定時空點位,但它只有在不斷傳播擴(kuò)散,并與越來越多樣的應(yīng)用場景的結(jié)合中才能持續(xù)發(fā)展。OpenAI的大模型訓(xùn)練以冒著侵犯知識產(chǎn)權(quán)的風(fēng)險學(xué)習(xí)全人類共享的自然語言龐大知識庫為基礎(chǔ),卻因與硅谷產(chǎn)業(yè)資本利益綁定而選擇壟斷技術(shù)的閉源模式。而正是低算力需求的DeepSeek和通義系列等中文大語言模型的連續(xù)開源,已經(jīng)成功倒逼OpenAI等國內(nèi)外科技企業(yè)的閉源大模型開始重新轉(zhuǎn)向開源,將人工智能從技術(shù)壟斷的路徑依賴?yán)亓碎_放的互鑒共生的發(fā)展軌道。
我們相信總有一天,殖民時代遺留至今的現(xiàn)代文明單一中心論也將借由去中心化的人工智能技術(shù)被徹底解構(gòu),而人工智能也有望在以多元語言為基礎(chǔ)的文化交流互鑒的過程中,與人類文明進(jìn)一步深度融合。
(本文系國家社科基金重大項目“世界諸文明在印度洋地區(qū)的交流交匯研究”(23&ZD324)階段性成果)
(作者系北京大學(xué)外國語學(xué)院研究員;北京大學(xué)外國語學(xué)院、人工智能研究院雙聘研究員)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.