99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

中文大語言模型崛起的劃時代意義

0
分享至


隨著DeepSeek等中文大語言模型異軍突起,中國在大語言模型開發和應用方面與美國并駕齊驅。目前全球前50大語言模型中,中美兩國占據超80%席位。但“中美兩國競技”的故事和大模型的技術共性不應遮蔽中美大模型在語言載體、歷史根基和發展路徑層面的實質性差異——美國大模型依托的是自近代英國向外擴張以來成為世界語言的英語,中國大模型依托的中文非但不曾享受“殖民紅利”,反而在近現代數次面臨發展危機。根植于中國式現代化歷史土壤并對廣大南方國家有更直接參考和應用價值的中文大模型的崛起,并非技術擴散或迭代可以概括,其對人類文明的全局性貢獻亦遠超具體技術參數范疇。

大語言模型對人類語言等級的內化與放大

自計算機出現以來,人類長期通過本質上是一種精確的、不受語境干擾的、總量有限的指令集的編程語言與計算機交互。而所有編程語言最終都可以編譯為最基本的二進制機器指令來驅動計算機硬件運行。編程語言盡管多樣,但任意一種編程語言不會因為地域、歷史的原因分化出多種形態。硅谷、北京或是印度班加羅爾的程序員使用的Python遵循同一套嚴格的語法。相比編程語言,人類自然語言的生成卻會因語境有別,自然語言表達的語義和語用并不像編程語言那么精確,但這種模糊性卻又蘊含了無限的創造性。大語言模型憑借計算機遠超人類個體的信息儲存和處理能力,通過統計海量人類自然語言文本中詞語的共現規律生成回答,高效地以人類自然語言完成文本生成、翻譯、回答等任務。但也因為這個原因,基于自然語言學習技術的大語言模型比以往的任何計算機技術都更接近人類自然語言體系的延展。

以龐大而多樣的語言符號體系為載體和媒介的文化既是人類文明的核心組成部分,同時也是人類歷史發展的產物。當代世界的語言格局受制于現代世界體系,存在中心語言與邊緣語言的不平等結構。自近代以來,英語開始在通行范圍上超越其他語言。尤其是19世紀中期英國在印度等地推廣以殖民官員托馬斯·麥考利命名的、培育接受全英語教育的精英階層的“麥考利主義”后,南亞、東南亞和非洲殖民地也源源不斷向英語世界輸送人力和思想,為英語全面超越其他殖民宗主國語言奠定了基礎。

由來自世界各地的以英語為通用語的科技人才在美國硅谷合力開發的、以人類自然語言為學習對象的大語言模型,在其興起之初比其他計算機技術在更大程度上內化甚至放大了以英語為中心語言的等級結構。英語是使用人口最多的語言,是50多個國家的官方語言,母語人口排名全球第三。相比之下,GPT-3訓練過程中使用的語料92.65%為英語,第二大訓練語料法語只占1.82%,中文僅占0.1%。

因此,到中文大模型崛起之前,大語言模型的發展軌跡印證了過去幾十年美國向世界講述的單一中心的發展故事——美國負責創新,他人負責模仿。美國AI概念股連創新高、美國“斷崖式領先”的宣傳達到空前程度,也是AI大語言模型內化并放大人類自然語言及現代世界體系“中心—邊緣”結構的產物。

中文大模型異軍突起的歷史根源

引領發生在美國的大模型技術突破的OpenAI的核心技術團隊來自世界各地。相應地,ChatGPT的技術突破也順著這一跨國人員流動和知識生產網絡傳播到世界各地。隨著大語言模型技術的不斷迭代,即便對訓練語料高度稀缺的小語種,也可以通過多語詞典或翻譯對齊等數據增強策略提升多語言大模型的訓練效果,減少對傳統語言資源的依賴。雖然這些方法仍不足以完全克服低資源導致的劣勢,即由大規模語言模型及其背后的Scal-ing Laws驅動的模型泛化性和從數據中捕獲復雜模式的能力,但已經可以確保弱勢語種不至于在人工智能時代完全出局。大語言模型一如人類歷史上其他重大技術突破一樣,不再受困于具體的政治、文化邊界。那么,為何中文而非其他非西方語言率先在大語言模型方面形成可以與硅谷并駕齊驅的技術創新?

要回答這一問題,我們可以比較向硅谷輸送了大量技術人才的中國和印度。印度是英國“麥考利主義”政策的試驗區,以本民族語言為通用語的下層民眾與以英語為通用語的上層精英的隔閡巨大。自幼接受英語教育的印度孩子讀寫本民族語言水平參差不齊。理工醫等現代自然科學以及學院派人文社科研究主要以英語為學術語言,印地語等民族語言并沒有建立起完整的知識體系。以上原因導致印度紙面數據規??捎^的青年人才紅利因語言—階層隔閡難以釋放活力,印地語等民族語言語料庫的知識體系也存在先天不足。

中國學生向英語世界大規模留學起步較晚。但是,新中國的教育體系成功地使中文教育和研究覆蓋社會各階層,并涵蓋文理農工醫等各學科。這不僅避免了中國出現限制人才紅利釋放的語言—階層隔閡,更為日后中文大模型訓練積累起知識門類齊全的中文語料庫。在此基礎上,改革開放后投入大量人力、物力鋪開的英語教育迅速提升了中國知識生產對話、吸收外部經驗的能力。中國海外留學人員回國服務,進而拉動知識和產業發展的實效,為在本土高校直接培養國際前沿科技人才、在新賽道上追趕和超越播下了種子。

“雙重破窗效應”及其前景

發生在美國的大語言模型創新是全球化的重要智慧結晶。中國和其他國家的留學生為美國學界和業界提供了優秀的勞動者,擴大了英語學術對其他歐洲語言的優勢地位,帶動了美國科技產業的發展。若美國能客觀理性地看待中外人員和科技交流,本可釋放出更大的活力。不過,美國限制對華高端算力出口,也反過來刺激了中國科技行業開發出更能發揮中文語言優勢、低算力需求的中文大模型,從而出乎美國業界和政界意料,引發了由“效率革命”和“開源革命”構成的、對“中心—邊緣”結構有巨大破壞作用的“雙重破窗效應”。

DeepSeek等中文大模型通過技術創新,實現了一次“參數效率革命”。通過混合專家模型和基于低秩聯合壓縮的多頭潛在注意力機制顯著優化了模型架構,從而在較低算力需求下實現了與頂級模型相當的智能水平。其核心強化學習算法GRPO以及高質量的長思維鏈訓練樣本進一步提升了GPU運算效率和推理效果。鑒于人工智能相比人類智能的一大劣勢便是高能耗,可以說DeepSeek的“輕量化突圍”是一次人工智能技術的重大創新。

除向世界證明完全可以用非西方語言訓練出高質量大模型外,中文大模型的另一大貢獻在于開源??v觀人類歷史,生產力技術或因為種種歷史偶然性興起于特定時空點位,但它只有在不斷傳播擴散,并與越來越多樣的應用場景的結合中才能持續發展。OpenAI的大模型訓練以冒著侵犯知識產權的風險學習全人類共享的自然語言龐大知識庫為基礎,卻因與硅谷產業資本利益綁定而選擇壟斷技術的閉源模式。而正是低算力需求的DeepSeek和通義系列等中文大語言模型的連續開源,已經成功倒逼OpenAI等國內外科技企業的閉源大模型開始重新轉向開源,將人工智能從技術壟斷的路徑依賴拉回了開放的互鑒共生的發展軌道。

我們相信總有一天,殖民時代遺留至今的現代文明單一中心論也將借由去中心化的人工智能技術被徹底解構,而人工智能也有望在以多元語言為基礎的文化交流互鑒的過程中,與人類文明進一步深度融合。

本文系國家社科基金重大項目“世界諸文明在印度洋地區的交流交匯研究”(23&ZD324)階段性成果

作者系北京大學外國語學院研究員;北京大學外國語學院、人工智能研究院雙聘研究員

來源 :中國社會科學報

責任編輯: 郭飛

新媒體編輯:崔岑 程可心

如需交流可聯系我們






特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

中國社會科學網 incentive-icons
中國社會科學網
中國社會科學院官方網站
17101文章數 25528關注度
往期回顧 全部

專題推薦

洞天福地 花海畢節 山水饋贈里的“詩與遠方

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 察隅县| 苏尼特左旗| 通许县| 北海市| 咸阳市| 哈巴河县| 阳信县| 普安县| 东光县| 理塘县| 尉犁县| 班玛县| 应用必备| 万荣县| 丰宁| 平安县| 拉萨市| 工布江达县| 怀集县| 永丰县| 辉南县| 三江| 盈江县| 安化县| 射阳县| 吴桥县| 平果县| 白山市| 昭觉县| 青田县| 基隆市| 屏南县| 高邑县| 大新县| 巨鹿县| 内江市| 开原市| 金川县| 徐州市| 广州市| 故城县|