當下,人工智能特別是基于大語言模型的生成式人工智能正深刻影響著人們生活的各個方面。GPT、DeepSeek等大語言模型的出現,使得語言學研究面臨新的挑戰和機遇。語言學作為研究語言本質、結構、演變及應用的學科,在人工智能的推動下,正經歷著前所未有的變革。傳統的語言學理論與方法在大數據、機器學習等技術的支持下,得以更加精準地解析語言現象、預測語言發展趨勢。人工智能的引入為語言學研究提供了新的視角和工具,使得語言學家能夠以前所未有的深度和廣度探索語言的奧秘。語言學與人工智能互相影響、互相交融,二者協同演進大致可分為如下幾個階段。
第一階段:傳統語言學主導期(20世紀50年代至80年代)。這是傳統語言學與計算機技術的早期碰撞時期。1956年“人工智能”概念提出后,喬姆斯基于1957年發表的《句法結構》中提出生成語法理論,主張語言能力源于生物遺傳的普遍語法,語言學研究的目標是揭示這種內在機制,其“有限規則生成無限句子”的假設為計算語言學奠定了形式化基礎。20世紀50年代,計算語言學成為一門獨立的學科。1954年,Georgetown-IBM機器翻譯實驗首次嘗試將語言學規則編碼為計算機程序,標志著語言學與計算機科學的首次結合,但受限于雙語詞典和人工編寫的句法轉換規則,一些翻譯質量較為粗糙。20世紀60年代中期到80年代末期,計算語言學進入發展期。隨著計算機科學與技術領域各類程序語言的開發以及喬姆斯基語言學理論的進展,計算語言學有了突破性的發展,20世紀70年代至80年代研發出較多能夠對自然語言進行較好處理的系統。該階段語言學與計算機初步結合,但技術未動搖理論內核,計算技術僅作為輔助工具,用于語料數字化或規則驗證,未對語言學理論帶來實質性沖擊。
第二階段:計算語言學與規則導向的并行期(20世紀80年代末至21世紀初)。在這一階段,統計模型興起對語言學規則產生了沖擊,學術界對生成語法的解釋力產生懷疑。從20世紀 80年代末開始,計算語言學進入了繁榮期。1988年,IBM研究團隊提出基于統計的機器翻譯模型,利用雙語語料庫計算詞對齊概率,取代人工編寫轉換規則。20世紀90年代,隱馬爾可夫模型(HMM)在語音識別中的商業化應用,進一步表明了統計方法的實用性。這些統計模型的成功引發了學術界的激烈爭論。喬姆斯基批評統計方法“僅能描述語言現象,無法解釋深層結構”,認為其背離了語言學的科學使命。與此同時,部分學者嘗試融合兩種范式,如定子句語法(Definite Clause Grammar)將邏輯規則與概率計算結合,但收效有限。該階段語言學規則與統計方法并存,但語言學仍在主導算法設計。語言學內部形成兩大陣營:一方堅持生成語法的理論純潔性,另一方則轉向計算語言學的應用研究。
第三階段:數據驅動的顛覆期(21世紀10年代)。深度學習使語言處理脫離人工規則,倒逼語言學反思理論根基。2013年,Mikolov團隊提出Word2Vec模型,將詞語映射為連續向量,實現詞語向量化。2015年,深度學習對語言學理論的沖擊達到高潮。辛頓宣稱:“語言結構無需先天預設,統計規律足以覆蓋人類語言行為?!?017年,Transformer架構通過自注意力機制突破句法樹分析框架,催生BERT、GPT等大模型。這些模型僅通過預訓練海量文本即可生成連貫語句,無需顯式語法規則。2019年,Bender等學者提出“隨機鸚鵡論”,指責大模型僅模仿表面形式,缺乏語義理解,生成語法學派陷入被動。深度學習改變了語言處理范式,大語言模型通過海量數據訓練,突破了規則系統的局限性,直接挑戰喬姆斯基理論,引發學術爭議,語言學研究從規則導向轉向數據驅動。計算語言學領域出現統計模型與規則系統的路線之爭,語言學家被迫重新定位角色:或回歸本體理論研究,或探索規則與數據的結合路徑。
第四階段:人工智能賦能的深化融合期(2020年至今)。2020年,GPT-3實現零樣本學習,人工智能變為語言學研究的“增強工具”。2022年底,ChatGPT橫空出世,人工智能進入大語言模型時代。ChatGPT的對話能力使非專業人士可快速測試語言學假設(如方言生成、句法容錯性)。科大訊飛利用人工智能技術尋找瀕危語言中不同尺度的音節語義之間的關聯和模式,并形成語音庫,實現了瀕危語言的留存。這些都體現出人工智能技術與語言學研究的融合。Google發布多語言BERT模型,涵蓋104種語言的語法特征向量,學者可據此量化分析語序共性,這使“語言類型學從定性分類推向定量建模”。2025年4月,緬甸發生地震后,DeepSeek用7小時攻克緬甸救災語言關,為救援工作提供了關鍵的語言支持,彰顯了人工智能在緊急情況下的應用潛力。人工智能技術加速了語言數據的處理與分析,促進了語言學理論的驗證與創新。在人工智能賦能的深化融合期,語言學研究不再局限于傳統的理論探討,而是更加注重理論與實踐的結合。這種跨學科的合作模式使得語言學與人工智能相互借鑒、不斷融合,為未來的語言學研究指明了方向。
自20世紀中葉生成語法理論確立以來,語言學便圍繞“人類語言能力的本質”展開追問。喬姆斯基通過形式化規則系統,將語言研究錨定于人類先天性的理論預設,這一范式主導學術界長達半個世紀。然而,隨著人工智能的快速發展,語言學的認識論根基正遭遇前所未有的挑戰:從早期基于詞典的機械規則映射,到深度學習驅動的人工智能,技術路徑的迭代不僅重塑了語言分析的工具,更迫使學術界直面“先天論”與“經驗論”的問題。2017年Transformer架構的問世,標志著語言模型擺脫人工語法標注的限制,通過自注意力機制實現語義的分布式涌現,這一技術不僅顛覆了傳統句法樹的分析框架,更催生出“語言結構是否必須預設先天模塊”的討論與思考。當前的大語言模型通過純數據驅動,在零樣本任務中生成符合語法的復雜句式,直接挑戰喬姆斯基的理論預設。社交媒體文本挖掘、情感分析等NLP應用,揭示了語言使用的動態社會性,促使學術界審視“語言能力”是否應包含社會交互維度。如何在人工智能的背景下反思語言學理論、把握語言的本質、探索語言與人工智能的交互機制,成為當前語言學研究的重要課題。
在人工智能時代,語言學家開始從理論到實踐反思語言學科的發展。大語言模型的飛速發展,正促使語言學研究進入一個全新的發展階段。語言學家意識到,傳統的語言學理論與方法雖然有其獨特的價值,但在面對大數據、機器學習等現代技術的挑戰時,也需要進行適度的調整與創新。與大語言模型的結合,為語言學研究提供了新的思路和方法。許多學者也認識到,人工智能對語言學的沖擊并非單純的方法論擴展,而是觸及學科理論基礎??梢韵胂螅敹嗄B大模型能夠自主關聯視覺場景與語義指稱時,索緒爾傳統的符號任意性原則是否需要重新被審視?當機器翻譯系統在低資源語言中展現超越人類的形態歸納能力時,歷史語言學的譜系建構是否面臨范式革新?對這些問題的回應,或將決定語言學在人工智能時代的定位。未來,隨著大語言模型的不斷發展和完善,語言學研究將迎來更多的機遇與挑戰。語言學家需要繼續深化與人工智能技術的融合,不斷探索新的研究方法和思路,以更好地揭示語言的本質和規律,為人類的語言交流和文化傳承作出更大貢獻。同時,也需要加強跨學科的合作與交流,推動語言學與人工智能的協同發展。
本文系國家社科基金后期資助項目“現代漢語標題用詞與標題句式研究”(2024FYYB066)階段性成果
作者系黑龍江大學文學院副院長、教授;黑龍江大學漢語研究中心副研究員
來源 :中國社會科學報
責任編輯: 崔晉
新媒體編輯:崔岑
如需交流可聯系我們
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.