網易首頁 > 網易號 > 正文申請入駐

科學家提出神經元識別算法，揭示大模型“語言無界”神經基礎

2025-06-24 18:50:00　來源: DeepTech深科技

北京舉報

分享至

“這學期教我們 C++ 的陳家駿老師編程水平過硬，教學能力也是真的好，我們用的教材都是他編的。”在某社交媒體上，一位網友這樣評價南京大學教授陳家駿 [1]。

在某評價網站上，由陳家駿擔任共同作者的《程序設計教程：用 C++ 語言編程》一書被一位網友評價稱這是“少數沒有被我賣掉的計算機教材”[2]。

圖 | 陳家駿（來源：https://cs.nju.edu.cn/chenjiajun/）

近年來，陳家駿也在 AI 領域有所建樹。近日，陳家駿團隊聯合微軟亞洲研究院團隊提出一種新型細粒度神經元識別算法，該算法能夠有效識別跨語言共享的語言相關神經元。具體來說，它分別可以檢測語言神經元和語言無關神經元。

此外，基于不同類型神經元的分布特征，研究團隊將大模型的多語言推理內部過程分為四個部分，它們分別是：多語言理解、共享語義空間推理、多語言輸出空間變換和詞匯空間輸出。

同時，研究團隊既分析了對齊前后的模型，也分析了自發多語言對齊現象。本次研究表明，大模型的不同部分對于不同神經元表現出不同的依賴性，并且多語言對齊能夠顯著增強相關層中的相應神經元的激活。

另外，研究團隊還分析了大模型的自發多語言對齊現象，為理解語言無關神經元和跨語言共享的語言相關神經元所扮演的角色提供了更多見解。進一步地，他們還針對英語的獨特性及神經元分布特征提供了實證觀察結果，有助于更深入地理解大模型的多語言對齊和多語言能力。

（來源：arXiv）

實驗設置：兩款模型、兩個數學基準、10 種語言

據介紹，研究團隊發現識別語言特定神經元的已有方法存在如下一個關鍵局限：有些神經元雖然在多種語言中被共享，但是并非完全與語言無關。在現有的框架之下，這些神經元被錯誤地歸類為語言特異性神經元或語言無關性神經元。

因此，本次研究旨在探索能否從語言神經元的角度更好地分析和理解多語言對齊是如何增強大模型多語言能力的？為此，研究團隊從語言神經元的角度針對大模型的多語言對齊進行了全面研究，并將 MAPO（Multilingual-Alignment-as-Preference Optimization）作為一種代表性多語言對齊算法加以應用。

針對現有語言特異性神經元識別方法的局限性，本次研究將語言神經元定義為語言特異性神經元與語言相關神經元的集合（而非語言無關神經元）。同時，他們將語言相關神經元、語言特定神經元和語言無關神經元加以區分，以便進行更精確的分析。

圖 | 相關論文（來源：arXiv）

通過參考前人的研究，研究團隊針對數學推理任務和不同語言進行了實驗和分析。

在模型上，他們使用了如下兩種模型——MistralMathOctopus-7B 和 MetaMathOctopus7B。其中，MistralMathOctopus 是通過使用 MGSM8KInstruct 針對 MetaMath Mistral 進行微調而獲得的，MetaMathOctopus 是通過使用 MGSM8KInstruct 針對 MetaMath 進行微調而獲得的。考慮到計算資源有限以及可重復性，研究團隊直接使用公開發布的基礎模型，同時實驗分析主要基于 MistralMathOctopus。

在數據集上，研究團隊在兩個具有代表性的數學推理基準 MGSM 和 MSVAMP 上進行了實驗。其中，MGSM 是在多語言數學推理評估中已得到廣泛使用的基準；MSVAMP 是與 MGSM 相對的一個域外測試集，主要用于評估模型的魯棒性和泛化能力。

在語言上，研究團隊選擇了以下 10 種不同的語言進行分析。作為一種樞紐語言，英語被用作本次研究對齊目標。同時，他們還選擇了漢語、俄語、德語、法語、西班牙語、日語、斯瓦希里語、泰語和孟加拉語作為 9 種具有代表性的非英語語言。

在實現方式上，由于計算資源有限因此本次研究聚焦于 MAPO 中最有效的 DPO（Direct Preference Optimization）變體。在算術推理基準 NumGLUE 中，研究團隊選擇了三個任務，并將問題翻譯成與 MGSM 一致的語言，以便能夠創建多語言種子數據集。

為了構建偏好對，他們使用相應的基礎模型針對響應進行采樣，并使用 NLLB-200-distilled-600M 作為翻譯模型來獲得對齊得分。通過此，對于每種模型和每種目標語言（英語除外），研究團隊獲得了 10000 個偏好對。

在神經元選擇階段，研究團隊針對 MGSM 和 MSVAMP 數據集的響應進行強制解碼，以便獲得每種語言的神經元激活概率。基于開發集的實證結果，研究團隊將平衡系數 λ 設為 0.04，閾值 τ 設為 0.5。

停用語言神經元會產生更明顯的效果

基于本次提出的神經元識別算法，研究團隊識別了模型中的語言特異性神經元、語言相關神經元和語言無關神經元。為了進一步驗證上述算法的有效性，他們參照前人的方法，通過停用所識別出的跨語言語言神經元來考察大模型困惑度的變化。然后，在基礎模型和對齊模型上進行實驗。通過此，他們展示了語言特異性神經元和語言神經元的結果。

（來源：arXiv）

研究團隊表示，無論是停用語言特異性神經元還是停用所有語言神經元，結果都始終呈現出相同的模式，即每行的對角元素均表現出最高值。值得注意的是，與僅停用語言特異性神經元相比，停用語言神經元會產生更明顯的效果。

基于這些觀察結果，研究團隊提出三個發現：

首先，本次算法能夠有效識別語言特異性神經元和語言相關神經元；
其次，對于特定語言而言，除了語言特異性神經元之外，還存在大量跨語言共享的相關神經元來共同支撐其性能表現；
再次，停用某一語言的所有語言相關神經元不會針對模型在其他語言上的性能產生顯著影響。

這不僅證實了利用本次方法所識別的語言神經元的有效性，還進一步揭示了語言神經元的核心特性。

大模型多語言推理內部過程應被劃為四個部分

基于所識別的神經元，研究團隊針對大模型中所有層進行了逐層功能分析。通過分析不同類型的神經元分布情況，其認為可以將大模型的多語言推理內部過程劃分為四個部分，而非此前一些研究中所提出的三階段劃分法。

（來源：arXiv）

這四個部分的具體介紹如下：

第一部分是多語言理解，即在初始層之中，語言神經元的數量達到峰值，而語言無關神經元的數量相對較少。在這一階段，模型會將多語言輸入映射到統一的語義空間中。
第二部分是共享語義空間推理，即在中間層之中，模型在不同語言的共享語義空間內進行推理。在這個階段，基本不存在語言神經元，而語言無關神經元則占據主導地位。
第三部分是多語言輸出空間轉換，在這個階段模型會將特征轉移到多語言輸出空間，以便為生成最終輸出做準備。這時，語言神經元的數量再次達到峰值，而語言無關神經元的數量則會降至最低點。
第四部分是詞匯空間輸出，這時模型會將不同語言的向量映射到共享的詞匯空間中以便生成輸出。這時，語言相關神經元和語言無關神經元的數量都會出現急劇增加，而語言特異性神經元的數量則少于前幾部分。

同時，不同類型神經元的分布與已有研究的結論保持一致，即神經元的數量會隨著大模型的不同推理階段而發生相應的變化。

與已訓練語言共享的新語言相關神經元，有助于提升模型表現

此前，曾有研究者揭示并探討了自發性多語言對齊現象。本次研究團隊則進一步分析了這一現象，其發現當采用多語言對齊策略的時候，也會出現自發的多語言對齊現象。

（來源：arXiv）

除了用于對齊的語言之外，大模型在其他未對齊的語言中也表現出顯著的性能提升。為了理解多語言對齊被推廣到其他語言的背后機制，研究團隊分析了多語言對齊前后不同類型神經元的變化，并以“中文/德文→英文”為例，在下表中展示了平均結果。

（來源：arXiv）

對于訓練過的語言來說，語言特異性神經元的數量會出現減少，而語言相關神經元的數量則會出現增加。這表明，經過對齊的語言傾向于利用更多與其他語言共享的語言相關神經元，而不是專屬的語言特異性神經元。此外，當將這一分析擴展到訓練語言以外的語言，研究團隊觀察到了類似的現象。

這表明，多語言對齊機制能夠促進語言相關神經元的協同利用，同時能夠降低模型對于語言特異性神經元的依賴，而且這一現象在模型訓練語言以及未訓練過的其他語言中均得到了驗證。基于此，研究團隊推測那些與已訓練語言共享的新語言相關神經元，有助于提升模型在其他未見語言上的表現。

停用英語語言神經元，對模型在英語中的性能幾無影響

由于目前的大模型主要是基于英語數據進行預訓練的，因此英語通常被認為在大模型中起著特殊作用。實驗中，研究團隊觀察到與其他非英語語言相比，英語表現出明顯不同的特征。

但是，基于已被識別出來的神經元，他們發現停用英語的語言神經元的這一做法，對于模型在英語中的性能影響可以忽略不計，這與在其他語言中觀察到的行為完全不同。

基于這一發現，研究團隊在 MistralMathOctopus 基礎模型上量化了英語和非英語語言的語言神經元數量。

（來源：arXiv）

分析表明，無論是語言特異性神經元還是語言相關神經元，英語的神經元都比其他語言少得多。研究團隊推測，這是由于英語擁有許多與語言相關的神經元。并且，由于一直以來英語充當著樞紐語言，因此這些語言相關神經元很可能能和幾乎所有其他語言共享，從而讓它們與語言無關的神經元產生了混淆。

而在神經元分布的穩定性上，研究團隊計算了兩種設置之下的神經元重疊率。結果發現，盡管一些語言神經元的確切位置可能在不同環境中有所不同，但是大多數語言神經元的位置分布保持穩定。這也表明，在固定超參數下識別的語言神經元具有良好的可靠性和泛化能力。

（來源：arXiv）

整體來看，本次研究從語言神經元的角度研究了多語言對齊，并提出一種新型語言神經元識別算法，該算法能夠檢測大模型中的語言特異性神經元、語言相關神經元和語言無關神經元。通過失活消融實驗，研究團隊證實了所識別的神經元的有效性。

此外，他們通過分析不同類型神經元的作用，探究了多語言對齊機制。根據其分布特征，他們將大模型的內部處理過程分為四個功能部分。同時，本次研究表明多語言對齊能夠提升模型在不同功能部分中對于相應類型神經元的利用效率。另外，研究團隊發現，對齊過程會促使模型更多地依賴跨語言共享的語言相關神經元，而非依賴特定語言的神經元。

總的來說，本次研究基于不同類型的神經元進行了研究，為更好地理解大模型的多語言對齊和多語言能力提供了新的見解。

參考資料：

1.https://www.zhihu.com/question/533844208/answer/3224607031

2.https://book.douban.com/subject/1180584/

3.https://arxiv.org/pdf/2505.21505

運營/排版：何晨龍

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.