99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

AI竟能“跨語種共鳴”?科學家提出神經元識別算法,揭示大模型“語言無界”神經基礎

0
分享至


來源:DeepTech深科技

“這學期教我們 C++ 的陳家駿老師編程水平過硬,教學能力也是真的好,我們用的教材都是他編的。”在某社交媒體上,一位網友這樣評價南京大學教授陳家駿 [1]。

在某評價網站上,由陳家駿擔任共同作者的《程序設計教程:用 C++ 語言編程》一書被一位網友評價稱這是“少數沒有被我賣掉的計算機教材”[2]。


圖 | 陳家駿

(來源:https://cs.nju.edu.cn/chenjiajun/)

近年來,陳家駿也在 AI 領域有所建樹。近日,陳家駿團隊聯合微軟亞洲研究院團隊提出一種新型細粒度神經元識別算法,該算法能夠有效識別跨語言共享的語言相關神經元。具體來說,它分別可以檢測語言神經元和語言無關神經元。

此外,基于不同類型神經元的分布特征,研究團隊將大模型的多語言推理內部過程分為四個部分,它們分別是:多語言理解、共享語義空間推理、多語言輸出空間變換和詞匯空間輸出。

同時,研究團隊既分析了對齊前后的模型,也分析了自發多語言對齊現象。本次研究表明,大模型的不同部分對于不同神經元表現出不同的依賴性,并且多語言對齊能夠顯著增強相關層中的相應神經元的激活。

另外,研究團隊還分析了大模型的自發多語言對齊現象,為理解語言無關神經元和跨語言共享的語言相關神經元所扮演的角色提供了更多見解。進一步地,他們還針對英語的獨特性及神經元分布特征提供了實證觀察結果,有助于更深入地理解大模型的多語言對齊和多語言能力。


(來源:arXiv)


實驗設置:兩款模型、兩個數學基準、10 種語言

據介紹,研究團隊發現識別語言特定神經元的已有方法存在如下一個關鍵局限:有些神經元雖然在多種語言中被共享,但是并非完全與語言無關。在現有的框架之下,這些神經元被錯誤地歸類為語言特異性神經元或語言無關性神經元。

因此,本次研究旨在探索能否從語言神經元的角度更好地分析和理解多語言對齊是如何增強大模型多語言能力的?為此,研究團隊從語言神經元的角度針對大模型的多語言對齊進行了全面研究,并將 MAPO(Multilingual-Alignment-as-Preference Optimization)作為一種代表性多語言對齊算法加以應用。

針對現有語言特異性神經元識別方法的局限性,本次研究將語言神經元定義為語言特異性神經元與語言相關神經元的集合(而非語言無關神經元)。同時,他們將語言相關神經元、語言特定神經元和語言無關神經元加以區分,以便進行更精確的分析。


圖 | 相關論文(來源:arXiv)

通過參考前人的研究,研究團隊針對數學推理任務和不同語言進行了實驗和分析。

在模型上,他們使用了如下兩種模型——MistralMathOctopus-7B 和 MetaMathOctopus7B。其中,MistralMathOctopus 是通過使用 MGSM8KInstruct 針對 MetaMath Mistral 進行微調而獲得的,MetaMathOctopus 是通過使用 MGSM8KInstruct 針對 MetaMath 進行微調而獲得的。考慮到計算資源有限以及可重復性,研究團隊直接使用公開發布的基礎模型,同時實驗分析主要基于 MistralMathOctopus。

在數據集上,研究團隊在兩個具有代表性的數學推理基準 MGSM 和 MSVAMP 上進行了實驗。其中,MGSM 是在多語言數學推理評估中已得到廣泛使用的基準;MSVAMP 是與 MGSM 相對的一個域外測試集,主要用于評估模型的魯棒性和泛化能力。

在語言上,研究團隊選擇了以下 10 種不同的語言進行分析。作為一種樞紐語言,英語被用作本次研究對齊目標。同時,他們還選擇了漢語、俄語、德語、法語、西班牙語、日語、斯瓦希里語、泰語和孟加拉語作為 9 種具有代表性的非英語語言。

在實現方式上,由于計算資源有限因此本次研究聚焦于 MAPO 中最有效的 DPO(Direct Preference Optimization)變體。在算術推理基準 NumGLUE 中,研究團隊選擇了三個任務,并將問題翻譯成與 MGSM 一致的語言,以便能夠創建多語言種子數據集。

為了構建偏好對,他們使用相應的基礎模型針對響應進行采樣,并使用 NLLB-200-distilled-600M 作為翻譯模型來獲得對齊得分。通過此,對于每種模型和每種目標語言(英語除外),研究團隊獲得了 10000 個偏好對。

在神經元選擇階段,研究團隊針對 MGSM 和 MSVAMP 數據集的響應進行強制解碼,以便獲得每種語言的神經元激活概率。基于開發集的實證結果,研究團隊將平衡系數 λ 設為 0.04,閾值 τ 設為 0.5。


停用語言神經元會產生更明顯的效果

基于本次提出的神經元識別算法,研究團隊識別了模型中的語言特異性神經元、語言相關神經元和語言無關神經元。為了進一步驗證上述算法的有效性,他們參照前人的方法,通過停用所識別出的跨語言語言神經元來考察大模型困惑度的變化。然后,在基礎模型和對齊模型上進行實驗。通過此,他們展示了語言特異性神經元和語言神經元的結果。


(來源:arXiv)

研究團隊表示,無論是停用語言特異性神經元還是停用所有語言神經元,結果都始終呈現出相同的模式,即每行的對角元素均表現出最高值。值得注意的是,與僅停用語言特異性神經元相比,停用語言神經元會產生更明顯的效果。

基于這些觀察結果,研究團隊提出三個發現:

  • 首先,本次算法能夠有效識別語言特異性神經元和語言相關神經元;

  • 其次,對于特定語言而言,除了語言特異性神經元之外,還存在大量跨語言共享的相關神經元來共同支撐其性能表現;

  • 再次,停用某一語言的所有語言相關神經元不會針對模型在其他語言上的性能產生顯著影響。

這不僅證實了利用本次方法所識別的語言神經元的有效性,還進一步揭示了語言神經元的核心特性。


大模型多語言推理內部過程應被劃為四個部分

基于所識別的神經元,研究團隊針對大模型中所有層進行了逐層功能分析。通過分析不同類型的神經元分布情況,其認為可以將大模型的多語言推理內部過程劃分為四個部分,而非此前一些研究中所提出的三階段劃分法。


(來源:arXiv)

這四個部分的具體介紹如下:

  • 第一部分是多語言理解,即在初始層之中,語言神經元的數量達到峰值,而語言無關神經元的數量相對較少。在這一階段,模型會將多語言輸入映射到統一的語義空間中。

  • 第二部分是共享語義空間推理,即在中間層之中,模型在不同語言的共享語義空間內進行推理。在這個階段,基本不存在語言神經元,而語言無關神經元則占據主導地位。

  • 第三部分是多語言輸出空間轉換,在這個階段模型會將特征轉移到多語言輸出空間,以便為生成最終輸出做準備。這時,語言神經元的數量再次達到峰值,而語言無關神經元的數量則會降至最低點。

  • 第四部分是詞匯空間輸出,這時模型會將不同語言的向量映射到共享的詞匯空間中以便生成輸出。這時,語言相關神經元和語言無關神經元的數量都會出現急劇增加,而語言特異性神經元的數量則少于前幾部分。

同時,不同類型神經元的分布與已有研究的結論保持一致,即神經元的數量會隨著大模型的不同推理階段而發生相應的變化。


與已訓練語言共享的新語言相關神經元,有助于提升模型表現

此前,曾有研究者揭示并探討了自發性多語言對齊現象。本次研究團隊則進一步分析了這一現象,其發現當采用多語言對齊策略的時候,也會出現自發的多語言對齊現象。


(來源:arXiv)

除了用于對齊的語言之外,大模型在其他未對齊的語言中也表現出顯著的性能提升。為了理解多語言對齊被推廣到其他語言的背后機制,研究團隊分析了多語言對齊前后不同類型神經元的變化,并以“中文/德文→英文”為例,在下表中展示了平均結果。


(來源:arXiv)

對于訓練過的語言來說,語言特異性神經元的數量會出現減少,而語言相關神經元的數量則會出現增加。這表明,經過對齊的語言傾向于利用更多與其他語言共享的語言相關神經元,而不是專屬的語言特異性神經元。此外,當將這一分析擴展到訓練語言以外的語言,研究團隊觀察到了類似的現象。

這表明,多語言對齊機制能夠促進語言相關神經元的協同利用,同時能夠降低模型對于語言特異性神經元的依賴,而且這一現象在模型訓練語言以及未訓練過的其他語言中均得到了驗證。基于此,研究團隊推測那些與已訓練語言共享的新語言相關神經元,有助于提升模型在其他未見語言上的表現。


停用英語語言神經元,對模型在英語中的性能幾無影響

由于目前的大模型主要是基于英語數據進行預訓練的,因此英語通常被認為在大模型中起著特殊作用。實驗中,研究團隊觀察到與其他非英語語言相比,英語表現出明顯不同的特征。

但是,基于已被識別出來的神經元,他們發現停用英語的語言神經元的這一做法,對于模型在英語中的性能影響可以忽略不計,這與在其他語言中觀察到的行為完全不同。

基于這一發現,研究團隊在 MistralMathOctopus 基礎模型上量化了英語和非英語語言的語言神經元數量。


(來源:arXiv)

分析表明,無論是語言特異性神經元還是語言相關神經元,英語的神經元都比其他語言少得多。研究團隊推測,這是由于英語擁有許多與語言相關的神經元。并且,由于一直以來英語充當著樞紐語言,因此這些語言相關神經元很可能能和幾乎所有其他語言共享,從而讓它們與語言無關的神經元產生了混淆。

而在神經元分布的穩定性上,研究團隊計算了兩種設置之下的神經元重疊率。結果發現,盡管一些語言神經元的確切位置可能在不同環境中有所不同,但是大多數語言神經元的位置分布保持穩定。這也表明,在固定超參數下識別的語言神經元具有良好的可靠性和泛化能力。


(來源:arXiv)

整體來看,本次研究從語言神經元的角度研究了多語言對齊,并提出一種新型語言神經元識別算法,該算法能夠檢測大模型中的語言特異性神經元、語言相關神經元和語言無關神經元。通過失活消融實驗,研究團隊證實了所識別的神經元的有效性。

此外,他們通過分析不同類型神經元的作用,探究了多語言對齊機制。根據其分布特征,他們將大模型的內部處理過程分為四個功能部分。同時,本次研究表明多語言對齊能夠提升模型在不同功能部分中對于相應類型神經元的利用效率。另外,研究團隊發現,對齊過程會促使模型更多地依賴跨語言共享的語言相關神經元,而非依賴特定語言的神經元。

總的來說,本次研究基于不同類型的神經元進行了研究,為更好地理解大模型的多語言對齊和多語言能力提供了新的見解。

參考資料:

1.https://www.zhihu.com/question/533844208/answer/3224607031

2.https://book.douban.com/subject/1180584/

3.https://arxiv.org/pdf/2505.21505

閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”

https://wx.zsxq.com/group/454854145828


未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

截止到3月31日 ”未來知識庫”精選的百部前沿科技趨勢報告

(加入未來知識庫,全部資料免費閱讀和下載)

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
最佳引援,4年頂薪續約!東契奇決定留守,湖人正式告別詹皇時代

最佳引援,4年頂薪續約!東契奇決定留守,湖人正式告別詹皇時代

阿覽
2025-07-24 22:31:40
薪資重回第二奢侈稅線以下!凱爾特人官方:球隊已裁掉后衛JD·戴維森

薪資重回第二奢侈稅線以下!凱爾特人官方:球隊已裁掉后衛JD·戴維森

雷速體育
2025-07-25 06:50:20
宗馥莉被質疑讀的是“野雞大學”!校方:商科王牌,法學全美第一

宗馥莉被質疑讀的是“野雞大學”!校方:商科王牌,法學全美第一

福州晚報
2025-07-23 18:06:13
西工大、鐵一中、高新一中、西交附中、濱河中學2025中考屏蔽學生

西工大、鐵一中、高新一中、西交附中、濱河中學2025中考屏蔽學生

金哥說新能源車
2025-07-25 17:47:54
懂車帝智駕測試,36款車全部翻車?智駕的天塌了!

懂車帝智駕測試,36款車全部翻車?智駕的天塌了!

創作者_1470992743975
2025-07-25 09:59:48
選秀專家:楊瀚森新秀年可能復刻克林根上賽季的模式

選秀專家:楊瀚森新秀年可能復刻克林根上賽季的模式

雷速體育
2025-07-25 18:49:07
汪峰前妻葛薈婕直播哽咽:女兒小蘋果不想認自己,汪峰和女兒的聯系方式都沒有

汪峰前妻葛薈婕直播哽咽:女兒小蘋果不想認自己,汪峰和女兒的聯系方式都沒有

TVB的四小花
2025-07-25 01:52:28
楊子帶大兒子坐高鐵,13歲安迪眼睛小又黑又胖,撓癢癢好像熊大

楊子帶大兒子坐高鐵,13歲安迪眼睛小又黑又胖,撓癢癢好像熊大

小娛樂悠悠
2025-07-25 12:04:38
王毅:柬泰邊境沖突令人痛心擔憂,根源是當年西方殖民者造成的遺禍

王毅:柬泰邊境沖突令人痛心擔憂,根源是當年西方殖民者造成的遺禍

觀察者網
2025-07-25 16:53:38
我主刀30年被降級,領導點名要我手術,我說:我辭職了,院長懵了

我主刀30年被降級,領導點名要我手術,我說:我辭職了,院長懵了

紅豆講堂
2025-06-30 17:20:10
柬埔寨為何這么亂?來看看不為人知的一面

柬埔寨為何這么亂?來看看不為人知的一面

諾言卿史錄
2025-07-16 15:15:36
堪稱災難?紐卡六大引援目標全沒來+伊薩克要離隊+小蜜蜂拒放維薩

堪稱災難?紐卡六大引援目標全沒來+伊薩克要離隊+小蜜蜂拒放維薩

直播吧
2025-07-25 16:25:43
方程豹鈦7現身,前臉帶“雙眼皮”,形似“路虎衛士”,軸距2米92

方程豹鈦7現身,前臉帶“雙眼皮”,形似“路虎衛士”,軸距2米92

聞車品百魅
2025-07-25 11:01:49
為什么勸說做人不要過度的禮貌 看了網友回答 我才恍然大悟

為什么勸說做人不要過度的禮貌 看了網友回答 我才恍然大悟

特約前排觀眾
2025-07-16 05:46:32
45歲母親霧天開車買菜失蹤,10年后女兒打車上班,發現是媽媽的愛車

45歲母親霧天開車買菜失蹤,10年后女兒打車上班,發現是媽媽的愛車

今天說故事
2025-07-02 17:31:55
周渝民夫婦的瓜,有點炸

周渝民夫婦的瓜,有點炸

不二大叔
2025-07-24 22:17:34
給出最大合同仍被拒絕!庫明加破防是因為科爾,勇士對其要價曝光

給出最大合同仍被拒絕!庫明加破防是因為科爾,勇士對其要價曝光

你的籃球頻道
2025-07-25 11:13:05
省委第十二巡視組巡視無錫市工作動員會召開

省委第十二巡視組巡視無錫市工作動員會召開

無錫發布
2025-07-25 23:00:08
戰爭爆發前的幾個預兆出現!美國已經有4個,張召忠預言要成真?

戰爭爆發前的幾個預兆出現!美國已經有4個,張召忠預言要成真?

近史博覽
2025-07-24 08:52:53
即將合并,強勢影響寧波!剛剛通知:臨時取消!延期!停運!周末務必當心

即將合并,強勢影響寧波!剛剛通知:臨時取消!延期!停運!周末務必當心

魯中晨報
2025-07-25 19:50:08
2025-07-26 01:48:49
人工智能學家 incentive-icons
人工智能學家
人工智能領域權威媒體
4046文章數 37238關注度
往期回顧 全部

科技要聞

36款熱門車高危智駕場景測試,“團滅”!

頭條要聞

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

頭條要聞

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

體育要聞

3年過去了,她還是歐洲杯上最酷的姐

娛樂要聞

汪蘇瀧不忍了 !張碧晨痛失《年輪》演唱權

財經要聞

劉煜輝:當下重要不是找確定性而是轉折點

汽車要聞

李斌一口氣講了近3個小時樂道L90 原因是為啥?

態度原創

數碼
家居
本地
公開課
軍事航空

數碼要聞

谷歌Pixel Watch 4智能手表曝光:充電口更改,配色更多

家居要聞

環繞設計 空間動線合理

本地新聞

換個城市過夏天|風拂鹽湖,躲進格爾木的盛夏清涼

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

吳謙少將任中國駐埃及使館國防武官

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 高尔夫| 大田县| 周口市| 体育| 长乐市| 承德市| 凤凰县| 东乌| 章丘市| 浠水县| 阆中市| 平陆县| 扎赉特旗| 沂水县| 渑池县| 南宁市| 宣城市| 龙口市| 通许县| 大悟县| 大渡口区| 洱源县| 镇康县| 桐梓县| 梁平县| 宁化县| 兴海县| 紫阳县| 康定县| 竹北市| 绥阳县| 洪泽县| 静乐县| 肃北| 红原县| 巨野县| 星子县| 鄂尔多斯市| 乌兰浩特市| 敖汉旗| 杂多县|