99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

大語言模型如何賦能多語言語音識別?

0
分享至

Multilingual and Fully Non-Autoregressive ASR with Large Language Model Fusion: A Comprehensive Study

多語言和完全非自回歸 ASR 與大語言模型融合:一項綜合研究

https://arxiv.org/pdf/2401.12789v1



摘要
在大模型時代,解碼過程的自回歸特性常常導致延遲成為顯著的瓶頸。我們提出了一種非自回歸的LM融合語音識別(ASR)系統,該系統有效利用了加速器硬件的并行化能力。我們的方法將通用語音模型(USM)與PaLM 2語言模型結合,在每段評分模式下實現了在FLEURS數據集上平均相對詞錯誤率(WER)改善10.8%,在YouTube字幕任務上改善3.6%。此外,我們進行了全面的消融研究,分析了諸如LLM大小、上下文長度、詞匯量大小、融合方法等關鍵參數的影響。例如,我們研究了從128M到340B不同參數規模的LLM對ASR性能的影響。本研究為影響大規模實用型LM融合語音識別系統效果的因素提供了寶貴的見解。

關鍵詞 :大語言模型,多語言語音識別

1. 引言

大規模模型在各類應用中展現出了令人印象深刻的效果,尤其是在多語言語音模型 [1, 2, 3, 4, 5] 和多語言大語言模型(LLMs)[6, 7, 8] 領域。下一步的發展方向是融合這些大型多語言模型以提升識別準確率。然而,它們的規模也帶來了延遲問題,尤其是在自回歸解碼過程中表現明顯,例如淺層融合(shallow fusion)[9]。

像語音助手和實時字幕這樣的應用,正面臨這些模型所帶來的延遲挑戰。意識到這一問題的重要性,我們提出了一種非自回歸的LM融合語音識別(ASR)系統。該方法使用通用語音模型(USM)[10] 和 PaLM 2語言模型 [11],以8秒為單位對語音進行流式處理。USM和PaLM 2均能利用完整的音頻上下文來處理每一個8秒的語音塊,在提升準確性的同時,也能通過對序列進行并行處理來實現快速響應,從而帶來流暢的用戶體驗。具體而言,我們在USM上附加一個CTC解碼器,以非自回歸方式生成候選假設,并通過在教師強制模式(teacher forcing mode)下將整個假設序列輸入語言模型,以非自回歸方式對這些候選進行評分 [12]。

我們的方法在公開的多語言測試集FLEURS上實現了平均相對詞錯誤率(WER)10.8%的雙位數提升。在一個具有挑戰性的內部YouTube字幕測試集上,我們也觀察到所有可用語言平均提升了3.6%。此外,我們的研究深入探討了諸如語言模型大小(最大至340B參數)、詞匯量、上下文長度、分段策略、n-best列表大小以及評分方法等因素的影響。例如,我們發現盡管大語言模型隨著參數規模的增長展現出新興能力(emergent behaviors)[13],但其對WER的改善卻較為有限——不過更大的模型可以降低系統對融合權重的敏感性。

2. 相關工作

利用大語言模型(LLMs)來增強語音識別系統(ASR)已成為一個自然且有前景的研究方向,并在近期研究中取得了顯著進展。已有若干研究專注于將LLMs與ASR模型進行整合,以充分利用其豐富的語言知識和上下文理解能力。例如,[14] 將T5 [15] 和 PaLM 1 [16] 與Conformer RNN-T模型結合,提升了英語及語碼混合數據的語音識別性能。我們的工作在此基礎上進一步推進,使用LLMs融合具有非自回歸CTC頭的大規模ASR模型。

[9] 使用淺層融合(shallow fusion)方法提升了短語音查詢中罕見詞的識別效果。相比之下,我們的研究重點在于YouTube字幕等長文本任務,在這類任務中,LLMs的上下文理解能力尤為重要。鑒于淺層融合在長任務中的局限性以及詞匯表不匹配的問題,我們探索了評分(scoring)作為一種更高效的融合技術。

[17] 使用n-best評分方法將Listen-Attend-Spell Once模型 [18] 與BERT [19] 進行集成。我們在這一思路的基礎上進行了擴展,部署了更大規模、支持多語言的模型。其他研究如 [20] 探索了LLMs與ASR系統之間的多種融合方式。他們令人意外的發現是:簡單的淺層融合方法在性能上可與更復雜的深層融合技術相媲美。同樣地,[21] 在使用LLaMa LLM進行兩種融合方法實驗時,發現詞錯誤率(WER)結果差異甚微,這也印證了 [20] 的結論。

基于上述研究成果,我們的研究強調采用“評分”作為融合方法,旨在構建一種實用且可擴展的ASR+LLM解決方案,適用于真實世界的應用場景。

3. 方法

3.1. 語音模型

我們采用通用語音模型(Universal Speech Model,USM)[10],這是一個具有20億參數的Conformer [22] 模型,包含32層,模型維度為1536。該模型用于生成語音識別的候選假設。其詞匯表由16384個子詞單元(wordpieces)組成,并使用CTC解碼器實現非自回歸、并行化的推理過程。

在訓練過程中,USM采用了多任務學習方法。它在超過1200萬小時的未標注音頻數據和280億句文本數據上進行訓練,同時還使用了11萬小時的有監督音頻數據和10萬小時的半監督音頻數據。所有訓練數據均為多語言的。USM具備分塊雙向注意力機制,能夠在訓練中對30秒長的語音段進行建模。與傳統的基于音頻的分塊方式不同,這種方法在整個語音流中保持連續狀態,從而可以每8秒輸出一次流式結果,提升用戶體驗。

3.2. 語言模型

我們使用PaLM 2語言模型 [11] 對ASR生成的候選假設進行評分。該模型在網頁文檔、書籍等多種數據源上進行了訓練,使用了一個包含256k個子詞單元的詞匯表。相比其前身PaLM 1 [16],PaLM 2通過改進的訓練策略、架構優化以及更長的上下文長度,在自然語言任務中展現出更優越的性能。

我們在語音識別評分任務中評估了預訓練版本的PaLM 2,并采用前綴語言模型評分模式 [23]:將模型以固定前綴(來自前一段的最優假設)進行提示,并對多個后綴假設(當前段的不同候選假設)進行評分。

3.3. 長文本推理

為了在不受內存限制的情況下處理長文本音頻,我們采用了一種流式處理框架,逐幀處理音頻。利用USM的分塊注意力機制,一旦8秒的音頻可用,我們就對其進行編碼,并將其傳遞給CTC解碼器。這些CTC概率構成了一個混淆網絡格(lattice),編碼了可能的子詞單元序列。

由于每一幀編碼是相互獨立的,因此對應的子詞分布也是彼此獨立的。這樣一來,格中的候選假設數量會隨著音頻長度呈指數增長,使得用LLM對所有候選進行評分變得不可行。

3.4. 語言模型評分

為了應對候選假設數量的指數增長問題,我們將格劃分為8秒的語音段,并僅對當前段的候選假設進行評分。為了保持上下文連貫性,我們使用前兩個語音段中得分最高的假設拼接作為語言模型的前綴。這個迭代過程每8秒更新一次,確保前綴始終是最近兩個語音段中最優的假設。

為了生成語言模型所需的后綴,我們從格中選取得分最高的N個候選假設,并將它們批量組合成后綴序列進行評分。結合語言模型(LM)和語音模型(ASR)的得分,給定音頻 x 和假設 y 的聯合得分表示為:

最終選擇得分最高的候選假設作為最終的轉錄結果。按語音段進行評分的方式具有可并行性,是非自回歸的,并且在用戶說話過程中每8秒以流式模式更新一次。

4. 評估

在我們的所有評估中,除非另有說明,均采用以下設置:

  • 美式英語區域設置(US English locale)

  • 使用10億參數版本的PaLM 2

  • 語言模型評分權重設為0.3(根據此處列出的設置進行優化)

  • 上下文長度為前兩個語音段

  • n-best列表大小為16

  • 使用YouTube字幕測試集,詳見下一節描述

4.1. 測試集

YouTube視頻涵蓋多種類別,使其非常適合我們的語言模型評分研究。我們評估了一個常用的YouTube字幕測試集YT LONG,該測試集包含多種語言的點播視頻內容 [24, 25, 26, 27, 14]。對于美式英語,該測試集包含77個視頻,總計22.2小時,平均每個語音片段長度為14.8分鐘。其他語言平均包含61個視頻和17小時音頻。我們還對FLEURS測試集 [28] 進行了分析,該測試集每種語言包含600至900個語音片段,其中美式英語有647個。所有語言合計總時長為283小時。

4.2. 所有語言的結果

所有語言的評估結果如圖1所示。我們測試了四種不同的語言模型評分權重 λ 值:{0.15, 0.30, 0.45, 0.60}。在YouTube測試集上(圖1頂部),集成PaLM 2使美式英語(en-us)的詞錯誤率(WER)降低了4.1%,15種語言平均降低3.6%。在FLEURS測試集上(圖1底部),提升更為顯著:美式英語降低了9.7%,平均相對改善達到10.8%。所有語言均未出現性能下降。


4.3. 對語言模型大小的依賴性

大型語言模型隨著規模、數據量和計算資源的增加,展現出新興能力(emergent abilities)[13, 29]。本研究使用不同規模的PaLM 2變體對ASR候選假設評分進行了評估。表1中的結果顯示,盡管詞錯誤率(WER)隨著模型規模的增大(E2–E6)有所改善,但提升幅度可能無法抵消推理成本的上升。此外,最優的語言模型評分權重也隨模型規模而增加,從128M參數模型的0.25增加到340B參數模型的0.45(見圖2)。較大的模型在語言模型權重變化時表現出較低的WER敏感度。這表明,較小的模型需要謹慎地設置權重,而更大的模型由于識別準確性更高,可以承受更高的權重而不至于選擇錯誤的假設。



4.4. 對上下文長度的依賴性

通過調整用于提示的歷史語音段數量,我們可以粗略控制語言模型的上下文長度。圖3顯示,將前4個語音段(即32秒解碼文本)拼接起來效果最佳。包含超過4個語音段時性能略有下降,可能是由于語言模型評分權重是在前2個語音段的基礎上優化的。結果表明,使用約32秒或大約50個詞的上下文可以提升ASR性能。然而,在此之后繼續增加上下文帶來的收益有限,這與許多自然語言處理任務中需要更長上下文的情況有所不同。


4.5. 對詞匯量大小的依賴性

PaLM 2擁有256k個token的詞匯表,專為自然語言生成進行優化。分段評分的一個優勢在于可以通過重新分詞來處理ASR模型與LLM之間的詞匯表不匹配問題。在10億參數版本的PaLM 2中,嵌入層和softmax層占據了約三分之一的模型參數。我們測試了將PaLM 2的詞匯量縮減至32k以降低計算成本。表2的結果顯示,使用較小的詞匯表僅帶來輕微的性能下降。因此,采用較小的詞匯表可以在保持良好性能的同時節省計算資源。


4.6. 對分段策略的依賴性

分段策略決定了使用語言模型對混淆網絡格(lattice)進行評分的頻率,進而影響用戶體驗和轉錄質量 [27, 30, 31]。我們評估了固定長度的分段方式以及基于語音活動檢測器(VAD)的分段方法 [32]。雖然VAD方法避免了截斷單詞的問題,但由于其產生的語音段長度不一致,在流式按段處理場景下可能會影響用戶體驗。VAD生成的語音段中位長度約為5秒。

表3中的結果顯示,固定長度分段(B3)優于VAD(E8),這一發現與 [30] 中的結論相反。這是由于模型結構的不同:[30] 使用的是RNN-T模型,在分段時會丟棄大部分候選假設,而我們的CTC模型不保留解碼器狀態,因此對過早分段具有更強的魯棒性。圖4顯示,在語音段長度超過3秒后,WER趨于穩定。這證明,與RNN-T不同,CTC得益于其非依賴性的混淆網絡結構,不會受到詞語截斷的影響。



4.7 假設數量的依賴性

隨著片段長度的增加,格點中的路徑數量也會增加,但計算限制會限制評分的假設數量。圖5展示了一項關于n最佳列表大小的研究,該大小表示每個片段評分的假設數量。隨著列表的擴展,性能得到提升,并在大約1024時趨于平穩。這種增長表明格點的密度很高,允許大型語言模型(LLM)在計算限制范圍內繼續提升轉錄質量。


4.8 與淺層融合的比較

我們的研究主要關注按片段的語言模型(LM)評分。另一種方法是按幀評分或淺層融合,由于其自回歸解碼和頻繁的語言模型調用,這種方法的計算負擔更重。


表4中的性能比較顯示,按幀評分(E9)的錯誤率為13.70(相對于沒有語言模型時下降了5.4%),優于按片段評分(B4)的13.88(下降了4.1%)。淺層融合在非低延遲場景中,在詞匯匹配的情況下表現出色。對于按幀評分,我們重新訓練了自動語音識別(ASR)模型,使其使用PaLM 2的詞匯表。


  1. 5結論
    我們開發了一個可部署的大規模多語言語音識別(ASR)系統,著重強調實用性。通過采用基于CTC(連接時序分類)和分段語言模型評分的非自回歸系統,我們在YouTube字幕和FLEURS數據集上實現了跨語言性能提升。本研究還揭示了系統參數對ASR效能的影響機制。

原文鏈接:https://arxiv.org/pdf/2401.12789v1

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
300億!396米!成都新“扛把子”來了,招商局西部總部即將封頂

300億!396米!成都新“扛把子”來了,招商局西部總部即將封頂

根基
2025-07-05 00:39:01
殲-10CE確認出貨伊朗后,以色列對著中方喊話,并提出了要求!

殲-10CE確認出貨伊朗后,以色列對著中方喊話,并提出了要求!

科技有趣事
2025-07-04 16:59:11
上海核心地標突發!全禿了!11棵稀缺景觀資源被毀,恢復要20-30年,檢察機關出手

上海核心地標突發!全禿了!11棵稀缺景觀資源被毀,恢復要20-30年,檢察機關出手

上觀新聞
2025-07-04 12:22:13
1950 年,四川地主拿出朱德欠條,朱總司令:馬上把他接到北京來

1950 年,四川地主拿出朱德欠條,朱總司令:馬上把他接到北京來

紀實文錄
2025-06-21 14:47:10
北京9月新學期將實現全部中小學生免自帶餐具

北京9月新學期將實現全部中小學生免自帶餐具

澎湃新聞
2025-07-04 18:54:02
反轉!南航機長跳樓前發生2級事故,空姐妻子再發聲,自曝受傷!

反轉!南航機長跳樓前發生2級事故,空姐妻子再發聲,自曝受傷!

古希臘掌管松餅的神
2025-07-04 08:40:22
隊友和自己全跪!16歲國腳搶斷日本隊+奔襲30米過掉門將 踢飛空門

隊友和自己全跪!16歲國腳搶斷日本隊+奔襲30米過掉門將 踢飛空門

風過鄉
2025-07-04 21:34:53
中國驕傲!張帥組合2-1晉級溫網女雙16強 4年3進女雙第三輪

中國驕傲!張帥組合2-1晉級溫網女雙16強 4年3進女雙第三輪

醉臥浮生
2025-07-04 20:49:36
王學成:1983年駕殲5戰機叛逃臺灣,鄧麗君親自迎接,結局如何?

王學成:1983年駕殲5戰機叛逃臺灣,鄧麗君親自迎接,結局如何?

百年歷史老號
2024-05-16 14:38:19
背靠大佬,嫁法國老頭,癱瘓潦倒,李宇春身上的標簽哪個才是真的

背靠大佬,嫁法國老頭,癱瘓潦倒,李宇春身上的標簽哪個才是真的

白面書誏
2025-07-04 16:07:11
法國大量航班被取消,中使館緊急提醒

法國大量航班被取消,中使館緊急提醒

上觀新聞
2025-07-04 11:43:12
延安艦抵港未開放,背后有深意

延安艦抵港未開放,背后有深意

荊楚寰宇文樞
2025-07-03 22:12:33
女子因熱射病離世,醫生:寧可在家吹空調喝冷飲,也別做幾件事!

女子因熱射病離世,醫生:寧可在家吹空調喝冷飲,也別做幾件事!

王曉愛體彩
2025-07-04 14:04:34
直播!7月5日賽程+央視乒乓球節目預告|WTT美國大滿貫賽

直播!7月5日賽程+央視乒乓球節目預告|WTT美國大滿貫賽

最愛乒乓球
2025-07-05 06:11:19
截胡湖人?美記:快船成為維金斯的潛在追求者

截胡湖人?美記:快船成為維金斯的潛在追求者

雷速體育
2025-07-05 07:08:08
驚爆!周星馳不婚真相浮出水面:那人離去后,他悄然白了頭

驚爆!周星馳不婚真相浮出水面:那人離去后,他悄然白了頭

動物奇奇怪怪
2025-07-04 16:32:00
“一字對開門冰箱”為何跌落神壇了?看過3個缺點,你就不奇怪了

“一字對開門冰箱”為何跌落神壇了?看過3個缺點,你就不奇怪了

美家指南
2025-06-27 06:55:34
網友拍下新疆夜空不明飛行物,星空攝影師稱系俄羅斯火箭

網友拍下新疆夜空不明飛行物,星空攝影師稱系俄羅斯火箭

極目新聞
2025-07-04 19:51:49
15年前,那個寧愿辭去公務員,拒絕富婆400萬法拉利,也要出家當和尚的浙江帥小伙,如今怎樣了?

15年前,那個寧愿辭去公務員,拒絕富婆400萬法拉利,也要出家當和尚的浙江帥小伙,如今怎樣了?

魚樂星鮮事
2025-07-04 13:10:22
韓國包裝確實厲害!小沈陽女兒越來越像張元英了,好看!

韓國包裝確實厲害!小沈陽女兒越來越像張元英了,好看!

情感大頭說說
2025-07-05 01:24:25
2025-07-05 08:03:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
660文章數 11關注度
往期回顧 全部

教育要聞

初中競賽題,難住初中生,卻難不住小學霸

頭條要聞

特朗普支持者強烈不滿"大而美"法案:"背叛"工人階級

頭條要聞

特朗普支持者強烈不滿"大而美"法案:"背叛"工人階級

體育要聞

體壇最爽打工人:37歲被裁,工資領到72歲

娛樂要聞

李宇春身上的標簽哪個才是真的?

財經要聞

茅臺從3300跌到1700 泡沫破了酒才真香

科技要聞

被雷軍"震驚"后,何小鵬"藏起"G7的戰報

汽車要聞

重生之拿回銷量 領克10 EM-P搶鮮實拍

態度原創

時尚
游戲
健康
藝術
數碼

再見多巴胺,今年流行的“淡彩色”穿搭太美了!

明晃晃白花花!《洛奇英雄傳》新作A測最常被選服裝

呼吸科專家破解呼吸道九大謠言!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

數碼要聞

999 元,JBL 首款開放式運動耳機 Endurance Zone 上市

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 年辖:市辖区| 邹平县| 河津市| 和平区| 庆安县| 吴川市| 措美县| 巩留县| 武邑县| 临海市| 宜丰县| 竹山县| 麻城市| 松滋市| 牙克石市| 奉节县| 桐城市| 琼中| 都匀市| 布拖县| 禹州市| 蒙城县| 大丰市| 邢台市| 霍城县| 安远县| 萝北县| 海兴县| 吴堡县| 浦北县| 金寨县| 道孚县| 社旗县| 阿尔山市| 丹棱县| 枝江市| 通化市| 舟山市| 广汉市| 柳江县| 盘山县|