網易首頁 > 網易號 > 正文申請入駐

大語言模型如何賦能多語言語音識別？

2025-07-05 00:08:49　來源: CreateAMind

上海舉報

分享至

Multilingual and Fully Non-Autoregressive ASR with Large Language Model Fusion: A Comprehensive Study

多語言和完全非自回歸 ASR 與大語言模型融合：一項綜合研究

https://arxiv.org/pdf/2401.12789v1

摘要
在大模型時代，解碼過程的自回歸特性常常導致延遲成為顯著的瓶頸。我們提出了一種非自回歸的LM融合語音識別（ASR）系統，該系統有效利用了加速器硬件的并行化能力。我們的方法將通用語音模型（USM）與PaLM 2語言模型結合，在每段評分模式下實現了在FLEURS數據集上平均相對詞錯誤率（WER）改善10.8%，在YouTube字幕任務上改善3.6%。此外，我們進行了全面的消融研究，分析了諸如LLM大小、上下文長度、詞匯量大小、融合方法等關鍵參數的影響。例如，我們研究了從128M到340B不同參數規模的LLM對ASR性能的影響。本研究為影響大規模實用型LM融合語音識別系統效果的因素提供了寶貴的見解。

關鍵詞 ：大語言模型，多語言語音識別

1. 引言

大規模模型在各類應用中展現出了令人印象深刻的效果，尤其是在多語言語音模型 [1, 2, 3, 4, 5] 和多語言大語言模型（LLMs）[6, 7, 8] 領域。下一步的發展方向是融合這些大型多語言模型以提升識別準確率。然而，它們的規模也帶來了延遲問題，尤其是在自回歸解碼過程中表現明顯，例如淺層融合（shallow fusion）[9]。

像語音助手和實時字幕這樣的應用，正面臨這些模型所帶來的延遲挑戰。意識到這一問題的重要性，我們提出了一種非自回歸的LM融合語音識別（ASR）系統。該方法使用通用語音模型（USM）[10] 和 PaLM 2語言模型 [11]，以8秒為單位對語音進行流式處理。USM和PaLM 2均能利用完整的音頻上下文來處理每一個8秒的語音塊，在提升準確性的同時，也能通過對序列進行并行處理來實現快速響應，從而帶來流暢的用戶體驗。具體而言，我們在USM上附加一個CTC解碼器，以非自回歸方式生成候選假設，并通過在教師強制模式（teacher forcing mode）下將整個假設序列輸入語言模型，以非自回歸方式對這些候選進行評分 [12]。

我們的方法在公開的多語言測試集FLEURS上實現了平均相對詞錯誤率（WER）10.8%的雙位數提升。在一個具有挑戰性的內部YouTube字幕測試集上，我們也觀察到所有可用語言平均提升了3.6%。此外，我們的研究深入探討了諸如語言模型大小（最大至340B參數）、詞匯量、上下文長度、分段策略、n-best列表大小以及評分方法等因素的影響。例如，我們發現盡管大語言模型隨著參數規模的增長展現出新興能力（emergent behaviors）[13]，但其對WER的改善卻較為有限——不過更大的模型可以降低系統對融合權重的敏感性。

2. 相關工作

利用大語言模型（LLMs）來增強語音識別系統（ASR）已成為一個自然且有前景的研究方向，并在近期研究中取得了顯著進展。已有若干研究專注于將LLMs與ASR模型進行整合，以充分利用其豐富的語言知識和上下文理解能力。例如，[14] 將T5 [15] 和 PaLM 1 [16] 與Conformer RNN-T模型結合，提升了英語及語碼混合數據的語音識別性能。我們的工作在此基礎上進一步推進，使用LLMs融合具有非自回歸CTC頭的大規模ASR模型。

[9] 使用淺層融合（shallow fusion）方法提升了短語音查詢中罕見詞的識別效果。相比之下，我們的研究重點在于YouTube字幕等長文本任務，在這類任務中，LLMs的上下文理解能力尤為重要。鑒于淺層融合在長任務中的局限性以及詞匯表不匹配的問題，我們探索了評分（scoring）作為一種更高效的融合技術。

[17] 使用n-best評分方法將Listen-Attend-Spell Once模型 [18] 與BERT [19] 進行集成。我們在這一思路的基礎上進行了擴展，部署了更大規模、支持多語言的模型。其他研究如 [20] 探索了LLMs與ASR系統之間的多種融合方式。他們令人意外的發現是：簡單的淺層融合方法在性能上可與更復雜的深層融合技術相媲美。同樣地，[21] 在使用LLaMa LLM進行兩種融合方法實驗時，發現詞錯誤率（WER）結果差異甚微，這也印證了 [20] 的結論。

基于上述研究成果，我們的研究強調采用“評分”作為融合方法，旨在構建一種實用且可擴展的ASR+LLM解決方案，適用于真實世界的應用場景。

3. 方法

3.1. 語音模型

我們采用通用語音模型（Universal Speech Model，USM）[10]，這是一個具有20億參數的Conformer [22] 模型，包含32層，模型維度為1536。該模型用于生成語音識別的候選假設。其詞匯表由16384個子詞單元（wordpieces）組成，并使用CTC解碼器實現非自回歸、并行化的推理過程。

在訓練過程中，USM采用了多任務學習方法。它在超過1200萬小時的未標注音頻數據和280億句文本數據上進行訓練，同時還使用了11萬小時的有監督音頻數據和10萬小時的半監督音頻數據。所有訓練數據均為多語言的。USM具備分塊雙向注意力機制，能夠在訓練中對30秒長的語音段進行建模。與傳統的基于音頻的分塊方式不同，這種方法在整個語音流中保持連續狀態，從而可以每8秒輸出一次流式結果，提升用戶體驗。

3.2. 語言模型

我們使用PaLM 2語言模型 [11] 對ASR生成的候選假設進行評分。該模型在網頁文檔、書籍等多種數據源上進行了訓練，使用了一個包含256k個子詞單元的詞匯表。相比其前身PaLM 1 [16]，PaLM 2通過改進的訓練策略、架構優化以及更長的上下文長度，在自然語言任務中展現出更優越的性能。

我們在語音識別評分任務中評估了預訓練版本的PaLM 2，并采用前綴語言模型評分模式 [23]：將模型以固定前綴（來自前一段的最優假設）進行提示，并對多個后綴假設（當前段的不同候選假設）進行評分。

3.3. 長文本推理

為了在不受內存限制的情況下處理長文本音頻，我們采用了一種流式處理框架，逐幀處理音頻。利用USM的分塊注意力機制，一旦8秒的音頻可用，我們就對其進行編碼，并將其傳遞給CTC解碼器。這些CTC概率構成了一個混淆網絡格（lattice），編碼了可能的子詞單元序列。

由于每一幀編碼是相互獨立的，因此對應的子詞分布也是彼此獨立的。這樣一來，格中的候選假設數量會隨著音頻長度呈指數增長，使得用LLM對所有候選進行評分變得不可行。

3.4. 語言模型評分

為了應對候選假設數量的指數增長問題，我們將格劃分為8秒的語音段，并僅對當前段的候選假設進行評分。為了保持上下文連貫性，我們使用前兩個語音段中得分最高的假設拼接作為語言模型的前綴。這個迭代過程每8秒更新一次，確保前綴始終是最近兩個語音段中最優的假設。

為了生成語言模型所需的后綴，我們從格中選取得分最高的N個候選假設，并將它們批量組合成后綴序列進行評分。結合語言模型（LM）和語音模型（ASR）的得分，給定音頻 x 和假設 y 的聯合得分表示為：

最終選擇得分最高的候選假設作為最終的轉錄結果。按語音段進行評分的方式具有可并行性，是非自回歸的，并且在用戶說話過程中每8秒以流式模式更新一次。

4. 評估

在我們的所有評估中，除非另有說明，均采用以下設置：

美式英語區域設置（US English locale）
使用10億參數版本的PaLM 2
語言模型評分權重設為0.3（根據此處列出的設置進行優化）
上下文長度為前兩個語音段
n-best列表大小為16
使用YouTube字幕測試集，詳見下一節描述

4.1. 測試集

YouTube視頻涵蓋多種類別，使其非常適合我們的語言模型評分研究。我們評估了一個常用的YouTube字幕測試集YT LONG，該測試集包含多種語言的點播視頻內容 [24, 25, 26, 27, 14]。對于美式英語，該測試集包含77個視頻，總計22.2小時，平均每個語音片段長度為14.8分鐘。其他語言平均包含61個視頻和17小時音頻。我們還對FLEURS測試集 [28] 進行了分析，該測試集每種語言包含600至900個語音片段，其中美式英語有647個。所有語言合計總時長為283小時。

4.2. 所有語言的結果

所有語言的評估結果如圖1所示。我們測試了四種不同的語言模型評分權重 λ 值：{0.15, 0.30, 0.45, 0.60}。在YouTube測試集上（圖1頂部），集成PaLM 2使美式英語（en-us）的詞錯誤率（WER）降低了4.1%，15種語言平均降低3.6%。在FLEURS測試集上（圖1底部），提升更為顯著：美式英語降低了9.7%，平均相對改善達到10.8%。所有語言均未出現性能下降。

4.3. 對語言模型大小的依賴性

大型語言模型隨著規模、數據量和計算資源的增加，展現出新興能力（emergent abilities）[13, 29]。本研究使用不同規模的PaLM 2變體對ASR候選假設評分進行了評估。表1中的結果顯示，盡管詞錯誤率（WER）隨著模型規模的增大（E2–E6）有所改善，但提升幅度可能無法抵消推理成本的上升。此外，最優的語言模型評分權重也隨模型規模而增加，從128M參數模型的0.25增加到340B參數模型的0.45（見圖2）。較大的模型在語言模型權重變化時表現出較低的WER敏感度。這表明，較小的模型需要謹慎地設置權重，而更大的模型由于識別準確性更高，可以承受更高的權重而不至于選擇錯誤的假設。

4.4. 對上下文長度的依賴性

通過調整用于提示的歷史語音段數量，我們可以粗略控制語言模型的上下文長度。圖3顯示，將前4個語音段（即32秒解碼文本）拼接起來效果最佳。包含超過4個語音段時性能略有下降，可能是由于語言模型評分權重是在前2個語音段的基礎上優化的。結果表明，使用約32秒或大約50個詞的上下文可以提升ASR性能。然而，在此之后繼續增加上下文帶來的收益有限，這與許多自然語言處理任務中需要更長上下文的情況有所不同。

4.5. 對詞匯量大小的依賴性

PaLM 2擁有256k個token的詞匯表，專為自然語言生成進行優化。分段評分的一個優勢在于可以通過重新分詞來處理ASR模型與LLM之間的詞匯表不匹配問題。在10億參數版本的PaLM 2中，嵌入層和softmax層占據了約三分之一的模型參數。我們測試了將PaLM 2的詞匯量縮減至32k以降低計算成本。表2的結果顯示，使用較小的詞匯表僅帶來輕微的性能下降。因此，采用較小的詞匯表可以在保持良好性能的同時節省計算資源。

4.6. 對分段策略的依賴性

分段策略決定了使用語言模型對混淆網絡格（lattice）進行評分的頻率，進而影響用戶體驗和轉錄質量 [27, 30, 31]。我們評估了固定長度的分段方式以及基于語音活動檢測器（VAD）的分段方法 [32]。雖然VAD方法避免了截斷單詞的問題，但由于其產生的語音段長度不一致，在流式按段處理場景下可能會影響用戶體驗。VAD生成的語音段中位長度約為5秒。

表3中的結果顯示，固定長度分段（B3）優于VAD（E8），這一發現與 [30] 中的結論相反。這是由于模型結構的不同：[30] 使用的是RNN-T模型，在分段時會丟棄大部分候選假設，而我們的CTC模型不保留解碼器狀態，因此對過早分段具有更強的魯棒性。圖4顯示，在語音段長度超過3秒后，WER趨于穩定。這證明，與RNN-T不同，CTC得益于其非依賴性的混淆網絡結構，不會受到詞語截斷的影響。

4.7 假設數量的依賴性

隨著片段長度的增加，格點中的路徑數量也會增加，但計算限制會限制評分的假設數量。圖5展示了一項關于n最佳列表大小的研究，該大小表示每個片段評分的假設數量。隨著列表的擴展，性能得到提升，并在大約1024時趨于平穩。這種增長表明格點的密度很高，允許大型語言模型（LLM）在計算限制范圍內繼續提升轉錄質量。

4.8 與淺層融合的比較

我們的研究主要關注按片段的語言模型（LM）評分。另一種方法是按幀評分或淺層融合，由于其自回歸解碼和頻繁的語言模型調用，這種方法的計算負擔更重。

表4中的性能比較顯示，按幀評分（E9）的錯誤率為13.70（相對于沒有語言模型時下降了5.4%），優于按片段評分（B4）的13.88（下降了4.1%）。淺層融合在非低延遲場景中，在詞匯匹配的情況下表現出色。對于按幀評分，我們重新訓練了自動語音識別（ASR）模型，使其使用PaLM 2的詞匯表。

5結論
我們開發了一個可部署的大規模多語言語音識別（ASR）系統，著重強調實用性。通過采用基于CTC（連接時序分類）和分段語言模型評分的非自回歸系統，我們在YouTube字幕和FLEURS數據集上實現了跨語言性能提升。本研究還揭示了系統參數對ASR效能的影響機制。

原文鏈接：https://arxiv.org/pdf/2401.12789v1

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.