Multilingual and Fully Non-Autoregressive ASR with Large Language Model Fusion: A Comprehensive Study
多語言和完全非自回歸 ASR 與大語言模型融合:一項綜合研究
https://arxiv.org/pdf/2401.12789v1
摘要
在大模型時代,解碼過程的自回歸特性常常導致延遲成為顯著的瓶頸。我們提出了一種非自回歸的LM融合語音識別(ASR)系統,該系統有效利用了加速器硬件的并行化能力。我們的方法將通用語音模型(USM)與PaLM 2語言模型結合,在每段評分模式下實現了在FLEURS數據集上平均相對詞錯誤率(WER)改善10.8%,在YouTube字幕任務上改善3.6%。此外,我們進行了全面的消融研究,分析了諸如LLM大小、上下文長度、詞匯量大小、融合方法等關鍵參數的影響。例如,我們研究了從128M到340B不同參數規模的LLM對ASR性能的影響。本研究為影響大規模實用型LM融合語音識別系統效果的因素提供了寶貴的見解。
關鍵詞 :大語言模型,多語言語音識別
1. 引言
大規模模型在各類應用中展現出了令人印象深刻的效果,尤其是在多語言語音模型 [1, 2, 3, 4, 5] 和多語言大語言模型(LLMs)[6, 7, 8] 領域。下一步的發展方向是融合這些大型多語言模型以提升識別準確率。然而,它們的規模也帶來了延遲問題,尤其是在自回歸解碼過程中表現明顯,例如淺層融合(shallow fusion)[9]。
像語音助手和實時字幕這樣的應用,正面臨這些模型所帶來的延遲挑戰。意識到這一問題的重要性,我們提出了一種非自回歸的LM融合語音識別(ASR)系統。該方法使用通用語音模型(USM)[10] 和 PaLM 2語言模型 [11],以8秒為單位對語音進行流式處理。USM和PaLM 2均能利用完整的音頻上下文來處理每一個8秒的語音塊,在提升準確性的同時,也能通過對序列進行并行處理來實現快速響應,從而帶來流暢的用戶體驗。具體而言,我們在USM上附加一個CTC解碼器,以非自回歸方式生成候選假設,并通過在教師強制模式(teacher forcing mode)下將整個假設序列輸入語言模型,以非自回歸方式對這些候選進行評分 [12]。
我們的方法在公開的多語言測試集FLEURS上實現了平均相對詞錯誤率(WER)10.8%的雙位數提升。在一個具有挑戰性的內部YouTube字幕測試集上,我們也觀察到所有可用語言平均提升了3.6%。此外,我們的研究深入探討了諸如語言模型大小(最大至340B參數)、詞匯量、上下文長度、分段策略、n-best列表大小以及評分方法等因素的影響。例如,我們發現盡管大語言模型隨著參數規模的增長展現出新興能力(emergent behaviors)[13],但其對WER的改善卻較為有限——不過更大的模型可以降低系統對融合權重的敏感性。
2. 相關工作
利用大語言模型(LLMs)來增強語音識別系統(ASR)已成為一個自然且有前景的研究方向,并在近期研究中取得了顯著進展。已有若干研究專注于將LLMs與ASR模型進行整合,以充分利用其豐富的語言知識和上下文理解能力。例如,[14] 將T5 [15] 和 PaLM 1 [16] 與Conformer RNN-T模型結合,提升了英語及語碼混合數據的語音識別性能。我們的工作在此基礎上進一步推進,使用LLMs融合具有非自回歸CTC頭的大規模ASR模型。
[9] 使用淺層融合(shallow fusion)方法提升了短語音查詢中罕見詞的識別效果。相比之下,我們的研究重點在于YouTube字幕等長文本任務,在這類任務中,LLMs的上下文理解能力尤為重要。鑒于淺層融合在長任務中的局限性以及詞匯表不匹配的問題,我們探索了評分(scoring)作為一種更高效的融合技術。
[17] 使用n-best評分方法將Listen-Attend-Spell Once模型 [18] 與BERT [19] 進行集成。我們在這一思路的基礎上進行了擴展,部署了更大規模、支持多語言的模型。其他研究如 [20] 探索了LLMs與ASR系統之間的多種融合方式。他們令人意外的發現是:簡單的淺層融合方法在性能上可與更復雜的深層融合技術相媲美。同樣地,[21] 在使用LLaMa LLM進行兩種融合方法實驗時,發現詞錯誤率(WER)結果差異甚微,這也印證了 [20] 的結論。
基于上述研究成果,我們的研究強調采用“評分”作為融合方法,旨在構建一種實用且可擴展的ASR+LLM解決方案,適用于真實世界的應用場景。
3. 方法
3.1. 語音模型
我們采用通用語音模型(Universal Speech Model,USM)[10],這是一個具有20億參數的Conformer [22] 模型,包含32層,模型維度為1536。該模型用于生成語音識別的候選假設。其詞匯表由16384個子詞單元(wordpieces)組成,并使用CTC解碼器實現非自回歸、并行化的推理過程。
在訓練過程中,USM采用了多任務學習方法。它在超過1200萬小時的未標注音頻數據和280億句文本數據上進行訓練,同時還使用了11萬小時的有監督音頻數據和10萬小時的半監督音頻數據。所有訓練數據均為多語言的。USM具備分塊雙向注意力機制,能夠在訓練中對30秒長的語音段進行建模。與傳統的基于音頻的分塊方式不同,這種方法在整個語音流中保持連續狀態,從而可以每8秒輸出一次流式結果,提升用戶體驗。
3.2. 語言模型
我們使用PaLM 2語言模型 [11] 對ASR生成的候選假設進行評分。該模型在網頁文檔、書籍等多種數據源上進行了訓練,使用了一個包含256k個子詞單元的詞匯表。相比其前身PaLM 1 [16],PaLM 2通過改進的訓練策略、架構優化以及更長的上下文長度,在自然語言任務中展現出更優越的性能。
我們在語音識別評分任務中評估了預訓練版本的PaLM 2,并采用前綴語言模型評分模式 [23]:將模型以固定前綴(來自前一段的最優假設)進行提示,并對多個后綴假設(當前段的不同候選假設)進行評分。
3.3. 長文本推理
為了在不受內存限制的情況下處理長文本音頻,我們采用了一種流式處理框架,逐幀處理音頻。利用USM的分塊注意力機制,一旦8秒的音頻可用,我們就對其進行編碼,并將其傳遞給CTC解碼器。這些CTC概率構成了一個混淆網絡格(lattice),編碼了可能的子詞單元序列。
由于每一幀編碼是相互獨立的,因此對應的子詞分布也是彼此獨立的。這樣一來,格中的候選假設數量會隨著音頻長度呈指數增長,使得用LLM對所有候選進行評分變得不可行。
3.4. 語言模型評分
為了應對候選假設數量的指數增長問題,我們將格劃分為8秒的語音段,并僅對當前段的候選假設進行評分。為了保持上下文連貫性,我們使用前兩個語音段中得分最高的假設拼接作為語言模型的前綴。這個迭代過程每8秒更新一次,確保前綴始終是最近兩個語音段中最優的假設。
為了生成語言模型所需的后綴,我們從格中選取得分最高的N個候選假設,并將它們批量組合成后綴序列進行評分。結合語言模型(LM)和語音模型(ASR)的得分,給定音頻 x 和假設 y 的聯合得分表示為:
最終選擇得分最高的候選假設作為最終的轉錄結果。按語音段進行評分的方式具有可并行性,是非自回歸的,并且在用戶說話過程中每8秒以流式模式更新一次。
4. 評估
在我們的所有評估中,除非另有說明,均采用以下設置:
美式英語區域設置(US English locale)
使用10億參數版本的PaLM 2
語言模型評分權重設為0.3(根據此處列出的設置進行優化)
上下文長度為前兩個語音段
n-best列表大小為16
使用YouTube字幕測試集,詳見下一節描述
4.1. 測試集
YouTube視頻涵蓋多種類別,使其非常適合我們的語言模型評分研究。我們評估了一個常用的YouTube字幕測試集YT LONG,該測試集包含多種語言的點播視頻內容 [24, 25, 26, 27, 14]。對于美式英語,該測試集包含77個視頻,總計22.2小時,平均每個語音片段長度為14.8分鐘。其他語言平均包含61個視頻和17小時音頻。我們還對FLEURS測試集 [28] 進行了分析,該測試集每種語言包含600至900個語音片段,其中美式英語有647個。所有語言合計總時長為283小時。
4.2. 所有語言的結果
所有語言的評估結果如圖1所示。我們測試了四種不同的語言模型評分權重 λ 值:{0.15, 0.30, 0.45, 0.60}。在YouTube測試集上(圖1頂部),集成PaLM 2使美式英語(en-us)的詞錯誤率(WER)降低了4.1%,15種語言平均降低3.6%。在FLEURS測試集上(圖1底部),提升更為顯著:美式英語降低了9.7%,平均相對改善達到10.8%。所有語言均未出現性能下降。
4.3. 對語言模型大小的依賴性
大型語言模型隨著規模、數據量和計算資源的增加,展現出新興能力(emergent abilities)[13, 29]。本研究使用不同規模的PaLM 2變體對ASR候選假設評分進行了評估。表1中的結果顯示,盡管詞錯誤率(WER)隨著模型規模的增大(E2–E6)有所改善,但提升幅度可能無法抵消推理成本的上升。此外,最優的語言模型評分權重也隨模型規模而增加,從128M參數模型的0.25增加到340B參數模型的0.45(見圖2)。較大的模型在語言模型權重變化時表現出較低的WER敏感度。這表明,較小的模型需要謹慎地設置權重,而更大的模型由于識別準確性更高,可以承受更高的權重而不至于選擇錯誤的假設。
4.4. 對上下文長度的依賴性
通過調整用于提示的歷史語音段數量,我們可以粗略控制語言模型的上下文長度。圖3顯示,將前4個語音段(即32秒解碼文本)拼接起來效果最佳。包含超過4個語音段時性能略有下降,可能是由于語言模型評分權重是在前2個語音段的基礎上優化的。結果表明,使用約32秒或大約50個詞的上下文可以提升ASR性能。然而,在此之后繼續增加上下文帶來的收益有限,這與許多自然語言處理任務中需要更長上下文的情況有所不同。
4.5. 對詞匯量大小的依賴性
PaLM 2擁有256k個token的詞匯表,專為自然語言生成進行優化。分段評分的一個優勢在于可以通過重新分詞來處理ASR模型與LLM之間的詞匯表不匹配問題。在10億參數版本的PaLM 2中,嵌入層和softmax層占據了約三分之一的模型參數。我們測試了將PaLM 2的詞匯量縮減至32k以降低計算成本。表2的結果顯示,使用較小的詞匯表僅帶來輕微的性能下降。因此,采用較小的詞匯表可以在保持良好性能的同時節省計算資源。
4.6. 對分段策略的依賴性
分段策略決定了使用語言模型對混淆網絡格(lattice)進行評分的頻率,進而影響用戶體驗和轉錄質量 [27, 30, 31]。我們評估了固定長度的分段方式以及基于語音活動檢測器(VAD)的分段方法 [32]。雖然VAD方法避免了截斷單詞的問題,但由于其產生的語音段長度不一致,在流式按段處理場景下可能會影響用戶體驗。VAD生成的語音段中位長度約為5秒。
表3中的結果顯示,固定長度分段(B3)優于VAD(E8),這一發現與 [30] 中的結論相反。這是由于模型結構的不同:[30] 使用的是RNN-T模型,在分段時會丟棄大部分候選假設,而我們的CTC模型不保留解碼器狀態,因此對過早分段具有更強的魯棒性。圖4顯示,在語音段長度超過3秒后,WER趨于穩定。這證明,與RNN-T不同,CTC得益于其非依賴性的混淆網絡結構,不會受到詞語截斷的影響。
4.7 假設數量的依賴性
隨著片段長度的增加,格點中的路徑數量也會增加,但計算限制會限制評分的假設數量。圖5展示了一項關于n最佳列表大小的研究,該大小表示每個片段評分的假設數量。隨著列表的擴展,性能得到提升,并在大約1024時趨于平穩。這種增長表明格點的密度很高,允許大型語言模型(LLM)在計算限制范圍內繼續提升轉錄質量。
4.8 與淺層融合的比較
我們的研究主要關注按片段的語言模型(LM)評分。另一種方法是按幀評分或淺層融合,由于其自回歸解碼和頻繁的語言模型調用,這種方法的計算負擔更重。
表4中的性能比較顯示,按幀評分(E9)的錯誤率為13.70(相對于沒有語言模型時下降了5.4%),優于按片段評分(B4)的13.88(下降了4.1%)。淺層融合在非低延遲場景中,在詞匯匹配的情況下表現出色。對于按幀評分,我們重新訓練了自動語音識別(ASR)模型,使其使用PaLM 2的詞匯表。
5結論
我們開發了一個可部署的大規模多語言語音識別(ASR)系統,著重強調實用性。通過采用基于CTC(連接時序分類)和分段語言模型評分的非自回歸系統,我們在YouTube字幕和FLEURS數據集上實現了跨語言性能提升。本研究還揭示了系統參數對ASR效能的影響機制。
原文鏈接:https://arxiv.org/pdf/2401.12789v1
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.