網易首頁 > 網易號 > 正文申請入駐

港中大（深圳）開源Soundwave：小數據量下的語音理解大模型強者

2025-04-29 18:38:48　來源: wisemodel開源社區

北京舉報

分享至

始智AI wisemodel.cn開源社區

始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在，歡迎加入共同成長。wisemodel社區上線，價格實惠，靈活方便，支持在線微調訓練模型，及和，并。

在人工智能快速發展的當下，多模態大模型尤其是語音交互類模型備受關注。然而，語音信息因包含語氣、環境音等復雜因素，使大模型“聽懂”語音成為難題?，F有方法依賴大規模數據訓練，且未充分解決語音與文本在表示空間和序列長度上的差異。

在此背景下，香港中文大學（深圳）聯合是石科技推出Soundwave語音理解大模型，針對上述問題采用三階段訓練策略，以較少數據量實現高效訓練，在語音翻譯、情緒識別等任務中表現優異，在AIR-Bench測試超越眾多模型，未來將在多領域推動語音AI落地。目前已上線始智AI-wisemodel開源社區，歡迎體驗。

模型地址

https://wisemodel.cn/models/FreedomIntelligence/Soundwave

01.

語音大模型的發展困境

在自然語言處理（NLP）領域，大模型（LLMs）憑借強大的理解和推理能力，深刻改變著行業格局。與此同時，多模態大模型，尤其是以語音交互為核心的模型也異軍突起，展現出廣闊的發展前景。像GPT-4o將語音與大模型端到端結合，憑借高實時性和強表現力，吸引了眾多科研學者和用戶的目光。

不過，在實際的語音交流中，情況遠比想象的復雜。語音交流不僅受表達內容影響，語氣、停頓等副語言特征，以及環境音、說話人特征等背景因素，都會對意圖表達產生作用。

和文本相比，語音能傳遞更豐富的信息，但這也讓語音特征變得復雜多變。這就是為什么，即便現有大模型如ChatGPT、DeepSeek在文本理解上已接近人類水平，可讓它們“聽懂”語音仍是一大難題。

目前，提升語音大模型性能的常用方法是依賴大規模訓練數據，通常需要數十萬甚至百萬小時的數據量。雖然擴大數據量和模型參數能在一定程度上解決問題，但文本和語音之間存在的核心問題卻未得到充分研究。

一方面，語音通過額外的語音編碼端建模，文本表示由大模型生成，兩者的表示空間不一致；另一方面，語音以幀為單位，大模型以子詞為單位建模，導致語音序列往往比文本序列長幾十倍。

圖一：Soundwave 和 Qwen2-Audio 在 AIR-Bench 上的表現

02.

Soundwave模型的創新架構

在這樣的背景下，香港中文大學（深圳）聯合是石科技帶來了驚喜——提出Soundwave模型。該模型創新性地解耦語音大模型的模態對齊訓練，針對表示空間差異和長度差異這兩個關鍵問題，分別設計了解決方案和任務數據。令人驚嘆的是，它僅用10k小時的數據，就展現出卓越的性能。

圖二：Soundwave 的訓練過程。其中灰色模塊被凍結，橙色模塊被訓練。

Soundwave的訓練過程分為三個階段。在語音與文本對齊階段，為解決語音和文本表示空間的差異，模型設計了對齊適配器，它包含線性層與單層Transformer encoder層，能將音頻序列轉換到大模型可理解的表示空間，再借助CTC損失實現兩者對齊。

第二階段是語音特征壓縮，通過壓縮適配器動態調整語音序列長度，使其與文本匹配。具體做法是先依據CTC預測的峰值選擇語義特征，接著利用這些特征從原始序列中查詢收集輔助信息，最后融合兩類特征完成序列長度的縮減。

圖三：動態壓縮方法示例

最后是監督微調階段，模型僅調整LoRA參數，利用豐富的文本和語音指令數據，通過多種問答格式、十余種語音任務以及多樣化指令格式進行學習，提升任務處理能力，增強指令遵循和語音理解能力。

此外，團隊還采用基于溫度的采樣方法、數據標注清洗及針對語音任務的Chain-of-Thought等策略，提高學習效率。

03.

顯著的實驗成果

在實驗環節，Soundwave選用Whisper Large作為音頻編碼器，Llama-3.1-8B-Instruct作為基礎模型。實驗結果令人眼前一亮，在多個音頻任務中，Soundwave表現優異。

在語音翻譯任務上，它超越了Qwen2-Audio；語音情緒識別任務中，也能精準識別語音情感；面對Zero-shot任務，比如訓練過程中未見過的語言對翻譯，它同樣表現出色。

表一：在基礎任務上的性能表現，這些任務包括自動語音識別（ASR）、語音翻譯（ST）、語音情感識別（SER）、發聲分類（VSC）。其中*表示 zero-shot 任務。

表二：不同語音大模型在 AIR-Bench 上的表現

表三：不同語音大模型在 AIR-Bench Sound Foundation 任務中的表現

在AIR-Bench測試中，Soundwave在Speech Foundation任務平均得分75.5，超越其他模型；在Sound Foundation任務里，即便僅使用約244小時的Sound任務數據，也僅次于使用10k小時數據的Qwen2-Audio ，并且其單編碼器架構處理語音時效率更高。

圖五：不同音頻特征壓縮方法下，（a）語音、文本特征相似度對比（b）訓練速度對比

研究團隊還進行了對比實驗，結果顯示，帶有對齊適配器的Soundwave在語音和文本特征相似度上表現突出，訓練速度幾乎是其他方法的三倍。在ASR任務中，壓縮適配器在2.5%的低壓縮率下，能保持穩定性能，顯著加快推理速度，相比其他方法，首Token延遲（TTFT）提升明顯，且計算開銷幾乎不變。

此外，Soundwave的問答功能也十分強大，能精準理解語音輸入，迅速生成合理答案，在多個領域都能提供高效、精準的智能問答支持。

04.

廣闊的應用前景

Soundwave模型憑借創新的語音 - 文本對齊方案，打破了傳統語音大模型對大規模標注數據的依賴。通過三階段訓練策略，有效解決了語音與文本的表示空間差距和序列長度不一致問題，讓模型高效學習語音理解和對齊能力。

未來，Soundwave將持續優化語音理解能力，在醫療、教育、智能交互等領域有著廣泛的應用前景，有望推動語音AI在更多場景落地。

----- END -----

wisemodel相關：

系統升級：

大賽報名：

系列模型：

關于wisemodel更多

歡迎持續關注和支持

開源社區建設需要長期堅持和投入，更需要廣大用戶的積極參與、貢獻和維護，歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果，包括模型、數據集和代碼等發布到 wisemodel.cn 社區，共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信，申請加入wisemodel社群，持續關注wisemodel.cn開源社區動態。

歡迎加盟wisemodel開源社區

始智AI wisemodel社區自2023年9月上線以來，逐漸成為影響力日益擴大的中立開放的AI開源社區，為了加快公司發展，我們長期需要技術、運營等人才加盟，技術側重在AI infra、后端開發，熟悉K8S、模型訓練和推理等技術，以及熟悉開發者生態運營的成員，歡迎感興趣的朋友加盟，可以通過添加wisemodel微信，或者將簡歷投遞到郵箱：liudaoquan@wisemodel.cn

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果，鼓勵高校實驗室、大企業研究團隊、個人等，在wisemodel平臺上分享各類優質內容，可以是AI領域最新論文解讀、最新開源成果介紹，也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn，也可以掃碼添加wisemodel微信。

關于wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立，旨在打造和建設中立開放的AI開源創新社區，將打造成“HuggingFace”之外最活躍的AI開源社區，匯聚主要AI開源模型、數據集和代碼等，歡迎高?？蒲性核⒋笮突ヂ摼W公司、創新創業企業、廣大個人開發者，以及政府部門、學會協會、聯盟、基金會等，還有投資機構、科技媒體等，共同參與建設AI開源創新生態。

向上滑動查看

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.