始智AI wisemodel.cn開源社區
始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在,歡迎加入共同成長。wisemodel社區上線,價格實惠,靈活方便,支持在線微調訓練模型,及和,并。
在人工智能快速發展的當下,多模態大模型尤其是語音交互類模型備受關注。然而,語音信息因包含語氣、環境音等復雜因素,使大模型“聽懂”語音成為難題?,F有方法依賴大規模數據訓練,且未充分解決語音與文本在表示空間和序列長度上的差異。
在此背景下,香港中文大學(深圳)聯合是石科技推出Soundwave語音理解大模型,針對上述問題采用三階段訓練策略,以較少數據量實現高效訓練,在語音翻譯、情緒識別等任務中表現優異,在AIR-Bench測試超越眾多模型,未來將在多領域推動語音AI落地。目前已上線始智AI-wisemodel開源社區,歡迎體驗。
模型地址
https://wisemodel.cn/models/FreedomIntelligence/Soundwave
01.
語音大模型的發展困境
在自然語言處理(NLP)領域,大模型(LLMs)憑借強大的理解和推理能力,深刻改變著行業格局。與此同時,多模態大模型,尤其是以語音交互為核心的模型也異軍突起,展現出廣闊的發展前景。像GPT-4o將語音與大模型端到端結合,憑借高實時性和強表現力,吸引了眾多科研學者和用戶的目光。
不過,在實際的語音交流中,情況遠比想象的復雜。語音交流不僅受表達內容影響,語氣、停頓等副語言特征,以及環境音、說話人特征等背景因素,都會對意圖表達產生作用。
和文本相比,語音能傳遞更豐富的信息,但這也讓語音特征變得復雜多變。這就是為什么,即便現有大模型如ChatGPT、DeepSeek在文本理解上已接近人類水平,可讓它們“聽懂”語音仍是一大難題。
目前,提升語音大模型性能的常用方法是依賴大規模訓練數據,通常需要數十萬甚至百萬小時的數據量。雖然擴大數據量和模型參數能在一定程度上解決問題,但文本和語音之間存在的核心問題卻未得到充分研究。
一方面,語音通過額外的語音編碼端建模,文本表示由大模型生成,兩者的表示空間不一致;另一方面,語音以幀為單位,大模型以子詞為單位建模,導致語音序列往往比文本序列長幾十倍。
圖一:Soundwave 和 Qwen2-Audio 在 AIR-Bench 上的表現
02.
Soundwave模型的創新架構
在這樣的背景下,香港中文大學(深圳)聯合是石科技帶來了驚喜——提出Soundwave模型。該模型創新性地解耦語音大模型的模態對齊訓練,針對表示空間差異和長度差異這兩個關鍵問題,分別設計了解決方案和任務數據。令人驚嘆的是,它僅用10k小時的數據,就展現出卓越的性能。
圖二:Soundwave 的訓練過程。其中灰色模塊被凍結,橙色模塊被訓練。
Soundwave的訓練過程分為三個階段。在語音與文本對齊階段,為解決語音和文本表示空間的差異,模型設計了對齊適配器,它包含線性層與單層Transformer encoder層,能將音頻序列轉換到大模型可理解的表示空間,再借助CTC損失實現兩者對齊。
第二階段是語音特征壓縮,通過壓縮適配器動態調整語音序列長度,使其與文本匹配。具體做法是先依據CTC預測的峰值選擇語義特征,接著利用這些特征從原始序列中查詢收集輔助信息,最后融合兩類特征完成序列長度的縮減。
圖三: 動態壓縮方法示例
最后是監督微調階段,模型僅調整LoRA參數,利用豐富的文本和語音指令數據,通過多種問答格式、十余種語音任務以及多樣化指令格式進行學習,提升任務處理能力,增強指令遵循和語音理解能力。
此外,團隊還采用基于溫度的采樣方法、數據標注清洗及針對語音任務的Chain-of-Thought等策略,提高學習效率。
03.
顯著的實驗成果
在實驗環節,Soundwave選用Whisper Large作為音頻編碼器,Llama-3.1-8B-Instruct作為基礎模型。實驗結果令人眼前一亮,在多個音頻任務中,Soundwave表現優異。
在語音翻譯任務上,它超越了Qwen2-Audio;語音情緒識別任務中,也能精準識別語音情感;面對Zero-shot任務,比如訓練過程中未見過的語言對翻譯,它同樣表現出色。
表一:在基礎任務上的性能表現,這些任務包括自動語音識別(ASR)、語音翻譯(ST)、語音情感識別(SER)、發聲分類(VSC)。其中*表示 zero-shot 任務。
表二:不同語音大模型在 AIR-Bench 上的表現
表三:不同語音大模型在 AIR-Bench Sound Foundation 任務中的表現
在AIR-Bench測試中,Soundwave在Speech Foundation任務平均得分75.5,超越其他模型;在Sound Foundation任務里,即便僅使用約244小時的Sound任務數據,也僅次于使用10k小時數據的Qwen2-Audio ,并且其單編碼器架構處理語音時效率更高。
圖五:不同音頻特征壓縮方法下,(a)語音、文本特征相似度對比(b)訓練速度對比
研究團隊還進行了對比實驗,結果顯示,帶有對齊適配器的Soundwave在語音和文本特征相似度上表現突出,訓練速度幾乎是其他方法的三倍。在ASR任務中,壓縮適配器在2.5%的低壓縮率下,能保持穩定性能,顯著加快推理速度,相比其他方法,首Token延遲(TTFT)提升明顯,且計算開銷幾乎不變。
此外,Soundwave的問答功能也十分強大,能精準理解語音輸入,迅速生成合理答案,在多個領域都能提供高效、精準的智能問答支持。
04.
廣闊的應用前景
Soundwave模型憑借創新的語音 - 文本對齊方案,打破了傳統語音大模型對大規模標注數據的依賴。通過三階段訓練策略,有效解決了語音與文本的表示空間差距和序列長度不一致問題,讓模型高效學習語音理解和對齊能力。
未來,Soundwave將持續優化語音理解能力,在醫療、教育、智能交互等領域有著廣泛的應用前景,有望推動語音AI在更多場景落地。
----- END -----
wisemodel相關:
系統升級:
大賽報名:
系列模型:
關于wisemodel更多
1
歡迎持續關注和支持
開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發布到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續關注wisemodel.cn開源社區動態。
2
歡迎加盟wisemodel開源社區
始智AI wisemodel社區自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區,為了加快公司發展,我們長期需要技術、運營等人才加盟,技術側重在AI infra、后端開發,熟悉K8S、模型訓練和推理等技術, 以及熟悉開發者生態運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn
3
歡迎投稿優質內容
歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。
4
關于wisemodel開源社區
始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高??蒲性核⒋笮突ヂ摼W公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。
向上滑動查看
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.