99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

港中大(深圳)開源Soundwave:小數據量下的語音理解大模型強者

0
分享至

始智AI wisemodel.cn開源社區

始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在,歡迎加入共同成長。wisemodel社區上線,價格實惠,靈活方便,支持在線微調訓練模型,及和,并。

在人工智能快速發展的當下,多模態大模型尤其是語音交互類模型備受關注。然而,語音信息因包含語氣、環境音等復雜因素,使大模型“聽懂”語音成為難題?,F有方法依賴大規模數據訓練,且未充分解決語音與文本在表示空間和序列長度上的差異。

在此背景下,香港中文大學(深圳)聯合是石科技推出Soundwave語音理解大模型,針對上述問題采用三階段訓練策略,以較少數據量實現高效訓練,在語音翻譯、情緒識別等任務中表現優異,在AIR-Bench測試超越眾多模型,未來將在多領域推動語音AI落地。目前已上線始智AI-wisemodel開源社區,歡迎體驗。


模型地址

https://wisemodel.cn/models/FreedomIntelligence/Soundwave

01.

語音大模型的發展困境

在自然語言處理(NLP)領域,大模型(LLMs)憑借強大的理解和推理能力,深刻改變著行業格局。與此同時,多模態大模型,尤其是以語音交互為核心的模型也異軍突起,展現出廣闊的發展前景。像GPT-4o將語音與大模型端到端結合,憑借高實時性和強表現力,吸引了眾多科研學者和用戶的目光。

不過,在實際的語音交流中,情況遠比想象的復雜。語音交流不僅受表達內容影響,語氣、停頓等副語言特征,以及環境音、說話人特征等背景因素,都會對意圖表達產生作用。

和文本相比,語音能傳遞更豐富的信息,但這也讓語音特征變得復雜多變。這就是為什么,即便現有大模型如ChatGPT、DeepSeek在文本理解上已接近人類水平,可讓它們“聽懂”語音仍是一大難題。

目前,提升語音大模型性能的常用方法是依賴大規模訓練數據,通常需要數十萬甚至百萬小時的數據量。雖然擴大數據量和模型參數能在一定程度上解決問題,但文本和語音之間存在的核心問題卻未得到充分研究。

一方面,語音通過額外的語音編碼端建模,文本表示由大模型生成,兩者的表示空間不一致;另一方面,語音以幀為單位,大模型以子詞為單位建模,導致語音序列往往比文本序列長幾十倍。


圖一:Soundwave 和 Qwen2-Audio 在 AIR-Bench 上的表現

02.

Soundwave模型的創新架構

在這樣的背景下,香港中文大學(深圳)聯合是石科技帶來了驚喜——提出Soundwave模型。該模型創新性地解耦語音大模型的模態對齊訓練,針對表示空間差異和長度差異這兩個關鍵問題,分別設計了解決方案和任務數據。令人驚嘆的是,它僅用10k小時的數據,就展現出卓越的性能。


圖二:Soundwave 的訓練過程。其中灰色模塊被凍結,橙色模塊被訓練。

Soundwave的訓練過程分為三個階段。在語音與文本對齊階段,為解決語音和文本表示空間的差異,模型設計了對齊適配器,它包含線性層與單層Transformer encoder層,能將音頻序列轉換到大模型可理解的表示空間,再借助CTC損失實現兩者對齊。

第二階段是語音特征壓縮,通過壓縮適配器動態調整語音序列長度,使其與文本匹配。具體做法是先依據CTC預測的峰值選擇語義特征,接著利用這些特征從原始序列中查詢收集輔助信息,最后融合兩類特征完成序列長度的縮減。


圖三: 動態壓縮方法示例

最后是監督微調階段,模型僅調整LoRA參數,利用豐富的文本和語音指令數據,通過多種問答格式、十余種語音任務以及多樣化指令格式進行學習,提升任務處理能力,增強指令遵循和語音理解能力。

此外,團隊還采用基于溫度的采樣方法、數據標注清洗及針對語音任務的Chain-of-Thought等策略,提高學習效率。

03.

顯著的實驗成果

在實驗環節,Soundwave選用Whisper Large作為音頻編碼器,Llama-3.1-8B-Instruct作為基礎模型。實驗結果令人眼前一亮,在多個音頻任務中,Soundwave表現優異。

在語音翻譯任務上,它超越了Qwen2-Audio;語音情緒識別任務中,也能精準識別語音情感;面對Zero-shot任務,比如訓練過程中未見過的語言對翻譯,它同樣表現出色。


表一:在基礎任務上的性能表現,這些任務包括自動語音識別(ASR)、語音翻譯(ST)、語音情感識別(SER)、發聲分類(VSC)。其中*表示 zero-shot 任務。


表二:不同語音大模型在 AIR-Bench 上的表現


表三:不同語音大模型在 AIR-Bench Sound Foundation 任務中的表現

在AIR-Bench測試中,Soundwave在Speech Foundation任務平均得分75.5,超越其他模型;在Sound Foundation任務里,即便僅使用約244小時的Sound任務數據,也僅次于使用10k小時數據的Qwen2-Audio ,并且其單編碼器架構處理語音時效率更高。


圖五:不同音頻特征壓縮方法下,(a)語音、文本特征相似度對比(b)訓練速度對比

研究團隊還進行了對比實驗,結果顯示,帶有對齊適配器的Soundwave在語音和文本特征相似度上表現突出,訓練速度幾乎是其他方法的三倍。在ASR任務中,壓縮適配器在2.5%的低壓縮率下,能保持穩定性能,顯著加快推理速度,相比其他方法,首Token延遲(TTFT)提升明顯,且計算開銷幾乎不變。

此外,Soundwave的問答功能也十分強大,能精準理解語音輸入,迅速生成合理答案,在多個領域都能提供高效、精準的智能問答支持。


04.

廣闊的應用前景

Soundwave模型憑借創新的語音 - 文本對齊方案,打破了傳統語音大模型對大規模標注數據的依賴。通過三階段訓練策略,有效解決了語音與文本的表示空間差距和序列長度不一致問題,讓模型高效學習語音理解和對齊能力。

未來,Soundwave將持續優化語音理解能力,在醫療、教育、智能交互等領域有著廣泛的應用前景,有望推動語音AI在更多場景落地。

----- END -----

wisemodel相關:

系統升級:

大賽報名:

系列模型:

關于wisemodel更多

1

歡迎持續關注和支持

開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發布到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續關注wisemodel.cn開源社區動態。

2

歡迎加盟wisemodel開源社區

始智AI wisemodel社區自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區,為了加快公司發展,我們長期需要技術、運營等人才加盟,技術側重在AI infra、后端開發,熟悉K8S、模型訓練和推理等技術, 以及熟悉開發者生態運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關于wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高??蒲性核⒋笮突ヂ摼W公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。

向上滑動查看

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
水務公司再通報“杭州部分區域自來水氣味異常”:給予7月每戶5噸水費的減免

水務公司再通報“杭州部分區域自來水氣味異?!保航o予7月每戶5噸水費的減免

界面新聞
2025-07-17 17:09:05
比爾-西蒙斯:比爾不滿給KD布克當配角 如今樂意給登卡當配角?

比爾-西蒙斯:比爾不滿給KD布克當配角 如今樂意給登卡當配角?

直播吧
2025-07-17 13:19:21
馬英九:若大陸統一臺灣的手段不和平,過程不民主,臺灣人不接受

馬英九:若大陸統一臺灣的手段不和平,過程不民主,臺灣人不接受

紅色鑒史官
2025-04-11 20:15:02
黃楊小姐的天價耳環僅值100多元,這就尷尬了...

黃楊小姐的天價耳環僅值100多元,這就尷尬了...

洞見報告
2025-07-17 11:42:20
清華法學637創新低,二本警校615擠破頭!2025高考錄取顛覆認知!

清華法學637創新低,二本警校615擠破頭!2025高考錄取顛覆認知!

振華觀史
2025-07-16 17:42:26
趙露思直播驚見「手臂大片白粉」!網憂免疫力再出問題 去年病倒癱瘓

趙露思直播驚見「手臂大片白粉」!網憂免疫力再出問題 去年病倒癱瘓

ETtoday星光云
2025-07-16 18:33:32
疑已被解約!香港黑人前鋒致歉:你們誤解了我 可能沒法踢中甲了

疑已被解約!香港黑人前鋒致歉:你們誤解了我 可能沒法踢中甲了

風過鄉
2025-07-17 06:25:11
陳慧琳16歲兒子劉昇,帶著漂亮女友來聽媽媽演唱會,穩定戀愛2年

陳慧琳16歲兒子劉昇,帶著漂亮女友來聽媽媽演唱會,穩定戀愛2年

清游說娛
2025-07-16 16:31:10
為何所有新秀都想打爆楊瀚森?NBA有潛規則,中國靶子讓球探更興奮了

為何所有新秀都想打爆楊瀚森?NBA有潛規則,中國靶子讓球探更興奮了

慢歌輕步謠
2025-07-17 11:30:18
網友生日當天被女友氣瘋!體內殘留兩個避孕套,稱:個人衛生不好

網友生日當天被女友氣瘋!體內殘留兩個避孕套,稱:個人衛生不好

社會醬
2025-07-10 17:48:15
賈平凹 :人老了,躺在病床上才明白,廢掉身體最快速的方式,不是抽煙、喝酒、打麻將,而是這2件事

賈平凹 :人老了,躺在病床上才明白,廢掉身體最快速的方式,不是抽煙、喝酒、打麻將,而是這2件事

感覺會火
2025-02-18 12:12:18
阿嬌一個人獨居北京3居室,自稱比香港要便宜,44歲仍想懷孕生子

阿嬌一個人獨居北京3居室,自稱比香港要便宜,44歲仍想懷孕生子

尋墨閣
2025-07-10 14:05:54
為“阻擋”解放軍登陸,臺軍沿公路設置路障,兩側的草坪毫不設防

為“阻擋”解放軍登陸,臺軍沿公路設置路障,兩側的草坪毫不設防

空天力量
2025-07-17 13:21:09
徹底毀了,考生670分報浙大,錄取結果沒出,卻因兼職進了看守所

徹底毀了,考生670分報浙大,錄取結果沒出,卻因兼職進了看守所

體制內老陳
2025-07-13 11:57:54
李在明下毒手,金建希輪椅度日,尹錫悅奄奄一息,或過早病死獄中

李在明下毒手,金建希輪椅度日,尹錫悅奄奄一息,或過早病死獄中

薦史
2025-07-17 14:41:25
阿莫林:我感受到了巨大的責任感,要把曼聯帶回它應有的位置

阿莫林:我感受到了巨大的責任感,要把曼聯帶回它應有的位置

懂球帝
2025-07-18 00:39:28
李湘“愛女人設”崩塌!泰國求子只是冰山一角,11年前就懷上二胎

李湘“愛女人設”崩塌!泰國求子只是冰山一角,11年前就懷上二胎

簡讀視覺
2025-07-16 22:24:33
3換1!湖人大動作,佩林卡為送走里夫斯做準備?不舍克內克特

3換1!湖人大動作,佩林卡為送走里夫斯做準備?不舍克內克特

八零后小伙兒
2025-07-16 20:28:36
其父剛下葬,楊議就開始演出,因欠錢太多,也是郭德綱遠離他原因

其父剛下葬,楊議就開始演出,因欠錢太多,也是郭德綱遠離他原因

偵姐有料
2025-07-13 09:14:43
90歲齊白石,將25歲新鳳霞拉進臥室,指著一個放滿錢的立柜

90歲齊白石,將25歲新鳳霞拉進臥室,指著一個放滿錢的立柜

夢里大唐
2025-04-14 17:02:11
2025-07-18 02:31:00
wisemodel開源社區 incentive-icons
wisemodel開源社區
始智AI wisemodel.cn開源社區,打造中國版“huggingface”
309文章數 12關注度
往期回顧 全部

科技要聞

沒有老黃不夸的中國公司了吧??

頭條要聞

遺產戰進入高潮 關鍵時刻"影子夫人"杜建英資金出狀況

頭條要聞

遺產戰進入高潮 關鍵時刻"影子夫人"杜建英資金出狀況

體育要聞

楊力維和楊舒予,是姐妹,也是戰友

娛樂要聞

又相信愛情了,董璇二婚現場照曝光!

財經要聞

杭州成立專班介入宗慶后遺產糾紛

汽車要聞

有望年內上市 奧迪A6L e-tron申報信息曝光

態度原創

房產
時尚
旅游
藝術
軍事航空

房產要聞

突發!海航陳峰被判12年,罰2.2億!

宗氏家族爭產案,一個細節讓人反感

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

軍事要聞

美考慮援烏射程1000公里的導彈 特朗普:莫斯科不能打

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 衡山县| 旬邑县| 赞皇县| 荣成市| 南靖县| 炎陵县| 攀枝花市| 综艺| 都安| 长垣县| 会泽县| 安多县| 兰州市| 修文县| 东乡县| 诸城市| 绥宁县| 远安县| 苍南县| 曲沃县| 清原| 宜兰市| 西青区| 榆中县| 英山县| 西丰县| 离岛区| 丹巴县| 玉龙| 雷波县| 舒兰市| 苍梧县| 万安县| 化德县| 略阳县| 莒南县| 波密县| 即墨市| 正蓝旗| 秭归县| 久治县|