在當今信息化時代,語音通信技術的進步對應急救援、衛星通信等領域的發展至關重要。在衛星通信領域,窄帶寬(甚低碼率500bps以下)和遠距離傳輸等技術限制一直是亟待攻克的行業難題。
作為國內領先的北斗應用技術企業 ,磐鈷智能依托國家第二代北斗重大專項的應用推廣與產業化,與中山大學CPNT Lab(北斗綜合智能導航團隊)展開深度合作,成功研發出具有自主知識產權的低碼率語音壓縮算法,并獲得國家專利授權。如今,這一算法已升級至3.0版本,為北斗語音通信帶來了革命性的突破。
此次升級以256bps為突破口,在提升語音傳輸效率、保障語音質量方面取得了重大突破,為衛星物聯網通信帶來了顛覆性的解決方案。
一、技術升級亮點
(一)極低碼率下的高清語音保障
傳統聲碼器在0.6kbps噪聲環境下,語音質量會顯著下降,MOS評分常低于2.8,難以滿足實際需求。而低碼率語音壓縮算法融合中山大學技術研究成果,采用基于VQ-VAE與Transformer的端到端聲碼器,技術優勢明顯。
1、高效壓縮
通過殘差矢量量化(RVQ),對語音信號進行分層量化,精準提取關鍵特征。再結合因果Transformer序列預測模型,利用自回歸特性,深入挖掘語音幀間的依賴關系,實現從1000bps到256bps的壓縮,壓縮比低至24.8%,極大減少了傳輸數據量。
2、卓越音質
在低至256bps的碼率下,仍能保持DNSMOS評分大于2.8,主觀音質可懂度完全達標。即便是在帶寬極度受限的情況下,也能為用戶呈現清晰、可理解的語音內容。
3、技術原理剖析
(1)VQ-VAE架構
構建分層量化體系,靈活支持256-2000bps的多碼率輸出。特別是在0.5kbps以下的編碼場景中,打破傳統技術瓶頸,實現高效編碼。
(2)Transformer序列預測
借助Transformer強大的序列建模能力,對語音幀序列進行預測。搭配二進制編碼,實現二次壓縮,在保證音質的同時,進一步降低碼率。
(二)復雜環境下的抗噪黑科技
在真實場景中,語音極易受到混響、嘈雜噪聲干擾,如餐廳內的人聲鼎沸、地鐵中的轟鳴等。算法的低成本語音去噪技術,實現了雙重技術突破。
1、頻域RNNOISE模型
創新采用GRU網絡取代傳統噪聲估計方式,大幅降低計算量,滿足實時處理需求。不過,該方式可能會對音質造成輕微損傷。
2、時頻域DPCRN模型
融合雙路徑RNN與卷積網絡,通過復數頻譜掩碼濾波技術,在有效抑制噪聲的同時,最大程度保留語音細節。經測試,該技術可使聲碼器在含噪環境下的平均DNSMOS評分從2.1提升至2.8(256bps碼率),語音清晰度提升超40%。
(三)去噪實測,話音清晰
在數據集中進行測試,運用該去噪技術后,語音可懂度顯著提升。原本被噪聲掩蓋的話語變得清晰可聞,背景噪聲得到有效抑制,聲音純凈度大幅提高。
(四)端到端部署與跨平臺適配
強大的技術落地能力是該算法的核心競爭力之一。磐鈷智能的方案支持ONNX格式模型部署,可輕松適配C++等輕量化環境。在龍芯CPU等嵌入式國產設備上,也能實現實時編碼解碼,實時因子RTF小于1。并且,該技術高度兼容北斗短報文、天通衛星等窄帶信道,已成功應用于多個關鍵領域。
1、應急通信設備
在野外救援、遠洋船舶等場景中,通過低碼率語音,實現實時語音回傳。即便碼率低至256bps,語音依然清晰可辨,為應急指揮提供有力支持。
2、智能物聯網終端
采用低功耗設計,完美適配衛星物聯網傳感器。在延長設備續航時間的同時,保障通信質量,推動物聯網設備高效運行。
二、技術優勢對比
三、行業應用場景
(一)衛星應急指揮
在地震、山區等極端環境下,傳統通信手段常常失效。此時,低碼率語音技術優勢盡顯,能以低碼率快速傳遞關鍵指令。比如在地震救援現場,救援人員可通過相關設備,利用低碼率語音將廢墟下的情況、救援進展等信息及時反饋給指揮中心,解決了傳統通信“聽不清、傳不出”的痛點,為救援行動爭取寶貴時間。
(二)遠洋監控與科考
船舶在遠洋航行時,需要實時匯報航行狀態。運用該算法,可將語音數據壓縮后傳輸,數據量減少25%。這不僅節省了衛星通信成本,還提升了傳輸效率。例如,科考船在執行任務過程中,能通過低碼率語音清晰匯報科考數據、海上情況等,保障遠洋作業順利進行。
(三)智慧安防與野外監測
將算法嵌入低功耗設備,可實現長續航語音采集與回傳。在森林防火場景中,分布在林區的設備可實時采集聲音信息,一旦監測到異常聲響,如火災引發的樹木爆裂聲、人為活動噪聲等,能通過低碼率語音快速回傳至監控中心,助力及時發現火情。在邊境監控方面,也能有效監測人員活動,保障邊境安全。
四、研發歷程
低碼率語音壓縮算法研發之路始于對國家重大需求的積極響應。在國家第二代北斗重大專項的引領下,磐鈷智能攜手中山大學CPNT Lab,匯聚了一批通信與語音處理領域的精英人才。
研發團隊深知低碼率語音壓縮對于特殊通信環境(如偏僻地區、應急救援通信等)的深遠意義,在項目初期便明確了以提升語音壓縮效率、保障語音質量為核心目標的研發方向。
1、2021年
磐鈷智能聯合中山大學CPNT Lab啟動“北斗語音壓縮算法”專項研究,瞄準國家重大需求。
2、2022年
國內外首次成功研發低碼率語音壓縮算法,在使用北斗三號五級卡(1750字節)情況下,它能實現最長31秒的語音傳輸。
3、2023年
低碼率語音壓縮算法正式獲得國家發明專利授權。
4、2024年
低碼率語音壓縮算法升級到2.0版本,算法在使用北斗三號五級卡(1750字節)的情況下,最長傳輸56秒的語音。
5、2025年
算法迭代至3.0版本,在2022年核心專利基礎上形成專利族。實現從1000bps到256bps的壓縮,仍能保持DNSMOS評分大于2.8,極大地提高了語音傳輸的效率和清晰度。這意味著在相同的帶寬條件下,搭載了該算法的終端能夠傳輸更長、更清晰的語音信息。
1.0、2.0版本的低碼率語音壓縮算法相繼誕生,并在實際應用中取得顯著成效,為北斗語音通信等領域提供了堅實的技術支撐。
如今,算法3.0版本的發布,是站在前序成果的肩膀上,針對行業更高標準和特殊場景需求所實現的一次質的飛躍。它再次印證了國家重大專項的支撐作用,讓這一技術成果在國家戰略布局中持續發揮價值。
每一次的算法升級,都是對行業標準的重新定義與提升。雖然一直被模仿,但磐鈷智能很樂意因為自己的貢獻而提高了行業整體服務水平。正如北斗系統推動全球衛星導航產業升級,我們樂見更多企業參與低碼率語音壓縮技術的普及。
未來,磐鈷智能將繼續秉承創新精神,加大研發投入,不斷探索低碼率語音壓縮算法的更多可能性。我們將融合前沿的擴散模型(Diffusion Model)與多模態特征編碼技術,正在向更低碼率(150bps以下)發起挑戰。同時,不斷優化跨語言、多場景適配能力,致力于為全球衛星物聯網通信提供具有中國智慧的“中國方案”,引領行業技術發展潮流。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.