阿里開源音頻生成模型！為AI視頻生成匹配音頻、分分鐘生成游戲音效

2025-07-01 20:49:11　來源: 智東西

北京舉報

分享至

智東西
作者金碧輝
編輯程茜

智東西7月1日消息，阿里通義實驗室全球首個應用思維鏈（CoT）技術(shù)的音頻生成模型ThinkSound今天開源，該模型首次將CoT引入音頻生成領(lǐng)域，通過多階段推理框架解決傳統(tǒng)視頻轉(zhuǎn)音頻（V2A）技術(shù)的音畫錯位問題，并開源配套數(shù)據(jù)集AudioCoT。

ThinkSound模型可直接應用于影視后期制作，為AI生成的視頻自動匹配精準的環(huán)境噪音與爆炸聲效；服務于游戲開發(fā)領(lǐng)域，實時生成雨勢變化等動態(tài)場景的自適應音效；同時可以無障礙視頻生產(chǎn)，為視障用戶同步生成畫面描述與環(huán)境音效。

▲ThinkSound模型生成的視頻內(nèi)容

目前，ThinkSound一共有ThinkSound-1.3B、ThinkSound-724M、ThinkSound-533M，開發(fā)者可按需調(diào)用適配。開發(fā)者可通過GitHub、Hugging Face、魔搭社區(qū)免費調(diào)用Apache 2.0協(xié)議的開源代碼。

性能驗證顯示，在VGGSound測試集上，ThinkSound的Fréchet音頻距離降至34.56，較此前主流模型MMAudio顯著提升20.1%；時序?qū)R誤差率僅9.8%，同比降低37.2%；聲音事件判別指標KLPaSST與KLPaNNs分別達到1.52和1.32，均為當前同類模型最佳結(jié)果。在面向影視場景的MovieGen Audio Bench測試中，其表現(xiàn)大幅領(lǐng)先Meta的Movie Gen Audio模型。

▲ThinkSound在VGGSound測試集上的表現(xiàn)

技術(shù)主頁：
https://thinksound-project.github.io/

開源地址：
https://huggingface.co/FunAudioLLM
GitHub：https://github.com/liuhuadai/ThinkSound

體驗地址：
https://huggingface.co/spaces/FunAudioLLM/ThinkSound

一、三階段流程完成推理，模擬人類音效師創(chuàng)作流程

ThinkSound模型的突破性在于其成功模擬了專業(yè)音效師的核心工作邏輯，通過三階段推理流程實現(xiàn)自動化音效生成。

首先，模型執(zhí)行視覺事件解析，逐幀分析視頻內(nèi)容，精準識別關(guān)鍵物理事件如玻璃碎裂軌跡或腳步移動速度，并同時判斷畫面中物體的材質(zhì)屬性，例如金屬、木材或液體，輸出帶時間戳的結(jié)構(gòu)化事件與屬性數(shù)據(jù)。

然后模型進入聲學屬性推導階段，基于解析出的視覺特征，運用物理規(guī)則進行映射：依據(jù)材質(zhì)類型推導聲音的頻譜特性，金屬材質(zhì)會產(chǎn)生高頻共振；根據(jù)運動強度計算聲波能量，雨滴高度直接影響混響強度；同時模擬環(huán)境空間如密閉房間或開放廣場對聲場反射的影響，最終生成物理特性準確的聲學參數(shù)矩陣。

最后是時序?qū)R合成階段，模型通過動態(tài)對齊引擎將聲學參數(shù)與視頻幀精確綁定，利用時間編碼器自適應補償畫面跳幀或慢動作變化以確保聲波連續(xù)性，并采用分層渲染技術(shù)實時合成音頻流，包含基礎(chǔ)音色層、環(huán)境反射層及運動特效層。

這一流程實現(xiàn)了與畫面幀的精準同步，其時序誤差率低至僅9.8%，較傳統(tǒng)模型大幅降低37.2%，從而將傳統(tǒng)手工音效制作中耗時數(shù)小時的音畫對齊工作壓縮至分鐘級完成。

在生物聲學場景中，ThinkSound模型生成的嬰兒哭聲音頻嚴格匹配表情動作變化，其音高動態(tài)范圍與呼吸節(jié)奏波動精準遵循嬰幼兒生理發(fā)聲模式，通過時序?qū)R算法確?？蘼晱姸确逯蹬c面部扭曲程度實現(xiàn)幀級同步。

▲ThinkSound模型生成的嬰兒哭聲視頻截圖

ThinkSound-1.3B的參數(shù)量為13億，是當前開源版本中規(guī)模最大的模型，適合專業(yè)級音效生成任務；ThinkSound-724M的參數(shù)量為7.24億，該模型平衡了生成質(zhì)量與計算效率。適合需要較高音效質(zhì)量但資源受限的場景；ThinkSound-533M的參數(shù)量為5.33億），定位為輕量級入門模型。在保證基礎(chǔ)音效生成能力的同時，顯著降低硬件門檻，適用于快速原型開發(fā)和教育研究用途。

二、整合總計2531.8小時音頻，構(gòu)建全球首個AudioCoT數(shù)據(jù)集

為突破傳統(tǒng)音頻生成模型“黑箱操作”、缺乏可解釋設(shè)計邏輯的瓶頸，阿里團隊構(gòu)建了業(yè)界首個且規(guī)模最大的帶思維鏈標注音頻數(shù)據(jù)集AudioCoT。

該數(shù)據(jù)集整合了總計2531.8小時的音頻、視覺素材，涵蓋影視片段庫、高保真自然聲場采集及國際知名專業(yè)音效庫。

AudioCoT的核心突破在于其思維鏈標注體系：每條數(shù)據(jù)均由專業(yè)團隊深度標注出完整的邏輯鏈條。標注團隊從視覺事件分析識別畫面中的關(guān)鍵觸發(fā)元素，到聲學特性推理推導聲音應有的物理和感知屬性，再到音效合成策略明確實現(xiàn)目標聲音的技術(shù)路徑。這種從視覺輸入到聲音輸出的完整邏輯映射，為模型構(gòu)建了理解聲音設(shè)計“為什么”和“怎么做”的知識圖譜。

ThinkSound在訓練中不僅學習生成聲音，還能夠基于畫面元素自動推理并調(diào)整生成聲音的屬性，改變了依賴預設(shè)標簽的黑箱生成模式，實現(xiàn)了生成高質(zhì)量音頻的同時“知其所以然”，增強AI生成音效的真實感和同步性。

▲ThinkSound模型增強AI生成音效的真實感和同步性

三、關(guān)鍵指標超越主流方案，時序?qū)R誤差率降低37%

在權(quán)威測試集VGGSound上，ThinkSound的Fréchet音頻距離（FD）降至34.56（對比MMAudio的43.26），逼近真實音效分布；聲音事件判別精度KLPaSST/KLPaNNs達1.52/1.32，ThinkSound超越MMAudio等標桿模型。

在影視場景測試集MovieGen Audio Bench中，ThinkSound以20%優(yōu)勢超越Meta的Movie Gen Audio模型，尤其在爆炸、金屬摩擦等復雜聲效的時序?qū)R誤差率降低37%。

▲ThinkSound超越Meta的Movie Gen Audio模型

為驗證ThinkSound核心技術(shù)設(shè)計的必要性，阿里團隊展開消融實驗。

當前視頻生成音頻（V2A）技術(shù)長期面臨的核心痛點，是模型難以捕捉視覺事件與聲音之間的物理關(guān)聯(lián)。例如，玻璃碎裂的畫面本應觸發(fā)高頻清脆聲，但傳統(tǒng)模型常輸出模糊的“破碎聲”或與畫面時序錯位的音效。其根源在于數(shù)據(jù)與建模的局限性，主流方案依賴文本、音頻的淺層匹配，缺乏對聲學物理規(guī)律的推理能力。例如，早期模型Make-An-Audio雖通過CLAP文本編碼器和頻譜自編碼器提升可控性，但仍無法解析“物體材質(zhì)如何影響聲音頻率”這類邏輯鏈。

同時，傳統(tǒng)模型還存在時序錯位問題，通用模型如Meta的Movie Gen Audio在復雜場景中常出現(xiàn)音畫不同步，例如爆炸聲滯后于火光畫面，因模型未建立事件因果鏈。

團隊將視頻的CLIP視覺特征與T5文本推理特征在時間軸上對齊融合，相比單獨輸入音頻特征，音畫同步精度提升23%。

▲ThinkSound的不同的文本編程策略比較

門控融合機制通過動態(tài)分配權(quán)重，例如會優(yōu)先處理視覺事件聲效而非環(huán)境背景音，在KLPaSST指標上實現(xiàn)17%的提升，F(xiàn)réchet音頻距離降低12%，超越常規(guī)的拼接融合與加法融合策略。

▲多模式整合機制比較

結(jié)語：ThinkSound開源，阿里三大模型補全音頻工具鏈

ThinkSound的發(fā)布標志著音頻生成從“能發(fā)聲”邁向“懂畫面”的智能階段。其技術(shù)價值不僅在于性能提升，更在于將專業(yè)音效設(shè)計流程標準化、自動化，把傳統(tǒng)需數(shù)小時的手工音畫對齊工作壓縮至分鐘級完成。

對產(chǎn)業(yè)而言，ThinkSound與阿里此前開源CosyVoice 2.0（語音合成）、Qwen2.5-Omni（全模態(tài)交互）形成技術(shù)矩陣，覆蓋從語音到環(huán)境音效的全場景音頻生成需求。開發(fā)者可基于此構(gòu)建影視配音、游戲?qū)崟r音效、無障礙視頻制作等低成本工具，尤其為中小創(chuàng)作者提供接近專業(yè)工作室的音頻生產(chǎn)能力。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.