智東西
作者 金碧輝
編輯 程茜
智東西7月1日消息,阿里通義實驗室全球首個應用思維鏈(CoT)技術(shù)的音頻生成模型ThinkSound今天開源,該模型首次將CoT引入音頻生成領(lǐng)域,通過多階段推理框架解決傳統(tǒng)視頻轉(zhuǎn)音頻(V2A)技術(shù)的音畫錯位問題,并開源配套數(shù)據(jù)集AudioCoT。
ThinkSound模型可直接應用于影視后期制作,為AI生成的視頻自動匹配精準的環(huán)境噪音與爆炸聲效;服務于游戲開發(fā)領(lǐng)域,實時生成雨勢變化等動態(tài)場景的自適應音效;同時可以無障礙視頻生產(chǎn),為視障用戶同步生成畫面描述與環(huán)境音效。
▲ThinkSound模型生成的視頻內(nèi)容
目前,ThinkSound一共有ThinkSound-1.3B、ThinkSound-724M、ThinkSound-533M,開發(fā)者可按需調(diào)用適配。開發(fā)者可通過GitHub、Hugging Face、魔搭社區(qū)免費調(diào)用Apache 2.0協(xié)議的開源代碼。
性能驗證顯示,在VGGSound測試集上,ThinkSound的Fréchet音頻距離降至34.56,較此前主流模型MMAudio顯著提升20.1%;時序?qū)R誤差率僅9.8%,同比降低37.2%;聲音事件判別指標KLPaSST與KLPaNNs分別達到1.52和1.32,均為當前同類模型最佳結(jié)果。在面向影視場景的MovieGen Audio Bench測試中,其表現(xiàn)大幅領(lǐng)先Meta的Movie Gen Audio模型。
▲ThinkSound在VGGSound測試集上的表現(xiàn)
技術(shù)主頁:
https://thinksound-project.github.io/
開源地址:
https://huggingface.co/FunAudioLLM
GitHub:https://github.com/liuhuadai/ThinkSound
體驗地址:
https://huggingface.co/spaces/FunAudioLLM/ThinkSound
一、三階段流程完成推理,模擬人類音效師創(chuàng)作流程
ThinkSound模型的突破性在于其成功模擬了專業(yè)音效師的核心工作邏輯,通過三階段推理流程實現(xiàn)自動化音效生成。
首先,模型執(zhí)行視覺事件解析,逐幀分析視頻內(nèi)容,精準識別關(guān)鍵物理事件如玻璃碎裂軌跡或腳步移動速度,并同時判斷畫面中物體的材質(zhì)屬性,例如金屬、木材或液體,輸出帶時間戳的結(jié)構(gòu)化事件與屬性數(shù)據(jù)。
然后模型進入聲學屬性推導階段,基于解析出的視覺特征,運用物理規(guī)則進行映射:依據(jù)材質(zhì)類型推導聲音的頻譜特性,金屬材質(zhì)會產(chǎn)生高頻共振;根據(jù)運動強度計算聲波能量,雨滴高度直接影響混響強度;同時模擬環(huán)境空間如密閉房間或開放廣場對聲場反射的影響,最終生成物理特性準確的聲學參數(shù)矩陣。
最后是時序?qū)R合成階段,模型通過動態(tài)對齊引擎將聲學參數(shù)與視頻幀精確綁定,利用時間編碼器自適應補償畫面跳幀或慢動作變化以確保聲波連續(xù)性,并采用分層渲染技術(shù)實時合成音頻流,包含基礎(chǔ)音色層、環(huán)境反射層及運動特效層。
這一流程實現(xiàn)了與畫面幀的精準同步,其時序誤差率低至僅9.8%,較傳統(tǒng)模型大幅降低37.2%,從而將傳統(tǒng)手工音效制作中耗時數(shù)小時的音畫對齊工作壓縮至分鐘級完成。
在生物聲學場景中,ThinkSound模型生成的嬰兒哭聲音頻嚴格匹配表情動作變化,其音高動態(tài)范圍與呼吸節(jié)奏波動精準遵循嬰幼兒生理發(fā)聲模式,通過時序?qū)R算法確??蘼晱姸确逯蹬c面部扭曲程度實現(xiàn)幀級同步。
▲ThinkSound模型生成的嬰兒哭聲視頻截圖
ThinkSound-1.3B的參數(shù)量為13億,是當前開源版本中規(guī)模最大的模型,適合專業(yè)級音效生成任務;ThinkSound-724M的參數(shù)量為7.24億,該模型平衡了生成質(zhì)量與計算效率。適合需要較高音效質(zhì)量但資源受限的場景;ThinkSound-533M的參數(shù)量為5.33億),定位為輕量級入門模型。在保證基礎(chǔ)音效生成能力的同時,顯著降低硬件門檻,適用于快速原型開發(fā)和教育研究用途。
二、整合總計2531.8小時音頻,構(gòu)建全球首個AudioCoT數(shù)據(jù)集
為突破傳統(tǒng)音頻生成模型“黑箱操作”、缺乏可解釋設(shè)計邏輯的瓶頸,阿里團隊構(gòu)建了業(yè)界首個且規(guī)模最大的帶思維鏈標注音頻數(shù)據(jù)集AudioCoT。
該數(shù)據(jù)集整合了總計2531.8小時的音頻、視覺素材,涵蓋影視片段庫、高保真自然聲場采集及國際知名專業(yè)音效庫。
AudioCoT的核心突破在于其思維鏈標注體系:每條數(shù)據(jù)均由專業(yè)團隊深度標注出完整的邏輯鏈條。標注團隊從視覺事件分析識別畫面中的關(guān)鍵觸發(fā)元素,到聲學特性推理推導聲音應有的物理和感知屬性,再到音效合成策略明確實現(xiàn)目標聲音的技術(shù)路徑。這種從視覺輸入到聲音輸出的完整邏輯映射,為模型構(gòu)建了理解聲音設(shè)計“為什么”和“怎么做”的知識圖譜。
ThinkSound在訓練中不僅學習生成聲音,還能夠基于畫面元素自動推理并調(diào)整生成聲音的屬性,改變了依賴預設(shè)標簽的黑箱生成模式,實現(xiàn)了生成高質(zhì)量音頻的同時“知其所以然”,增強AI生成音效的真實感和同步性。
▲ThinkSound模型增強AI生成音效的真實感和同步性
三、關(guān)鍵指標超越主流方案,時序?qū)R誤差率降低37%
在權(quán)威測試集VGGSound上,ThinkSound的Fréchet音頻距離(FD)降至34.56(對比MMAudio的43.26),逼近真實音效分布;聲音事件判別精度KLPaSST/KLPaNNs達1.52/1.32,ThinkSound超越MMAudio等標桿模型。
在影視場景測試集MovieGen Audio Bench中,ThinkSound以20%優(yōu)勢超越Meta的Movie Gen Audio模型,尤其在爆炸、金屬摩擦等復雜聲效的時序?qū)R誤差率降低37%。
▲ThinkSound超越Meta的Movie Gen Audio模型
為驗證ThinkSound核心技術(shù)設(shè)計的必要性,阿里團隊展開消融實驗。
當前視頻生成音頻(V2A)技術(shù)長期面臨的核心痛點,是模型難以捕捉視覺事件與聲音之間的物理關(guān)聯(lián)。例如,玻璃碎裂的畫面本應觸發(fā)高頻清脆聲,但傳統(tǒng)模型常輸出模糊的“破碎聲”或與畫面時序錯位的音效。其根源在于數(shù)據(jù)與建模的局限性,主流方案依賴文本、音頻的淺層匹配,缺乏對聲學物理規(guī)律的推理能力。例如,早期模型Make-An-Audio雖通過CLAP文本編碼器和頻譜自編碼器提升可控性,但仍無法解析“物體材質(zhì)如何影響聲音頻率”這類邏輯鏈。
同時,傳統(tǒng)模型還存在時序錯位問題,通用模型如Meta的Movie Gen Audio在復雜場景中常出現(xiàn)音畫不同步,例如爆炸聲滯后于火光畫面,因模型未建立事件因果鏈。
團隊將視頻的CLIP視覺特征與T5文本推理特征在時間軸上對齊融合,相比單獨輸入音頻特征,音畫同步精度提升23%。
▲ThinkSound的不同的文本編程策略比較
門控融合機制通過動態(tài)分配權(quán)重,例如會優(yōu)先處理視覺事件聲效而非環(huán)境背景音,在KLPaSST指標上實現(xiàn)17%的提升,F(xiàn)réchet音頻距離降低12%,超越常規(guī)的拼接融合與加法融合策略。
▲多模式整合機制比較
結(jié)語:ThinkSound開源,阿里三大模型補全音頻工具鏈
ThinkSound的發(fā)布標志著音頻生成從“能發(fā)聲”邁向“懂畫面”的智能階段。其技術(shù)價值不僅在于性能提升,更在于將專業(yè)音效設(shè)計流程標準化、自動化,把傳統(tǒng)需數(shù)小時的手工音畫對齊工作壓縮至分鐘級完成。
對產(chǎn)業(yè)而言,ThinkSound與阿里此前開源CosyVoice 2.0(語音合成)、Qwen2.5-Omni(全模態(tài)交互)形成技術(shù)矩陣,覆蓋從語音到環(huán)境音效的全場景音頻生成需求。開發(fā)者可基于此構(gòu)建影視配音、游戲?qū)崟r音效、無障礙視頻制作等低成本工具,尤其為中小創(chuàng)作者提供接近專業(yè)工作室的音頻生產(chǎn)能力。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.