7月23日消息,清華大學與生數科技近日聯合發布革命性文生音頻系統 FreeAudio,首次攻克長時、多聲音事件音頻生成中的時間精準控制難題。
當前主流文本生成音頻(Text-to-Audio, T2A)模型受限于時序對齊數據的稀缺,面對"貓頭鷹在2.4至5.2秒鳴叫"等精準時間控制時,常常表現不佳。雖已有部分研究嘗試在10秒 T2A 系統上實現時間可控生成,但生成質量仍不夠理想。為應對上述問題,清華大學和生數科技最新科研成果提出了一種免訓練方法——FreeAudio,利用短時T2A系統,實現了長時 + 多聲音事件 + 精準時間可控的文生音頻效果。
時間可控音頻生成的 LLM Planning 和 Decoupling & Aggregating Attention Control 模塊
據介紹,FreeAudio可基于自然語言文本與時間提示,對每一聲音事件實現精確的時間可控:
- 秒級精準控制:響應復合時間指令(如" 0 - 8秒溪流聲 + 2.4 - 5.2秒貓頭鷹鳴叫 + 0 - 24秒蟋蟀聲")
- 長時生成能力:支持10秒以上復雜場景音效生成
在時間可控音頻生成實驗中,FreeAudio 在 AudioCondition 測試集上顯著優于現有主流方法,全面提升了時間對齊精度與音頻質量。在長時音頻生成任務中,FreeAudio 在 AudioCaps 和 MusicCaps 數據集上展現出優越的擴展性與穩定性。在10秒、26秒和90秒的生成長度,FreeAudio 始終在多個指標上表現出色,充分驗證了其對不同時長的生成能力。同時,主觀評估結果顯示,FreeAudio 在音質、連貫性與風格一致性等維度均取得最好效果。
目前,該工作已被 ACM Multimedia 2025錄用,并被AC推薦為 Oral 錄取。據了解,FreeAudio 系統未來或考慮在 Vidu 產品端上線。(定西)
本文來自網易科技報道,更多資訊和深度內容,關注我們。