網易首頁 > 網易號 > 正文申請入駐

音頻生成加速革命：Stability AI團隊突破毫秒級文本轉音頻技術

2025-05-16 16:15:33　來源: 科技行者

北京舉報

分享至

想象一下，你只需說出"給我來段拉丁風格的鼓點，115拍每分鐘"，然后在眨眼間—真的就是眨眼的時間—你的電腦或手機就能生成高質量的音頻。這不再是科幻電影里的場景，而是得益于最新突破性研究《利用對抗性后訓練實現快速文本到音頻生成》（Fast Text-to-Audio Generation with Adversarial Post-Training）的現實。

這項研究由加州大學圣地亞哥分校和Stability AI的研究團隊共同完成，主要作者包括Zachary Novack、Zach Evans、Zack Zukowski、Josiah Taylor、CJ Carr、Julian Parker等多位專家。該論文于2025年5月14日在arXiv預印平臺上發布（arXiv:2505.08175v2），代表了文本到音頻生成領域的重大技術突破。

一、研究背景：突破音頻生成的"龜速瓶頸"

你是否曾等待過AI生成一段音頻？不管是想要一段背景音樂、聲音效果還是環境音，傳統的文本到音頻AI模型就像一位才華橫溢但動作極其緩慢的音樂家—創作出色，但要花上好幾分鐘甚至更長時間才能完成一段短小的音頻。

目前市場上的文本到音頻系統，盡管質量越來越高，但它們的生成速度仍然是一個明顯的痛點。想象一下，你正在制作一個視頻，需要某種特定的音效，傳統模型可能需要幾秒到幾分鐘才能生成，這種等待就像是在微波爐前盯著的那幾分鐘，打斷了創作的思路和流程。

"大多數現有的文本到音頻模型需要數秒到數分鐘才能生成一段音頻，這讓它們在大多數創意使用場景中幾乎無法實用化，"研究團隊在論文中指出。這就像你想要快速做一道菜，但每次需要往鍋里加一種調料都得先等十分鐘才行—這樣的烹飪過程會讓任何人失去耐心。

二、技術突破：ARC后訓練法如何實現音頻生成的"閃電加速"

研究團隊提出了一種名為"對抗性相對-對比后訓練"（Adversarial Relativistic-Contrastive post-training，簡稱ARC）的創新方法。這個名字聽起來可能有點復雜，但其工作原理可以用一個簡單的比喻來解釋：

想象有兩位藝術家—一位是生成器（Generator），另一位是鑒別器（Discriminator）。生成器負責創作音頻，而鑒別器則負責評判這些音頻的質量。在傳統的生成模型中，這兩位藝術家彼此獨立工作，但在ARC方法中，它們形成了一種特殊的"競爭關系"：

相對性競爭：不同于傳統方法中鑒別器只是簡單地判斷"這是真的還是假的"，在ARC中，鑒別器要判斷"與真實音頻相比，這個生成的音頻有多真實"。這就像兩個跳高選手不是單純比誰跳得更高，而是比誰比對方跳得更高。生成器努力讓每個生成的樣本在鑒別器眼中"比配對的真實樣本更真實"，而鑒別器則試圖讓每個真實樣本"比其配對的生成樣本更真實"。

對比學習：研究團隊還創新性地加入了對比學習機制。簡單來說，就是訓練鑒別器不僅要區分真假，還要判斷音頻和文本描述是否匹配。這就像訓練一個美食評判員，他不僅要分辨食物的好壞，還要判斷這道菜是否符合菜單上的描述。通過這種方式，生成的音頻能更好地符合用戶的文本提示。

這種方法有什么特別之處？與傳統的"蒸餾"方法相比，ARC不需要存儲大量的訓練數據對，也不需要同時在內存中保存2-3個完整模型，這大大降低了訓練成本。更重要的是，它避免了使用分類器自由引導（Classifier-Free Guidance，CFG）技術，這種技術雖然能提高質量，但會導致生成結果多樣性降低和過飽和問題。

研究團隊將ARC方法與Stable Audio Open模型進行了結合，并進行了一系列優化：

將模型維度從1536降至1024
層數從24減少到16
增加了QK-LayerNorm
移除了"seconds start"嵌入
使用ping-pong采樣而非傳統的常微分方程求解器

這些優化讓模型體積從原來的10.6億參數減少到3.4億參數，同時保持了音頻質量并大幅提升了速度。

三、驚人成果：音頻生成從"慢工出細活"到"閃電響應"

研究成果令人瞠目結舌：優化后的模型能夠在H100 GPU上以約75毫秒的速度生成約12秒的44.1kHz立體聲音頻，比原始SAO模型快了100倍！這就像是原本需要等待一杯手沖咖啡的時間（幾分鐘），現在眨眼間就能得到一杯品質相當的咖啡。

更令人驚訝的是，研究團隊還針對移動設備進行了優化，使模型能夠在智能手機等邊緣設備上本地運行，生成時間約為7秒。這意味著你在手機上不需要聯網，也能快速生成高質量的音頻—這在文本到音頻生成領域是前所未有的突破。

研究團隊使用多種指標進行了全面評估：

音頻質量評估：使用FDopenl3、KLpasst等指標
語義對齊和提示遵循度：使用CLAP分數
多樣性評估：提出了CLAP條件多樣性分數（CCDS）

評估結果顯示，ARC方法不僅在保持音頻質量的同時大幅提升了速度，還比其他加速方法表現出更好的多樣性。這就像是一位既能迅速創作，又能保持創意多樣性的音樂家，不會因為趕時間而讓所有作品都千篇一律。

四、對比與創新：ARC方法如何脫穎而出

研究團隊將ARC方法與幾種現有的加速方法進行了對比，包括:

原始的Stable Audio Open（SAO）：作為質量基準和加速參考點
預訓練的整流流（Pre-trained RF）：基礎加速模型
Presto：一種先進的基于蒸餾的音頻擴散加速方法

有趣的是，盡管每種方法都有各自的優勢，但它們之間存在明顯的權衡。例如，Presto方法生成的音頻質量較高，但多樣性明顯較低，這就像是一位技術精湛但創作風格單一的音樂家。相比之下，ARC方法雖然在MOS（平均意見分）質量評分上略低，但在多樣性方面表現出色，并在FDopenl3等客觀指標上獲得了最佳成績。

研究團隊還進行了多種變體實驗，包括去除對比損失（LC）或用標準的最小二乘對抗性損失替代相對損失（LR）。結果表明，完整的ARC方法（結合相對損失和對比損失）提供了最佳的平衡。

五、創造性應用：從技術到實用的橋梁

這項研究的最終目標不僅僅是學術突破，而是為創意工作流程提供實用工具。研究團隊表示，他們的主要目標是"加速文本到音頻模型，使其在創意工作流程中實用"。為了感覺像一個令人信服的"樂器"，文本到音頻模型必須反應迅速。

研究團隊將模型的延遲降至消費級GPU上低于200毫秒，這使得它能夠像真實樂器一樣即時響應。他們非正式地使用這個模型進行音樂創作，發現它在聲音設計方面特別有啟發性，這要歸功于其速度、提示多樣性和生成非常規聲音的能力。

一個特別有趣的發現是，該模型還展示了音頻到音頻的能力，可用于風格轉換，而無需額外訓練。這是通過在ping-pong采樣過程中使用任何錄音作為初始噪聲樣本來實現的。這種方法使語音到音頻控制成為可能（通過使用語音錄音初始化），以及節拍對齊生成（通過使用具有強拍的錄音初始化）。

六、未來展望：更快、更好、更實用的音頻生成

雖然這項研究取得了令人印象深刻的成果，但研究團隊也坦誠指出了當前模型的局限性，主要是其內存和存儲需求，占用了幾GB的RAM和磁盤空間，這可能對許多應用程序的集成和高效分發構成挑戰。

未來的研究方向可能包括：

進一步降低內存和計算需求
針對特定音頻類型的微調
改進音頻到音頻功能
更精確的聲音設計控制

研究團隊已經公開了他們的代碼，并提供了一個演示網站，讓更多人能夠體驗這一突破性技術。

結語：音頻生成的新時代

這項研究代表了文本到音頻生成領域的一個重要里程碑。通過ARC后訓練方法，研究人員實現了前所未有的生成速度，同時保持了音頻質量并提升了多樣性。這不僅是技術上的突破，更是創意表達方式的革命。

想象未來的創作者可以像彈奏樂器一樣"彈奏"AI音頻生成工具，實時獲得反饋，不斷調整和完善?；蛘哂螒蜷_發者能夠在游戲中實時生成響應玩家動作的獨特音效。這些應用場景不再是遙不可及的夢想，而是即將到來的現實。

正如研究團隊總結的那樣："我們希望，隨著效率和多樣性的提高，文本到音頻模型很快將能夠支持更廣泛的創意應用。"這不僅是對技術未來的展望，也是對創意表達新時代的期許。

有興趣深入了解這項研究的讀者可以訪問arXiv網站查閱完整論文，或通過研究團隊提供的演示網站親身體驗這一突破性技術。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.