6 月 16 日,騰訊 AI Lab 推出并開源 SongGeneration 音樂生成大模型,專注解決音樂 AIGC 中音質、音樂性與生成速度這三大共性難題,基于 LLM-DiT 的融合架構,模型在保持生成速度的同時,顯著提升了音質表現,生成歌曲的準確度相較部分商業閉源模型表現出相當甚至更優的質量,同時在整體表現、旋律、伴奏、音質與結構等維度也優于現有多數開源模型。
此外,SongGeneration模型還支持文本控制、多軌合成與風格跟隨等功能,既滿足面向 C 端創作者的可玩性,又兼具 B 端的穩定性與拓展性,構建出面向未來的音樂 AI 生產力工具。
圖 1 商業模型主觀評測結果
圖 2 開源模型主觀評測結果
相較于傳統基于規則或小型模型的方式,基于大模型的音樂生成模型在旋律的長程連貫性、潛在風格遷移能力以及音色建模的表達維度上,展現出更強的泛化能力和生成潛力。AI 音樂創作正從過去的 “輔助工具” 邁向 “智能共創” 的新階段,被廣泛應用于短視頻配樂、游戲音效、虛擬人演出、商業廣告以及個人音樂創作等場景。
當前主流音樂生成大模型雖已初步實現 “文本到音樂” 的生成能力,但仍面臨一系列關鍵瓶頸。在此背景下,騰訊 AI Lab 推出 SongGeneration 音樂生成大模型,專注解決音質、音樂性與生成速度這三大共性難題。
SongGeneration 預期目標分為技術與應用兩個層面:在技術層面,致力于實現業內領先的音質表現、音樂性與生成速度,支持多語種歌詞輸入、一鍵式歌曲生成、風格遷移等任務,全面適配中英文流行、嘻哈、古風、電子等多樣化曲風;在應用層面,推出面向開源社區的友好版本,廣泛賦能內容創作平臺、虛擬人項目、游戲廠商以及音樂人創作流程,構建開放、靈活、可持續的音樂 AI 生態系統。SongGeneration 音樂大模型的推出不僅代表著技術能力的躍升,更是對 “人人皆可創作” 這一音樂未來愿景的堅實回應與有力推動。
一、模型性能及效果展示
SongGeneration 已支持多項核心功能,均可在開源版本中方便調用。這些功能不僅在操作上簡潔直觀,更在生成過程中提供了高度的可控性,使用戶得以在 “AI 輔助創作” 中真正擁有主導權。以下是其主要功能概覽:
- 文本控制:用戶僅需輸入關鍵詞文本(如 “開心 流行”、“激烈 搖滾”)即可實現風格與情緒控制,SongGeneration 會基于輸入文本生成高質量的完整音樂作品。
- 風格跟隨:用戶可自行上傳 10 秒以上的參考音頻,SongGeneration 會自動生成風格一致的全長新曲,覆蓋流行、搖滾、中國風、“神曲” 等多種流派。生成歌曲在保持風格一致性的同時,擁有較好的音樂性表現。
- 多軌生成:SongGeneration 能夠自動生成分離的人聲與伴奏軌道,同時保證旋律、結構、節奏與配器的高度匹配。
- 音色跟隨:SongGeneration 支持基于參考音頻的音色跟隨功能,生成歌曲具備 “音色克隆” 級別的人聲表現,聽感自然、音質出眾的同時,兼具卓越的情感表現力。
二、技術方案
SongGeneration 訓練架構包含數據管線和生成模型兩部分。首先 SongGeneration 搭建了一套包含了音伴分離、結構分析、歌詞識別等模塊的音樂數據管線,通過管線可以從原始音頻中得到準確的歌詞數據,同時獲得結構、曲風、音質等標簽數據,然后把這些數據送入到生成模型中進行訓練。
圖 3 SongGeneration 訓練架構
訓練得到的生成模型 SongGeneration,總參數量僅為 3B 左右,隨后在海量中英文歌曲上進行了預訓練。如圖所示,它由 codec、LM、FM、VAE 等部分組成,每個模塊都是單獨訓練的。其中 codec 和 LM 在模型中起著舉足輕重的作用。
Music Codec,模型參數約為 1B,用于對音樂進行編解碼,能以超低比特率將 48kHz 的雙通道音樂壓縮成 25Hz 的離散表征,并實現高保真的還原。
Music LM,模型參數約為 2B,用于根據用戶指令(歌詞,文本描述,音頻提示)生成完整的歌曲。
基于這兩個組件,SongGeneration 可以高效地根據用戶指令生成 48kHz 采樣率的音樂。
圖 4 SongGeneration 模型架構
三、技術創新點
這一節中主要介紹 SongGeneration 的實現細節,以及在以下四大領域內突破性的技術創新。
1、低比特率音樂編解碼
Token 作為音樂生成系統的核心橋梁,不僅承擔著語言模型的預測目標,還直接決定了高質量雙通道音樂的還原效果。鑒于語言模型在長序列預測過程中容易產生幻覺現象,并且預測誤差會隨序列長度的增加而累積,因此,編解碼器的設計需在保證音樂信息高質量重建的前提下,盡可能降低碼率和比特率,從而減輕語言模型的預測難度,并提升音樂還原的整體質量。
音樂生成中的編解碼一直是業界公認的難題,主要體現在以下幾個方面:
- 復雜的成分結構:與僅包含人聲的語音不同,音樂融合了豐富的背景伴奏與人聲,兩者之間存在復雜的相互作用和和諧關系。相比只需關注單一聲學特征的語音或聲學事件,音樂的多元成分使得建模難度大大提升。
- 龐大的數據量:高品質音樂通常為 44.1kHz 或 48kHz 的雙通道格式,而傳統語音僅為 16kHz 單通道。以 4 分鐘的完整歌曲為例,48kHz 雙通道音樂的數據量幾乎是 16kHz 單通道語音的 6 倍。以常見的 75Hz 編碼器為例,其編碼整首歌曲的長度高達 153,600,這極大增加了語言模型的建模壓力,直接影響音樂生成的效果。
- 聲學與語義的雙重橋接:與傳統音頻編解碼不同,音樂生成的編解碼不僅要保留足夠的聲學特征以實現高質量還原,還需包含豐富的語義信息以便語言模型準確預測。單一關注聲學或語義特征都難以滿足音樂生成的復雜需求。
針對上述挑戰,SongGeneration 創新性地提出了業內開源模型中最低比特率、最低碼率的雙通道 48kHz 高質量音樂編解碼器。SongGeneration 的音頻編解碼器實現了在僅 25Hz 的極低碼率和 0.35kbps 的超低比特率下能夠達到目前最好的音樂重建效果,極大減輕了語言模型的建模負擔,為高質量音樂生成提供了堅實基礎。
此外,為了更精準地建模人聲與伴奏的關系,SongGeneration 設計了兩種創新的編碼模式:混合軌道和雙軌道。混合軌道模式將人聲和伴奏進行統一建模,整體編碼音樂信息,確保人聲與伴奏的和諧與連貫;而雙軌道模式則將人聲與背景音樂分別獨立建模編碼,使兩者的細節表現更加清晰,使得重建更高質量的音樂。
2、多類別 token 并行預測
在 SongGeneration 之前,主要的學界工作偏向于采用雙軌預測策略來解決音樂中人聲和伴奏聯合建模的問題,并且通過交錯預測模式緩解了二者之間的干擾。但分別預測的人聲和伴奏會出現嚴重的不和諧,嚴重影響到用戶聽感,且交錯模式帶來的序列長度倍增問題進一步限制了這類方法的可擴展性。為解決這個問題,SongGeneration 首個提出了 “混合優先,雙軌其次” 的多類別 token 并行預測策略。
具體來說,SongGeneration 首先通過一個語言模型對混合 token 進行預測,指導旋律、節奏、節拍等高級結構信息的整體安排,確保人聲與樂器的和諧。在此基礎上,SongGeneration 通過一個擴展的自回歸解碼器進一步建模雙軌 token,以捕捉人聲和伴奏軌道各自的細粒度的變化從而提升音質和音樂性。兩個模塊之間以隱藏向量作為橋梁緊密連接,在不顯著增加序列長度的情況下既實現了并行預測,又避免了 token 之間的相互干擾。
3、多維度人類偏好對齊
由于歌曲生成領域可用的數據集長期以來一直面臨質量極不均衡和音樂標注不可靠的問題,目前開源的音樂生成大模型的效果和魯棒性都受到了限制。一方面,在這種質量參差不齊的數據上訓練的模型雖然能夠生成歌曲,但無法學習到關于音樂性的先驗知識,導致生成的歌曲難以符合聽眾的偏好。另一方面,不可靠的標注嚴重影響了模型遵循用戶指令的能力,這不僅導致了較高的音素錯誤率(PER),也嚴重影響到了提示驅動的控制能力。在自然語言處理和圖像生成領域,這個問題經常通過高質量數據微調或強化學習來解決。但高質量、高音樂性的歌曲由于版權限制無法獲取,且相比于預訓練數據數量要少很多;音樂標注需要專業的音樂知識和背景,且具有多個維度的需求,這兩種辦法都難以直接應用到音樂生成領域。
SongGeneration 是業內已知首個對齊了多維度人類偏好的音樂生成大模型,以較低的成本有效提升了由于數據匱乏導致的音樂性問題和指令遵循問題。我們重點關注了對用戶使用體驗具有顯著影響的音樂性偏好,歌詞對齊偏好和提示一致性偏好。SongGeneration 首先設計了一種低成本的半自動數據構建方法,針對上述三種偏好生成分別生成了對應的大規模偏好數據對。
- 音樂性偏好:通過少量人工標注評分數據訓練的獎勵模型區分勝負對
- 歌詞對齊偏好:通過預訓練的 ASR 模型計算音素錯誤數構建勝負對
- 提示一致性偏好:通過 MuQ-MuLan 計算的文本-音頻以及音頻-音頻相似度構建勝負對
隨后,SongGeneration 提出了一種基于插值的直接偏好優化(DPO)以同時解決歌詞對齊、提示一致性和音樂性等挑戰。此外,該方法還支持通過可控的插值系數實現性能的平滑過渡,以滿足特定需求。
4、全新的三階段訓練范式
針對歌曲生成的復雜性和數據稀缺的特點,SongGeneration 提出了一種全新的三階段訓練范式,以進一步優化基于語言模型的音樂生成:預訓練、模塊化擴展訓練和多偏好對齊。
- 預訓練:在大型音樂數據集上僅訓練語言模型,以初步對齊不同條件輸入與音樂表征之間的模態。在此階段,AR 解碼器被凍結,以便語言模型專注于混合 token,為生成多樣性和人聲與樂器和諧性奠定基礎。
- 模塊化擴展訓練:訓練模型中的擴展模塊(如自回歸解碼器),使其能根據混合 token 中預先確定的音樂結構知識并行建模雙軌 token,從而提升音質和音樂性。為保留預訓練知識,預訓練階段中訓練的所有模塊(語言模型)被凍結。
- 多偏好對齊訓練:以模塊化擴展訓練階段獲得的模型為基礎,整合半自動的數據構建方式和多維度人類偏好對齊,使模型在能生成音樂的基礎上進一步朝遵循人類指令,生成好聽的音樂演變。針對不同的需求可以考慮使用不同的差值系數以平衡不同的偏好。
四、評測方案和結果
在評測環節,SongGeneration 聯合中國傳媒大學音樂與錄音藝術學院蕭萍副教授 AI 音樂科研團隊,建立了一套基于客觀分析和主觀感知的評價體系,并對 SongGeneration 和三款商業模型(Suno v4.5、海綿音樂、Mureka O1)、四款開源模型(YuE、DiffRhythm、ACE-Step、SongGen)的音樂生成表現進行了全方位的主客觀評測。評測涵蓋音樂性、音質等多個關鍵維度,能夠全面反映模型在音樂生成中的綜合表現。
- 客觀工具評測(第三方開源模型評測):
- 制作質量(PQ):側重于音頻的技術質量,而非主觀感受。評估要素包括清晰度與保真度、動態范圍、頻率分布以及空間化表現等。
- 制作復雜度(PC):關注音頻場景的復雜性,通常通過音頻成分的數量來衡量。
- 內容欣賞度(CE):涉及音頻的情感沖擊力、藝術技巧、藝術表現力以及聽眾體驗等方面。
- 內容實用性(CU):評估該音頻作為內容創作素材的可用性或使用可能性。
- 主觀人工評測(普通用戶 + 專業音樂人評測):
- 旋律(MEL):評估旋律的動聽程度、情感表達能力以及音樂線條感,是否與整體風格或預期相一致。
- 伴奏(HAM):伴奏的色彩豐富度、配器的多樣性與協調性,以及與主旋律之間的融合程度。
- 結構(SSC):樂句起止與過渡是否自然清晰、段落結構的可識別性、相似段落的合理重復,以及節奏的穩定性。
- 音質(AQ):音頻是否飽滿、清晰,是否存在雜音或底噪,同時考察人聲與各類樂器的辨識度及其音色還原程度。
- 歌詞準確度(LYC):歌詞與演唱內容的匹配度,包括是否存在多字、少字、歌詞錯配等問題,以及音樂段落中是否出現不自然的重復或機械循環。
- 整體表現(OVL):綜合感知旋律、伴奏、音樂結構、音質表現與歌詞準確度等多個要素后,對音樂作品產生的總體喜愛程度。
表 1 客觀對比評測
表 2 主觀對比評測
整體結果顯示,SongGeneration 在開源模型中穩居第一,在商業模型中也位列前茅,具備顯著的競爭優勢。
在客觀測評的橫向對比中,SongGeneration 在 CE(內容欣賞度)、CU(內容實用性)和 PQ(制作質量)三個維度中均位列榜首,在 PC(制作復雜度)維度也處于領先位置。這表明 SongGeneration 不僅具備較高的技術完成度與音頻呈現質量,還在藝術表達力、主觀愉悅感和潛在應用價值方面展現出強勁的綜合能力,能夠兼顧聽覺體驗與實際創作需求。
主觀評測中,SongGeneration 在歌詞準確度上超越了包括 Suno 在內的一眾大模型,這體現出其在語音與文本對齊能力上的顯著優勢,也反映出其在內容生成細節處理方面的成熟度。
在旋律、伴奏、音質和整體表現等維度,SongGeneration 同樣處于領先位置,與 Suno 最新發布的 V4.5 版本難分高下。這表明,SongGeneration 不僅在音樂性表達上細膩動人,在音質層面也表現出業內頂尖的清晰度與層次感,具備媲美主流商業模型的綜合生成能力。同時,模型在生成音樂的結構維度也做到了開源第一,并與商業模型難分伯仲。清晰且富有層次的結構不僅有助于旋律與伴奏的展開,也能增強整體音樂的連貫性與情感表達,從而提升聽眾的沉浸感與記憶點。
五、體驗方式和地址
目前,SongGeneration 模型已登陸 Hugging Face,歡迎在線體驗!同時,全部模型權重與代碼已全面開源 ,誠邀大家下載、復現、微調,并提出寶貴的意見。此外,AI Lab 長期開放多模態大模型、自適應自演進 agent、音樂生成等方向的算法崗位,歡迎優秀人才加入。
- Huggingface:
- https://huggingface.co/tencent/SongGeneration
- Code:
- https://github.com/tencent-ailab/SongGeneration
- 論文:
- https://arxiv.org/abs/2506.07520
- SongGeneration 模型體驗地址:
- https://huggingface.co/spaces/tencent/SongGeneration
圖 5 SongGeneration 使用指南
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.