近年來,AI 作曲與歌聲合成技術突飛猛進,但現有的客觀指標(梅爾譜失真、音高準確度、嵌入距離)只能衡量信號層面或結構層面的“對不對”,卻無法回答聽眾更關心的“好不好聽”。如何像人類一樣評價一首“AI 歌曲”的美感始終是一大難題。為此,上海音樂學院人工智能音樂療愈重點實驗室與西北工業大學音頻語音與語言處理研究組(ASLP@NPU)、薩里大學以及香港科技大學聯合構建了 SongEval數據集,推動歌曲生成從“會寫”走向“寫得好聽”的時代。
SongEval是一項迄今規模最大的完整歌曲美學評價數據集,收集了9種主流音樂風格的2,399 首中英雙語歌曲(140小時),邀請 16 位專業音樂人從五大維度進行評估,并開源基于該數據集訓練的自動美學評估工具包。SongEval 的發布,為 AI 歌曲生成提供了首個從專業音樂感知角度的衡量標尺,也為業界、學界帶來全新研究范式。
在SongEval里,每一首歌都會被4位具備正規音樂教育背景的評委逐條打分,評委們依據“五維美學雷達”——五條既獨立又有關聯的審美刻度進行打分,包括整體連貫性、記憶性、呼吸與唱詞的自然性、歌曲結構的清晰度以及整體音樂性。這種多維評價體系,使得SongEval在音樂審美評價上具有高度的準確性和可靠性。
上音人工智能音樂療愈重點實驗室主任劉灝教授提到,隨著大模型、深度學習技術的突破性發展,高質量的數據集是這個時代最寶貴的資源,它將塑造AI模型的“世界觀”和“判斷力”。如今AI音樂生成模型有很多,對數據進行有效評判是幫助生成模型迭代進步的重要步驟,這是這項研究的基本出發點。
上音人工智能音樂療愈重點實驗室專家、西北工業大學音頻語音與語言處理實驗室(ASLP@NPU)負責人謝磊教授表示:“如何科學、系統地評估音樂的美學質量,一直是智能音樂生成領域的重要挑戰。SongEval提出了這一大規模、開源的音樂美學評估基準,不僅填補了當前主觀審美維度缺乏標注數據的空白,更通過多維度的評價體系,對歌曲的整體性、記憶度、自然性、結構清晰度和音樂性等關鍵指標進行量化分析?!?/p>
上音音樂人工智能方向博士研究生、SongEval研究組成員薛蕙心說:“過去的評判方式主要包括計算機基于客觀指標的評價和具有音樂背景的真人主觀評價,前者不太準確,后者相對準確但成本較高效率較低。因此我們希望將兩種方式結合起來——訓練一個能理解音樂審美的模型。此研究的這一批精標數據已為后續模型訓練做好了充分準備,訓練我們也已經開始并取得初步進展,后續也將與大家分享。”
論文題目:SongEval: A Benchmark Dataset for Song Aesthetics Evaluation
作者列表:姚繼珣,馬國斌,薛蕙心,陳華康,郝春博,姜月鵬,劉濠赫,袁銳斌,徐進,雪巍,劉灝,謝磊
論文原文:https://arxiv.org/pdf/2505.10793
數據集:https://huggingface.co/datasets/ASLP-lab/SongEval
Github倉庫:
https://github.com/ASLP-lab/SongEval
供稿:上音人工智能音樂療愈重點實驗室
編輯:彭暢
審核:張卓
小音家族
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.