機器之心原創
機器之心編輯部
AI 正悄悄「攻占」你的歌單。
前幾天在網易云音樂上瞎逛,被意外種草一首歌,真一開口就是月色迷蒙的味道。
目前,該歌曲拿下了 15 萬小紅心。本想看看是哪位大神的作品,沒想到底下一水的評論:這是 AI 生成的!
其實細聽之下還是能找出「端倪」的,比如音質糊的像畫面馬賽克、人聲跟牙齒漏風似的。但經過持續的進化,AI 音樂越來越真假難辨。
現在,AI 音樂的這把火,越燒越旺。
7 月 23 日,大模型廠商昆侖萬維正式發布了新一代音樂大模型 Mureka V7,成為了當前國產最強,并在多個關鍵指標上顯著超越海外 AI 音樂平臺 Suno(V4.5),包括平均表現評分、混音質量與質感、人聲真實感與表現力、整體音質評價。
不僅如此,與上一版本 V6 相比,Mureka V7 生成的音樂品質更高,不僅大幅提升旋律動機和編曲質量,還進一步增強了人聲與樂器真實度。
這么說吧,即使你是個五音不全的音樂小白,也能拿它做出超細膩的個人獨家 BGM。而對于專業的音樂人而言,Mureka V7 生成的音樂又極具創新性,在一定程度上可以啟發靈感。
Mureka V7 作品《杜甫》
目前,Mureka V7 已經全面上線,感興趣的小伙伴可以前往官網進行體驗。
官網地址:https://www.mureka.cn/
接下來,我們就來實測一下,看看 Mureka V7 在搞音樂創作時是否還有那種「牙齒漏風」的感覺。
一手實測
能模仿王菲,還能生成「土味」MV
Mureka V7 真不只是「AI 幫你寫首歌」那么簡單,現在它還上線了新功能 ——自定義歌手
我們可以上傳音頻,或者直接丟一個視頻鏈接進去,AI 就能自動模仿音色,唱出全新創作的歌曲。
以天后王菲為例。眾所周知,王菲是鄧麗君的鐵桿粉絲,在 2013 年「鄧麗君 60 追夢紀念演唱會」上,鮮少出席活動的王菲與偶像隔空對唱了這首《清平調》。
王菲演唱會原唱
這一次,我們讓 Mureka 模擬王菲的音色,并在此基礎上重新譜曲、演唱。
Mureka 生成的聲線再現了王菲特有的空靈、通透,處理歌曲中的弱唱又模擬出王菲標志性的氣聲效果。咬字方面,Mureka 同樣還原了王菲不咬死字頭,讓聲音在口腔中自然流淌的唱法,尤其在尾音收放上,更是有股菲式慵懶感。
我們再來試試它的「音樂參考」功能。
所謂音樂參考,就是通過分析用戶上傳的音樂,Mureka 能夠精準識別原曲的類型、節奏、配器和情緒,并據此生成具有相似風格的原創作品。
前段時間,中國網紅「豪哥哥」改編印度神曲《Tunak Tunak Tun》(也就是那首著名的《我在東北玩泥巴》),創作出這首魔性十足的《剛買的飛機被打啦》。
視頻來自博主「豪哥哥 - 魔性改歌」
這首歌一經發布就在全球社交媒體瘋狂刷屏,甚至一度把印度網友搞破防,聯名「上書」聯合國。
我們也拿 Mureka 做了一版,曲風相當洗腦,要是口音咖喱味再濃點就好了。更有意思的是,Mureka 還能自動生成 MV,抽象畫面配上黃色描邊歌詞,又土又上頭。
此外,Mureka 還升級了歌曲描述、純音樂生成等常規功能。
比如,我們輸入李白的《將進酒》,再選擇音樂風格「說唱金屬,另類金屬,說唱搖滾,男聲」,Mureka 立馬化身搖滾老炮,激情開唱。
或者通過文字 Prompt 直接生成免版權的 BGM:
提示詞:回憶童年的溫暖鋼琴旋律
也可以上傳參考音頻,讓模型創作出風格相近的純音樂片段。
如果對生成的音樂不滿意,Mureka V7 還提供音頻編輯功能,可以局部編輯、延長歌曲、樂器分軌甚至裁剪音頻,并支持 10 種語言的 AI 音樂創作。
自研音樂思維鏈「MusiCoT」再次進化
不到四個月的時間,Mureka V7 相較于上代 Mureka V6 的表現又提升了一大截,這源自昆侖萬維對自研音樂生成專用思維鏈 —— MusiCoT的持續優化。
我們知道,大語言模型的內容輸出方式是「預測下一個 token」,這顯然與音樂創作的過程不同。為此,昆侖萬維在 Mureka 中引入了生成式 AI 領域流行的思維鏈(CoT)提示方法,并通過 V6 版本完成了首秀。
此次,Mureka V7 進一步優化了 MusiCoT(Analyzable Chain-of-Musical-Thought Prompting)技術,顯著提升了模型生成結果的整體性與發聲表現,具體包括以下三大方面的創新。
一是,先想結構后生成,符合人類創作邏輯
MusiCoT 在輸出音頻 token 之前,會先讓模型生成對音樂結構的全局規劃,確定整體的段落、情緒、編排等布局。這就能讓 AI 生成的作品具備清晰的結構。
二是,生成結構可解釋、可控
通過 CLAP(對比式語言 - 音頻預訓練模型),MusiCoT 的明確思維鏈讓 AI 生成的音樂具有明確的可讀性和可控性。用戶可以輸入任意長度的參考音頻作為風格提示。
三是,主觀 + 客觀驗證效果全面領先
基于大量實驗,MusiCoT 在主客觀雙重指標下均展現出了卓越的效果。無論是結構完整、旋律連貫還是整體音樂性均優于傳統方法,在多項評測中表現達到行業頂流水準。
在 Mureka V7 上,MusiCoT 不僅在結構層面實現對音樂創作思維的擬合與對齊,更借助數據的進一步擴展、嵌入信息粒度的細化,完善了可控性與可擴展性。
得益于 MusiCoT 的升級和應用,Mureka 部分生成作品已經能夠為音樂人提供更多創作靈感,并加速從靈感到成品的落地過程。
定制語音有了更好的國產選擇
此次,除了更強、更擬人、更自然的音樂生成之外,昆侖萬維還帶來了一款音頻模型 ——Mureka TTS V1。該模型支持的語音創作功能也已經上線官網。
與音樂生成強調旋律、和聲、節奏、風格等音樂語言的表達不同,音頻模型更關注對所有聲音類型的通用表示與理解,包括語音、人聲、環境音、音效等。Mureka TTS V1 的最大亮點是引入了Voice Design能力,可以通過文本輸入想要的語音特征來獲得對應的音色。
這意味著,不論是真實人物、虛擬人物還是配音角色都能夠通過文本來控制,不用像過去一樣只能通過預設音色庫來實現音色克隆。相反,用戶能夠通過自然語言指令靈活定義聲音的性別、年齡、情感狀態、語氣風格、表達節奏,達成真正個性化、場景化的語音合成體驗。
跑分結果顯示,在與競對 ElevenLabs TTS V2 的較量中,Mureka TTS V1 的語音質量、分詞與語句節奏準確性以及整體聽感體驗均實現了超越,只在發音準確性方面略遜一籌。如此一來,昆侖萬維在語音合成的多個核心維度上已具備行業領先優勢,可以進一步滿足更高階的語音創作與交互場景的需求。
最終好不好,還是得看實際效果。
我們來聽一段人聲,「童音女聲,12 歲左右,聲音清脆悅耳,熱情洋溢,語速略快但不慌亂。」
再來一個「男性新聞播音員,語音清晰且穩定,語調平穩、沉著,語速適中,語氣冷靜理性,情感中性且客觀,音量適中,聲音具有一定的厚重感,體現專業性與可信度」。
可以看到,Mureka TTS V1 從創意描述到聲音輸出實現了全流程生成,聲音創造更加高效與自由,不僅大大拓展了語音生成的應用邊界,也為內容創作與交互體驗打開了想象空間。未來,該模型可以進一步在影視、游戲、廣告等行業的配音場景大顯身手。
最近一段時間,隨著 Scaling laws 放緩,模型規模擴展所帶來的邊際收益減弱,各家廠商卷基礎大模型的步伐也開始放緩。相反,大模型的「價值兌現」與「商業化落地」正在加速推進中。
隨之而來,一些垂直大模型成為新一輪技術博弈與產品競速的焦點,如 AIGC 領域的視頻大模型、音樂大模型等。大家都卯足了勁搶占規模化落地的紅利,率先打通從技術到產品的轉化路徑,占據內容創作、營銷、娛樂等高頻應用場景的生態入口。
這一趨勢與昆侖萬維長久以來的戰略天然契合。在「實現通用人工智能,讓每個人能夠更好地表達自我」的使命驅使下,該公司形成了「AI 前沿基礎研究 —— 基座模型 —— AI 矩陣產品 / 應用」的全產業鏈,持續發力 AIGC 創作領域,并推出覆蓋視頻、音樂、Agent 等多個方向的創新型產品。
其中自 2024 年 4 月亮相以來,Mureka 作為「會思考」音樂模型的名頭越打越響。今年,Mureka 已經迎來了兩次大版本更新,上個版本 V6 直到最近仍被很多國外網友「安利」。
甚至從 3 月底到現在,Mureka 的新增用戶就接近 300 萬。顯然,昆侖萬維的音樂大模型獲得了用戶的高度認可,并正在引領音樂創作方式的變革。
未來,隨著模型能力的持續增強與創作門檻的進一步降低,AI 有望演變成為音樂創作的核心驅動力。同時,音樂創作也將繼續打破專業壁壘,走向全民表達。
文中視頻音頻鏈接:https://mp.weixin.qq.com/s/D-Qq9QvAQZzfTEAT_NrxlA
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.