本文刊發(fā)于《現(xiàn)代電影技術(shù)》2024年第6期
專家點評
《人機協(xié)作:電影音樂生產(chǎn)的AIGC應(yīng)用研究》關(guān)注生成式人工智能對電影音樂產(chǎn)業(yè)走向高科技、高效能、高質(zhì)量發(fā)展的正在和可能帶來的多方面影響。該文在回顧國內(nèi)外人工智能音樂生成技術(shù)發(fā)展歷史的基礎(chǔ)上,提出指導(dǎo)者-執(zhí)行者范式的電影音樂生產(chǎn)人機協(xié)作模式,分析了人工智能生成內(nèi)容(AIGC)在電影音樂領(lǐng)域的廣泛應(yīng)用前景,體現(xiàn)了該研究的時效性、前沿性和探索性。論文一方面指出了AI音樂生成技術(shù)通過科技創(chuàng)新、優(yōu)化資源配置與生產(chǎn)流程以及人機協(xié)作,能夠提升電影音樂全要素生產(chǎn)率,為電影音樂領(lǐng)域發(fā)展帶來新的機遇;同時論文也提出了AI音樂生成技術(shù)現(xiàn)階段存在生成內(nèi)容質(zhì)量不穩(wěn)定、遭遇技術(shù)局限、缺乏版權(quán)規(guī)范等多方面已經(jīng)顯現(xiàn)或正在顯現(xiàn)的復(fù)雜問題。論文用“指導(dǎo)-執(zhí)行”的人機協(xié)同模式來平衡“人適應(yīng)工具或者工具適應(yīng)人”的沖突,是一種建設(shè)性的積極探索。人的創(chuàng)意想象力、審美創(chuàng)新性和風(fēng)格差異性與人工智能的超大算力、快速完成力和數(shù)據(jù)資源整合力,可能帶來電影音樂行業(yè)的質(zhì)的升級。人機協(xié)同,是人工智能未來的一種新的創(chuàng)作生產(chǎn)模式。人工智能如何為人所用、為藝術(shù)所用、為電影所用,這方面的研究才剛剛起步。
——尹鴻
清華大學(xué)新聞與傳播學(xué)院教授
中國電影家協(xié)會副主席
摘要
生成式人工智能(Generative AI)是一種典型的新質(zhì)生產(chǎn)力,能夠以科技創(chuàng)新的方式推動電影音樂產(chǎn)業(yè)走向高科技、高效能、高質(zhì)量的發(fā)展道路。本文回顧了人工智能音樂生成技術(shù)的發(fā)展歷史,提出指導(dǎo)者-執(zhí)行者范式的電影音樂生產(chǎn)人機協(xié)作新模式,分析了人工智能生成內(nèi)容(AIGC)在電影音樂領(lǐng)域的應(yīng)用前景,指出了AI音樂生成技術(shù)存在的不足。研究表明,AI音樂生成技術(shù)通過科技創(chuàng)新、資源配置與生產(chǎn)流程優(yōu)化以及人機協(xié)作能夠提升全要素生產(chǎn)率,為電影音樂領(lǐng)域發(fā)展帶來新的機遇和挑戰(zhàn)。
關(guān)鍵詞
人工智能音樂生成;AI智能體;人機協(xié)作;電影音樂;AIGC
1引言
人工智能生成內(nèi)容(Artificial Intelligence Generated Content, AIGC)是基于機器學(xué)習(xí)(ML)和深度學(xué)習(xí)(DL),使用海量數(shù)據(jù)對模型進行預(yù)訓(xùn)練而自主創(chuàng)建的全新內(nèi)容。AIGC既可指代人工智能生成的內(nèi)容,又可指代通過生成式人工智能(Generative AI)創(chuàng)建全新內(nèi)容的技術(shù)。其開啟了人類全新的創(chuàng)造模式,是補充傳統(tǒng)專業(yè)生產(chǎn)內(nèi)容(Professional Generated Content, PGC)和用戶生成內(nèi)容(User Generated Content, UGC)的創(chuàng)意內(nèi)容生產(chǎn)方式[1]。生成式人工智能是一種典型的新質(zhì)生產(chǎn)力,其以科技創(chuàng)新為核心,推動了內(nèi)容生產(chǎn)在生產(chǎn)效率、整體質(zhì)量等方面的提升和生產(chǎn)方式的變革。
作為一種先進的上游技術(shù),AIGC具有在各行各業(yè)支持不同下游應(yīng)用的巨大潛力。2023年被稱為AIGC的突破之年,這項技術(shù)在文本生成(例如ChatGPT)、文生圖像(例如Midjourney)和文生視頻(例如Sora)等領(lǐng)域都取得了重大進展,尤其是 OpenAI的Sora為視聽內(nèi)容生產(chǎn)帶來革命性影響。音樂領(lǐng)域的AI生成技術(shù)在2024年也迎來突破。2024年3月21日Suno V3版本發(fā)布,以其一鍵式快速生成較高質(zhì)量歌曲的能力迅速引發(fā)行業(yè)、學(xué)術(shù)界熱議,吸引了全世界消費者的廣泛參與和傳播。通過輸入提示詞,Suno V3可在幾十秒內(nèi)快速生成長達(dá)兩分鐘的音樂(含歌曲和器樂曲),以科技創(chuàng)新的方式代替?zhèn)鹘y(tǒng)音樂生產(chǎn)從作曲、作詞、編曲、演唱/演奏到錄音、混音的流程。從音樂專業(yè)人士反饋來看,職業(yè)音樂人似乎已面臨AI音樂生成帶來的生存挑戰(zhàn)。
然而,能夠生成音樂內(nèi)容和能夠生成符合人類需求的高質(zhì)量音樂作品是兩個截然不同的層次。AIGC作為輔助工具需表達(dá)人類想法,其所生成內(nèi)容的消費群體是人類自身。當(dāng)AIGC成為一種以科技創(chuàng)新為核心的新質(zhì)生產(chǎn)力,推動和加速創(chuàng)意內(nèi)容生產(chǎn)領(lǐng)域的相關(guān)產(chǎn)業(yè)走向升級時,我們有必要探討人類創(chuàng)作者與AIGC工具之間的工作模式,即如何借助AIGC技術(shù)在降本增效、提質(zhì)升級的同時,更好地激發(fā)人類創(chuàng)意,高效生產(chǎn)出符合人類審美情感需求的創(chuàng)意產(chǎn)品。
以電影行業(yè)為例,目前AIGC相關(guān)工具在電影制作領(lǐng)域已體現(xiàn)出降本增效和提質(zhì)升級能力,被用于劇本寫作、概念圖生成、分鏡頭腳本制作、自動剪輯、預(yù)告片生成等環(huán)節(jié)。本文認(rèn)為,AIGC音樂工具現(xiàn)階段已展現(xiàn)的能力和通過不斷迭代具備的潛能將在電影音樂生產(chǎn)中發(fā)揮積極作用,形成指導(dǎo)者-執(zhí)行者范式的電影音樂生產(chǎn)人機協(xié)作模式,促進電影音樂產(chǎn)業(yè)升級。
2人工智能音樂生成技術(shù)的回顧與AIGC工具分類
2.1 人工智能音樂生成技術(shù)的發(fā)展歷程與現(xiàn)狀
人工智能音樂生成的研究和應(yīng)用經(jīng)歷了從早期實驗到深度學(xué)習(xí)理論帶來突破的幾個重要階段。早在1956年,伊利諾伊大學(xué)厄巴納?香檳分校的兩位教授列哈倫·席勒(Lejaren Hiller)和倫納德·艾薩克森(Leonard Isaacson)就對ILLIAC I計算機進行編程,為弦樂四重奏創(chuàng)作了一首以計算機名字命名的《伊利亞克組曲》(Illiac Suite)。這個組曲被普遍認(rèn)為是首個完全由計算機作曲的音樂作品,利用馬爾可夫鏈等概率算法來決定音樂的組成部分,使計算機能夠按照18世紀(jì)對位法的所有規(guī)則“組成”弦樂四重奏[2]。該組曲的四個樂章其實是四個實驗,目的在于利用計算機來查看不同算法規(guī)則產(chǎn)生的音樂效果[3]。之后人工智能音樂生成經(jīng)歷了從20世紀(jì)70年代算法和編程語言發(fā)展,到90年代人工智能與機器學(xué)習(xí)融合。2012年神經(jīng)網(wǎng)絡(luò)的出現(xiàn)徹底改變了多個計算機科學(xué)學(xué)科[4],包括人工智能音樂生成領(lǐng)域。從早期的實驗性探索到如今占主導(dǎo)地位的基于神經(jīng)網(wǎng)絡(luò)的音樂生成模型,人工智能音樂生成的發(fā)展歷程反映了計算機科學(xué)、機器學(xué)習(xí)在音樂領(lǐng)域的實踐。從學(xué)術(shù)研究到產(chǎn)業(yè)應(yīng)用,使用機器學(xué)習(xí)算法從海量音樂數(shù)據(jù)中進行模型訓(xùn)練的目的在于生成與人類創(chuàng)作近似的新音樂作品。
國內(nèi)外高校如斯坦福大學(xué)音樂與聲學(xué)計算機研究中心[5]、倫敦瑪麗女王大學(xué)數(shù)字音樂中心[6]、卡內(nèi)基梅隆大學(xué)計算機音樂中心[7]、中央音樂學(xué)院音樂人工智能與音樂信息科技系等均致力于人工智能音樂生成的相關(guān)研究。其中中央音樂學(xué)院開發(fā)了名為“I Am Singing”的AI自動作曲系統(tǒng),該系統(tǒng)采用三階段流程,可以根據(jù)給定的歌詞自動生成樂譜、表演和音頻文件[8]。該作曲系統(tǒng)能夠在23秒內(nèi)快速創(chuàng)作出一首歌曲,并達(dá)到一般作曲家的水平[9]。國內(nèi)外大型科技企業(yè)如谷歌、OpenAI、Meta、索尼計算機科學(xué)實驗室、騰訊音樂娛樂集團、網(wǎng)易云音樂、昆侖萬維等加速在AI音樂生成領(lǐng)域的系統(tǒng)研發(fā)與商業(yè)落地,部分音樂生成模型已在商業(yè)領(lǐng)域應(yīng)用,還有部分產(chǎn)品暫處于小規(guī)模用戶測試階段。
2.2 AIGC音樂工具的分類
國內(nèi)外已實現(xiàn)商用的AIGC音樂工具眾多,本文按照應(yīng)用場景和用戶需求將其區(qū)分為專業(yè)級、民用級和短視頻背景音樂制作級(以下簡稱“短視頻級”)。
民用級AIGC工具面向大眾消費者,使用基于提示詞(Prompt)的神經(jīng)網(wǎng)絡(luò)模型設(shè)計,操作簡易。用戶只需輸入提示詞,選擇音樂風(fēng)格和情緒類型,即可快速生成歌曲或樂曲。
短視頻級AIGC工具面向短視頻、播客(Podcast)、廣告等內(nèi)容制作者,采用基于提示詞、參數(shù)和視覺的神經(jīng)網(wǎng)絡(luò)模型設(shè)計,操作簡便。用戶輸入提示詞,導(dǎo)入視頻素材,選擇音樂風(fēng)格、情緒類型和應(yīng)用場景(如運動、旅行、戲劇、電影),進行參數(shù)調(diào)節(jié)(如時長、速度、音量等),即可快速生成與畫面速度和氣氛具備一定相關(guān)性的背景音樂。
本文界定的專業(yè)級AIGC工具主要面向音樂專業(yè)人士,采用基于提示詞和參數(shù)的神經(jīng)網(wǎng)絡(luò)模型進行設(shè)計,設(shè)置詳細(xì)的音樂參數(shù)(如音調(diào)、音色、節(jié)奏、速度等),生成的音樂可導(dǎo)出為樂器數(shù)字接口(MIDI)文件繼續(xù)編輯。專業(yè)級分獨立平臺(如AIVA)和音樂制作軟件插件(如谷歌Magenta Studio插件)兩類,能夠快速生成旋律、配器、和聲的多種音樂方案供創(chuàng)作者選擇和修改。
上述三個級別中較為典型的AIGC音樂工具如表1所示,其中天工SkyMusic和網(wǎng)易天音為國內(nèi)平臺。
表1 具代表性的AIGC 音樂平臺和模型
3指導(dǎo)者-執(zhí)行者范式的電影音樂生產(chǎn)人機協(xié)作模式
3.1 指導(dǎo)者-執(zhí)行者范式的人機交互
AI智能體(Agent)是指一種具有感知、思考和行動能力的AI系統(tǒng)①。基于大語言模型(LLM)的智能體(Large Language Model?based Agents)是將大語言模型(LLM)作為智能體的大腦或控制器的主要組成部分,并通過多模態(tài)感知和工具利用等策略,擴展感知和行動空間(圖1)。這類智能體通過輸入的文本、圖片、 聲音等多模態(tài)信息進行感知,由大語言模型構(gòu)建的大腦做出決策,并采取行動。
圖1 基于大語言模型的智能體
各類AIGC工具表面上是算法工具或平臺,背后其實是AI智能體,具有感知、思考和決策的能力。尤其是大語言模型展示了令人印象深刻的語言能力[10],利用大語言模型構(gòu)建AI智能體已成為目前主要的技術(shù)趨勢,其應(yīng)用已在各行業(yè)廣泛展開,包括單智能體(Single?Agent)、多智能體(Agent?Agent)和人機交互(Agent?Human)三大類(圖2)。
圖2 基于大語言模型構(gòu)建的三類智能體
其中,人機交互又分為指導(dǎo)者-執(zhí)行者范式(Instructor?Executor Paradigm)和平等伙伴關(guān)系范式(Equal Partnership Paradigm)兩類。在指導(dǎo)者-執(zhí)行者范式中,“最簡單的方法是在整個過程中由人類提供指導(dǎo):人類直接提供清晰明確的指令,而智能體的角色是理解人類的自然語言命令,并將其轉(zhuǎn)化為相應(yīng)的行動” [11]。以電影音樂生成為例,圖3展示了兩類范式在人機交互上的差異。在指導(dǎo)者-執(zhí)行者范式下,人類作曲家是否能夠提供清晰明確的指令、智能體是否能夠準(zhǔn)確理解人類命令,都決定著人機交互的體驗和電影音樂生成的效果。
圖3 兩類人機交互的范式
人機交互在生成式人工智能應(yīng)用領(lǐng)域尤為重要,而其中的指導(dǎo)者-執(zhí)行者范式更適合創(chuàng)意內(nèi)容生成應(yīng)用領(lǐng)域。
3.2 電影音樂生產(chǎn)人機協(xié)作模式面臨的應(yīng)用場景特點
3.2.1 電影音樂生產(chǎn)特點
首先,電影音樂生產(chǎn)與一般音樂生產(chǎn)存在本質(zhì)區(qū)別。電影音樂的生產(chǎn)需求源于導(dǎo)演或制片人,音樂監(jiān)制、作曲家及其團隊需在預(yù)算內(nèi)用恰當(dāng)?shù)摹耙魳窇?zhàn)術(shù)”幫助導(dǎo)演和制片人實現(xiàn)電影創(chuàng)意戰(zhàn)略。音樂監(jiān)制和作曲家需充分理解導(dǎo)演需求,保持高效且準(zhǔn)確的溝通,用音樂語言幫助導(dǎo)演傳達(dá)場景的情緒和氛圍、塑造人物、升華電影主題等。其次,電影音樂產(chǎn)品是一種典型的創(chuàng)意產(chǎn)品,由作曲家和導(dǎo)演、制片人在創(chuàng)意溝通和預(yù)算范圍內(nèi)共同打造。制片人希望電影音樂成為凝練電影主題和情緒的最佳載體,從而用音樂(配樂和歌曲兩種形式)助力電影營銷、完成電影原聲專輯銷售的目標(biāo)。最后,電影音樂生產(chǎn)是電影生產(chǎn)的一環(huán),受到電影工期限制,需在前期、拍攝期和后期與導(dǎo)演、剪輯、聲音、演員等部門協(xié)作,確保最終的電影產(chǎn)品如期投放市場。總而言之,電影音樂生產(chǎn)是應(yīng)導(dǎo)演或制片人需要、為電影而作、需配合電影生產(chǎn)工期和流程協(xié)作的創(chuàng)作和制作過程。
3.2.2 電影音樂生產(chǎn)的流程
電影音樂生產(chǎn)歷經(jīng)電影生產(chǎn)前期、中期和后期三個制作階段(圖4)。
圖4 電影音樂生產(chǎn)流程
在前期,導(dǎo)演(或制片人)確定作曲家人選,溝通電影主題、基調(diào)和音樂風(fēng)格等創(chuàng)意理念。在拍攝中期,作曲家制作音樂小樣(Demo)與導(dǎo)演進行創(chuàng)意溝通和方案確認(rèn)。部分電影項目若存在畫內(nèi)音樂需求,還需作曲家制作音樂成品或小樣供拍攝使用。在后期,待電影初剪版本確定后,作曲家及其團隊完成最主要的音樂生產(chǎn)工作。作曲家按照事先確定的方案,根據(jù)每個段落所需時長進行創(chuàng)作,組織樂隊演奏和歌手演唱,聘請錄音師錄音、混音師混音,制作出音樂成品交付,配合導(dǎo)演、剪輯、錄音等部門完成最后的電影聲畫合成。
電影音樂生產(chǎn)橫跨電影行業(yè)和音樂行業(yè),涉及作曲家和音樂監(jiān)制(有時由作曲家兼任)分別在“電影圈”與“音樂圈”的工作流程(圖5)。
圖5 電影音樂生產(chǎn)流程圖
音樂人與電影人在電影生產(chǎn)全流程中需“跨圈”同步視聽思維和制作需求,提高全流程溝通效率,快速協(xié)作,使音樂、聲音、畫面順利完成“生產(chǎn)組裝”,確保電影如期上映,完成市場宣發(fā)。制片人需針對電影音樂的目標(biāo)群體(電影觀眾和音樂聽眾)對音樂部門提出生產(chǎn)需求,力求使音樂在電影營銷中發(fā)揮積極作用,在電影原聲專輯銷售中盈利。因此,高效溝通與協(xié)作、高效生產(chǎn)、高效進行產(chǎn)品定位在電影音樂生產(chǎn)中非常重要。
3.2.3 電影音樂生產(chǎn)適合采用指導(dǎo)者-執(zhí)行者范式的人機協(xié)作模式
清華大學(xué)人工智能研究院常務(wù)副院長孫茂松院士對于生成式人工智能的基本定位是啟發(fā)、輔助人類,其基本應(yīng)用條件是人在回路中②。本文認(rèn)為,在視聽內(nèi)容生產(chǎn)等以創(chuàng)意為核心、凝結(jié)大量人類情感與人類經(jīng)驗的應(yīng)用場景,適合采用基于大語言模型的指導(dǎo)者-執(zhí)行者范式。電影音樂需準(zhǔn)確把握電影敘事,深刻表達(dá)人物情感,甚至放大導(dǎo)演的哲學(xué)思想,采用人機交互中的指導(dǎo)者-執(zhí)行者范式,通過人類創(chuàng)作者(導(dǎo)演和作曲家)提供指導(dǎo)和反饋、由大模型的算法作曲執(zhí)行,完成人機協(xié)作模式的電影音樂生產(chǎn)。設(shè)計和研發(fā)人員在開發(fā)針對音樂專業(yè)人士的AIGC工具時,需考慮音樂應(yīng)用場景的特性、尊重人類作者的創(chuàng)造力,在可控生成中確保智能體的決策和行動與人類音樂生產(chǎn)的需求和目標(biāo)保持一致。此外,在人類創(chuàng)作者與智能體的交互中,創(chuàng)作者的反饋可幫助智能體更高效地執(zhí)行任務(wù),從而為創(chuàng)作者提供更好的輔助。
3.3 指導(dǎo)者-執(zhí)行者范式下AIGC工具在電影音樂生產(chǎn)領(lǐng)域的應(yīng)用現(xiàn)狀與趨勢
3.3.1 提高溝通效率,實現(xiàn)電影制作全流程視聽化溝通
在傳統(tǒng)電影音樂生產(chǎn)方式中,導(dǎo)演通過語言或借助參考音樂來描述希望達(dá)到的“感覺”,作曲家用MIDI技術(shù)制作小樣進行反饋和溝通。由于MIDI制作需耗費一定時間,難以在創(chuàng)意溝通中快速呈現(xiàn)音樂與畫面視聽同步的效果。部分導(dǎo)演如王家衛(wèi)通過在拍攝現(xiàn)場播放已確定選擇的、預(yù)先存在的音樂(由導(dǎo)演挑選、制片部門或音樂監(jiān)制負(fù)責(zé)處理音樂版權(quán)問題)來實時呈現(xiàn)音樂與畫面的整體表達(dá)。這種創(chuàng)作方式有利于現(xiàn)場工作人員明確作品的視聽方向、促進協(xié)作。但這僅代表極少數(shù)的工作情況。
在AIGC工具的輔助下,作曲家指導(dǎo)AI快速生成小樣同步參與創(chuàng)作,從而實現(xiàn)全流程的視聽化溝通。例如,在最初的創(chuàng)作概念探討中,可借助AIGC工具根據(jù)劇本的文字信息生成音樂、場景圖、音效、人聲等,完成視聽概念的初步建立。又如在虛擬預(yù)演(PreViz)的工作流程中,音樂部門可通過AIGC工具輔助高效生成音樂小樣并及時調(diào)整,讓所有工作人員從視聽整體角度理解導(dǎo)演的創(chuàng)作方向,促進各部門協(xié)作、提高溝通效率、降低溝通成本,確保全流程中創(chuàng)作方向的一致性。
3.3.2 提高電影音樂生產(chǎn)效率
利用AIGC提高電影音樂生產(chǎn)效率主要可用于以下方面:
(1)快速生成音樂小樣。電影音樂的實際錄音通常在后期完成,但前期和拍攝中需通過音樂小樣參與生產(chǎn)過程。傳統(tǒng)生產(chǎn)方式中,作曲家大多使用MIDI制作小樣或進行少量實際錄音,涉及作曲、編曲、錄音、混音等多個環(huán)節(jié)。通過AIGC輔助,作曲家可快速生成小樣并及時溝通,供劇組在拍攝時使用。例如作曲家可借助AIGC平臺AIVA,根據(jù)段落時長需求、風(fēng)格、音調(diào)(Key)和大小調(diào)建立工程文件,輸入提示詞和音樂參數(shù)快速生成小樣并進行簡單編輯。目前部分AIGC工具生成的音樂已具備一定質(zhì)量,可達(dá)小樣音質(zhì)標(biāo)準(zhǔn),但仍需具備更精細(xì)化、更可控的生成過程和更穩(wěn)定的生成質(zhì)量才能滿足實際制作需求。
(2)輔助作曲家快速選擇創(chuàng)意方案,提高音樂設(shè)計效率。郭帆導(dǎo)演在《流浪地球3》預(yù)告片里運用AI提高機器人概念設(shè)計效率的案例對AIGC在影視行業(yè)的應(yīng)用具有一定啟示性[12]。電影音樂同樣具備借助AIGC工具實現(xiàn)高效篩選創(chuàng)意方案的可能性。大到整部影片的主題設(shè)計和基調(diào)確立,小到每場戲的音樂風(fēng)格,作曲家可指導(dǎo)AIGC工具快速生成多種音樂方案,并與導(dǎo)演進行溝通和確認(rèn),提高音樂概念設(shè)計效率。
(3)提高基礎(chǔ)工作效率。隨著商業(yè)電影的發(fā)展,單個電影音樂項目的工作量不斷增加,體現(xiàn)在音樂的復(fù)雜度和音樂總時長等方面。大型電影音樂項目通常需作曲家?guī)ьI(lǐng)團隊分工協(xié)作。AIGC工具能夠輔助完成部分基礎(chǔ)工作(例如編曲中每類樂器的組合方式、和聲寫作等),從而縮短制作時間。例如谷歌DeepMind的模型Lyria能夠?qū)⑤斎氲囊纛l轉(zhuǎn)化為多種不同風(fēng)格并編配伴奏。在官方的模型展示中,輸入一句無歌詞的哼唱音頻,再用提示詞說明轉(zhuǎn)化為薩克斯獨奏,模型便將哼唱人聲替換為薩克斯獨奏并自動添加鼓、人聲伴唱和貝斯等多軌伴奏,快速制作出帶旋律和伴奏的樂曲[13]。
3.3.3 激發(fā)創(chuàng)新,輔助作曲家集中精力于核心創(chuàng)意
AI通過對音樂數(shù)據(jù)集的訓(xùn)練,學(xué)習(xí)數(shù)據(jù)集在旋律、節(jié)奏、音樂風(fēng)格、和聲等方面的音樂內(nèi)在規(guī)律,并最終產(chǎn)生新的音樂。電影音樂生產(chǎn)需作曲家掌握多種音樂風(fēng)格和各類樂器特點以滿足電影制作的多樣化需求,還需作曲家根據(jù)電影類型發(fā)展和主流觀眾審美變化在音樂表達(dá)上不斷創(chuàng)新。AIGC音樂工具在旋律生成、和聲寫作、節(jié)奏設(shè)計、音樂風(fēng)格等方面具備為人類作曲家提供多樣化創(chuàng)意激發(fā)和技術(shù)支持的可能性,從而輔助創(chuàng)作者拓寬思路、探索新的音樂風(fēng)格和寫作技巧。
例如Magenta Studio內(nèi)嵌了5個AI插件,可智能化生成多種方案供作曲家選擇。其中,Continue模型能夠根據(jù)已有旋律或鼓點繼續(xù)產(chǎn)生新旋律;Generate模型可自行生成4小節(jié)隨機的旋律或鼓點;Interpolate模型能夠?qū)⑤斎氲膬啥涡苫蛘吖狞c合并成一段新的旋律;Drumify模型可根據(jù)一段旋律自動配上鼓點;Groove模型用于生成和控制富有表現(xiàn)力的鼓的演奏。還有一些高質(zhì)量的民用級AIGC平臺能夠通過提示詞快速生成多樣化方案,激發(fā)創(chuàng)作者不斷探索新的可能。
在技術(shù)層面上,AI領(lǐng)域始終將深度神經(jīng)網(wǎng)絡(luò)稱為黑盒(Black Box),主要原因在于研究者們至今尚未全面了解AI的神經(jīng)網(wǎng)絡(luò)是怎樣做出選擇的。各類音樂生成模型的概率生成范式?jīng)Q定了其輸出的內(nèi)容具有不確定性。在實際測試中,輸入同樣的提示詞、選擇同樣的風(fēng)格和情緒參數(shù),模型每次生成的音樂都不同,有的音樂類似,有的音樂卻出乎意料,能夠給予創(chuàng)作者耳目一新的感覺。由概率生成范式帶來的不確定性在一定程度上給予了激發(fā)創(chuàng)新的可能性,有助于創(chuàng)作者在人機交互中碰撞出火花。
電影音樂生產(chǎn)分為創(chuàng)作和制作,整個生產(chǎn)過程受到電影生產(chǎn)工期的限制。電影音樂作者在與導(dǎo)演的創(chuàng)意溝通中通常耗費大量時間和精力,形成最艱難的“0”到“1”的音樂創(chuàng)作概念。創(chuàng)作概念構(gòu)建需要作曲家與導(dǎo)演進行深入的、多次的思想碰撞,凝結(jié)了雙方的智慧、審美、人生閱歷和生命感悟,是電影音樂的核心部分,也是AI通過算法作曲難以準(zhǔn)確完成的部分。而電影音樂制作需要完成從“1”到“100”的電影音樂工程構(gòu)建,工程量越大的電影音樂項目花費的制作周期越長。AIGC能夠幫助作曲家在“1”到“100”的工程構(gòu)建中快速生成 “音樂草圖”,輔助作曲家加速制作方案選擇,縮短工期,從而在電影音樂生產(chǎn)的全流程中輔助作曲家將最主要的精力分配在核心創(chuàng)意和藝術(shù)表達(dá)上。
電影音樂對情感表達(dá)要求較高,而目前AIGC工具生成的音樂在作曲、演唱和演奏質(zhì)量等方面大多還達(dá)不到人類水平。本文認(rèn)為現(xiàn)階段以人類作者為主、人機協(xié)作為輔是電影音樂保質(zhì)增效的生產(chǎn)方式。通過人類作曲家指導(dǎo)AIGC工具生成初稿,再由人類作曲家優(yōu)化方案,并組織音樂人演奏和演唱,既能提高效率,又能保證作品質(zhì)量。
綜上,通過人機協(xié)作的指導(dǎo)者-執(zhí)行者范式,AIGC音樂工具能夠在音樂專業(yè)人士的指導(dǎo)下提高電影音樂的溝通和生產(chǎn)效率,提升平均質(zhì)量,激發(fā)創(chuàng)意。雖然目前AIGC音樂工具還處于初級階段,但隨著算力、數(shù)據(jù)集和算法的不斷迭代,在不久的將來可能成為人類作曲家和導(dǎo)演的得力助手。
3.4 人機協(xié)作模式是新質(zhì)生產(chǎn)力的具體體現(xiàn)
新質(zhì)生產(chǎn)力與傳統(tǒng)生產(chǎn)力形成鮮明對比,是以創(chuàng)新起主導(dǎo)作用,擺脫傳統(tǒng)經(jīng)濟增長方式、生產(chǎn)力發(fā)展路徑的先進生產(chǎn)力,具有高科技、高效能、高質(zhì)量特征[14]。電影音樂生產(chǎn)經(jīng)歷了從傳統(tǒng)生產(chǎn)方式到由計算機技術(shù)推動的生產(chǎn)方式變革:傳統(tǒng)電影音樂生產(chǎn)流程為譜曲、演奏(歌手演唱)、錄音、混音,通常由幾十人共同完成;之后出現(xiàn)的MIDI和相應(yīng)的電腦音樂制作技術(shù)推動了作曲家個人工作室的誕生,作曲家在電腦、采樣器、合成器等軟硬件的輔助下獨立完成寫作、編曲、生成(而非錄制)和混音,大大提高了生產(chǎn)效率,降低了生產(chǎn)成本。如今AIGC工具通過對海量音樂數(shù)據(jù)集的學(xué)習(xí)、高效挖掘音樂語言的深層次規(guī)律,為作曲家快速提供創(chuàng)意方案、并智能化地生成音樂,能夠在作曲家的“指令式”生產(chǎn)中進一步縮短制作時間、降本增效、提升整體質(zhì)量。三種電影音樂生產(chǎn)方式的生產(chǎn)效率對比如圖6所示。
圖6 三種電影音樂方式的生產(chǎn)效率對比
AI音樂生成技術(shù)作為一種新質(zhì)生產(chǎn)力,通過技術(shù)創(chuàng)新、資源配置和生產(chǎn)流程優(yōu)化、人機協(xié)作技能水平提升等方式提高全要素生產(chǎn)率,從而實現(xiàn)經(jīng)濟效益的最大化,為產(chǎn)業(yè)發(fā)展帶來了新的機遇和挑戰(zhàn)。
4AIGC音樂工具現(xiàn)階段存在的問題和在電影音樂領(lǐng)域應(yīng)用的局限性
4.1 知識產(chǎn)權(quán)保護和原創(chuàng)性爭議
AIGC音樂工具已引發(fā)創(chuàng)作者對知識產(chǎn)權(quán)保護和生成內(nèi)容原創(chuàng)性的擔(dān)憂,尤其是音樂生成模型的訓(xùn)練數(shù)據(jù)來源備受爭議。目前,多數(shù)商業(yè)平臺未公布具體數(shù)據(jù)集來源,部分平臺通過聲明不會生成特定藝術(shù)家的音樂(如MusicFX和Suno)來規(guī)避侵權(quán)風(fēng)險。在電影音樂領(lǐng)域使用AIGC工具時,需注重對創(chuàng)作者知識產(chǎn)權(quán)和經(jīng)濟利益的保護。行業(yè)應(yīng)盡快完善相關(guān)法律和行業(yè)公約,明確音樂版權(quán)歸屬,保障創(chuàng)作者收益,避免制片方采用人機協(xié)作生成的電影音樂損害創(chuàng)作者經(jīng)濟利益的情況。
4.2 技術(shù)局限性
AI生成音樂質(zhì)量的高低取決于數(shù)據(jù)、算法和算力。盡管AIGC音樂工具在提升內(nèi)容生成質(zhì)量和準(zhǔn)確性方面具備很大潛力,但卻存在數(shù)據(jù)驅(qū)動的音樂生成模型共有的局限性,體現(xiàn)在以下幾方面。
(1)數(shù)據(jù)集樣本量和多樣性制約模型生成能力
模型生成音樂的能力受到訓(xùn)練數(shù)據(jù)集樣本量和多樣性的限制。實際測試中,一些AIGC工具在某些音樂流派和音樂風(fēng)格上表現(xiàn)良好,但在缺少訓(xùn)練數(shù)據(jù)的流派和風(fēng)格上質(zhì)量不穩(wěn)定且普遍缺乏對世界各國傳統(tǒng)音樂的訓(xùn)練,而電影音樂從創(chuàng)意需求出發(fā)涵蓋了各種音樂類型。只有當(dāng)AIGC工具能夠穩(wěn)定生成高質(zhì)量音樂、準(zhǔn)確理解和執(zhí)行人類創(chuàng)作者的指令時,才能在電影音樂生產(chǎn)的復(fù)雜應(yīng)用場景中有效輔助作曲家。
(2)生成內(nèi)容與用戶提示不一致
目前的AIGC工具并不能完全產(chǎn)生人類創(chuàng)作者在指令中期望的結(jié)果。雖然用戶在提示詞中寫明使用特定的樂器,但一些AIGC模型(例如MuseNet和Suno)有時卻自動選擇與用戶提示不同的方式來生成音樂。因為模型通過計算所有可能的音符和樂器的概率來生成每個音符,所以智能體可能在“決策”后采取與人類輸入指令不同的“行動”。
5 結(jié)語
生成式人工智能作為一種新質(zhì)生產(chǎn)力正推動和改變著整個數(shù)字視聽內(nèi)容產(chǎn)業(yè), 各類AIGC工具和平臺在電影音樂領(lǐng)域的應(yīng)用已是大勢所趨。雖然AI音樂生成技術(shù)在現(xiàn)階段存在生成內(nèi)容質(zhì)量不穩(wěn)定、面臨技術(shù)局限、缺乏版權(quán)規(guī)范等多方面的問題,但AI學(xué)習(xí)并創(chuàng)造出在旋律、節(jié)奏、和聲、多聲部等方面達(dá)到人類水平的音樂是研發(fā)人員希望持續(xù)達(dá)到的目標(biāo)。
清華大學(xué)教授尹鴻認(rèn)為:“在各種未來的技術(shù)影響中,建立在互聯(lián)網(wǎng)基礎(chǔ)上的數(shù)字技術(shù),特別是人工智能的提升,對電影制作領(lǐng)域會產(chǎn)生重大影響。” [15]是人適應(yīng)工具還是工具適應(yīng)人,始終是創(chuàng)作者需要思考的問題。新一代電影音樂創(chuàng)作者有必要擁抱變化、迎接挑戰(zhàn)、防范風(fēng)險。當(dāng)然,傳統(tǒng)生產(chǎn)方式在相當(dāng)長一段時間會共存,一些享譽世界的電影作曲家依然采用傳統(tǒng)方式進行電影音樂生產(chǎn),獲得了市場的廣泛認(rèn)可。
AIGC工具的研發(fā)、應(yīng)用和版權(quán)保護細(xì)則需要創(chuàng)作者群策群力、共同推動。目前很多AIGC應(yīng)用場景的開發(fā)并不專門針對電影行業(yè),電影和音樂從業(yè)者可將電影音樂的特點、需求(含生產(chǎn)需求和版權(quán)保護需求)傳遞給研發(fā)團隊,使AIGC工具更有效地推動產(chǎn)業(yè)升級。
AIGC的設(shè)計目標(biāo)應(yīng)該始終對人類有利,對激發(fā)人類的創(chuàng)意有利。從行業(yè)發(fā)展的整體趨勢來看,只有當(dāng)人類學(xué)會與AI智能體對話,學(xué)習(xí)與AIGC工具協(xié)作,讓AIGC工具幫助人類表達(dá)創(chuàng)意理念時,才能體現(xiàn)AIGC在創(chuàng)意內(nèi)容生產(chǎn)中的真正價值。
注釋、參考文獻
(向下滑動閱讀)
①也有學(xué)者將Agent翻譯為主體,例如王文敏教授在主編的《人工智能原理》中將Agent譯為主體,將Intelligent Agent譯為智能主體,參見《人工智能原理》2019年版,高等教育出版社出版。
②參見孫茂松院士在“2024中國生成式大會”上的演講內(nèi)容,演講主題為《生成式人工智能:目前態(tài)勢及近期挑戰(zhàn)》。
[1] Wu J Y, Gan W S, Chen Z F, et al. AI?Generated Content (AIGC): A Survey [EB/OL]. (2023?05?26) [2024?03?25]. https://doi.org/10.48550/ARXIV.2304.06632.
[2] Tang L. Illiac Suite for String Quartet [EB/OL]. (2014?02?17) [2024?04?03]. https://lydiaswada.wordpress.com/2014/02/17/illiac-suite-for-string-quartet/.
[3] Baggi D L. The Role of Computer Technology in Music and Musicology [EB/OL]. (1998?12?09) [2024?04?03]. https://www.lim.di.unimi.it/events/ctama/baggi.htm#hiller.
[4] LeCun Y, Bengio, Y, Hinton G. Deep learning [J]. Nature ,2015,521(7553):436–444. https://doi.org/10.1038/nature14539.
[5] Center for Computer Research in Music and Acoustics | CCRMA. [2024?04?07]. https://ccrma.stanford.edu/.
[6] Center for Digital Music [EB/OL]. [2024?04?07]. https://www.c4dm.eecs.qmul.ac.uk/.
[7] Computer Music Group [EB/OL]. [2024?04?07]. https://www.cs.cmu.edu/~music/.
[8] Lu D, Zhou Q, Li X. Towards the Implementation of an Automatic Composition System for Popular Songs[M]//Summit on Music Intelligence. Singapore: Springer Nature Singapore, 2023: 83?94.
[9] 王薇娜.人工智能音色轉(zhuǎn)換模型可有效服務(wù)和促進電影創(chuàng)作生產(chǎn)[J].現(xiàn)代電影技術(shù),2023(12):58?59.
[10] Ouyang L, Wu J, Jiang X, et al. Training Language Models to Follow Instructions with Human Feedback [EB/OL]. (2022?03?04) [2024?04?02]. https://arxiv.org/abs/2203.02155.
[11] Xi Z, Chen W, Guo X, et al. The Rise and Potential of Large Language Model Based Agents: A Survey [EB/OL]. (2023?09?19) [2024?04?02]. https://doi.org/10.48550/arXiv.2309.07864.
[12] 今日影評|郭帆:人工智能開啟電影工業(yè)化3.0時代.[EB/OL]. (2024?03?17) [2024?04?02]. https://new.qq.com/rain/a/20240317A02ZBR00.
[13] Google DeepMind. Transforming the future of music creation[EB/OL]. (2023?11?16) [2024?04?02]. https://deepmind.google/discover/blog/transforming-the-future-of-music-creation/.
[14] 習(xí)近平經(jīng)濟思想研究中心. 新質(zhì)生產(chǎn)力的內(nèi)涵特征和發(fā)展重點(深入學(xué)習(xí)貫徹習(xí)近平新時代中國特色社會主義思想[N].人民日報,2024-03-01(9)
[15] 尹鴻.技術(shù)賦能:中國電影之強國路徑[J].現(xiàn)代電影技術(shù),2022(10):4?8.
主管單位:國家電影局
主辦單位:電影技術(shù)質(zhì)量檢測所
標(biāo)準(zhǔn)國際刊號:ISSN 1673-3215
國內(nèi)統(tǒng)一刊號:CN 11-5336/TB
投稿系統(tǒng):ampt.crifst.ac.cn
官方網(wǎng)站:www.crifst.ac.cn
期刊發(fā)行:010-63245081
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.