本文刊發于《現代電影技術》2024年第10期
作 者 簡 介
石寶峰
北京電影學院聲音學院副教授,主要研究方向:電影聲音。
北京電影學院聲音學院碩士研究生在讀,主要研究方向:電影聲音。
丁思立
摘要
為了能夠對人工智能技術在電影聲音制作中應用的現實情況和未來發展做出比較明確的判斷,本文通過對目前國內外已有的、相對可行的技術方案和文獻資料進行廣泛搜集整理,列舉了技術相對成熟的國內外公司產品技術特點,同時對人工智能技術在電影聲音對白和效果類聲音應用的前景進行了研究,提出了該技術在電影聲音制作中應用的發展方向,目的在于對人工智能技術在電影聲音中的應用作出客觀評價。研究表明,人工智能技術雖然在短期內不會徹底改變電影聲音制作流程,但隨著技術水平的提升,該項技術的引入或將在一定程度上改變電影聲音制作的現有形式。
關鍵詞
人工智能;電影聲音;降噪;對白;效果
1引言
隨著人工智能(AI)技術的發展,尤其是多模態大模型的快速進步,人工智能技術已經不限于在文字對話層面的簡單應用,基于音視頻的應用開始成為人工智能技術的一個重要發展方向,人工智能技術在電影聲音制作過程中的應用成為可能。
北京電影學院聲音學院于兩年前開始關注人工智能技術在電影聲音制作領域的應用前景,跟蹤研究的目的在于探索人工智能技術對電影聲音的制作觀念、制作方法和工藝流程會產生哪些影響,影響程度有多深以及介入速度有多快,是否會顛覆目前電影聲音制作的技術格局。
通過一年時間系統跟蹤國際、國內人工智能技術發展狀況可以發現,人工智能生成內容(AIGC)技術確實對傳統聲音制作觀念和工藝流程產生了一定程度的影響,而且發展迅速。但同時,人工智能技術也并非十全十美。通過對其全面科學的研究評估可以發現人工智能技術長項與短處并存。
關于此類問題已有大量文獻進行了相關研究,不同作者從各自角度做出了具有價值的研究。但是,能夠從宏觀層面總體分析研究人工智能技術在電影聲音制作這個特定領域的文獻數量相對較少。本文的研究目的是希望通過我們的階段性研究成果,為人工智能技術未來大規模進入專業聲音制作領域的發展應用提前做出研判。
2人工智能技術在電影聲音制作領域的應用現狀
人工智能技術在電影聲音領域的應用表現出明顯的兩極化特征。雖然人們希望借助人工智能技術解決制作過程中遇到的棘手問題,突破傳統技術手段的羈絆,但暫不成熟的人工智能生成技術限制了其在電影聲音制作各細分領域的廣泛應用,而以“智能降噪”為代表的人工智能技術則已經在電影聲音制作領域實現了規模化商業應用。近年推出的國產電影中,相當一部分影片的對白制作都會應用iZotope RX進行降噪處理,使用該軟件進行對白降噪處理的方法已使用多年,成為聲音制作工藝流程中不可或缺的重要環節。
成立于2001年的iZotope公司在其產品中很早就融入了以機器學習(Machine Learning,ML)為主的“智能”(Intelligent)技術,其理論基礎是基于神經網絡驅動濾波器的大數據算法。作為相對傳統的效果器公司,iZotope融合智能技術的目的在于對輸入聲音進行信號分析并提供具有一定針對性的處理方案,核心目的是減少聲音處理的復雜流程并提高聲音處理的成功率。在RX10和RX11兩個版本中,iZotope RX在保持核心程序傳統降噪方法的基礎上加強了人工智能技術的應用,但人工智能降噪技術依然是以提升質量和效率的輔助功能形式出現。iZotope的技術基礎決定了其核心降噪功能并不完全依賴于人工智能技術的存在①,但在其發展過程中新增的,針對某些特定類型噪聲處理的組件設計則呈現出選擇性使用人工智能技術以強化降噪能力的特征。對于RX而言,人工智能技術的融入是“錦上添花”,是功能增強,人工智能技術并未撼動iZotope RX“以人為主” 的應用模式。
Accentize 系列產品誕生于2019年,采用了基于神經網絡再合成的建模算法,是針對后期制作專業應用開發的產品。雖然iZotope與Accentize都采用了人工智能技術,但兩者的技術路線并不相同。Accentize系列產品幾乎完全依靠算法模型進行降噪處理,降噪能力更多取決于算法模型本身而非人為的參數調整,其中內置的多種算法模型還可以對應不同情況的帶噪語音信號進行更優質、更適配的處理。同時,Accentize產品在降噪后依靠算法模型實現的信號合成和音色調整功能表現出較強的聲音修復能力,對因降噪帶來的音質損失進行了適度補償,成為Accentize系列產品與iZotope現有產品異質化的重要特征。
相對而言,iZotope RX的設計思路和應用方式更偏向于傳統降噪器的觀念,功能強大、參數較多、調整靈活、適用廣泛,對噪聲的人為控制力較強,定位為“專業人員的專業工具”。反觀Accentize,因人工智能技術的應用而降低了使用難度,噪聲處理能力基于深度學習和智能信號合成技術。因此,Accentize的處理重點在于語音分離(Speech Separation)和分離后的信號合成,與iZotope RX側重于降噪不同,Accentize產品的降噪與修復功能比較平衡,所以這類產品也常被稱為語音增強(Speech Enhancement,SE)處理器而非傳統意義上的降噪器。
近年推出的Supertone、Hush Pro以及iZotope VEA等軟件采用不同算法的人工智能降噪器/語音增強處理器,雖然并非針對專業應用推出,但其部分性能完全能夠達到專業應用需求。需要指出的是,人工智能降噪技術并非萬能降噪技術,其降噪能力取決于算法模型和訓練數據,兩者的優劣共同決定了降噪結果的優劣。算法或訓練數據的缺陷會造成人工智能降噪器對某些特定類型噪聲的處理能力較弱或幾乎無法處理。在這一點上,偏向傳統降噪器的iZotope RX反而表現出對多種噪聲類型的“普遍適用性”。
人工智能降噪技術之所以能夠首先在專業領域規模化應用,一方面是因為在聲學、電學、信號分析等方向的基礎研究比較成熟,對各種噪聲可以進行科學性較強的分類且能夠從中提取出具有代表性的物理特征,這些相對明確的技術特征有利于對噪聲成分的識別、分析和處理;另一方面,語音識別、語音分離和數字信號合成技術也能夠在一定程度上重構語音信號。盡管語音和噪聲信號的種類繁多、構成復雜,但通過有效的定性與定量分析以及針對性的處理,人工智能技術已經首先在電影聲音制作的對白降噪領域取得了顯著進展,成功實現了規模化應用。
3人工智能技術在電影聲音制作領域的發展方向
依靠算法生成電影對白和效果類聲音是人工智能生成內容(AIGC)技術在電影聲音制作領域最重要的發展方向,也是最值得期待的發展方向。與智能降噪技術的成熟應用不同,對白和效果聲音的智能生成目前總體上處于試探性、實驗性和創新性階段。
3.1 人工智能技術在電影對白制作中的應用
人工智能技術對聲音的分類方式與傳統電影聲音分類方式不同且在人工智能領域內部并未取得一致,這源于不同專業對同一事物分析研究的角度不同。目前,人工智能技術在聲音信號應用方面依然部分沿用了傳統的分類方式——以廣播、電影、電視和游戲為主的專業領域和民用領域。可以預計,人工智能技術在電影聲音制作領域第二個獲得大規模應用的領域是“語音”(Speech),也就是電影中的“對白”(Dialogue)。
人工智能語音技術是人工智能技術的一個分支。目前人工智能語音技術在短視頻配音、自媒體新聞播報、各行業語音客服等領域已經實現了一定程度的商業化應用,這是由語言的重要性、人工智能語音技術發展現狀和研發應用價值等幾方面因素共同決定的。
人工智能語音技術在電影對白制作領域的應用以“文本轉語音”②(Text?to?Speech,TTS)和“語音轉換”③(Voice Conversion,VC)兩項技術為主,雖然兩者都需要使用語音合成技術,但其底層原理和模型算法存在明顯差異。
文本轉語音的核心是自然語言處理(Natural Language Processing,NLP)和語音合成。轉換過程中最關鍵的是需要對形成的語音進行語速、語調、斷句、氣息以及情緒的精準調節和靈活控制,這也是文本轉語音過程中較難處理而又最具價值的環節。對于富含情緒因素的電影對白而言,如果不能在文本轉語音過程中對語音的自然度和情感表達進行細化控制,則這項技術就不具備充分的實用價值。2024年推出或升級的幾款大語言模型,如Llama 3.1、Claude 3.5 Sonnet、ChatGPT o1等較之前的語言模型在以上各個方面有所改進,對生成語音進行一定程度的控制已經成為可能。盡管技術上仍存在一定局限,尚不能實現對語音節奏、情緒、流暢度和自然度等多個核心要素的靈活調控,但整體表現已顯著提升。與早期語言模型多采用封閉研究方式不同,2024年推出的模型中有相當一部分采用了開源方式,這為具有技術能力的用戶定制化應用模型、降低應用成本及合規性應用提供了條件。因此,目前的文本轉語音技術比較適合應用于動畫片、科幻片等類型片角色的對白創造。
語音轉換的結果主要依靠模型的數據處理能力,訓練數據的質量、數量以及模型算法的優劣在其中具有決定性作用。這項技術的優勢在于能夠較好地繼承原始語音中包含的情緒性特征,并在音色轉換過程中保持原始語音表達的自然度。語音轉換技術在劇情片等類型片的對白制作中具有較高的使用價值。
目前來看,語音轉換技術在成熟度和實用性方面相較于文本轉語音技術表現出一定優勢,但兩項技術總體發展進度并未呈現顯著差異。在電影對白制作實踐中,需要同時應用以上兩種技術,針對不同類型影片進行針對性使用或組合使用,充分發揮兩種技術各自優勢,現階段單一技術的應用往往無法全面滿足電影對白制作的復雜要求。
3.2 人工智能技術在效果類聲音制作中的應用
人工智能技術在語音應用領域獲得成功后將迎來效果類聲音(Sound Effects,EFX)的制作突破。雖然從目前情況看效果類聲音的大規模生成應用可能會略晚于語音的應用,但兩者成熟應用的時間差不會太大。
目前人工智能技術在效果類聲音生成時主要采用“文本轉聲音”④(Text?to?Audio,TTA)方式。效果類聲音的多樣性、變化性、復雜性和主觀性、模糊性造成生成提示詞(Prompt)與機器理解之間容易形成偏差,這是目前為止造成這類聲音生成結果誤差較大的一方面原因;另一方面,效果類聲音的商業應用范圍遠遠低于音樂和語言的市場應用需求,再加上效果類聲音的生成質量要求較高,因此現階段專注于這一領域的公司數量相對較少,這也在一定程度上制約了人工智能在這一領域的快速進步。
文本轉聲音技術相對成熟的公司是Elevenlabs和Stable Audio。Elevenlabs公司的總體實力較強,產品類型涵蓋了語音與效果類聲音處理兩方面;Stable Audio公司雖然整體偏向于利用人工智能技術生成音樂,但也同時提供了生成效果類聲音的功能,并且生成時長上限達到了3分鐘。另外,其提供的帶有文本提示的聲音轉聲音(Audio?to?Audio)功能也比較有特色。
以Nemisindo公司為代表的程序化音頻技術(Percedural Audio)采用了依靠算法合成效果類聲音的方式,提供了超過70種細分模型和700種預置程序,不同的程序和預置對應不同類型的效果類聲音,每一個細分模型對應一種聲音的合成算法并提供了詳細而直觀的聲音調整參數。人工智能技術在程序化音頻中應用的價值在于對算法的完善,通過對細分模型算法的優化使其能夠合成出更加自然的聲音。
使用人工智能技術生成效果類聲音的公司中比較出色的是Krotos。Krotos應用人工智能技術的方式無法明確歸類于“文本轉聲音”或“程序化音頻”,這與Krotos技術發展沿革有一定關系。在引入人工智能技術之前,Krotos以聲音合成技術為基礎在特殊音響效果制作方向發展,在電影聲音和游戲聲音制作的細分領域推出了一系列優秀產品。Krotos產品的定位非常清晰,聲音質量較高,引入人工智能技術后推出的Krotos Studio不再局限于特殊音響效果的研究與應用,將產品應用領域從相對小眾的特殊音響效果擴展到整個效果類聲音,雖然目前Krotos Studio并不能直接生成多聲道環繞聲格式的聲音素材,但多個立體聲分軌文件可以組合構成環繞聲形式的素材用于混錄。
與電影對白使用多模態大模型為基礎不同,效果類聲音的特點決定了這類聲音的智能生成技術需要在通用語音模型的基礎上結合使用專用模型才有可能獲得更好的聲音質量。目前來看,僅依靠通用大模型暫時還不能完全適應效果類聲音制作的技術需求,這在Krotos的產品中已經有所體現,專用聲音模型與通用大模型的結合、云模型與端模型的結合或定制化的開源模型更適應未來人工智能技術在效果類聲音應用的發展方向,這也是我們認為在專業領域使用人工智能技術制作效果類聲音的進度會略慢于語音的原因之一。
4具有專業應用前景的部分人工智能公司
4.1 國外公司
表1中,Respeecher、Replica Studio和Altered的人工智能語音技術相對成熟。2020年12月,Respeecher公司使用人工智能技術為迪士尼(Disney+)的劇集《曼達洛人》(The Mandalorian)終季中年輕的盧克·天行者(Luke Skywalker)完成配音工作;2021年9月,在劇集《如果登月發生災難》(In Event of Moon Disaster)中為理查德-尼克松制作配音;2022年9月,在《美國達人》(America's got Talent)中合成并發布了埃爾維斯·普雷斯利(Elvis Presley)⑤的聲音等。從該公司制作的影視項目來看,可以說Respeecher是最早進入好萊塢聲音制作領域的公司,也是目前在影視聲音領域研究人工智能語音制作技術最為成熟的公司之一。
表1 具有專業應用可能性的人工智能公司名單
(注:公司數據截至2024年5月。表中所列的只是部分代表性公司,其中建立在英國或具有英國技術背景的公司居多,反映出英國在人工智能聲音處理方面的優勢。)
Replica Studios公司的產品最初主要應用于游戲領域,與主流的渲染引擎虛幻引擎(Unreal Engine)和Unity等能夠完美銜接。Replica Studios在技術成熟后將應用范圍擴大至包括電影、動畫和有聲書等在內的多個方向。2024年1月9日,Replica Studios公司與美國演員工會(SAG?AFTRA)簽署了開創性的協議,該協議一方面確定了配音演員有權決定是否同意在游戲項目中使用自己聲音的數字復制版⑥(Digital Replica);另一方面也授權了Replica Studios公司在獲得演員同意的前提下,可以使用配音演員的聲音進行語言模型的訓練以創造新的角色聲音。合同中最關鍵的是加入了使用跟蹤(Usage Tracking)、數字復制版未來應用的透明公開(Transparency)和二次補償制度(Secondary Compensation)。根據這些制度規定,配音演員有權依據自己聲音的數字復制版在最終完成項目中的使用數量獲取報酬。該協議主要適用于人工智能語音技術在游戲角色方面的應用,對于廣播、電影、電視和流媒體等領域的應用則以“開發者外部使用(External Use by Developer)”條款進行了嚴格約束。雖然該協議并未將傳統的電影聲音制作領域包含其中,但該協議或將作為美國演員工會的合同范本對后續該類協議的簽署以及相關立法產生一定影響。
Replica Studios與美國演員工會簽訂的協議是我們目前在公開渠道看到的第一份有關人類語音在人工智能時代應用的、具有法律約束力的文件。協議條款中雖然沒有明確規定人類語音具有知識產權屬性,但通過對各個條款的詳細研究,能夠感受到在人工智能時代人類語音初步具備了一定的知識產權特征。雖然這份協議是行業協會與單獨商業公司之間的法律約定,不具備廣泛適用性,并未上升到國家立法層面,但不排除隨著人工智能技術的發展,未來從法律層面會對人類語音做出進一步、具有知識產權性質的立法。我們認為該協議最大的價值在于“為人類語音與人工智能語音技術的潛在沖突提出了嘗試性的、可實施的、具有法律約束力的解決方案”。
4.2 國內公司
2023年春節檔上映的影片《流浪地球2》成功使用人工智能語音技術進行了部分角色的對白制作,標志著人工智能語音技術第一次在國產院線電影對白制作中成功應用。由愛奇藝研發的基于深度神經網絡和大模型技術的“奇聲影視劇智能配音系統”也已經開始商業化應用,“為超過300部海外電影制作了普通話配音版本,為50多部華語電影、800多集國劇制作了多國配音版本”[1]。
以上應用案例說明國內在人工智能語音技術的應用層面與國際領先水平差距不大,騰訊、字節跳動、科大訊飛、阿里云、百度等公司也都推出了相應的產品。目前,國內公司還是在語音的通用領域發展,主要以滿足民用市場為主,而以Respeecher、Replica Studios等為代表的部分國外公司則已經進入電影、電視和游戲等專業應用的細分領域。迄今,暫時還沒有看到國內有實力的公司明確宣布進入專業音頻應用領域。
2024年6月,字節跳動推出的Seed?TTS語言生成基座模型具有較高的語言自然度和穩定性,大量訓練數據中甚至包括了各地方言,具有較強的適用性,語音生成的質量較高,情緒相對飽滿,技術上初步具備了電影對白需要的流暢性、差異性和自然度等要求。
5 人工智能技術在電影聲音制作應用的特點及其局限性
5.1 人工智能技術在電影聲音制作應用的特點
目前,人工智能技術在電影聲音制作中還限制在局部應用層面,無論是生成內容還是聲音修復,人工智能技術主要以克服傳統制作方法無法實現的制作困難為主。即便在相對成熟的降噪應用方面,智能技術也無法完全替代人工操作。語音轉換的使用前提也是首先要錄制對白,之后才能進行音色替換。在以上應用場景中,傳統制作方法依然占據主體地位且暫時不可替代。尤其在面對高標準應用時,人工智能技術還存在一定局限性,所以現階段呈現出兩種方法混合應用的情況,人工智能技術主要作為傳統制作方法的技術補充進入制作環節。
從目前來看,人工智能生成技術產生的效果類聲音信號個性并不鮮明,相似性、趨同化的問題難以避免。
5.2 人工智能技術在電影聲音制作應用中的局限性
5.2.1 技術指標
首先,絕大多數文本生成語音的聲音技術指標偏低,其采樣率通常局限在22.050kHz,難以達到電影聲音制作所要求的24Bit/48kHz標準,雖然從專業應用角度可以適當降低對人工智能生成語音的技術指標要求,但依然希望其能滿足16Bit/44.1kHz的最低標準。
2023年下半年至2024年上半年,部分國外公司聲明可以達到48kHz的技術指標,但經過技術分析發現其原生音頻的標稱指標與音質主觀評價并不相符,不排除所謂更高的技術指標是通過對原生音頻進行頻譜合成方式進行的適度補償而非通過模型算法實現的、真正的高質量音頻數據,這種聲音在電影標準監聽條件下使用還存在些許缺陷。
目前科大訊飛大模型語音合成的最高采樣率能夠達到24kHz,量化深度達到16bit[2],字節火山引擎最新推出的雙向流式接口則標明已升級至最高支持48kHz采樣[3];愛奇藝奇聲使用語音轉換方式為影視劇進行的配音目前能夠達到32kHz的采樣頻率,有效聲音頻帶達到了16kHz[4],實現了較好的聲音效果。總體而言,人工智能生成語音的有效頻帶在逐步向上擴展,從早期的4kHz逐步提升至6kHz、8kHz、12kHz至24kHz左右,這一方面受到訓練數據的影響,另一方面也與模型算法的進步有關。
其次,目前文字生成語音內容的情緒表達存在不足,難以達到演員對臺詞細膩控制的程度。文字轉語音過程中需要在生成過程中對音色、音調、速度以及情緒的多樣性進行控制,雖然有些模型算法提供了上述調整功能,但總體效果還無法達到靈活控制的程度,而且各參數變化幅度不大,相對極端的參數設定會造成聲音質量明顯下降,語音表現力和情感表達略顯不足。尤其是在激烈情緒狀態下,人類語言表現出的復雜情感和復雜變化,人工智能語音技術暫時還難以有效模仿。對生成語音不能進行相對靈活地調整,在一定程度上影響了文本轉語音在電影聲音制作中的應用。在這一點上,語音轉換技術的優勢更加明顯,也是現階段人工智能技術最適合電影聲音制作的方式。
最后,音響效果的生成質量有待提高。效果類聲音在電影聲音構成中的重要性僅次于對白,不但應用數量大,而且對聲音質量有很高的要求,效果類聲音的制作水平也是判定整部影片聲音制作能力的重要標準之一。目前,人工智能生成的效果類聲音一方面在技術指標上偏低,另一方面在音質主觀評價層面也表現出動態不足、力度欠缺、信號劣化等問題。依據現有模型狀況分析,如果希望效果類聲音能夠達到專業應用的水平,可能需要在多模態大語音模型的基礎上,開發出面向效果類聲音的專有模型,并進行高度針對性的數據訓練,這將有可能生成滿足電影聲音制作要求的效果類聲音,而這一過程也會引發研究團隊對投入產出比的考量。
經過實測,Krotos生成的效果類聲音技術指標能夠達到24Bit/48kHz;部分人工智能公司生成的音響效果能夠達到16Bit/44.1kHz的標準,已經普遍高于人工智能生成的語音。單純從顯性的技術指標分析,這樣的結果是比較理想的,但音質主觀評價結果認為在保持現有客觀技術水平基礎上的主觀聽感還有提升空間。
5.2.2 訓練數據
限制人工智能生成內容技術指標和主觀評價指標的因素主要源于兩方面:一方面是模型算法的優劣,另一方面是訓練數據的質量。隨著模型技術的迭代、算力水平的提升和運算成本的降低,模型算法能夠在可預見的時間內解決對高質量聲音技術指標的支持問題,因此未來人工智能技術在電影聲音制作領域應用的障礙不會是算力,也不會是模型算法等物理層面問題。生成高質量音頻數據的前提是有足夠多的高質量音頻數據用于訓練模型,而高質量音頻數據是相對稀缺的資源,這種情況可能導致一個潛在問題:即便算法模型理論上能夠支持較高技術指標的內容生成,卻可能因缺乏足夠的高質量訓練數據而造成發展受限。
我們通過與部分公司交流可知,大量高質量訓練數據的獲取是一個越來越突出的問題,而且是短時間內很難解決的問題。相對而言,高質量語音生成可以在一定程度上寄希望于模型算法迭代加以解決,但高質量效果類聲音的稀缺則可能會影響人工智能技術在此類聲音的應用進度。
5.2.3 知識產權
訓練數據的質量與數量是人工智能生成技術的基礎。早期大量訓練數據無法律意識的應用雖然對人工智能技術的發展做出了極大貢獻,但時至今日,人們對于具有知識產權的公開數據可否被無代價、無保留地應用于人工智能技術發展產生了質疑。
訓練數據質量的價值大于數量。在滿足數量的前提下,數據質量決定了模型的效果。2024年6月,Adobe公司在其Creative Cloud產品服務條款中硬性規定了對用戶數據的使用權限,希冀將用戶數據,尤其是用戶的創意數據用于訓練基于人工智能的創作軟件Firefly Gen AI的研發。該條款的出臺立刻引起軒然大波,造成Adobe公司在兩天后被迫發表聲明以圖挽回聲譽。該事件的出現不是孤立的,也不是Adobe一家公司面臨的窘境。低質數據已經不能滿足人工智能數據訓練所需,各公司都需要優質數據用于提升人工智能的技術水平,而強烈的反對意見反映出人們對于數據的知識產權意識迅速提升。
知識產權意識的提升會進一步制約各公司獲取高質量的訓練數據,影響人工智能技術的發展,但這一問題的本質是商業利益問題,并非不可克服。
5.2.4 道德倫理和法律監管
2023年8月15日,由國家網信辦會同發改委、教育部、科技部、工信部和公安部聯合發布的《生成式人工智能服務管理暫行辦法》在國內實施;2024年3月13日,歐盟議會通過了《人工智能法案》;2024年4月9日,美國田納西州確立了《確保肖像、聲音和圖像安全法案》;2024年6月3日,歐洲數據保護監督機構(European Data Protection Supervisor,EDPS)編撰了《生成式人工智能與EUDPR:EDPS就生成式人工智能數據保護的首個指南》等,這些國家層面的立法行為標志著人工智能技術的監管逐步進入較完善的法制軌道。從現有情況看,有些現行法律條款的規定在人工智能時代背景下確實面臨著挑戰。
綜上所述,人工智能技術在電影聲音制作領域的應用面臨著一定的局限性,但所謂的局限性,尤其是技術層面和商用層面的局限性也具有一定時效性。隨著技術的迅速發展和法律制度的完善,當下的局限性會在人工智能技術的不同發展階段得到不同程度的解決。
6 人工智能技術在電影聲音制作中的定位
人工智能技術已經或即將進入電影聲音制作的各個細分領域。雖然國內外已有一些成功案例,但距離普遍大規模應用,尤其是具有價格和時間費效比的商業性應用還有一定距離。目前人工智能技術的長項體現在各種聲音素材生成、簡化或完善傳統制作工藝、降低制作難度和提升工作效率的層面,這些應用依然偏向于技術和工藝流程方面,處于輔助地位,雖然它能夠在一定程度上參與并影響著藝術創作,但“人”在其中的主導性地位依然無法撼動,主觀性、個性化的判斷與實施依然需要以人為主體做出。截至目前,人工智能作為一種新興的技術手段還擺脫不了制作工具的本質屬性。
音樂雖然是電影聲音重要的組成部分,但音樂制作和內容生成以作曲家、演奏家和音樂錄音師為主,在此不做過多研究。從目前獲得的信息和實例來看,人工智能技術在音樂領域的發展領先于其在電影聲音各細分領域的發展速度,這與其強大的市場支撐有重要關系。
7 未來發展
經過歷時一年的跟蹤研究可以發現,人工智能技術已經或即將在某些局部改變現有電影聲音制作體系。文中所述各種技術問題都能逐步解決,并不構成該技術在電影聲音制作中應用的障礙,聲音的錄制與人工智能生成作為兩種聲音獲取方式將并行存在。隨著技術的快速迭代,人工智能技術在電影對白、動效、音響效果、環境和音樂等各類素材的獲取方式以及聲音編輯、聲音處理和預混、終混等制作層面都有可能產生一定影響,雖然這種影響不至于從根本上顛覆傳統的電影聲音制作工藝,但人工智能技術的介入必將對電影聲音的創作意識、創作理念和技術路徑產生深遠影響,而其中最為關鍵的是對從事電影聲音工作人員的知識結構提出新的要求。
注釋、參考文獻
(向下滑動閱讀)
① iZotope RX降噪器的核心功能為De?click、De?crackle、De?clip和Spectral De?noise。
②文本轉語音也稱為文語轉換。
③語音轉換也稱為語音克隆(Voice Cloning)、音色融合(Voice Morphing)、音色替換或語音替換(Speech to Speech,STS)等。
④本文提到的文本轉聲音中的“聲音”不包括語音。
⑤埃爾維斯·普雷斯利又稱“貓王”,美國男歌手、演員,出生于美國密西西比州圖珀洛。
⑥聲音的數字復制版指通過人工智能技術合成后的配音演員聲音。
[1] 愛奇藝.“奇聲影視劇智能配音系統”獲評工信部“2024新型數字服務優秀案例”[EB/OL].(2024?06?19)[2024?07?01]. https://mp.weixin.qq.com/s/ATiw_j6kTevHkp7CxMonBw.
[2] 訊飛開放平臺文檔中心.超擬人合成簡介[EB/OL].[2024?07?01].https://www.xfyun.cn/doc/spark/smart-tts-iOS.html#_1-%E8%B6%85%E6%8B%9F%E4%BA%BA%E5%90%88%E6%88%90%E7%AE%80%E4%BB%8B.
[3] 火山引擎文檔中心. 產品簡介.功能特性[EB/OL].(2024?04?28)[2024?07?01].https://www.volcengine.com/docs/6561/1257543.
[4] 李海.奇聲(IQDubbing)—面向影視劇的AI配音技術[EB/OL].(2023?04?04)[2024?07?01].https://cloud.tencent.com/developer/article/22557838.
[5] How AI is Changing Audio Post?Production[EB/OL].(2024?02?14)[2024?07?01].https://www.production-expert.com/production-expert-1/how-ai-is-changing-audio-post-production.
[6] Dialogue Cleanup?AI Versus Audio Professional?The Results[EB/OL].(2023?03?20) [2024?07?01].https://www.production-expert.com/production-expert-1/dialogue-cleanup-ai-versus-audio-professional-the-results.
[7] Krotos Ltd.Edinburgh.METHOD OF GENERATING AN AUDIO SIGNAL[P]. United States Patent Application Publication.Patent No.:US 10,606,548.
[8] SAG·AFTRA.Replica Digital Voice Replica Development Agreement[EB/OL].(2024?01?09)[2024?07?01]. https://www.sagaftra.org/files/sa_documents/Replica%20Studios%20Agreement%20for%20Digital%20Voice%20Replicas_0.pdf.
[9] Mascha D.AI Toos for Audio?an Overview of the Latest Applications for Sound Postprodution[EB/OL].(2023?09?11)[2024?07?01]. https://www.cined.com/ai-tools-for-audio-an-overview-of-the-latest-applications-for-sound-postproduction/.
[10] Wang D L, Chen J. Supervised Speech Separation Based on Deep Learning: An Overview[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2018, 26(10):1702?1726.
[11] Anastassiou P, Chen J, Chen J, et al. Seed-TTS: A Family of High-Quality Versatile Speech Generation Models. [EB/OL]. [2024-06-05].https://arxiv.org/abs/2406.02430.
[12] Wang Z, Chen Y, Wang X, et al. StreamVoice: Streamable Context-Aware Language Modeling for Real-time Zero-Shot Voice Conversion. [EB/OL]. [2024-05-15]. https://arxiv.org/html/2401.11053v2
[13] Adán L B, Vassallo T , Reiss J D, et al. FXive: A Web Platform for Procedural Sound Synthesis[EB/OL]. [2024-06-05]. https://aes2.org/publications/elibrary-page/?id=19529
[14] Liu H, Chen Z, Yuan Y, et al. AudioLDM: Text-to-Audio Generation with Latent Diffusion Models.[EB/OL]. [2024-07-02]. https://doi.org/10.48550/arXiv.2308.05734.
[15] Liu H, Yuan Y, Liu X, et al. AudioLDM 2: Learning Holistic Audio Generation with Self-Supervised Pretraining[EB/OL]. [2024-06-06]. https://doi.org/10.48550/arXiv.2308.05734.
[16] Su J , Wang Y , Finkelstein A ,et al.Bandwidth Extension is All You Need[C]//ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).IEEE, 2021.DOI:10.1109/ICASSP39728.2021.9413575.
[17] Serrà J, Pascual S, Pons J, et al. Universal Speech Enhancement with Score-based Diffusion[EB/OL]. [2024-06-12]. https://doi.org/10.48550/arXiv. 2206.03065.
[18]Micaela M. ARTificial: Why Copyright Is Not the Right Policy Tool to Deal with Generative AI[J]. The Yale Law Journal,2024:133.
[19] Lv S, Fu Y, Xing M, et al. S-DCCRN: Super Wide Band DCCRN with Learnable Complex Feature for Speech Enhancement[J]. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2022:7767-7771.
[20] Andreu S, Aylagas M V. Neural synthesis of sound effects using flow-based deep generative models[J]. In Proceedings of the Eighteenth AAAI Conference on Artificial Intelligence and Interactive Digital Entertainment (AIIDE'22),2022(18):2-9.
[21] Evans Z, Carr C J, Taylor J, et al.Fast Timing-Conditioned Latent Audio Diffusion[EB/OL].[2024-06-25]. https://arxiv.org/abs/2402.04825.
[22 ] Yao J, Lei Y, Wang Q, et al.Preserving background sound in noise-robust voice conversion via multi-task learning[EB/OL].[2024-06-01].https://www.semanticscholar.org/reader/6294114d38667033dcb10720e97ca194f3be6d22.
主管單位:國家電影局
主辦單位:電影技術質量檢測所
標準國際刊號:ISSN 1673-3215
國內統一刊號:CN 11-5336/TB
投稿系統:ampt.crifst.ac.cn
官方網站:www.crifst.ac.cn
期刊發行:010-63245081
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.