本文刊發于《現代電影技術》2024年第12期
專家點評
在國家推動文化產業高質量發展的背景下,以AI大模型為代表的通用人工智能技術的發展與應用,將為電影產業帶來前所未有的變革。AI音頻技術通過精準模擬人聲和環境音效,不僅大幅提升了對白與音效的制作效率和質量,還顯著增強了影視作品的沉浸感與藝術表現力,為國產電影走向世界舞臺提供了強有力的技術支撐,助力中國故事以更加生動鮮活的方式呈現于全球觀眾面前,是實現中華文化自信自強的重要途徑之一。論文《AI音頻技術在電影對白和音效制作中的應用探究》梳理和回顧了AI音頻技術從20世紀50年代至今的發展歷程,有助于理解當前技術的演進過程和關鍵節點;對AI音頻制作工具進行了分類梳理,并從主要功能、代表性工具、特性及精度等維度進行了性能對比,有助于理清AI音頻工具的最佳應用場景;深入分析了相關技術在語音生成、動效生成、音響效果生成等電影對白生成和音效制作中的具體應用,展示了AI音頻技術在實際影視制作中的應用潛力。論文從應用角度指出了當前AI音頻技術在復雜情感表達、語種覆蓋范圍等方面的局限性并提出未來展望,為后續研究和發展應用指明了方向。
——王士進
正高級工程師
科大訊飛副總裁、訊飛研究院執行院長
認知智能全國重點實驗室副主任
作 者 簡 介
王 玨
北京電影學院聲音學院教授,主要研究方向:電影聲音藝術與技術、新媒體聲音。
北京電影學院聲音學院2023級電影聲音創作方向碩士研究生,主要研究方向:電影聲音藝術與技術。
李洽楠
摘要
AI音頻技術在當前電影對白和音效制作領域備受關注且已逐步應用到實際制作中。本文介紹了AI音頻技術的主要概念及發展概況,對現階段AI音頻制作工具進行了分類整理,并按照電影對白和音效制作中聲音生成與聲音處理兩大應用場景,探討AI音頻技術在電影對白和音效制作中的應用進展與未來前景。研究表明,目前AI音頻技術可用于部分場景和部分類別的對白生成,但缺乏復雜情感表達能力;在動效和音響效果生成中可完成一定的素材準備,但精確度和豐富度有待提高。在聲音處理方面,AI音頻技術具備較強的音頻降噪及增強、對白音色替換、動態及響度控制、音色及空間處理能力,在聲音編輯和預混中已得到實際應用,但尚無法勝任聲音設計、混錄等需要高度依賴藝術創造力的環節,暫不具備獨立完成整部電影聲音制作的能力。
關鍵詞
人工智能;AI音頻技術;AI音頻制作工具;電影聲音生成;電影聲音處理
1 引言
人工智能(Artificial Intelligence, AI)是旨在研究開發能模擬、延伸和擴展人類智能的理論、方法、技術及應用系統的一門新的技術科學[1]。廣義上,AI可被理解為一切以機器為載體且能從環境中接受感知并執行行動的智能體(Agent)[2],可像人類智能一樣呈現出知識推理、自然語言處理、語音識別等能力。自AI誕生以來,其始終在由弱人工智能(Weak AI)向強人工智能(Strong AI)進化,其類人性、通識性及處理跨領域、多維度任務的能力持續提高,應用范圍不斷拓展,從而形成了各類基于AI的新興技術,包括AI音頻技術。
AI音頻技術是指利用機器智能體進行音頻分析、處理和生成的一系列音頻技術,其涵蓋多方面音頻應用,包括但不限于語音識別(Automatic Speech Recognition, ASR)、語音合成(Speech Synthesis, SS)、語音轉換(Voice Conversion, VC)、音頻生成(Audio Generation)、音色處理、動態控制等。
2 AI音頻技術發展概況
AI進入音頻領域可回溯至20世紀50年代,當時計算機科學的研究重心之一在于如何使機器借助語音與人類進行高效、自然的溝通。基于這一需求,語音識別與語音合成自然成為AI音頻技術早期發展的探索領域。1952年,美國電話電報公司貝爾實驗室(AT&T Bell Laboratories)成功研發了首個具有實用意義的AI語音識別系統奧黛麗(Audrey)。其具備針對具體個人的數字0~9的語音識別能力,通過計算機將輸入的語音與預先錄制的數字語音模板進行頻譜特征匹配,可實現97%~99%的識別準確率[3]。1962年,IBM的John Larry Kelly和Louis Gerstman使用IBM 704計算機,根據規則預設將文字轉換為語音,合成了歌曲Daisy Bell中的人聲信號,首次實現了計算機歌曲演唱[4]。隨后,AI音頻技術的探索領域進一步擴展。1968年,美國無線電公司(Radio Corporation of America, RCA)的Dale C. Connor和Richard S. Putnam針對廣播領域不同來源、類型的音頻信號存在較大電平差而易導致音頻失真及過度壓縮的問題,提出了一種無需人工操作的自動增益控制(AGC)系統[5],探索了弱人工智能的電平及動態控制技術。1971年,B. S. Atal和Suzanne L. Hanauer進行了AI語音轉換技術的初步探索,使用線性預測編碼技術(LPC)實現了語音特性的改變[6]。
自20世紀70年代起,隨著計算機性能的提升和數字信號處理技術的進步,AI音頻技術進入逐步發展階段。算法的迭代及優化使AI音頻技術性能不斷增強,初步實現了部分領域的產品化與商業化,AI音頻發展來到了技術與市場的交叉點。20世紀80年代至90年代,基于規則推理的手工編程開始向數據驅動的機器學習(Machine Learning, ML)過渡,意味著AI音頻技術在自動化程度、智能化水平及通用性上將迎來提升,從而可進一步拓展其應用領域。語音識別的發展較好地說明了這一點,AI語音識別技術于80年代憑借使用隱馬爾可夫模型(Hidden Markov Model, HMM)取得突破性進展[7]。有別于先前依賴相關領域專家的知識和經驗、通過編寫硬編碼規則進行語音識別的手工編程方法,HMM作為一種機器學習算法,能很好地捕捉語音信號的時變性和平穩性[8]。該模型利用大量真實語音數據進行訓練,可實現更高的識別準確率。憑借這一方法,AI語音識別技術在90年代實現了以人機交互和通信為主的初步應用及產品化,出現了人機語音交互軟件ViaVoice、電話自動語音識別系統SpeechWorks等代表性產品[9]。
21世紀以來,隨著學習算法的改進、大數據的發展和算力的提升,AI音頻技術進入深度學習(Deep Learning, DL)時代。深度學習是機器學習中一系列技術的組合[10],有別于以使用淺層結構模型為主的傳統機器學習,其通過模擬人腦神經元結構形成復雜的多層神經網絡模型,如卷積神經網絡(CNN)、循環神經網絡(RNN)、生成式對抗網絡(GAN)等,令計算機構建一個包含較多計算步驟的從輸入到輸出的映射函數,用以處理復雜的數據或任務。隨著深度學習技術的真正爆發,AI音頻技術在語音識別、音頻處理及音頻生成等領域開始取得顯著成果。2011年,結合深度信任網絡(Deep Belief Network, DBN)的強大判別訓練能力和HMM序列建模能力的AI語音識別技術,在大詞匯量連續語音識別(LVCSR)任務中取得優異表現[11]。2016年,DeepMind發布基于深度神經網絡的音頻生成模型WaveNet,在文本轉語音(Text?to?Speech, TTS)任務中表現優異,取得了AI語音合成技術的重大突破,同時亦為音樂、音效生成領域提供了新范式[12]。自2019年開始,隨著深度學習方法的深入應用,AI音頻技術在音頻分析、處理與生成中均展現出了驚人突破與強大潛力[13],步入高速發展階段。此外,自動化機器學習、大型預訓練模型、多模態數據處理、模型壓縮以及云計算等技術的發展,使AI音頻技術開始真正深入融合到影視、游戲、音樂、通信、教育以及醫療等各行業中。
3 AI音頻制作工具分類
音頻制作工具發展至今,已具備較為堅實的自動化水平,在某些制作環節已能極大減輕人工負擔,提高工作效率。在此基礎上,基于機器學習和深度學習技術,AI音頻技術顯著提高了音頻制作工具的智能化水平,一系列AI音頻制作工具應運而生,覆蓋從音頻分析、處理到生成的各領域。本文將現有AI音頻制作工具分為分析、處理與生成三大核心類別,并根據具體任務需求,進一步細分為多個子類別。需要說明的是,音頻分析往往是處理和生成的基礎或前置步驟,而音頻生成也涉及一定的處理過程,因而三類工具在實際功能上有所重疊,但它們在目標制作任務上有著明顯不同的重心和傾向。
表1 典型的AI音頻分析工具
AI音頻分析工具(表1)側重于對音頻進行解析與特征提取,目前主要用于完成諸如音源分離(Audio Source Separation)①、音頻計量、音樂分析等制作任務;AI音頻處理工具(表2)傾向于對音頻信號進行實際調整,當前主要用于完成音頻降噪及增強、音色轉換、動態處理、頻率處理、空間處理等制作任務;AI音頻生成工具(表3)則注重創造新的音頻內容,根據用戶所輸入的文本、提示詞(Prompt)、視覺內容信息或條件參數輸出音頻,現階段主要用于語音、音效及音樂生成。目前,AI音頻處理工具多以面向專業音頻工作者的高精度專業級工具為主,分析類工具和生成類工具則涵蓋了從面向普通消費者及用戶生成內容(UGC)生產者的低精度民用級至高精度專業級的廣泛范圍。其中,低精度民用級工具的應用形式以網頁及桌面應用程序為主,高精度專業級工具則以數字音頻工作站(DAW)及非線性編輯系統(NLE)插件為主。表1至表3從主要功能、特性及精度三個維度對上述三個類別中較具代表性的工具分別進行了整理分析。
表2 典型的AI音頻處理工具
表3 典型的AI音頻生成工具
在電影對白和音效制作領域,AI音頻制作工具的引入為制作手段和創作方法提供了新的可能。由表1至表3可知,以弱人工智能為主的AI音頻分析工具及處理工具通過大規模數據訓練使計算機完成特定任務,現階段可輔助制作者完成降噪、基本動態控制等重復勞動,提高制作效率;以強人工智能為主的AI音頻生成工具正逐步取得突破,在對白、音響效果等電影聲音內容生成中的應用已有所進展[14]。
4 AI音頻技術在電影聲音生成中的應用
4.1 對白語音生成
對白(Dialogue)是電影聲音中具有重要敘事功能的元素,目前對白語音主要通過同期拾錄或自動對白替換(Automatic Dialogue Replacement, ADR)獲得,利用AI音頻技術生成對白是電影對白制作的一種新思路。現階段AI語音生成技術在電影對白制作中的應用以TTS為主,即以臺詞文本作為輸入模態,通過文本前端模塊將原始文本轉換為字符或音素,再通過AI音頻工具內置的聲學模型或對特定演員進行音色克隆所得到的聲學模型轉換為聲學特征,最后借助聲碼器轉換輸出為具有自然語音特征或特定人語音特征的語音音頻信號。基于AI的TTS語音生成技術較傳統TTS技術而言,在語音自然度及流暢度、情感表現力和音色定制能力等方面已取得顯著進展,但對于高精度的電影聲音制作而言,利用該技術直接生成對白語音仍有一定難度。一方面是由于現階段的AI語音生成難以實現電影對白高度復雜的情感表達并與視覺內容同步,另一方面則是生成語種的覆蓋范圍有限。聲音的情感表達是目前AI音頻生成的難題,現有的AI音頻工具提供了簡單的情緒選項,可以在憤怒、愉悅等情緒范圍內進行選擇,但這些參數的分類過于粗略,尚無法對應于電影對白中復雜細膩的情感變化。由于情感的主觀性特征,對復雜情感的聲音特征標注也是目前情感計算領域的一個難題。但這并不意味著目前AI語音生成技術在電影對白生成中毫無用武之地,在某些應用場景中,該技術仍有一定的應用可行性與發展前景。
4.1.1 真人角色語音生成
在真人電影的拍攝過程中,演員的表演實際構成了一個高度集成的視聽同步序列,通過TTS技術生成與已拍攝內容視覺嚴格同步的對白語音仍十分具有挑戰性。現階段的AI語音生成工具雖提供節奏、隨機性、表演風格等選項供用戶調整,但生成的語音仍難以與視覺內容保持時間上的同步及情感上的契合。然而,電影中往往存在一些無需嚴格與視覺形象同步的真人角色語音,包括但不限于旁白、解說、獨白、群雜以及收音機或其他媒介播放出的語音,這為使用AI音頻技術進行語音生成創造了條件。例如,當需要根據影片內容錄制一條語義明確的英文新聞播報時,可借助Altered Studio工具,在TTS模塊中輸入臺詞文本,并在其內置的模型庫中挑選性別、年齡及口音符合要求的模型,最后選擇新聞播報表演風格進行生成。
4.1.2 虛擬角色語音生成
在動畫角色、科幻角色或數字人等虛擬角色的制作過程中,若采用先錄制對白后制作畫面的先期錄音工藝,上述AI語音生成方法便不受視聽同步問題的困擾,可用于全部對白生成。制作者可在AI音頻生成工具中輸入臺詞文本,并在語音模型庫中選擇符合角色形象的模型進行語音生成,隨后將語音輸入轉換為逼真的面部動畫。例如在Replica Studio的Voice Director模塊中,制作者可根據角色需要在其內置的Voice Library中選擇合適模型,或通過Voice Lab模塊進行自定義音色混合得到定制化語音模型,隨后輸入角色臺詞文本,選定表演風格及調整音調、節奏,最后進行對白語音生成并完成視覺內容制作。在這類語音驅動的虛擬角色制作場景中,隨著AI語音生成技術的持續進步與優化,采用這一技術進行全部對白語音生成展現出一定的可行性與潛力,但目前同樣面臨著支持語種有限及表演情感難以調教的應用障礙。
4.2 動效生成
動效指影片中由角色動作引發的音響效果,通常采用擬音(Foley)方式制作。目前的擬音方法主要包括兩種:一種是由擬音師手工進行擬音;另一種則是基于采樣和合成技術利用軟件生成符合用戶需求的動效,如UVI Walker、UVI Unlock、Krotos Studio Pro等。二者均需依照視覺線索進行人工制作,且需花費時間和精力進行道具或樣本選取、擬音表演及錄音等。
利用AI音頻技術進行動效生成的技術路徑可從視頻和文本兩種輸入模態分別考慮,其中以視頻模態輸入的AI動效生成可基于數據驅動與規則建模來構建不同視覺線索與聲音的映射關系,并利用數據驅動實現視聽時序一致,以智能化擬音技術解決視覺與聲音的同步性以及內容一致性的問題[15]。近年來,國內外均有相關研究進展,例如Ghose等提出的FoleyGAN[16]、劉子航等[15]提出的視聽同步的細粒度腳步音效合成方法等。目前,此類技術對制作以腳步聲、摩擦聲為代表的數量多、重復性強且要求視聽嚴格同步的動效具有一定應用價值,但在視聽匹配度方面無法很好地滿足電影聲音制作的高標準需要,有待進一步發展和優化。以文本模態輸入的AI動效生成則以制作者在生成工具中輸入提示詞來生成音頻,比較適合生成單個點動效,例如在ElevenLabs的Text to SFX板塊中鍵入提示詞“typing”生成敲鍵盤的聲音,再進一步通過描述細節的提示詞來微調結果以完善聲音,如“A person typing on a keyboard in the office”,最后在多個生成結果中選擇合適的素材加以編輯使用。該方法一定程度上可減少道具或樣本選取、擬音表演等工序,但無法精準控制變量或參數值,導致生成音頻的可控性及穩定性較差,需反復調整提示詞并篩選生成結果。總體而言,現階段AI動效生成難以作為高質量工具直接投入應用,但為電影擬音制作提供了新的方法和可能性。
4.3 音響效果生成
音響效果制作是電影聲音后期制作的重點之一,對于一般效果而言,目前主要來源于素材庫或根據影片需要專門錄制,特殊音響效果則可能在此基礎上通過數字音頻信號合成等方式進行補充。AI音響效果生成與AI動效生成的方法基本一致,同樣可在ElevenLabs、Optimizer等工具中輸入文本提示詞以獲得目標素材,并做進一步微調和篩選。音響效果相較于動效而言,在制作上往往更為多元、復雜,且時常需要多聲道素材,這就進一步暴露了某些應用障礙。例如,模型無法根據輸入信息準確捕捉并表達制作者的創作意圖,訓練數據不充分或呈長尾分布狀態以及生成的音頻結果技術指標不足等。隨著AI音頻技術自動化和智能化水平的提升、訓練數據的不斷積累及自我強化機制的逐步構建,利用AI音頻技術進行音響效果生成或將開辟出全新的智能化電影音效制作流程和創作思路。
5 AI音頻技術在電影聲音處理中的應用
5.1 音頻降噪及增強
在電影聲音后期制作中,常常需對以語音信號為主的各類音頻信號進行降噪處理。AI音頻降噪技術在傳統音頻降噪技術的基礎上,引入了機器學習和深度學習技術,在音頻降噪及增強的效果上實現了飛躍,進而更好、更智能地提高音頻的信噪比并保留其自然度。當前,這一技術在電影聲音制作中已得到廣泛應用,iZotope RX 11、Accentize dxRevive Pro以及Waves ClarityTM Vx Pro等主流語音降噪工具均采用了AI音頻降噪技術,具備更強的非線性擬合能力,可對噪聲進行自適應處理。AI音頻增強技術可通過語音增強算法對音頻信號進行重構與恢復,顯著提升音頻降噪的性能極限,例如使用Accentize dxRevive Pro中的EQ Restore算法處理演員使用手機或其他民用設備補錄的低音質對白,之后進行頻譜再生及均衡調整,從而達到電影聲音的音質要求,為手機補錄臺詞或歷史音頻資料等技術指標不合格的素材提供了可行的利用途徑。
5.2 對白音色替換
在電影聲音后期制作中,往往需要通過ADR對技術或藝術上效果不理想的同期聲加以替換。除此之外,獨白或旁白、動畫片制作、多語種譯制等也常需要進行ADR。在實際制作中,ADR過程經常面臨諸多難題,如演員因各種原因無法到錄音棚錄音、單演員為多角色配音易出現音色重復及形象不匹配等。面對這些難題,AI語音轉換(VC)技術憑借優秀的音色模仿能力及語音自然度為制作者提供了新的解決方案。
早期的語音轉換技術一般通過統計學方法建立模型,由于面臨模型泛化能力不足的問題,轉換后的語音缺失細節、不夠真實[17]。AI語音轉換技術引入深度學習等方法,通過訓練神經網絡(Neural Network)以模擬不同的聲音特征,從而實現將源人物語音的特定信息轉換為目標人物語音,同時確保其他屬性不變[18]。相較于基于統計建模的語音轉換技術,AI語音轉換技術具備更強的模型泛化能力,尤其當目標語音數據集質量高、時長足時,轉換結果更為真實、自然。其次,通過使用不同數據集訓練不同的模型,可克隆某一特定人聲,使得AI語音轉換技術具備較好的定制能力,可更高效便捷地完成某些ADR任務。此外,AI語音轉換技術還極大拓展了單一配音演員的音色范圍,提高了影片配音及多語種譯制效率,降低了人力、時間及經費等成本。以下根據電影對白制作中的不同需要,簡要介紹AI語音轉換技術的實際應用可能。
借助AI語音轉換技術克隆某人音色,可高效解決以往制作過程中的時間和檔期不便,并提供新的創作方法。例如,在So?VITS?SVC中輸入劉德華年輕時總時長30分鐘以上的高音質切片語音數據集,選擇編碼器生成模型配置文件,隨后選擇F0預測器(F0 Predictor)并調整Batch Size、Learning Rate等各項超參數進行音色模型訓練,得到音色相似且咬字清晰的理想模型后,在推理界面加載該模型及其配置文件,輸入待替換的語音音頻進行音色替換,便可實現對年輕劉德華音色的克隆。當前,利用AI語音轉換技術進行特定人的音色克隆已取得一定成果,例如Respeecher公司運用AI音頻技術為電視紀錄片Goliath制作了威爾特·張伯倫(Wilt Chamberlain)的解說語音[19],也成功為網絡短片In Event of Moon Disaster(2019)制作了美國前總統理查德·尼克松(Richard Nixon)的演講語音[20]。但該技術的應用仍存在一定障礙,例如,滿足電影聲音高精度要求的目標音色模型需通過音質高、時長足的數據集訓練獲得,而待替換的語音音頻需滿足各項音質標準,提高了AI語音轉換技術的應用門檻。隨著預訓練模型的自監督學習、小樣本學習及跨語言多領域適應能力的提升,AI音色克隆的數據集成本將進一步降低,能在減少對數據集依賴的同時提升其性能。在未來的電影對白制作中,可在獲授權情況下存檔備份演員的優質音色模型,以便后續應用于其他項目的制作。
運用AI語音轉換技術,制作者可通過AI音色替換工具中的多元化音色庫極大地擴展單個配音演員的音色范圍,從而使“一人分飾多角”成為可能,大幅提升ADR工作的效率與靈活性。例如,當需要為中文影片做英語對白譯制時,可通過Altered Studio的Voice Morphing模塊輸入單個配音演員錄制的多角色英語對白,并在Voice Library中為不同角色選擇匹配的音色模型分別進行語音轉換,從而大大優化影片的譯制成本。當前,大多數AI語音產品,如Altered Studio、Respeecher、ElevenLabs等,皆為用戶提供多元豐富的音色庫,SoundID公司的VoiceAI則可將其AI語音轉換技術及音色模型集成到DAW插件中,可在Pro Tools等工作站中直接應用,進一步優化文件交互流程,增強制作者的使用體驗。
5.3 動態及響度控制
在傳統電影聲音后期制作中,動態及響度控制通常分為兩部分進行:一部分是在編輯階段對各類聲音元素進行編輯處理,另一部分則是在混錄階段對各類聲音元素及聲音整體進行以使用動態類效果器、音量控制器為主的處理。編輯階段動態控制的主要處理對象之一即是具有敘事功能的對白,一方面要確保其電平及響度基本達標,另一方面則要調整其內部各類信號的電平從而使聽感平滑流暢。用編輯手段進行動態控制的優勢在于操作/調校較為細致,但同時也要花費大量人力、時間成本;而使用傳統音頻壓擴或響度歸一技術則難以做到精細調整,無法實現只針對人聲語音信號進行處理。AI語音動態處理技術能更好地對輸入的音頻信號進行特征提取,區分出人聲信號和非人聲信號并只對人聲信號進行處理。例如,在DAW插件NoiseWorks Gain Aim Pro中,用戶可在Ride模塊中設定目標語音響度,并在Vox?Gate模塊中設定門限處理閾值及最大衰減量,隨后由AI分析并對其進行自適應響度標準化及壓擴處理,輔助制作者完成對白的基本動態控制。在混錄階段進行整體的動態控制時,則可使用基于AI音頻技術的動態類效果器來處理,例如在sonible smart:comp 2中選中Speech預設,后令AI對影片中的對白音頻進行智能分析,形成壓縮器的各項參數,輔助制作者完成對白的整體動態處理。相較于傳統的動態類效果器,AI類效果器有著更好的參數自動化能力,大大減少了制作過程中對人工調整的依賴。
5.4 音色處理
電影對白和音效制作中對音色的處理主要有銜接匹配、解決頻率掩蔽、聲音美化等幾個核心目的,使用均衡器對音頻的頻譜結構進行調整是音色處理的主要手段。借助基于AI音頻技術的頻譜類效果器,可輔助制作者快速達成某些音色處理目標。首先,對于音色銜接任務,如ADR對白與同期聲的銜接、無線話筒音色和挑桿話筒音色的銜接、擬音動效與同期音響效果的銜接等,傳統制作方法主要是基于經驗判斷音色差異并使用均衡器手動調整音色,而使用基于機器學習技術的效果器進行音色銜接匹配則可簡化這一過程。例如,在Accentize Spectral Balance中,制作者可在EQ Target窗口加載目標音色示例音頻,再由AI進行頻響特征分析,并對軌道上的待處理音頻進行實時自適應處理或固定參數處理,高效完成音色銜接任務。其次,在解決不同音頻的頻率掩蔽問題時,可使用采用機器學習技術的效果器用于控制不同音頻間的頻率避讓。例如制作者可在需進行頻率避讓的軌道上掛載sonible smart:EQ 4效果器插件,通過Group模式將需要處理的軌道進行編組,并對各軌道進行前(Front)、中(Middle)、后(Back)的縱深分層以決定均衡處理優先級;之后點擊Learn All進行分析,生成各個軌道的頻率處理曲線,完成多軌頻率避讓。若基于美化聲音的目的對音頻進行音色處理,則可采用Wavesfactory Equalizer、sonible smart:EQ 4等智能均衡器進行音色調整。該類效果器基于大量的優質數據樣本,可根據聲音類別進行智能頻響調整,目前多用于基于音樂流派和樂器類別的音樂處理。
5.5 空間處理
空間處理是電影對白和音效制作的重點之一,在影片進入終混前,通常需進行以使用單聲道混響為主的對白或擬音的空間感統一,例如銜接ADR與同期聲、同期音效與擬音動效等,從而維持敘事空間的穩定與統一。一般而言,直接使用數字單聲道混響器并調整參數以模仿目標空間感難以高效地獲得令人滿意的效果,具備智能混響匹配功能的效果器為這一難題帶來了新的解決方案。如在Accentize公司推出的Chameleon 2.0中,制作者可在Create New Reverb窗口輸入攜帶目標空間特征的同期對白,隨后由該插件基于大量訓練數據的深度學習快速計算并建立起拍攝地的空間配置文件,選擇Apply Now將該空間特征直接應用到待處理的ADR對白中。同時,用戶也可以選擇Save to Library將插件分析得到的房間脈沖響應以.wav文件格式保存到計算機本地,隨后在其他卷積混響器中加載使用。在混錄過程中,為了滿足空間建構、效果制作以及包圍感形成等多種制作需求,往往需要調動不同類別、不同聲道數量的空間效果器。基于AI音頻技術的空間類效果器,能根據輸入信號的頻譜和時間特性進行智能化空間處理,為聲音制作者提供了全新的空間設計工具。如用戶可使用iZotope Neoverb的Reverb Assistant功能,進行以風格(Style)和色調(Tone)等主觀指標替代具體參數數值的交互式混響定制,并由AI執行自動剪切(Auto Cut)和非掩蔽(Unmask)任務,進行均衡前(Pre?EQ)處理和均衡后(Post?EQ)處理以避免混響信號對干聲信號造成掩蔽導致清晰度降低。目前,這類效果器主要用于電影對白和音效制作中的非現實空間建構,暫不適合建構需以敘事空間的真實聽感為依據的現實空間。
6 結語
隨著AI時代的到來,AI音頻技術在電影對白和音效制作領域已經邁出了革命性的一步,部分繁瑣且高度依賴人工處理的環節得到了顯著的工藝優化與效果提升。AI音頻技術在電影對白和音效制作中的應用一方面實現了一定程度的降本增效,另一方面則賦予了創作者更多的創作手段與可能。值得注意的是,現階段的AI音頻技術仍處于以弱人工智能輔助制作的階段,具備強人工智能屬性的AIGC創作范式尚需時日。簡言之,目前AI音頻技術尚無法勝任聲音設計、混錄等需要高度依賴藝術創造力的環節,暫不具備獨立完成整部電影聲音制作的能力。
隨著技術的不斷迭代與成熟,AI音頻技術在電影對白和音效制作中的應用空間無疑將進一步拓展,其效果也將持續向電影聲音的高精度標準靠攏。不久的將來,AI音頻技術有望在電影聲音制作領域發揮更為關鍵的作用,其智能化與高效化特征,將助力電影聲音制作的工藝變化,深刻改變并推動電影行業的創新發展,這一變化趨勢值得我們持續關注與探索。
注釋、參考文獻
(向下滑動閱讀)
①音源分離是指將混合音頻分離成一個或多個組成成分。
②LALAL.AI功能涵蓋音樂解混和語音解混。
③iZotope Dialogue Match的語言銜接匹配包含頻率處理和空間處理。
[1] 譚鐵牛.人工智能的歷史、現狀和未來[J].智慧中國,2019(Z1):87?91.
[2] 斯圖爾特·羅素,彼得·諾維格.人工智能:現代方法(第4版)[M].張博雅,陳坤,田超,等,譯.北京:人民郵電出版社,2022.
[3] Davis H K, Biddulph R, Balashek S. Automatic Recognition of Spoken Digits[J].The Journal of the Acoustical Society of America,1952,24(6):637.
[4] De Mol L. How to talk with a computer: an essay on computability and man?computer conversations[J]. OFF TOPIC: UBERSETZEN: ZEITSCHRIFT FUR MEDIENKUNST DER KHM, 2008, 1: 80?89.
[5] Connor D C, Putnam R S. Automatic audio level control[J]. Journal of the Audio Engineering Society, 1968, 16(3): 314?320.
[6] Atal B S, Hanauer S L.Speech Analysis and Synthesis by Linear Prediction of the Speech Wave[J].Journal of the Acoustical Society of America, 1971, 50(2B):637?655.
[7] 王海坤,潘嘉,劉聰.語音識別技術的研究進展與展望[J].電信科學,2018,34(02):1?11.
[8] 禹琳琳.語音識別技術及應用綜述[J].現代電子技術, 2013(13):51?53.DOI:10.3969/j.issn.1004-373X.2013.13.012.
[9] 何湘智.語音識別的研究與發展[J].計算機與現代化, 2002(03):3?6.DOI:CNKI:SUN:JYXH.0.2002-03-001.
[10] 趙楠,譚惠文.人工智能技術的發展及應用分析[J].中國電子科學研究院學報,2021,16(07):737?740.
[11] Dong Y, Li D. Deep learning and its applications to signal and information processing[J]. IEEE Signal Processing Magazine, 2011, 28(1): 145?154.
[12] Van Den Oord A, Dieleman S, Zen H, et al. Wavenet: A generative model for raw audio[J]. arXiv preprint arXiv:1609.03499, 2016, 12.
[13] Purwins H, Li B, Virtanen T, et al. Deep learning for audio signal processing[J]. IEEE Journal of Selected Topics in Signal Processing, 2019, 13(2): 206?219.
[14] 陳軍,趙建軍,魯夢河.AI與電影智能制作研究與展望[J].現代電影技術,2023,(10):16?26.
[15] 劉子航,齊秋棠,程皓楠,等.視聽同步的細粒度腳步音效合成方法[J].現代電影技術,2023,(12):4?10+56.
[16] Ghose S, Prevost J J. Foleygan: Visually guided generative adversarial network based synchronous sound generation in silent videos[J].IEEE Transactions on Multimedia, 2022.
[17] 楊帥,喬凱,陳健,等.語音合成及偽造、鑒偽技術綜述[J].計算機系統應用,2022,31(07):12?22.DOI:10.15888/j.cnki.csa.008641.
[18] Nakashika T, Takashima R, Takiguchi T, et al. Voice conversion in high?order eigen space using deep belief nets[C]//Interspeech, 2013: 369–372.
[19] Vova Ovsiienko. AI Voices Take the Sports Industry by Storm: Super Bowl, Olympics, and Echoes of NFL & NBA Legends[EB/OL]. (2023?10?12)[2024?11?10]. https://www.respeecher.com/blog/ai-voices-take-sports-industry-by-storm-super-bowl-olympics-echoes-nfl-nba-legends.
[20] Respeecher. Respeecher Makes Richard Nixon’s Moon Landing Disaster Speech A Reality[EB/OL]. [2024?11?10]. https://www.respeecher.com/case-studies/respeecher-makes-nixon-moon-landing-disaster-speech-reality.
【基金項目信息】國家社科基金藝術學項目“中國類型電影聲音創作與理論研究”(22BC050)。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.