北京互聯(lián)網(wǎng)法院課題組：AI生成聲音侵害聲音權(quán)益的法律認(rèn)定

2025-02-26 16:37:24　來源: 鑫士銘沙龍

山東舉報

分享至

問題的提出

（一）基本案情

原告殷某某系一名配音演員，其經(jīng)朋友告知，發(fā)現(xiàn)自己的聲音被AI化，他人利用該AI聲音制作的作品在多個知名APP廣泛流傳，原告表示從來沒有授權(quán)過任何人或公司將自己的聲音AI化，但在一些短視頻平臺用戶發(fā)布的視頻中，使用的卻是基于原告聲音制作的AI配音。經(jīng)聲音篩選和溯源，原告發(fā)現(xiàn)上述作品中的聲音來自被告一北京某智能科技公司運營平臺中的文本轉(zhuǎn)語音產(chǎn)品，用戶通過輸入文本、調(diào)整參數(shù)，可實現(xiàn)文本轉(zhuǎn)化成語音的功能。

原告曾接受被告二北京某文化傳媒公司的委托錄制錄音制品，被告二為錄音制品的著作權(quán)人。后被告二將原告為其錄制的錄音制品的音頻提供給被告三某軟件公司，允許被告三以商業(yè)或非商業(yè)的用途使用、復(fù)制、修改數(shù)據(jù)用于其產(chǎn)品及服務(wù)。被告三僅以原告錄制的一部錄音制品作為素材進(jìn)行AI化處理，生成了案涉文本轉(zhuǎn)語音產(chǎn)品并在被告四上海某網(wǎng)絡(luò)科技公司運營的云服務(wù)平臺對外出售。被告一北京某智能科技公司與被告五北京某科技發(fā)展公司簽訂在線服務(wù)買賣合同，由被告五向被告三下單采購，其中包括了案涉文本轉(zhuǎn)語音產(chǎn)品。被告一北京某智能科技公司采取應(yīng)用程序接口形式，在未經(jīng)技術(shù)處理的情況下，直接調(diào)取并生成文本轉(zhuǎn)語音產(chǎn)品在其平臺中使用。

原告主張，被告的行為已經(jīng)嚴(yán)重侵犯了原告的聲音權(quán)益，被告一北京某智能科技公司、被告三某軟件公司應(yīng)立即停止侵權(quán)、賠禮道歉，五被告應(yīng)當(dāng)賠償原告經(jīng)濟(jì)損失、精神損失。五被告均否認(rèn)侵權(quán)，主張人工智能合成后的聲音產(chǎn)品，與自然人聲音在人身權(quán)屬性上有所區(qū)別，目前的技術(shù)都會對人工智能合成聲音進(jìn)行水印標(biāo)記，這切斷了人工智能合成聲音與自然人聲音之間的聯(lián)系，不會產(chǎn)生對應(yīng)自然人的人格屬性，不具有對原告人格的可識別性。

（二）裁判情況

北京互聯(lián)網(wǎng)法院（2023）京0491民初12142號民事判決書認(rèn)為：原告聲音權(quán)益及于案涉AI聲音，未經(jīng)許可使用原告聲音構(gòu)成侵權(quán)，賠償損失應(yīng)當(dāng)考量被告侵權(quán)情節(jié)、同類市場產(chǎn)品價值等因素。判決被告一北京某智能科技公司、被告三某軟件公司向原告賠禮道歉，被告二北京某文化傳媒公司、被告三某軟件公司向原告賠償損失共計25萬元。

（三）爭議的問題

本案原告作為配音演員，對其聲音享有權(quán)益，被告三某軟件公司作為上游技術(shù)開發(fā)公司，在僅將原告聲音作為素材的基礎(chǔ)上，對原告聲音進(jìn)行AI化，生成案涉AI聲音，并將該AI聲音產(chǎn)品提供給下游文化產(chǎn)品服務(wù)提供者被告一北京某智能科技公司，進(jìn)而面向終端用戶提供服務(wù)。該案涉及最初的聲音數(shù)據(jù)采集、數(shù)據(jù)處理、人工智能合成直至最后到用戶使用，完整顯現(xiàn)了AI生成聲音全鏈條、各環(huán)節(jié)。本案爭議的主要內(nèi)容為：一是原告聲音權(quán)益是否及于案涉AI聲音，即AI生成聲音能否識別出原告；二是被告對原告聲音的使用是否有合法授權(quán)；三是被訴行為是否構(gòu)成侵權(quán)以及如構(gòu)成侵權(quán)，應(yīng)承擔(dān)何種法律責(zé)任。

本案系全國首例AI生成聲音侵害人格權(quán)案，實踐中，因聲音權(quán)益受到侵害引發(fā)訴訟的案件相對較少，從前述爭議的內(nèi)容來看，亟需司法回應(yīng)的問題集中在以下三方面：

一是聲音權(quán)益的內(nèi)涵是什么。首先，聲音的性質(zhì)存在爭議，究竟屬于具體人格權(quán)、一般人格權(quán)益還是法定的人格利益存在不同的觀點。其次，對自然人聲音的保護(hù)參照適用肖像權(quán)保護(hù)的有關(guān)規(guī)定，“參照適用”語境下，聲音權(quán)益的內(nèi)容又涵蓋哪些方面。最后，聲音侵權(quán)類案件，法院應(yīng)當(dāng)如何適用法律規(guī)定進(jìn)行裁判。

二是AI生成聲音是否具備可識別性，原告聲音權(quán)益是否可以及于AI生成聲音，其可識別性判斷應(yīng)當(dāng)考量哪些因素。

三是AI生成聲音侵害聲音權(quán)益的侵權(quán)行為、損害后果該如何認(rèn)定，需要考量哪些因素。聲音權(quán)益作為一項人格利益，其適用人格權(quán)請求權(quán)、損害賠償請求權(quán)，各侵權(quán)主體的責(zé)任該如何承擔(dān)。圍繞上述三個方面問題，本文將逐一展開詳述。

聲音的內(nèi)涵

聲音權(quán)益是法定的人格權(quán)益，聲音權(quán)益本質(zhì)屬性是“受尊重權(quán)”，維護(hù)人之為人的尊嚴(yán)，排除他人非法侵害。聲音權(quán)益專屬于自然人，不包括法人、非法人組織，該權(quán)益無法轉(zhuǎn)讓、也不得被限制。

此外，關(guān)于AI生成聲音的權(quán)益歸屬問題，還需回歸到AI生成聲音的可識別性判斷上來。如果文本轉(zhuǎn)語音軟件生成的AI聲音，是一種全新的、無法識別出其他自然人的聲音，那么就該AI生成聲音自然人無法享有人格權(quán)益，但開發(fā)者可就該文本轉(zhuǎn)語音軟件享有著作權(quán)等權(quán)利；如果僅是將某個自然人的聲音AI化，生成的聲音雖然帶有一定的人工智能語音特征，但仍能識別出自然人身份，那么自然人的聲音權(quán)益就可及于該AI生成聲音。聲音權(quán)益的客體是聲音利益，是聲音所體現(xiàn)的人格利益。該人格利益，既包括經(jīng)濟(jì)利益又包括精神利益。

AI生成聲音的侵權(quán)判定

人工智能時代，人的聲音被收集、使用變得更加隱蔽、便捷，基于語音合成技術(shù)，通過學(xué)習(xí)收集到聲音素材進(jìn)行訓(xùn)練，可實現(xiàn)對目標(biāo)聲音特征的模仿，這使得配音變得簡單、成本也更加低廉，在一定程度上促進(jìn)了短視頻創(chuàng)作。與之相伴的是，語音合成技術(shù)的發(fā)展也引發(fā)人們對聲音權(quán)益侵害的擔(dān)憂。

（一）AI生成聲音侵權(quán)類型

語音合成技術(shù)主要指文本轉(zhuǎn)語音（Text-to-Speech），利用深度學(xué)習(xí)技術(shù)，通過神經(jīng)網(wǎng)絡(luò)直接學(xué)習(xí)文本到語音的映射關(guān)系，無需復(fù)雜的特征提取和聲學(xué)模型，便可以將文本轉(zhuǎn)化為語音，生成自然、富有表現(xiàn)力的聲音。AI生成聲音侵權(quán)行為可劃分為以下兩種類型：

一是聲音合成。聲音合成是指由聲學(xué)模型通過大量的聲音材料訓(xùn)練轉(zhuǎn)化來的一段新的語音數(shù)據(jù)。聲音合成主要依靠深度神經(jīng)網(wǎng)絡(luò)技術(shù)，提供高度擬人、流暢自然的合成語音，將文本轉(zhuǎn)換為有聲讀物。聲音合成的侵權(quán)表現(xiàn)形式為未經(jīng)自然人許可，將自然人聲音作為素材進(jìn)行訓(xùn)練。未經(jīng)許可進(jìn)行聲音合成，構(gòu)成對自然人聲音權(quán)益的侵害。如前所述，此種方式屬于使用聲音生成新的聲音，自然人的聲音權(quán)益是否及于新的聲音，需要從主觀標(biāo)準(zhǔn)、客觀標(biāo)準(zhǔn)、使用方式三個方面綜合判斷。

二是聲音模仿。AI生成聲音語境下的聲音模仿是指通過對自然人聲音數(shù)據(jù)進(jìn)行學(xué)習(xí)，通過文本轉(zhuǎn)語音技術(shù)定制AI聲音。如果利用某個自然人的聲音進(jìn)行朗讀，需將該自然人的聲音片段進(jìn)行“投喂訓(xùn)練”，往往素材越多，聲音的準(zhǔn)確度、還原度越高。在“投喂”聲音的過程中還可以進(jìn)行微調(diào)訓(xùn)練，讓AI自主學(xué)習(xí)“投喂”的聲音數(shù)據(jù)的音色、音調(diào)等信息，隨著訓(xùn)練次數(shù)的增加，生成的AI聲音就與該自然人的聲音越相似。如前所述，此種使用方式屬于單獨使用聲音，若未經(jīng)自然人許可將其聲音作為訓(xùn)練素材，構(gòu)成未經(jīng)許可使用，侵害自然人聲音權(quán)益。生成的AI聲音是否具備可識別性可從使用方式、主觀標(biāo)準(zhǔn)、客觀標(biāo)準(zhǔn)三個方面綜合判斷。此外，聲音模仿容易引起公眾誤認(rèn)，以為是自然人原始的聲音，可能還會造成自然人人格尊嚴(yán)的貶損。

（二）認(rèn)定AI生成聲音構(gòu)成侵權(quán)的法律要件

《民法典》第995條規(guī)定，“人格權(quán)受到侵害的，受害人有權(quán)依照本法和其他法律的規(guī)定請求行為人承擔(dān)民事責(zé)任。受害人的停止侵害、排除妨礙、消除危險、消除影響、恢復(fù)名譽、賠禮道歉請求權(quán)，不適用訴訟時效的規(guī)定。”若存在侵害行為或者對人格權(quán)有侵害之虞，權(quán)利人即可主張相應(yīng)的請求權(quán)，至于行為人是否存在過錯在所不問。該條規(guī)定意在充分尊重自然人的人格權(quán)益，給予自然人人格更積極充分的保護(hù)，從而實現(xiàn)保護(hù)人格尊嚴(yán)的目的。在AI生成聲音侵害自然人聲音權(quán)益案件中，認(rèn)定構(gòu)成侵權(quán)的要件需要從侵害行為、侵害后果、因果關(guān)系等方面綜合考量。

一是侵害行為。AI生成聲音的侵權(quán)行為是指未經(jīng)許可的聲音使用、公開等行為，主要類型包括未經(jīng)自然人許可且不構(gòu)成合理使用的聲音合成、聲音模仿，其中通過聲音合成生成新的聲音，就該新的聲音許可他人使用行為能否被權(quán)利人控制，需要判斷新的聲音是否具備可識別性。

二是侵害后果。聲音權(quán)益屬于法定的人格權(quán)益，可適用人格權(quán)請求權(quán)之規(guī)定，行使人格權(quán)請求權(quán)不以造成權(quán)利損害的后果為要件，對于可能發(fā)生的妨害或已經(jīng)存在的妨害，權(quán)利人可以通過停止妨害請求權(quán)尋求救濟(jì)。權(quán)利人行使侵權(quán)請求權(quán)時，需要以存在一定損害作為前提，以補償救濟(jì)權(quán)利人。

三是因果關(guān)系。AI生成聲音的侵害行為、侵害后果之間需具備相應(yīng)的因果關(guān)系，即因侵害行為的存在導(dǎo)致相應(yīng)侵害后果的發(fā)生。只有確定了相應(yīng)的因果關(guān)系，才能要求侵害人承擔(dān)相應(yīng)的責(zé)任。

（三）AI生成聲音各侵權(quán)主體責(zé)任劃分

《民法典》第998條規(guī)定，“認(rèn)定行為人承擔(dān)侵害除生命權(quán)、身體權(quán)和健康權(quán)外的人格權(quán)的民事責(zé)任，應(yīng)當(dāng)考慮行為人和受害人職業(yè)、影響范圍、過錯程度，以及行為的目的、方式、后果等因素。”關(guān)于聲音權(quán)益遭受侵害后的歸責(zé)原則，參照肖像權(quán)，權(quán)利人在聲音權(quán)益遭到侵害后，其請求損害賠償，應(yīng)當(dāng)適用過錯責(zé)任原則。

AI生成聲音的各侵權(quán)主體涉及上游供應(yīng)商、中間經(jīng)銷商、下游購買商，相對應(yīng)的責(zé)任劃分亦有所不同。作為上游供應(yīng)商，開展原始聲音數(shù)據(jù)收集與處理，其應(yīng)當(dāng)負(fù)有較高的審查義務(wù)，需確認(rèn)獲得自然人的授權(quán)許可。中間的經(jīng)銷商與下游的服務(wù)提供者，無法對聲音的來源進(jìn)行審查，如果對其苛以AI聲音產(chǎn)品最初數(shù)據(jù)來源授權(quán)確認(rèn)，不僅無法保障行業(yè)交易的效率，而且其也無法追溯到最初的數(shù)據(jù)來源。

文章來源：《法律適用》2024年第9期

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.