有沒有聽過三秒克隆聲音?
你肯定聽過!
但你有沒有想過,三秒能克隆什么呢?
難道一個人說話的語調(diào),三秒鐘就代表所有的風(fēng)格嗎?這是肯定不可能的。
你看哪一個人說話,不是有時快,有時慢,有時激動,有時平緩?
三秒怎么可能做到完全復(fù)刻一個人的聲音呢?
我今天來向全網(wǎng)所有的AI工具,包括大廠的工具挑戰(zhàn)。
市面上你看到的很多完全模仿的聲音,他們只是復(fù)刻了一個時間段(三五秒的語氣),但做不到做長時間的語音的模仿,比如兩分鐘。
但,我可以做到。
我先給你看一段聲音,這段聲音在讀我的文章。他是誰?羅胖(羅振宇)。以下提到的大V人名,你都可以去短視頻網(wǎng)站上聽一下他們的聲音,看看是不是一模一樣。
不好意思,因?yàn)榱_胖的語言辨識度很高,所以,我拿他的聲音來訓(xùn)練作為我的展示樣品。
接下來,我再給你一段聲音,你可能不認(rèn)識,但你可以在抖音上搜索財經(jīng)林妹妹,你聽一下,與她的聲音有沒有區(qū)別,能不能聽出來不一樣?
我再給一個口播界的牛人,也在奧群呆過,那就是鶴老師。
你聽一下,與他的聲音有什么區(qū)別嗎?
最后看一個也是大V,直男財經(jīng),你聽一下,能聽出來區(qū)別么?
對的。我就是能夠完整復(fù)刻一個人的聲音,讓別人根本聽不出來區(qū)別。
這是我從去年開始,在研究文案時,就在開始研究的玩意。
而市面上,所有的語音模型,你能用的,包括字節(jié)豆包的,你試一下,看看他們能否完整復(fù)刻。
你以為這就完了?不!不!不!
這算什么?
復(fù)制別人的聲音不算什么。
如果我用羅胖的聲音去做視頻,肯定會被罵死呀,在中國還有可能被認(rèn)定為侵權(quán)。
我研究語音模型,不僅是為了精準(zhǔn)復(fù)刻一個人的聲音,還是為了解決另一個問題。
很多人,有口音,比如我。還有很多人,說話語言很平淡。
但是有些人,語言表達(dá)能力就很強(qiáng)。
比如,我扶持的經(jīng)濟(jì)學(xué)號率性的曉曉,她的語言表達(dá)能力就很強(qiáng),一聽就很舒服。做口播帳號,語言沒有魅力是不行的。
以上我列出來的大V,其成功之處與他的語言表達(dá)能力有極大的關(guān)系。
但大部分人不具備這種語言表達(dá)能力。
那我研究語言模型的目的是,讓普通人哪怕沒有這種語言表現(xiàn)力,但卻可以通過人工智能生成有強(qiáng)烈感染力、獨(dú)特個人特質(zhì)的聲音。
這樣,就能大幅提高你的自媒媒作品—不管是短視頻、播客、還是中視頻,包括培訓(xùn)課程的語言魅力。
接下來,我們來看,同樣是這段文字,我們通過不同的組合,產(chǎn)生的新奇效果。
這個是羅胖的音色,但語氣卻是林妹妹的。
這個是林妹妹的音色,但語氣卻是羅胖的。
這是直男財經(jīng)的語氣,但音色卻是鶴老師的。
這是鶴老師的語氣,但音色卻林妹妹的。
你看,通過排列組合,你就得到一個全新的聲音,別人絕對聽不出來你模仿了誰。
好了,聽一下我的這個視頻,這是我的聲音嗎?是的。
但音調(diào)卻不是我的。
我的真實(shí)聲音是這樣的。
當(dāng)然,我都不建議音色不好的朋友去搞一個其他的音調(diào)加自己的音色,除非你做大了。
起號階段,前期做自媒體,特別是我服務(wù)的律師領(lǐng)域,就應(yīng)該選擇一個特別有辨識度,特別有感染力的語音來配合,這樣,才能讓整個視頻的口播效果達(dá)到最佳。
好的聲音,可以極大提升自媒體的效能。
當(dāng)然,我不是說我比豆包牛。
我要告訴大家,豆包是商用產(chǎn)品,他追求的是穩(wěn)定輸出,因此,他犧牲了完美復(fù)刻和深度訓(xùn)練,而選擇了穩(wěn)定性。
而我們目前的產(chǎn)品,暫時無法網(wǎng)絡(luò)商用,因?yàn)檫€會出錯,輸出一段音頻后,要邊聽邊重新輸出(輸出錯的那一句),會偶有吞字,發(fā)音錯誤(多音字),阿拉伯?dāng)?shù)字錯誤(比如1900元,讀成一九零零元,這個需要事前文案處理,防止偶發(fā)錯誤),因此他生成時,需要人工介入。
如果生成一個三千字語音,大概能有十幾處錯誤。
人工介入也很簡單,讀錯的一句,馬上重新生成這一句就好了,一般改個錯,三四秒。
但得聽一遍才行。
豆包這種商用級產(chǎn)品,穩(wěn)定度更高,但也會有錯,且有錯了,無法逐句改變,需要重新生成,還要費(fèi)用。
但它出錯的概率低于我們當(dāng)下的模型,這是個事實(shí)。
從生成的質(zhì)量,以及多樣性方面,我目前沒有看到誰能生成長篇大段的文字,還能保持這種模仿效果。
創(chuàng)造新音色這一塊,目前也僅有海外的一家企業(yè)能做,但收費(fèi)奇貴,一月一百多美元。
我們要復(fù)刻客戶的聲音,需要半小時的音頻,且要有文字稿,需要人工逐句挑出好的音頻來訓(xùn)練,并且訓(xùn)練的時間超長,用4090訓(xùn)練,都要六個小時。
然后幫助客戶做成各種不同風(fēng)格的語音,又要幾個小時,會給到十種以上的聲音效果給客戶挑。
我光是語調(diào)庫,就建立了三百個。各種不同人的語調(diào)都有。并且以后還要建立更多。
目的是什么?我認(rèn)為復(fù)制聲音,只是少數(shù)人的需要,是那些語言感染力強(qiáng)的人。大多數(shù)普通人的需求,才是重要的。
這是普通人做自媒體最大的障礙,雖然很多人用上了數(shù)字人,但是,聲音卻很差,沒有感染力。怎么辦?
我來解決啊。
你認(rèn)為曉曉音調(diào)好,沒問題,給你模仿一下。
所有市面上的大模型,不經(jīng)改造,是做不到這個效果的。
道理如我文前所說,三秒怎么可能復(fù)刻呢?
我當(dāng)然也是用了大模型,只不過我找技術(shù)人員研究代碼,重新改寫了。
這個語音模型的能力,是我開發(fā)律師自媒體服務(wù)產(chǎn)品時構(gòu)建的,光研發(fā)就花了四個月的時間。
好了,現(xiàn)在這個服務(wù),除了為律師服務(wù),還可以向所有人開放。
如果想完整復(fù)刻你的聲音,讀一篇文章(給文字給我),用你要的語氣讀,三十分鐘。讀錯了,就重新讀,我的人會剪輯掉錯誤的句子的,保持環(huán)境安靜,用好的降噪麥讀就好了。
復(fù)刻一次的費(fèi)用:600元(一次性)
要接上別的語調(diào):300元(10個選擇,一次性))
如果要一個完全不一樣的語音,(非自己音色,全新的融合音調(diào)音色)高度辨識度的,強(qiáng)感染力的,告訴我們你要用來做什么?
讀小說?搞播客?還是短視頻?中視頻?
我們幫你挑出10個讓你選。500元(一次性)
最后你怎么用呢?
我們向律師收的費(fèi)用是這個的一半,甚至包含在套餐中,接近于免費(fèi),為什么?因?yàn)檎Z音模型在我們這里。
而這個服務(wù),是將語音模型發(fā)給你,你安裝好后,我們遠(yuǎn)程幫助你安裝模型,教你怎么使用,怎么改錯。
這樣,以后,你就可以直接自己在家使用了。
這個語音模型對電腦要求不高,隨便有個顯卡就能生成。
我們給律師服務(wù),是我們手動生成,手動改錯。律師不需要管這些事務(wù)。
這只是我們圍繞律師業(yè)務(wù)研發(fā)出來的一個產(chǎn)品之一。
昨天說過了,公眾號也是歷時半年才研發(fā)出來的。這個產(chǎn)品也一樣,我這半年多,主要精力就是研發(fā)各種新產(chǎn)品。
你可以全網(wǎng)比較,到各種地方下載聲音模型,你看看能否做到我們的效果。
我可以肯定地說,全網(wǎng)我第一。
我寫這篇文章,是在做廣告,是在說明我為律師自媒體業(yè)務(wù)中所有的研發(fā),以及我們的產(chǎn)品優(yōu)點(diǎn)。
因?yàn)檠邪l(fā)的東西太多,直播難以講清楚,我還是決定寫文章說明清楚吧。
相比起直播, 我更愿意寫文章。
接下來,還會有幾個產(chǎn)品的研發(fā)要向大家說明。
比如短視頻文案創(chuàng)作系統(tǒng),比如小紅書小綠書創(chuàng)作系統(tǒng);比如數(shù)字人、比如剪輯技術(shù)、比如直播輔導(dǎo)服務(wù)等等。每一個項(xiàng)目,都經(jīng)歷過漫長時間的研發(fā),都以服務(wù)一個行業(yè)的從業(yè)者為目標(biāo)。
不急,講完大家再決定要不要合作一起來推廣。
業(yè)務(wù)聯(lián)系:Glinda989
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.