前幾天在同學(xué)群看到有人分享了一個鏈接,是一個名叫“巴渝小飛俠”的數(shù)字人智能體在介紹我老家重慶的風(fēng)景。智能體不是什么新鮮事物,但這個“巴渝小飛俠”除了能圖文并茂地介紹重慶風(fēng)景外,還能跟人進(jìn)行對話。最難得的是它說的是重慶方言:“巴適得很”、“啷個耍嘛”、“嫩個樣子的”……一口地道的重慶話聽著讓人感覺很親切,甚至讓不回重慶過年的我有些思鄉(xiāng)情切了。
在外地工作的同學(xué)們,在微信群里討論起了這個智能體的方言表現(xiàn)。有位同學(xué)甚至認(rèn)為,這個“巴渝小飛俠”說的重慶話,比我本人說的還正宗。這個評價我是認(rèn)可的:自打我從大學(xué)求學(xué)離開重慶至今已經(jīng)差不多20年了,平時都說普通話,偶爾說說重慶話反而說不好了。
其實說好方言蠻難的。小時候讀“鄉(xiāng)音未改鬢毛衰”時很難共情賀知章,現(xiàn)在理解了,但也發(fā)現(xiàn)“鄉(xiāng)音”很難“不改”,說家鄉(xiāng)話少了開口難免跑調(diào)。但不管鄉(xiāng)音怎么跑調(diào),人們對家鄉(xiāng)的感情都不會消失。每年這個時節(jié),身在異鄉(xiāng)為異客的人們都會翻山越嶺回家過年,與親朋好友團聚團圓,聽一聽鄉(xiāng)音,看一看家鄉(xiāng),解一解鄉(xiāng)愁。
除例行的“人口大遷徙運動”外,今年春節(jié),在AI技術(shù)的助力下,在手機“聽方言”也成了一道風(fēng)景線,讓這個年多了一些年味。許多網(wǎng)友玩起了“AI旅游”,在能說方言的AI智能體帶動下,解鎖全國各地城市的風(fēng)土人情,來一場在家游全國的“云游中國”。
AI數(shù)字人用方言硬控全國網(wǎng)友
在百度App上搜索“春節(jié)智能體”或“AI旅游”,就能馬上跟地陪大佬們聊起來。每個智能體的名字都頗具當(dāng)?shù)靥厣热鐝V東的是“舞獅少年黃小鴻”,當(dāng)?shù)赜行血{文化,黃飛鴻老家在佛山。
在對話框,輸入或選擇需求,智能體就會推薦旅游景點、規(guī)劃旅游線路,出發(fā)前后的細(xì)節(jié)都整理好了,甚至還可以協(xié)助你預(yù)訂門票、酒店。
直接語音聊天效率更高。點擊電話按鈕,你還能直接和數(shù)字人通話(這是語音電話,不會消耗你任何通話時長。)
春節(jié)我打算去廣州周邊玩兒,我和“舞獅少年黃小鴻”對上線聊了起來,先用粵語打個招呼:
【視頻可到“羅超Pro”查看】
“黃小鴻”不僅能聽懂粵語,而且粵語的回復(fù)聽起來還真像那么一回事,身為老廣的阿杰表示,“這粵語聽起來毫無違和感。”
【視頻可到“羅超Pro”查看】
而且,“黃小鴻”還能多輪對話,比如給我普及佛山舞獅文化,對廣東各地的過節(jié)習(xí)俗也門清。
來自我老家的“重慶小飛俠”表現(xiàn)如何呢?這小哥不僅長得清秀帥氣,重慶話說得也“好巴適”,我讓介紹一下重慶的美食,他馬上就給出了足以饞到我的菜名。
【視頻可到“羅超Pro”查看】
“重慶小飛俠”這重慶話聽著太親切了,搞得我都想回重慶老家過年了。
我決定加一點難度。如果用非當(dāng)?shù)胤窖詥栆粋€省份的數(shù)字人,他能聽得懂嗎?這一次我試了一下四川智能體“蘇東坡”。蘇東坡是眉州人,算我的半個老鄉(xiāng),不過我決定用粵語來考考這位大師:
“蘇東坡,給我背《贈劉景文》。”
【視頻可到“羅超Pro”查看】
好家伙,他完全聽懂了粵語,不愧是當(dāng)年做過“日啖荔枝三百顆”的嶺南人。而且啊,他還分享了寫作這首詩的來龍去脈和當(dāng)時的心境,感覺我和這位大文豪進(jìn)行了一場跨越千年的文化交流。
我再試著用普通話和粵語混合來考考“蘇東坡”:
“問一下,四川有哪些值得欣賞的景點?”
【視頻可到“羅超Pro”查看】
即便混合輸入,“蘇東坡”依然能快速且正確識別我的問題,再用流暢的四川話給我把當(dāng)?shù)鼐坝^介紹個遍,還像專業(yè)導(dǎo)游一樣給了貼心推薦。
有小伙伴要問了:如果我聽不懂一個地方的方言怎么辦?沒關(guān)系,你可以隨時開啟實時字幕。另外在與數(shù)字人對話時,你也可以隨時中斷,回到圖文交互模式。
類似小飛俠、蘇東坡這樣的能講方言的智能體,在百度App上已有34個——地理學(xué)得好的小伙伴都知道,我國一共有34個省級行政區(qū)(包括23個省、5個自治區(qū)、4個直轄市和2個特別行政區(qū)),正好一一對應(yīng)。
每一個智能體名字都精心地選取,頗具當(dāng)?shù)靥厣8匾氖牵麄冋f著各自的地道方言,有著淵博的當(dāng)?shù)刂R,還能提供專業(yè)的導(dǎo)購服務(wù),讓我一度聊得停不下來。
比如和西安的“秦小俑”聊一聊秦始皇的那些事:
【視頻可到“羅超Pro”查看】
再比如和遼寧的老妹兒嘮嘮嗑:
【視頻可到“羅超Pro”查看】
如果你春節(jié)宅家或者旅途中無聊,我建議你隨時隨地拿出手機“云旅游”。推薦給家里的長輩晚輩們一起云游中國漲知識,感覺也是不錯的。此外,以后如果你決定去某一個城市旅游,這些智能體就是你在當(dāng)?shù)刭N心的“旅游搭子”,用起來比看枯燥的文字或者傳統(tǒng)的視頻有意思多了。
如果你老家所在地沒有這個智能體怎么辦?百度App還提供了“一鍵定制同款智能體”服務(wù),讓你也能給家鄉(xiāng)文旅產(chǎn)業(yè)發(fā)展出一份力。
我試了下,整個操作流程其實很簡單:選好地區(qū)、填好名字后,選擇百度提供的特色形象,或用自己的照片就能生成一個特色形象,接下來只需要錄一句話就能生成聲音模板。再接著選一下角色個性,屬于自己家鄉(xiāng)的智能體就生成成功了,整個過程我只操作了幾分鐘。
我的家鄉(xiāng)“奉節(jié)”是著名的旅游城市,名聲響亮。在跟人介紹家鄉(xiāng)時,以前我會說“十元錢人民幣風(fēng)景所在地”,或者介紹“世界知名臍橙產(chǎn)地之一”,“瞿塘峽風(fēng)景所在地”,“朝辭白帝彩云間”的“詩城”,“劉備托孤的白帝城”……以后,我分享這個智能體就可以了。
雖然我一直在關(guān)注AI科技產(chǎn)業(yè)一線,但智能體的創(chuàng)建如此便捷,也是完全超出我預(yù)期的。
我覺得啊,百度App在春節(jié)期間推出“34省智能體”這一殺手锏應(yīng)用,不只是可以解人鄉(xiāng)愁、伴人云游,也有要打造文旅產(chǎn)業(yè)AI新標(biāo)配的意思。
對用戶來說,這些智能體是貼心的“旅游地陪”,講著地道方言的“北京阿瑪”、“上海灘強哥”、“杭州小青”、“草原巴特爾”、“山東好客孔夫子”們,能給游客講解風(fēng)土人情、提供旅行規(guī)劃甚至預(yù)訂機票酒店,全程免費還不會帶人購物。
對地方來說,它們是專業(yè)的“文旅推薦官”。“文旅”是全國各地發(fā)力重點,對地方來說,整合資源特別是文化資源,打造城市品牌以及有吸引力的目的地是關(guān)鍵。AI智能體可在全網(wǎng)7*24小時傳播當(dāng)?shù)匚幕岣叱鞘兄群推毓饬浚珖踔寥澜缬慰颓巴蚩ǎΞ?dāng)?shù)亟?jīng)濟繁榮。
讓“34省智能體”各講各方言有多難?
智能體圖文并茂地介紹一個地方不難,但要介紹得好卻不容易——不同導(dǎo)游在介紹同一個城市時,水平往往會有天壤之別。要讓智能體理解用戶意圖、好好介紹城市,需要豐富的優(yōu)質(zhì)內(nèi)容儲備,準(zhǔn)確的意圖理解能力和強大的內(nèi)容生成能力,這都是百度核心的優(yōu)勢。
要讓數(shù)字人開口說話不難,讓AI數(shù)字人聲情并茂用方言講就難了,讓34個省級行政區(qū)的數(shù)字人各講各方言更是難上加難——每一個數(shù)字人都有對應(yīng)的人物畫像,講方言時聲音要準(zhǔn),要有情感,還要與數(shù)字人的形象和動作匹配。
OpenAI等海外AI公司尚未關(guān)注中國方言這一塊,中國科技公司部分有涉足,但大都只支持少數(shù)方言,支持全省34省級行政區(qū)方言的只有百度做到了。難度在于兩點:一個是方言不夠標(biāo)準(zhǔn)、生成與識別的復(fù)雜度都遠(yuǎn)超普通話,技術(shù)挑戰(zhàn)大;另一個是成本高昂,隨著方言數(shù)量增加,對應(yīng)的語料成本、算法成本、算力成本都會劇增。
百度語音自主研發(fā)的兩大底層技術(shù)是實現(xiàn)“34省智能體”方言音色快速定制的關(guān)鍵。
其中語音大數(shù)據(jù)挖掘技術(shù)基于識別大模型,可自動完成不同省份方言數(shù)據(jù)的切分、降噪、識別等自動化處理,給方言合成遷移模型提供了大規(guī)模的數(shù)據(jù)支持。
要知道,傳統(tǒng)語音合成技術(shù)在語料這塊需要巨大的投入,包括人工錄制語料,比如Siri的聲音就來自御用配音員Susan Bennett女士,她在2005年為一家聲音技術(shù)公司錄制數(shù)小時語音樣本,用于開發(fā)一種文本轉(zhuǎn)語音的技術(shù)。
采取類似模式合成34省份方言根本不現(xiàn)實,而且合成的語音還會像Siri一樣充滿“機器感”。百度語音自研的語音大數(shù)據(jù)挖掘技術(shù)跳過這一過程,給方言語音合成提供規(guī)模化、高質(zhì)量的方言語料。
有了語料后,百度語音再基于語音合成大模型,一步到位地的完成方言遷移。此前,每一種方言語音合成都需要獨立的方言前端,資源耗費大、研發(fā)周期長,一套方言做下來可能要數(shù)月甚至數(shù)年。用這種模式讓“34省智能體”支持各地方言,要么需數(shù)十倍的人力投入,要么需數(shù)十倍的時間。百度語音巧妙地采取遷移技術(shù),將普通話和方言統(tǒng)一建模,實現(xiàn)任意音色說任意方言,大幅壓縮了研發(fā)成本和研發(fā)周期。
中國方言有著“十里不同音”的多樣性和復(fù)雜性,不過在語言學(xué)里,漢語方言通常可分九大方言:北方方言、吳方言、湘方言、贛方言、客家方言、粵方言、閩北方言、閩南方言、 莆仙方言。雖然各方言區(qū)內(nèi)又分布著若干次方言和許多種土語,但整體基礎(chǔ)都是“漢語”,與普通話可實現(xiàn)“遷移”,這樣看,百度語音的“方言遷移合成技術(shù)”堪稱一種方言語音合成的巧妙解法。
在羅超頻道看來,百度語音團隊發(fā)力方言并非只服務(wù)于春節(jié)這個節(jié)點或者“34省智能體”這一應(yīng)用,而是意在大模型時代搶占語音技術(shù)的先機。
隨著大模型技術(shù)的爆發(fā),文字、語音和視覺三大內(nèi)容的生成與識別成為AI的“三駕馬車”。語音技術(shù)的進(jìn)化方向只有兩個:一個是識別更準(zhǔn)確、合成更擬人;另一個是深耕細(xì)分場景,智能方言在文旅、城市、教育、醫(yī)療、客服、互聯(lián)網(wǎng)、生活服務(wù)等場景都有巨大應(yīng)用空間,比如許多城市的地鐵公交報站、醫(yī)院排隊廣播系統(tǒng)都需提供方言支持。
百度智能語音技術(shù)正在多點開花
早在2010年,深度學(xué)習(xí)技術(shù)尚未爆發(fā)時,百度就成立了語音技術(shù)團隊,并推出了首款基于深度學(xué)習(xí)的在線語音識別產(chǎn)品,后來其技術(shù)持續(xù)進(jìn)化,形成語音識別、語音喚醒、語音合成、聲紋識別等全棧技術(shù)能力,并廣泛應(yīng)用在語音搜索、語音輸入、聽書播報、音視頻質(zhì)檢、智能硬件、游戲娛樂、呼叫中心等眾多場景,驅(qū)動包括小度智能音箱、百度App在內(nèi)的國民級應(yīng)用。
2019年前后百度成了國內(nèi)大模型技術(shù)的先行者。基于大模型技術(shù),百度語音技術(shù)也取得了更大的突破。除了提高了語音識別、合成、喚醒的準(zhǔn)確率、擬人化程度外,還在方言語音等細(xì)分場景取得更大突破,并與數(shù)字人、AI視覺等技術(shù)深入融合,持續(xù)完善解決方案。
在數(shù)字人直播場景,百度語音推出了“又快又好”的數(shù)字人語音解決方案。
短視頻直播爆發(fā)后,但真人直播成本高、易翻車,因此7*24小時在線的數(shù)字人直播成了許多企業(yè)的標(biāo)配。然而,很多數(shù)字人直播語音僵硬、毫無情感、機器感強,用戶不愛。數(shù)字人聲音僵硬的根本原因在于:商家缺乏高質(zhì)量錄音數(shù)據(jù),采取傳統(tǒng)方案訓(xùn)練具有“好聲音”的數(shù)字人成本極高。
百度語音提供了一套面向直播業(yè)務(wù)場景的直播帶貨風(fēng)格的語音音庫建方案,比如可通過智能工牌設(shè)備收集用戶直播真實數(shù)據(jù),取代傳統(tǒng)錄音棚模式,極大地降低了錄制門檻和成本。在合成時,基于篇章段落合成技術(shù)和文本韻律增強技術(shù),可讓聲音更自然,韻律、停頓、激情等狀態(tài)跟真人看齊。訓(xùn)練數(shù)字人的定制音庫制作成本大幅降低,僅需幾分鐘數(shù)據(jù)就能達(dá)到超越真人的tts水平。
有聲小說也是智能語音技術(shù)的黃金應(yīng)用場景。讓小說有聲音,不只是可“讓殘障人士獲取信息”,也可吃到“耳朵經(jīng)濟”的紅利。艾媒咨詢數(shù)據(jù)顯示,2024年,我國在線音頻用戶規(guī)模達(dá)到5.4億人,聲音經(jīng)濟產(chǎn)業(yè)市場同比增長10.2%,規(guī)模達(dá)5688.2億元,預(yù)計2029年將突破7400億元。
一些內(nèi)容平臺支持文章“聽一聽”,相較而言,讓小說有聲難度大很多:需結(jié)合劇情、角色人物性格等提供更生動的聲音。百度語音融合基于LLM的小說文本理解技術(shù), 針對有聲小說生成場景,搭建了小說業(yè)務(wù)統(tǒng)一訓(xùn)練框架,在小說角色綜合準(zhǔn)確率、對白情感準(zhǔn)確度等指標(biāo)上行業(yè)領(lǐng)先。
在百度App小說“聽書”的“暢聽智能多音色”欄目,開啟“多角色演播”后,就可以體驗到業(yè)界天花板級別的AI有聲書服務(wù)。就拿蠶土豆這本經(jīng)典玄幻小說《斗破蒼穹》經(jīng)典開頭來說:
【視頻可到“羅超Pro”查看】
大家聽一下就知道其中差異:不同于其他平臺生硬的機器感合成聲音,百度小說的聲音真正體現(xiàn)出多角色、多音色、多場景的差異。蕭炎激動的少年音、考官冷漠的表述,以及路人極盡嘲諷的議論聲,都被還原得挺到位,已經(jīng)有一些“說書感”了,這是百度語音的角色預(yù)測、人物畫像構(gòu)建和對白情感分析能力的體現(xiàn)。
再來聽聽這一段的表現(xiàn):
【視頻可到“羅超Pro”查看】
除了對白中的情感控制,百度甚至能夠還原出各種語氣詞,比如少女輕微的笑聲,或者是路人感慨萬千的咋舌,甚至還能實現(xiàn)多種情感和副語言(如大笑、冷哼等)的智能生成,語義和情感都拿捏到位,還有一點情緒張力,真正實現(xiàn)了“類真人聲音合成”,讓聽者仿佛置身于真實故事情境中。
特別值得一提的是,百度語音有聲小說方案是全程“無人值守”端到端自動生成,整體的生產(chǎn)成本比真人有聲書低上百倍,除了百度小說外,已在多家第三方頭部小說平臺應(yīng)用。
(熊貓看書x百度語音合成技術(shù))
在汽車產(chǎn)業(yè),“下半場是智能化”已成為行業(yè)共識,“整車智能”成為行業(yè)新趨勢,其中“智能座艙”成為汽車智能化的核心場景,特斯拉等智能汽車追求“整車0按鈕”,用戶與車機的交互依賴大屏與語音。不過,傳統(tǒng)車載語音存在許多問題,比如在行車噪音環(huán)境下識別率低,再比如很難區(qū)分司機與乘客、主駕與副駕的聲音。
百度語音創(chuàng)造性地實現(xiàn)了多模態(tài)車載語音技術(shù),結(jié)合人臉唇動等視覺信息來做語音增強,更準(zhǔn)確地理解用戶交互意圖,徹底解決語音單模態(tài)下的背景聲干擾難題,可在超低信噪比、外噪干擾嘈雜等場景中,準(zhǔn)確分離出主副駕的有效語音和交互意圖,讓車載交互手機外噪場景從不可用變成可用,高噪下的錯誤率達(dá)到業(yè)界領(lǐng)先水平,已被應(yīng)用在業(yè)界領(lǐng)先的智能汽車量產(chǎn)車上。
作為AI語音的先行者和領(lǐng)先者,百度語音的布局方向體現(xiàn)的也是語音技術(shù)的發(fā)展方向:一方面,語音識別、合成要從有到優(yōu),更準(zhǔn)確,更逼真,更擬人;另一方面,語音技術(shù)要貼合場景深耕細(xì)作,比如發(fā)力方言等多語種領(lǐng)域,再比如結(jié)合數(shù)字人等新技術(shù),以及貼合車載等垂直場景。可以說,AI語音技術(shù)拼到最后,拼的還是綜合AI技術(shù)以及場景落地能力。24年,AI在經(jīng)歷“卷參數(shù)”后回歸到“卷應(yīng)用”、“卷場景”、“卷落地”的正軌,就像百度語音努力的方向一樣:只有讓AI深入到場景,落地到應(yīng)用,技術(shù)的強大才有意義。
春節(jié)期間,百度“34省智能體”用地道的方言給用戶帶來一個年味滿滿的中國年,打開AI+文旅產(chǎn)業(yè)想象空間的同時,給傳播方言文化貢獻(xiàn)了力量,要知道,方言是中華文化的瑰寶,每個地方的方言都像是打開一扇獨特的文化之門。兼具商業(yè)價值與社會價值,我想這是AI技術(shù)的魅力吧。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.