99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

讀2萬(wàn)字論文秒出播客,給鏈接就能嘮!揭秘豆包最新語(yǔ)音模型技術(shù)

0
分享至



智東西

作者 | 陳駿達(dá)

編輯 | 漠影

國(guó)產(chǎn)語(yǔ)音模型又進(jìn)化啦!

智東西6月12日?qǐng)?bào)道,昨天,在火山引擎Force原動(dòng)力大會(huì)上,豆包語(yǔ)音模型家族迎來(lái)上新,豆包·實(shí)時(shí)語(yǔ)音模型全量上線火山方舟,并對(duì)企業(yè)客戶開(kāi)放使用。

在豆包端到端語(yǔ)音對(duì)話系統(tǒng)基礎(chǔ)上打造的豆包·語(yǔ)音播客模型,也在會(huì)上正式亮相。這一模型可在數(shù)秒內(nèi)生成雙人對(duì)話式播客作品,效果自然,具有互相附和、插話、猶豫等播客節(jié)奏,為用戶帶來(lái)了以假亂真的收聽(tīng)體驗(yàn)。



以上2款模型只是豆包語(yǔ)音模型家族的冰山一角。

在昨日大會(huì)期間舉辦的AI應(yīng)用專場(chǎng)論壇中,字節(jié)跳動(dòng)語(yǔ)音產(chǎn)研負(fù)責(zé)人葉順平透露,目前,字節(jié)語(yǔ)音技術(shù)涵蓋了音頻生成與創(chuàng)作、音頻理解與生成和音樂(lè)理解與生成三大能力矩陣,可在語(yǔ)音助手、智能客服、在線教育、虛擬陪伴、有聲內(nèi)容生產(chǎn)等場(chǎng)景發(fā)揮價(jià)值,日均語(yǔ)音處理量達(dá)到約150億次,應(yīng)用到超30個(gè)行業(yè)。



亮眼數(shù)據(jù)背后,是字節(jié)在語(yǔ)音技術(shù)方面的持續(xù)投入。端到端架構(gòu)的應(yīng)用為語(yǔ)音交互注入了“靈魂”;數(shù)據(jù)收集、預(yù)訓(xùn)練、后訓(xùn)練的協(xié)同作用,賦予了模型情感表現(xiàn)力和洞察力;強(qiáng)化學(xué)習(xí)等技術(shù)的引入,也為模型的持續(xù)優(yōu)化和智能水平提升提供了有力支持。

這些技術(shù)突破共同推動(dòng)了豆包語(yǔ)音模型家族在實(shí)時(shí)語(yǔ)音交互、語(yǔ)音播客等場(chǎng)景下的出色表現(xiàn),也讓我們看見(jiàn)了國(guó)產(chǎn)語(yǔ)音模型的廣闊前景。

一、語(yǔ)音交互人機(jī)感太重?用端到端架構(gòu)給AI注入“靈魂”

過(guò)去的AI語(yǔ)音交互系統(tǒng)大多采用多階段級(jí)聯(lián)架構(gòu),包含語(yǔ)音識(shí)別、文本生成和語(yǔ)音合成三大模塊,冗長(zhǎng)的處理鏈路限制了響應(yīng)速度、控制能力和多模態(tài)一致性。

此外,由于各模塊獨(dú)立運(yùn)行,此類系統(tǒng)難以理解語(yǔ)音中的情緒、語(yǔ)氣和停頓等副語(yǔ)言信息,使得語(yǔ)音交互始終“人機(jī)感”濃重。

隨著大模型技術(shù)的發(fā)展,如今的語(yǔ)音交互實(shí)現(xiàn)了語(yǔ)音理解與生成在同一模型中的協(xié)同完成,能夠更自然流暢地進(jìn)行對(duì)話。

去年,GPT-4o向世界展示了“真人感”語(yǔ)音交互的可能性,但在中文表現(xiàn)上仍有局限。而火山引擎今年年初發(fā)布的豆包·實(shí)時(shí)語(yǔ)音模型,憑借更強(qiáng)的中文理解力和高情商反饋,展現(xiàn)了中文語(yǔ)音交互的理想雛形。

要與這款實(shí)時(shí)語(yǔ)音模型對(duì)話,用戶僅需在豆包App中點(diǎn)擊右上角的電話按鈕。在實(shí)測(cè)中,這款模型的“擬人感”讓人印象深刻,在語(yǔ)氣、用語(yǔ)、思考方式上更接近人類,可根據(jù)用戶情緒和語(yǔ)境提供實(shí)時(shí)的高情商回復(fù),還能演會(huì)唱,支持打斷和主動(dòng)搭話。

下方案例中,豆包不但根據(jù)“5歲孩子”的語(yǔ)境信息調(diào)整了所傳達(dá)的信息,使用了極具親和力的語(yǔ)氣,二者相輔相成,很好地完成了交互的目的。模型生成這段語(yǔ)音的速度極快,在實(shí)際使用中用戶對(duì)延遲的感知并不明顯。



00:24

豆包·實(shí)時(shí)語(yǔ)音模型的端到端語(yǔ)音系統(tǒng)框架是實(shí)現(xiàn)這一切的基礎(chǔ)。這一框架面向語(yǔ)音生成和理解進(jìn)行統(tǒng)一建模,實(shí)現(xiàn)多模態(tài)輸入和輸出效果,從根本上避免了傳統(tǒng)級(jí)聯(lián)系統(tǒng)的種種劣勢(shì)。

更進(jìn)一步,豆包實(shí)時(shí)語(yǔ)音模型具備豐富的高階語(yǔ)音控制與演繹能力。它不僅能根據(jù)用戶的復(fù)雜指令進(jìn)行語(yǔ)音風(fēng)格的精細(xì)調(diào)控,如語(yǔ)速、語(yǔ)調(diào)、節(jié)奏等,還擁有不錯(cuò)的情緒演繹能力,能在喜怒哀樂(lè)之間自然切換,并在講故事、角色對(duì)話等任務(wù)中表現(xiàn)出極強(qiáng)的表現(xiàn)力和聲音創(chuàng)造力。

令人驚喜的是,得益于預(yù)訓(xùn)練階段的大量數(shù)據(jù)泛化,模型已涌現(xiàn)出初步的方言與口音模仿能力,顯示出語(yǔ)言遷移與適應(yīng)能力。



00:10

豆包·實(shí)時(shí)語(yǔ)音模型即將上線的“聲音復(fù)刻”能力,可以視作是上述高階能力的延申。聲音復(fù)刻實(shí)現(xiàn)了從“復(fù)刻音色”到“復(fù)刻表達(dá)”的全面升級(jí),不僅能通過(guò)少量語(yǔ)音樣本高度還原用戶音色,更能在對(duì)話中根據(jù)語(yǔ)境復(fù)刻情緒與語(yǔ)氣,實(shí)現(xiàn)情感一致、自然擬人的語(yǔ)音表達(dá)。

二、AI播客賽道熱度不減,國(guó)產(chǎn)方案如何打造差異化優(yōu)勢(shì)?

豆包語(yǔ)音模型家族在不斷擴(kuò)展,其最新成員之一是于今年5月下旬推出的豆包·語(yǔ)音播客模型。

這一模型的推出,恰逢播客市場(chǎng)的蓬勃增長(zhǎng)?!?025播客營(yíng)銷白皮書(shū)》顯示,2024年,全球播客聽(tīng)眾數(shù)量約為5億人,播客市場(chǎng)規(guī)模預(yù)計(jì)突破300億美元,同年,中文播客聽(tīng)眾數(shù)量的增速達(dá)到43.6%,位居全球第一,2025年預(yù)計(jì)這一數(shù)字預(yù)計(jì)將突破1.5億。

無(wú)論是對(duì)行業(yè)頭部的專業(yè)創(chuàng)作者和機(jī)構(gòu),還是個(gè)人創(chuàng)作者而言,高度擬真的AI播客模型,都有望降低制作成本,擴(kuò)展內(nèi)容的豐富程度,提升創(chuàng)作效率。

其實(shí),在過(guò)去很長(zhǎng)一段時(shí)間內(nèi),AI播客屆的明星產(chǎn)品一直是來(lái)自谷歌的NotebookLM。在智東西的日常體驗(yàn)中,NotebookLM能圍繞既有材料和信息,以雙人播客形式輸出內(nèi)容,但是內(nèi)容的自然度、流暢度上仍稍顯欠缺,在中文場(chǎng)景尤為明顯。

這正是豆包·語(yǔ)音播客模型想要解決的問(wèn)題。這一模型在實(shí)時(shí)語(yǔ)音模型的基座之上,對(duì)中文播客場(chǎng)景做了針對(duì)性優(yōu)化,使播客內(nèi)容、結(jié)構(gòu)和對(duì)話推進(jìn)更符合中文特點(diǎn),包括口語(yǔ)化、雙人互動(dòng)等,對(duì)話節(jié)奏和感覺(jué)也更接近真人主播。

目前,這一播客模型已經(jīng)可在豆包PC端、扣子空間等產(chǎn)品中體驗(yàn)。在豆包PC端,用戶可上傳PDF文檔或是添加網(wǎng)頁(yè)鏈接來(lái)生成播客。這一模型的生成速度極快,在智東西上傳一篇論文后,豆包在幾秒內(nèi)便返回了可供收聽(tīng)的播客。



用戶還可在地址欄的右側(cè)找到網(wǎng)頁(yè)播客按鈕,點(diǎn)擊后便可立即收聽(tīng)AI播客。



豆包·語(yǔ)音播客模型能對(duì)用戶上傳的信息進(jìn)行改造,使其更適合聽(tīng)眾消費(fèi)。例如,智東西上傳了長(zhǎng)達(dá)2萬(wàn)余字的論文本身采取了相對(duì)結(jié)構(gòu)化的寫作模式,如果照搬原文行文邏輯,播客的收聽(tīng)體驗(yàn)將會(huì)大打折扣。

但模型并未受到原文本的影響,會(huì)以問(wèn)答的形式推進(jìn)播客。每個(gè)問(wèn)答的長(zhǎng)度適中,凝練的問(wèn)題為聽(tīng)眾提供了更為清晰的收聽(tīng)體驗(yàn),不會(huì)在長(zhǎng)篇大論中失去方向。

豆包生成的播客文稿中有大量的語(yǔ)氣詞、附和、停頓,這很好地模擬了真人專業(yè)博客中的口語(yǔ)習(xí)慣,有效提升了擬人程度。



豆包·語(yǔ)音播客模型所生成播客的部分文字稿

為實(shí)現(xiàn)上述效果,豆包·語(yǔ)音播客模型先是對(duì)播客這一內(nèi)容形式進(jìn)行了詳細(xì)的體驗(yàn)拆解,分析真人對(duì)話的節(jié)奏、自然度、信息密度等維度,基于這些認(rèn)知,對(duì)模型的輸出效果進(jìn)行調(diào)整。

專業(yè)播客創(chuàng)作者也參與到了這一過(guò)程中,與模型團(tuán)隊(duì)共同探索和生產(chǎn)高質(zhì)量數(shù)據(jù),并在評(píng)測(cè)中不斷優(yōu)化模型生成的內(nèi)容。

除了依賴豆包·實(shí)時(shí)語(yǔ)音模型在預(yù)訓(xùn)練階段培養(yǎng)的擬人化交互能力,有監(jiān)督微調(diào)(SFT)也對(duì)播客模型交互性、真實(shí)感的提升起到了重要作用。該團(tuán)隊(duì)對(duì)數(shù)據(jù)進(jìn)行了細(xì)致的打磨與標(biāo)注,為模型學(xué)習(xí)真人交互感提供了重要參考。

三、字節(jié)加速語(yǔ)音能力對(duì)外輸出,合成、識(shí)別、翻譯能力全面提升

在昨日下午的AI應(yīng)用分論壇上,葉順平向外界透露豆包語(yǔ)音模型家族未來(lái)的發(fā)展方向。在全量上線后,豆包·實(shí)時(shí)語(yǔ)音模型將會(huì)提供更多音色,玩法方面擴(kuò)展音色克隆、歌唱能力等等。近期,豆包在歌唱場(chǎng)景的指令遵循、音準(zhǔn)等屬性已迎來(lái)提升。

近期爆火的豆包·語(yǔ)音播客模型,已在實(shí)踐中展現(xiàn)出了幾大可優(yōu)化的方向。未來(lái),這一模型生成的播客信息密度會(huì)進(jìn)一步提高,用于提升對(duì)話自然度的語(yǔ)氣詞、句式會(huì)更加多樣化,不僅只有簡(jiǎn)單的承接,還能有觀點(diǎn)的交流與碰撞。

當(dāng)下,豆包·語(yǔ)音播客模型提供了一男一女兩個(gè)音色,不過(guò)不同風(fēng)格的音色已經(jīng)在開(kāi)發(fā)中。未來(lái),這款模型還可能探索更為豐富的音色組合,例如給娛樂(lè)、科技等不同細(xì)分領(lǐng)域的播客提供不同音色,提升收聽(tīng)體驗(yàn)。



豆包·語(yǔ)音播客模型未來(lái)或?qū)⒅С?strong>單口播客、多人對(duì)談播客等形式,甚至探索互動(dòng)播客的形式——允許用戶在收聽(tīng)過(guò)程中插話,甚至影響播客的內(nèi)容走向。

通過(guò)提供種種更多的選擇,豆包·語(yǔ)音播客模型有望進(jìn)一步釋放用戶在播客和泛音頻內(nèi)容場(chǎng)景的消費(fèi)潛力。

字節(jié)還在近期將其語(yǔ)音合成模型Seed-TTS升級(jí)至2.0版本,進(jìn)一步提升模型表現(xiàn)力,提供給用戶更豐富的指令控制能力;Seed-ASR語(yǔ)音識(shí)別模型基座再次升級(jí),支持更友好的上下文理解能力,識(shí)別準(zhǔn)確率進(jìn)一步提升;端到端同聲傳譯模型已經(jīng)在豆包和飛書(shū)內(nèi)部落地,在教育、金融、體育等等領(lǐng)域的中英互譯效果已媲美人類譯員。



未來(lái),字節(jié)跳動(dòng)將大力加速語(yǔ)音能力對(duì)外輸出。相關(guān)舉措包括全量開(kāi)放豆包·實(shí)時(shí)語(yǔ)音模型、提供更多豆包同款音色,播客模型也有望在近期對(duì)外部客戶開(kāi)放。對(duì)業(yè)內(nèi)企業(yè)而言,字節(jié)語(yǔ)音模型家族近期的集中上新,意味著革新業(yè)務(wù)的機(jī)遇。

結(jié)語(yǔ):押注下一代交互入口,字節(jié)搶占領(lǐng)先身位

語(yǔ)音交互的龐大潛力,已在業(yè)內(nèi)成為共識(shí)。這一交互形態(tài)原生的沉浸感、陪伴感,使其在語(yǔ)音助手、AI硬件、內(nèi)容制作與消費(fèi)等領(lǐng)域展現(xiàn)出獨(dú)特的優(yōu)勢(shì)和廣闊的應(yīng)用場(chǎng)景。隨著生成式AI驅(qū)動(dòng)的語(yǔ)音技術(shù)不斷進(jìn)化,語(yǔ)音或許有望成為下一代人機(jī)交互的主要入口之一。

作為國(guó)內(nèi)少數(shù)在語(yǔ)音模型側(cè)和語(yǔ)音交互產(chǎn)品側(cè)都占據(jù)行業(yè)領(lǐng)先身位的玩家,字節(jié)有望通過(guò)底層技術(shù)的持續(xù)提升和真實(shí)數(shù)據(jù)指導(dǎo)下的能力優(yōu)化,為行業(yè)和用戶帶來(lái)更加智能、便捷和自然的語(yǔ)音交互體驗(yàn)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
何時(shí)出梅?江蘇最新預(yù)測(cè)

何時(shí)出梅?江蘇最新預(yù)測(cè)

荔枝新聞
2025-06-13 16:19:23
正式拒絕,馬龍發(fā)聲,官宣決定,國(guó)乒批準(zhǔn),原因曝光

正式拒絕,馬龍發(fā)聲,官宣決定,國(guó)乒批準(zhǔn),原因曝光

東球弟
2025-06-13 11:16:47
“館長(zhǎng)”喊話兩岸一家,點(diǎn)名蔡英文、柯建銘,黃智賢:典型雙面人

“館長(zhǎng)”喊話兩岸一家,點(diǎn)名蔡英文、柯建銘,黃智賢:典型雙面人

DS北風(fēng)
2025-06-12 16:29:06
官媒發(fā)聲!國(guó)足再弱也是國(guó)家隊(duì),拿南通隊(duì)去挑戰(zhàn)的想法應(yīng)到此為止

官媒發(fā)聲!國(guó)足再弱也是國(guó)家隊(duì),拿南通隊(duì)去挑戰(zhàn)的想法應(yīng)到此為止

清游說(shuō)娛
2025-06-12 15:05:29
袁立和第三任丈夫游巴黎,52歲顏值狀態(tài)回春,變漂亮很多!

袁立和第三任丈夫游巴黎,52歲顏值狀態(tài)回春,變漂亮很多!

西瓜愛(ài)娛娛
2025-06-13 10:17:05
董明珠“老人味空調(diào)”曝光,網(wǎng)友:比玫瑰款更讓人繃不?。?>
    </a>
        <h3>
      <a href=董明珠“老人味空調(diào)”曝光,網(wǎng)友:比玫瑰款更讓人繃不??! MICU設(shè)計(jì)
2025-06-10 21:43:48
金球獎(jiǎng)評(píng)委:世俱杯結(jié)束前我不確定投給誰(shuí),可惜亞馬爾不參加

金球獎(jiǎng)評(píng)委:世俱杯結(jié)束前我不確定投給誰(shuí),可惜亞馬爾不參加

懂球帝
2025-06-13 06:49:11
“中產(chǎn)階級(jí)”及格線出來(lái)了!全國(guó)總共才3320萬(wàn)戶?你達(dá)標(biāo)了嗎?

“中產(chǎn)階級(jí)”及格線出來(lái)了!全國(guó)總共才3320萬(wàn)戶?你達(dá)標(biāo)了嗎?

巢客HOME
2025-06-05 16:15:03
好消息:中國(guó)出口導(dǎo)彈擊落了一架戰(zhàn)機(jī)!壞消息:戰(zhàn)機(jī)也是中國(guó)產(chǎn)的

好消息:中國(guó)出口導(dǎo)彈擊落了一架戰(zhàn)機(jī)!壞消息:戰(zhàn)機(jī)也是中國(guó)產(chǎn)的

鐵錘簡(jiǎn)科
2025-06-13 13:01:46
阿斯:由于頂級(jí)球星缺席、門票銷量慘淡,本屆世俱杯注定失敗

阿斯:由于頂級(jí)球星缺席、門票銷量慘淡,本屆世俱杯注定失敗

懂球帝
2025-06-13 16:57:34
跟隨臺(tái)灣網(wǎng)紅館長(zhǎng)同來(lái)大陸的美女主播是誰(shuí)?

跟隨臺(tái)灣網(wǎng)紅館長(zhǎng)同來(lái)大陸的美女主播是誰(shuí)?

微微熱評(píng)
2025-06-12 09:33:50
上海土著的悲歌

上海土著的悲歌

求實(shí)處
2025-06-12 18:54:29
老美急了!西工大再突破“炸裂”技術(shù),可使戰(zhàn)斗機(jī)領(lǐng)先美軍一代

老美急了!西工大再突破“炸裂”技術(shù),可使戰(zhàn)斗機(jī)領(lǐng)先美軍一代

南海的波濤
2025-06-13 12:05:02
太能演了,嚴(yán)重懷疑特朗普和馬斯克兩人唱雙簧,一起炒股賺錢

太能演了,嚴(yán)重懷疑特朗普和馬斯克兩人唱雙簧,一起炒股賺錢

西樓知趣雜談
2025-06-13 07:03:23
剛剛!突然飆漲超160%!

剛剛!突然飆漲超160%!

證券時(shí)報(bào)
2025-06-13 14:25:06
“想裝還舍不得花錢”10歲女孩生日大排宴宴,被網(wǎng)友扒出團(tuán)購(gòu)訂單

“想裝還舍不得花錢”10歲女孩生日大排宴宴,被網(wǎng)友扒出團(tuán)購(gòu)訂單

知曉科普
2025-06-13 11:48:53
張居正最高級(jí)的8大改命語(yǔ)錄,一生至少要讀一次

張居正最高級(jí)的8大改命語(yǔ)錄,一生至少要讀一次

詩(shī)詞世界
2025-06-13 06:06:35
伊朗第一輪反擊結(jié)束,100多架無(wú)人機(jī)全部被攔截

伊朗第一輪反擊結(jié)束,100多架無(wú)人機(jī)全部被攔截

三叔的裝備空間
2025-06-13 17:49:04
明天到達(dá)河南!全省有陣雨,局地大雨、暴雨、短時(shí)強(qiáng)降水、雷暴大風(fēng)、冰雹!

明天到達(dá)河南!全省有陣雨,局地大雨、暴雨、短時(shí)強(qiáng)降水、雷暴大風(fēng)、冰雹!

魯中晨報(bào)
2025-06-13 15:06:15
38℃!中雨大雨暴雨!安徽天氣大反轉(zhuǎn)

38℃!中雨大雨暴雨!安徽天氣大反轉(zhuǎn)

魯中晨報(bào)
2025-06-13 18:14:06
2025-06-13 20:23:00
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級(jí)。
10004文章數(shù) 116773關(guān)注度
往期回顧 全部

科技要聞

報(bào)志愿非得花上萬(wàn)元找"張雪峰"?AI行不行

頭條要聞

伊朗幾個(gè)關(guān)鍵核設(shè)施未受襲擊影響 專家:全面摧毀困難

頭條要聞

伊朗幾個(gè)關(guān)鍵核設(shè)施未受襲擊影響 專家:全面摧毀困難

體育要聞

世界第一和他背后的智囊

娛樂(lè)要聞

宋茜壓軸風(fēng)波升級(jí)!官方下場(chǎng)暗示順序

財(cái)經(jīng)要聞

5月M2同增7.9% 前5個(gè)月存款增14.73萬(wàn)億

汽車要聞

長(zhǎng)城為了拿環(huán)塔冠軍有多拼?魏建軍在下一盤大棋!

態(tài)度原創(chuàng)

健康
手機(jī)
旅游
房產(chǎn)
軍事航空

呼吸科專家破解呼吸道九大謠言!

手機(jī)要聞

紅米Note15 Pro再次被確認(rèn):旗艦主攝+人像長(zhǎng)焦,Q3季度發(fā)布

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

房產(chǎn)要聞

18位頂級(jí)買家瘋搶!凱旋新世界,憑何成為廣州頂豪終極價(jià)值錨點(diǎn)?

軍事要聞

伊朗多名將領(lǐng)、核科學(xué)家遇襲身亡 身份披露

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 朔州市| 临泽县| 兰溪市| 社会| 岢岚县| 南岸区| 喀喇| 图木舒克市| 安宁市| 尼勒克县| 娱乐| 宝兴县| 绥阳县| 合川市| 丹寨县| 石嘴山市| 双江| 中山市| 天镇县| 达拉特旗| 法库县| 武山县| 象州县| 湘潭市| 武乡县| 遂川县| 华坪县| 抚顺县| 宜兴市| 防城港市| 女性| 安丘市| 昭通市| 肃宁县| 无为县| 九龙县| 耿马| 山东| 侯马市| 鸡泽县| 宝应县|