99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

實(shí)時(shí)交互破局!SpeechGPT 2.0-preview端到端超越OpenAI

0
分享至

始智AI wisemodel.cn開源社區(qū)

始智AI wisemodel.cn社區(qū)是源自中國(guó)的中立開放的AI開源社區(qū)。正在,歡迎加入共同成長(zhǎng)。wisemodel社區(qū)上線,最新上線4090資源不限量,價(jià)格實(shí)惠,靈活方便,支持在線微調(diào)訓(xùn)練模型,及和,并。

在AI語(yǔ)音交互領(lǐng)域,重大突破正在改寫格局!OpenAI尚未實(shí)現(xiàn)的實(shí)時(shí)交互,被中國(guó)團(tuán)隊(duì)以創(chuàng)新性「端到端」方案成功攻克。

成果便是備受矚目的SpeechGPT 2.0-preview ,這是邁向情景智能推出的首個(gè)擬人化實(shí)時(shí)交互系統(tǒng),基于百萬(wàn)小時(shí)級(jí)語(yǔ)音數(shù)據(jù)訓(xùn)練。

其端到端語(yǔ)音大模型設(shè)計(jì),實(shí)現(xiàn)擬人口語(yǔ)化表達(dá)、百毫秒級(jí)低延遲響應(yīng)與實(shí)時(shí)打斷交互,還對(duì)齊語(yǔ)音和文本模態(tài),支持多情感風(fēng)格控制、工具調(diào)用等 ,盡顯技術(shù)創(chuàng)新實(shí)力。該模型已上線始智AI-wisemodel開源社區(qū),歡迎大家前去體驗(yàn)。


模型地址

https://wisemodel.cn/models/singularity/SpeechGPT-2.0-preview-7B

01.

模型概述

SpeechGPT 2.0-preview是邁向情景智能推出的第一個(gè)擬人化實(shí)時(shí)交互系統(tǒng)。作為在百萬(wàn)小時(shí)級(jí)語(yǔ)音數(shù)據(jù)上訓(xùn)練的端到端語(yǔ)音大模型,它具有擬人口語(yǔ)化表達(dá)與百毫秒級(jí)低延遲響應(yīng),支持自然流暢的實(shí)時(shí)打斷交互。

SpeechGPT 2.0-preview較好的對(duì)齊了語(yǔ)音和文本兩個(gè)模態(tài)

一方面展現(xiàn)出了一定的風(fēng)格泛化能力,能夠遵循用戶指令,實(shí)現(xiàn)多情感、多風(fēng)格、多音色的控制與智能切換;擁有不錯(cuò)的角色扮演能力,能夠模擬各類角色的語(yǔ)氣和情感狀態(tài);它還具備多種語(yǔ)音才藝,能夠進(jìn)行詩(shī)歌朗誦、故事講述、說(shuō)方言等;

另一方面,它在具備語(yǔ)音表現(xiàn)力的同時(shí)有不錯(cuò)的智商與文本能力,從而具備支持工具調(diào)用、聯(lián)網(wǎng)搜索、外掛知識(shí)庫(kù)等功能的能力。

SpeechGPT 2.0-preview目前只在中文語(yǔ)音數(shù)據(jù)上做了訓(xùn)練,沒有混英文語(yǔ)音數(shù)據(jù)訓(xùn)練,因此目前模型還沒有英文對(duì)話能力。

02.

技術(shù)簡(jiǎn)介

SpeechGPT 2.0-preview作為一款端到端語(yǔ)音對(duì)話大模型,凝聚了研究團(tuán)隊(duì)在在端到端語(yǔ)音對(duì)話方向上的認(rèn)知與技術(shù)積累和沉淀。在其開發(fā)進(jìn)程中,一系列創(chuàng)新性技術(shù)與系統(tǒng)發(fā)揮了關(guān)鍵作用:

自研超低比特率流式語(yǔ)音Codec:能處理24khz的語(yǔ)音輸入,將語(yǔ)音壓縮至每秒75個(gè)token,支持流式輸入輸出,實(shí)現(xiàn)200ms以內(nèi)延遲的實(shí)時(shí)交互。

語(yǔ)音數(shù)據(jù)處理系統(tǒng):構(gòu)建了高效的語(yǔ)音數(shù)據(jù)爬取系統(tǒng)、多功能高效率語(yǔ)音數(shù)據(jù)清洗pipeline和全方面多粒度語(yǔ)音數(shù)據(jù)標(biāo)注系統(tǒng),積累并精細(xì)標(biāo)注了百萬(wàn)小時(shí)級(jí)的真實(shí)語(yǔ)音數(shù)據(jù),為模型訓(xùn)練提供了豐富且高質(zhì)量的數(shù)據(jù)。

對(duì)話語(yǔ)音合成系統(tǒng):開發(fā)的對(duì)話語(yǔ)音合成系統(tǒng)具有高度口語(yǔ)化和極強(qiáng)音色克隆能力,基于此合成了數(shù)十萬(wàn)小時(shí)的多角色多風(fēng)格語(yǔ)音對(duì)話數(shù)據(jù),使模型的語(yǔ)音輸出更加自然、豐富。

語(yǔ)音文本混合建模:提出新的語(yǔ)音文本混合建模模型架構(gòu)以及多階段語(yǔ)音文本混合建模訓(xùn)練流程,包括模態(tài)適應(yīng)預(yù)訓(xùn)練、跨模態(tài)指令微調(diào)和鏈?zhǔn)侥B(tài)微調(diào)等,兼顧了文本能力與語(yǔ)音能力,還能支持工具調(diào)用、聯(lián)網(wǎng)搜索、外掛知識(shí)庫(kù)等功能。

通過(guò)端到端的方式建模語(yǔ)音對(duì)話,SpeechGPT 2.0-preview 在實(shí)際測(cè)試中實(shí)現(xiàn)了200ms以內(nèi)的延遲,能夠?yàn)橛脩籼峁┝鲿车膶?shí)時(shí)交互體驗(yàn)。

在實(shí)驗(yàn)過(guò)程中,研究團(tuán)隊(duì)也觀察到了很多有意思的現(xiàn)象和結(jié)論:比如通過(guò)充分的語(yǔ)音文本對(duì)齊預(yù)訓(xùn)練,發(fā)現(xiàn)模型可以"涌現(xiàn)"出語(yǔ)音風(fēng)格的泛化性,比如沒有用語(yǔ)速調(diào)整的對(duì)話數(shù)據(jù)訓(xùn)練就可以做到語(yǔ)速控制,比如可以扮演對(duì)話數(shù)據(jù)中從未見過(guò)的角色與風(fēng)格的語(yǔ)氣等;語(yǔ)音數(shù)據(jù)合成引擎的質(zhì)量是提升端到端語(yǔ)音模型的各訓(xùn)練階段能力的關(guān)鍵。

語(yǔ)義-聲學(xué)聯(lián)合建模的超低比特率流式語(yǔ)音 Codec


SpeechGPT 2.0-preview具備一系列卓越關(guān)鍵特性,其支持24khz語(yǔ)音輸入,采用語(yǔ)義-聲學(xué)聯(lián)合建模技術(shù),實(shí)現(xiàn)了低比特率—750bps(每秒75 token),還支持流式輸入輸出,極大提升交互效率與體驗(yàn)。

基于Codec Patchify的語(yǔ)音-文本混合建模模型架構(gòu)


Codec patchify,我們通過(guò)Codec patchify來(lái)有效減小語(yǔ)音和文本序列之間的模態(tài)差異,從而緩解跨模態(tài)建模中的沖突問(wèn)題。具體而言,該方法將相鄰T個(gè)時(shí)間步的RVQ codec token聚合為一個(gè)patch,通過(guò)patch projector模塊將其映射為統(tǒng)一的向量表示,隨后輸入到speech-text LLM中進(jìn)行聯(lián)合建模。

在模型架構(gòu)設(shè)計(jì)上,LLM的隱藏狀態(tài)會(huì)同時(shí)用于兩個(gè)解碼任務(wù):一方面解碼生成文本輸出,另一方面輸入到patch decoder中進(jìn)行語(yǔ)音重建。

特別地,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)具有多解碼頭的自回歸語(yǔ)言模型作為patch decoder,該模塊能夠通過(guò)自回歸方式逐步解碼,每次生成一個(gè)時(shí)間步的多個(gè)RVQ codec token,從而輸出語(yǔ)音。

語(yǔ)音文本聯(lián)合建模,靈活交叉自由組合,speech-text LLM會(huì)同時(shí)輸入和輸出語(yǔ)音和文本表示。

03.

模型能力

SpeechGPT 2.0-preview為用戶提供了一系列令人矚目的體驗(yàn)?zāi)芰?。?dāng)你與它交流時(shí),會(huì)發(fā)現(xiàn)其對(duì)話輸出極為自然流暢,高度口語(yǔ)化的表達(dá)就如同與身邊的朋友親切交談,毫無(wú)生硬之感。在交互過(guò)程中,它能夠做到實(shí)時(shí)響應(yīng),憑借先進(jìn)的技術(shù)實(shí)現(xiàn)200ms以內(nèi)的低延時(shí),即使你在對(duì)話中途靈活打斷,它也能迅速調(diào)整,緊跟你的思路。 其生成的語(yǔ)音不僅情感豐富,可隨語(yǔ)境表達(dá)出喜怒哀樂等多種情緒,而且風(fēng)格多樣,或幽默風(fēng)趣,或沉穩(wěn)專業(yè)。值得一提的是,它還擅長(zhǎng)角色扮演,不管是扮演歷史人物講述過(guò)去的故事,還是模擬專業(yè)人士解答疑難問(wèn)題,都能游刃有余,堪稱多才多藝,為用戶帶來(lái)獨(dú)一無(wú)二的對(duì)話體驗(yàn)。

SpeechGPT 2.0-preview在模型穩(wěn)定性以及音質(zhì)穩(wěn)定性上還需要進(jìn)一步的加強(qiáng),研究團(tuán)隊(duì)正在進(jìn)行雙工模型的訓(xùn)練以及系統(tǒng)搭建,結(jié)合RLHF來(lái)增強(qiáng)模型表現(xiàn)力與穩(wěn)定性以及進(jìn)一步擴(kuò)增語(yǔ)音數(shù)據(jù)量以及擴(kuò)展到更多的語(yǔ)言,請(qǐng)期待下一版本的更新。

編輯丨趙雅鑫

----- END -----

wisemodel相關(guān):

系統(tǒng)升級(jí):

大賽報(bào)名:

系列模型:

關(guān)于wisemodel更多

1

歡迎持續(xù)關(guān)注和支持

開源社區(qū)建設(shè)需要長(zhǎng)期堅(jiān)持和投入,更需要廣大用戶的積極參與、貢獻(xiàn)和維護(hù),歡迎大家加入wisemodel開源社區(qū)的志愿者計(jì)劃和開源共創(chuàng)計(jì)劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請(qǐng)加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動(dòng)態(tài)。

2

歡迎加盟wisemodel開源社區(qū)

始智AI wisemodel社區(qū)自2023年9月上線以來(lái),逐漸成為影響力日益擴(kuò)大的中立開放的AI開源社區(qū),為了加快公司發(fā)展,我們長(zhǎng)期需要技術(shù)、運(yùn)營(yíng)等人才加盟,技術(shù)側(cè)重在AI infra、后端開發(fā),熟悉K8S、模型訓(xùn)練和推理等技術(shù), 以及熟悉開發(fā)者生態(tài)運(yùn)營(yíng)的成員,歡迎感興趣的朋友加盟,可以通過(guò)添加wisemodel微信,或者將簡(jiǎn)歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵(lì)高校實(shí)驗(yàn)室、大企業(yè)研究團(tuán)隊(duì)、個(gè)人等,在wisemodel平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實(shí)踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關(guān)于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會(huì)AI大數(shù)據(jù)專委會(huì)副秘書長(zhǎng)劉道全創(chuàng)立,旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高??蒲性核?、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個(gè)人開發(fā)者,以及政府部門、學(xué)會(huì)協(xié)會(huì)、聯(lián)盟、基金會(huì)等,還有投資機(jī)構(gòu)、科技媒體等,共同參與建設(shè)AI開源創(chuàng)新生態(tài)。

向上滑動(dòng)查看

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
年輕兒媳哭述:婆婆每個(gè)月都向我們要很多錢,不給就說(shuō)不孝順

年輕兒媳哭述:婆婆每個(gè)月都向我們要很多錢,不給就說(shuō)不孝順

清水家庭故事
2025-07-16 08:07:01
曼聯(lián)放棄皇馬5000萬(wàn)新援原因曝光!滕哈格看衰,寧可沒左閘也不用

曼聯(lián)放棄皇馬5000萬(wàn)新援原因曝光!滕哈格看衰,寧可沒左閘也不用

羅米的曼聯(lián)博客
2025-07-17 07:21:11
35歲民政局副局長(zhǎng)公示任鄉(xiāng)鎮(zhèn)長(zhǎng),21歲時(shí)咋以高中學(xué)歷聘為鎮(zhèn)勞動(dòng)服務(wù)站站長(zhǎng)?相關(guān)回應(yīng):那時(shí)要求沒那么嚴(yán)格

35歲民政局副局長(zhǎng)公示任鄉(xiāng)鎮(zhèn)長(zhǎng),21歲時(shí)咋以高中學(xué)歷聘為鎮(zhèn)勞動(dòng)服務(wù)站站長(zhǎng)?相關(guān)回應(yīng):那時(shí)要求沒那么嚴(yán)格

大風(fēng)新聞
2025-07-16 11:35:34
萬(wàn)億順差下的殘酷真相,中國(guó)企業(yè)為何越卷越窮?

萬(wàn)億順差下的殘酷真相,中國(guó)企業(yè)為何越卷越窮?

楓冷慕詩(shī)
2025-07-15 12:34:17
11歲玥兒正臉曝光,模樣清純性格溫順,難怪汪小菲這么疼愛女兒

11歲玥兒正臉曝光,模樣清純性格溫順,難怪汪小菲這么疼愛女兒

娛圈小愚
2025-07-16 11:55:17
新能源車徹底取代油車是鬧劇嗎?網(wǎng)友:當(dāng)年小靈通也是這么想的

新能源車徹底取代油車是鬧劇嗎?網(wǎng)友:當(dāng)年小靈通也是這么想的

帶你感受人間冷暖
2025-07-06 00:05:10
東北小伙賣11套房,15年花450萬(wàn)送孩子到加拿大讀書,如今咋樣?

東北小伙賣11套房,15年花450萬(wàn)送孩子到加拿大讀書,如今咋樣?

曉林說(shuō)娛
2025-07-16 10:37:35
北京醫(yī)科大學(xué)曲黎敏教授大膽直言:“一夫一妻制是違背人性的

北京醫(yī)科大學(xué)曲黎敏教授大膽直言:“一夫一妻制是違背人性的

忠于法紀(jì)
2025-07-16 18:55:38
杜建英反擊?港媒曝猛料,宗馥莉疑為雙重國(guó)籍,網(wǎng)友倒戈要求制裁

杜建英反擊?港媒曝猛料,宗馥莉疑為雙重國(guó)籍,網(wǎng)友倒戈要求制裁

文雅筆墨
2025-07-17 03:28:16
阿里錯(cuò)失的七年:打通淘寶與餓了么的結(jié)界后,單日激增4000萬(wàn)單

阿里錯(cuò)失的七年:打通淘寶與餓了么的結(jié)界后,單日激增4000萬(wàn)單

侃故事的阿慶
2025-07-16 14:25:37
五家野戰(zhàn)軍入朝鮮:在國(guó)內(nèi)時(shí)難以評(píng)比,一打美軍就看出誰(shuí)更強(qiáng)

五家野戰(zhàn)軍入朝鮮:在國(guó)內(nèi)時(shí)難以評(píng)比,一打美軍就看出誰(shuí)更強(qiáng)

舊書卷里的長(zhǎng)安
2025-02-15 23:55:03
不打了!再見狀元和榜眼!全部退出NBA夏季聯(lián)賽

不打了!再見狀元和榜眼!全部退出NBA夏季聯(lián)賽

籃球?qū)崙?zhàn)寶典
2025-07-17 08:37:12
淄博188個(gè)雨量站全部降雨,暴雨33個(gè)

淄博188個(gè)雨量站全部降雨,暴雨33個(gè)

魯中晨報(bào)
2025-07-17 09:38:19
沒想到,美國(guó)大滿貫剛結(jié)束,張本智和就憑一則言論,實(shí)現(xiàn)口碑暴增

沒想到,美國(guó)大滿貫剛結(jié)束,張本智和就憑一則言論,實(shí)現(xiàn)口碑暴增

順靜自然
2025-07-17 03:29:57
加媒:擺脫美國(guó),靠緊中國(guó)

加媒:擺脫美國(guó),靠緊中國(guó)

環(huán)球時(shí)報(bào)國(guó)際
2025-07-16 11:54:00
7月下旬福氣連枝,這3生肖喜事環(huán)繞,賺錢勢(shì)頭猛,日子過(guò)得紅火

7月下旬福氣連枝,這3生肖喜事環(huán)繞,賺錢勢(shì)頭猛,日子過(guò)得紅火

人閒情事
2025-07-17 09:39:41
這6類事業(yè)編崗位,將退出編制體系,“鐵飯碗”也不“鐵”了

這6類事業(yè)編崗位,將退出編制體系,“鐵飯碗”也不“鐵”了

巢客HOME
2025-07-14 09:18:43
江蘇一網(wǎng)友吐槽:3臺(tái)空調(diào)開了一天一夜用了91度電,網(wǎng)友:抱冬瓜

江蘇一網(wǎng)友吐槽:3臺(tái)空調(diào)開了一天一夜用了91度電,網(wǎng)友:抱冬瓜

興史興談
2025-07-12 22:26:45
隊(duì)記:湖人對(duì)詹姆斯無(wú)休止的消極對(duì)抗式抨擊相當(dāng)厭煩

隊(duì)記:湖人對(duì)詹姆斯無(wú)休止的消極對(duì)抗式抨擊相當(dāng)厭煩

直播吧
2025-07-17 09:50:11
農(nóng)業(yè)銀行存款利率調(diào)整!7 月 16 日全新利息表,10 萬(wàn)塊該怎么存

農(nóng)業(yè)銀行存款利率調(diào)整!7 月 16 日全新利息表,10 萬(wàn)塊該怎么存

錘不倒的拖油瓶
2025-07-16 15:57:11
2025-07-17 10:24:49
wisemodel開源社區(qū) incentive-icons
wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū),打造中國(guó)版“huggingface”
308文章數(shù) 12關(guān)注度
往期回顧 全部

科技要聞

不只H20?黃仁勛:希望對(duì)華銷售更好的芯片

頭條要聞

上海最大原拆原建小區(qū)回搬:始建于1958年 有94種戶型

頭條要聞

上海最大原拆原建小區(qū)回搬:始建于1958年 有94種戶型

體育要聞

不給楊瀚森傳球,他有自己的理由

娛樂要聞

都美竹將參加綜藝,單身媽媽發(fā)文抵制

財(cái)經(jīng)要聞

宗馥莉的繼承之戰(zhàn) 會(huì)把娃哈哈打散嗎?

汽車要聞

理想i8內(nèi)飾官圖公布 李想回應(yīng)"被打臉"

態(tài)度原創(chuàng)

旅游
游戲
本地
房產(chǎn)
公開課

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

《野狗子》團(tuán)隊(duì)已著手新作開發(fā) 制作人談未來(lái)構(gòu)想

本地新聞

“別墅里面唱K”怎么就成了臺(tái)灣人的跳舞開關(guān)

房產(chǎn)要聞

三亞又有好地要賣,起拍樓面價(jià)飆到了1.6萬(wàn)/㎡!

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 康马县| 安塞县| 天门市| 赤水市| 阜城县| 浦江县| 兴城市| 黔西| 新源县| 府谷县| 鸡泽县| 兴仁县| 宁德市| 错那县| 全南县| 尼勒克县| 莱西市| 通渭县| 北安市| 宁国市| 天祝| 沧州市| 龙井市| 崇阳县| 桃源县| 拉萨市| 玉屏| 绍兴市| 青海省| 巨野县| 宁德市| 威信县| 临湘市| 青岛市| 靖安县| 厦门市| 小金县| 会宁县| 海兴县| 和田市| 威宁|