網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

實(shí)時(shí)交互破局！SpeechGPT 2.0-preview端到端超越OpenAI

2025-03-20 18:57:47　來(lái)源: wisemodel開源社區(qū)

北京舉報(bào)

分享至

始智AI wisemodel.cn開源社區(qū)

始智AI wisemodel.cn社區(qū)是源自中國(guó)的中立開放的AI開源社區(qū)。正在，歡迎加入共同成長(zhǎng)。wisemodel社區(qū)上線，最新上線4090資源不限量，價(jià)格實(shí)惠，靈活方便，支持在線微調(diào)訓(xùn)練模型，及和，并。

在AI語(yǔ)音交互領(lǐng)域，重大突破正在改寫格局！OpenAI尚未實(shí)現(xiàn)的實(shí)時(shí)交互，被中國(guó)團(tuán)隊(duì)以創(chuàng)新性「端到端」方案成功攻克。

成果便是備受矚目的SpeechGPT 2.0-preview ，這是邁向情景智能推出的首個(gè)擬人化實(shí)時(shí)交互系統(tǒng)，基于百萬(wàn)小時(shí)級(jí)語(yǔ)音數(shù)據(jù)訓(xùn)練。

其端到端語(yǔ)音大模型設(shè)計(jì)，實(shí)現(xiàn)擬人口語(yǔ)化表達(dá)、百毫秒級(jí)低延遲響應(yīng)與實(shí)時(shí)打斷交互，還對(duì)齊語(yǔ)音和文本模態(tài)，支持多情感風(fēng)格控制、工具調(diào)用等，盡顯技術(shù)創(chuàng)新實(shí)力。該模型已上線始智AI-wisemodel開源社區(qū)，歡迎大家前去體驗(yàn)。

模型地址

https://wisemodel.cn/models/singularity/SpeechGPT-2.0-preview-7B

01.

模型概述

SpeechGPT 2.0-preview是邁向情景智能推出的第一個(gè)擬人化實(shí)時(shí)交互系統(tǒng)。作為在百萬(wàn)小時(shí)級(jí)語(yǔ)音數(shù)據(jù)上訓(xùn)練的端到端語(yǔ)音大模型，它具有擬人口語(yǔ)化表達(dá)與百毫秒級(jí)低延遲響應(yīng)，支持自然流暢的實(shí)時(shí)打斷交互。

SpeechGPT 2.0-preview較好的對(duì)齊了語(yǔ)音和文本兩個(gè)模態(tài)：

一方面展現(xiàn)出了一定的風(fēng)格泛化能力，能夠遵循用戶指令，實(shí)現(xiàn)多情感、多風(fēng)格、多音色的控制與智能切換；擁有不錯(cuò)的角色扮演能力，能夠模擬各類角色的語(yǔ)氣和情感狀態(tài)；它還具備多種語(yǔ)音才藝，能夠進(jìn)行詩(shī)歌朗誦、故事講述、說(shuō)方言等；

另一方面，它在具備語(yǔ)音表現(xiàn)力的同時(shí)有不錯(cuò)的智商與文本能力，從而具備支持工具調(diào)用、聯(lián)網(wǎng)搜索、外掛知識(shí)庫(kù)等功能的能力。

SpeechGPT 2.0-preview目前只在中文語(yǔ)音數(shù)據(jù)上做了訓(xùn)練，沒有混英文語(yǔ)音數(shù)據(jù)訓(xùn)練，因此目前模型還沒有英文對(duì)話能力。

02.

技術(shù)簡(jiǎn)介

SpeechGPT 2.0-preview作為一款端到端語(yǔ)音對(duì)話大模型，凝聚了研究團(tuán)隊(duì)在在端到端語(yǔ)音對(duì)話方向上的認(rèn)知與技術(shù)積累和沉淀。在其開發(fā)進(jìn)程中，一系列創(chuàng)新性技術(shù)與系統(tǒng)發(fā)揮了關(guān)鍵作用：

自研超低比特率流式語(yǔ)音Codec：能處理24khz的語(yǔ)音輸入，將語(yǔ)音壓縮至每秒75個(gè)token，支持流式輸入輸出，實(shí)現(xiàn)200ms以內(nèi)延遲的實(shí)時(shí)交互。

語(yǔ)音數(shù)據(jù)處理系統(tǒng)：構(gòu)建了高效的語(yǔ)音數(shù)據(jù)爬取系統(tǒng)、多功能高效率語(yǔ)音數(shù)據(jù)清洗pipeline和全方面多粒度語(yǔ)音數(shù)據(jù)標(biāo)注系統(tǒng)，積累并精細(xì)標(biāo)注了百萬(wàn)小時(shí)級(jí)的真實(shí)語(yǔ)音數(shù)據(jù)，為模型訓(xùn)練提供了豐富且高質(zhì)量的數(shù)據(jù)。

對(duì)話語(yǔ)音合成系統(tǒng)：開發(fā)的對(duì)話語(yǔ)音合成系統(tǒng)具有高度口語(yǔ)化和極強(qiáng)音色克隆能力，基于此合成了數(shù)十萬(wàn)小時(shí)的多角色多風(fēng)格語(yǔ)音對(duì)話數(shù)據(jù)，使模型的語(yǔ)音輸出更加自然、豐富。

語(yǔ)音文本混合建模：提出新的語(yǔ)音文本混合建模模型架構(gòu)以及多階段語(yǔ)音文本混合建模訓(xùn)練流程，包括模態(tài)適應(yīng)預(yù)訓(xùn)練、跨模態(tài)指令微調(diào)和鏈?zhǔn)侥B(tài)微調(diào)等，兼顧了文本能力與語(yǔ)音能力，還能支持工具調(diào)用、聯(lián)網(wǎng)搜索、外掛知識(shí)庫(kù)等功能。

通過(guò)端到端的方式建模語(yǔ)音對(duì)話，SpeechGPT 2.0-preview 在實(shí)際測(cè)試中實(shí)現(xiàn)了200ms以內(nèi)的延遲，能夠?yàn)橛脩籼峁┝鲿车膶?shí)時(shí)交互體驗(yàn)。

在實(shí)驗(yàn)過(guò)程中，研究團(tuán)隊(duì)也觀察到了很多有意思的現(xiàn)象和結(jié)論：比如通過(guò)充分的語(yǔ)音文本對(duì)齊預(yù)訓(xùn)練，發(fā)現(xiàn)模型可以"涌現(xiàn)"出語(yǔ)音風(fēng)格的泛化性，比如沒有用語(yǔ)速調(diào)整的對(duì)話數(shù)據(jù)訓(xùn)練就可以做到語(yǔ)速控制，比如可以扮演對(duì)話數(shù)據(jù)中從未見過(guò)的角色與風(fēng)格的語(yǔ)氣等；語(yǔ)音數(shù)據(jù)合成引擎的質(zhì)量是提升端到端語(yǔ)音模型的各訓(xùn)練階段能力的關(guān)鍵。

語(yǔ)義-聲學(xué)聯(lián)合建模的超低比特率流式語(yǔ)音 Codec

SpeechGPT 2.0-preview具備一系列卓越關(guān)鍵特性，其支持24khz語(yǔ)音輸入，采用語(yǔ)義-聲學(xué)聯(lián)合建模技術(shù)，實(shí)現(xiàn)了低比特率—750bps（每秒75 token），還支持流式輸入輸出，極大提升交互效率與體驗(yàn)。

基于Codec Patchify的語(yǔ)音-文本混合建模模型架構(gòu)

Codec patchify，我們通過(guò)Codec patchify來(lái)有效減小語(yǔ)音和文本序列之間的模態(tài)差異，從而緩解跨模態(tài)建模中的沖突問(wèn)題。具體而言，該方法將相鄰T個(gè)時(shí)間步的RVQ codec token聚合為一個(gè)patch，通過(guò)patch projector模塊將其映射為統(tǒng)一的向量表示，隨后輸入到speech-text LLM中進(jìn)行聯(lián)合建模。

在模型架構(gòu)設(shè)計(jì)上，LLM的隱藏狀態(tài)會(huì)同時(shí)用于兩個(gè)解碼任務(wù)：一方面解碼生成文本輸出，另一方面輸入到patch decoder中進(jìn)行語(yǔ)音重建。

特別地，研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)具有多解碼頭的自回歸語(yǔ)言模型作為patch decoder，該模塊能夠通過(guò)自回歸方式逐步解碼，每次生成一個(gè)時(shí)間步的多個(gè)RVQ codec token，從而輸出語(yǔ)音。

語(yǔ)音文本聯(lián)合建模，靈活交叉自由組合，speech-text LLM會(huì)同時(shí)輸入和輸出語(yǔ)音和文本表示。

03.

模型能力

SpeechGPT 2.0-preview為用戶提供了一系列令人矚目的體驗(yàn)?zāi)芰?。?dāng)你與它交流時(shí)，會(huì)發(fā)現(xiàn)其對(duì)話輸出極為自然流暢，高度口語(yǔ)化的表達(dá)就如同與身邊的朋友親切交談，毫無(wú)生硬之感。在交互過(guò)程中，它能夠做到實(shí)時(shí)響應(yīng)，憑借先進(jìn)的技術(shù)實(shí)現(xiàn)200ms以內(nèi)的低延時(shí)，即使你在對(duì)話中途靈活打斷，它也能迅速調(diào)整，緊跟你的思路。其生成的語(yǔ)音不僅情感豐富，可隨語(yǔ)境表達(dá)出喜怒哀樂等多種情緒，而且風(fēng)格多樣，或幽默風(fēng)趣，或沉穩(wěn)專業(yè)。值得一提的是，它還擅長(zhǎng)角色扮演，不管是扮演歷史人物講述過(guò)去的故事，還是模擬專業(yè)人士解答疑難問(wèn)題，都能游刃有余，堪稱多才多藝，為用戶帶來(lái)獨(dú)一無(wú)二的對(duì)話體驗(yàn)。

SpeechGPT 2.0-preview在模型穩(wěn)定性以及音質(zhì)穩(wěn)定性上還需要進(jìn)一步的加強(qiáng)，研究團(tuán)隊(duì)正在進(jìn)行雙工模型的訓(xùn)練以及系統(tǒng)搭建，結(jié)合RLHF來(lái)增強(qiáng)模型表現(xiàn)力與穩(wěn)定性以及進(jìn)一步擴(kuò)增語(yǔ)音數(shù)據(jù)量以及擴(kuò)展到更多的語(yǔ)言，請(qǐng)期待下一版本的更新。

編輯丨趙雅鑫

----- END -----

wisemodel相關(guān)：

系統(tǒng)升級(jí)：

大賽報(bào)名：

系列模型：

關(guān)于wisemodel更多

歡迎持續(xù)關(guān)注和支持

開源社區(qū)建設(shè)需要長(zhǎng)期堅(jiān)持和投入，更需要廣大用戶的積極參與、貢獻(xiàn)和維護(hù)，歡迎大家加入wisemodel開源社區(qū)的志愿者計(jì)劃和開源共創(chuàng)計(jì)劃。期待更多開發(fā)者將開源成果，包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū)，共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信，申請(qǐng)加入wisemodel社群，持續(xù)關(guān)注wisemodel.cn開源社區(qū)動(dòng)態(tài)。

歡迎加盟wisemodel開源社區(qū)

始智AI wisemodel社區(qū)自2023年9月上線以來(lái)，逐漸成為影響力日益擴(kuò)大的中立開放的AI開源社區(qū)，為了加快公司發(fā)展，我們長(zhǎng)期需要技術(shù)、運(yùn)營(yíng)等人才加盟，技術(shù)側(cè)重在AI infra、后端開發(fā)，熟悉K8S、模型訓(xùn)練和推理等技術(shù)，以及熟悉開發(fā)者生態(tài)運(yùn)營(yíng)的成員，歡迎感興趣的朋友加盟，可以通過(guò)添加wisemodel微信，或者將簡(jiǎn)歷投遞到郵箱：liudaoquan@wisemodel.cn

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果，鼓勵(lì)高校實(shí)驗(yàn)室、大企業(yè)研究團(tuán)隊(duì)、個(gè)人等，在wisemodel平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容，可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹，也可以是關(guān)于AI技術(shù)實(shí)踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn，也可以掃碼添加wisemodel微信。

關(guān)于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會(huì)AI大數(shù)據(jù)專委會(huì)副秘書長(zhǎng)劉道全創(chuàng)立，旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū)，將打造成“HuggingFace”之外最活躍的AI開源社區(qū)，匯聚主要AI開源模型、數(shù)據(jù)集和代碼等，歡迎高?？蒲性核?、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個(gè)人開發(fā)者，以及政府部門、學(xué)會(huì)協(xié)會(huì)、聯(lián)盟、基金會(huì)等，還有投資機(jī)構(gòu)、科技媒體等，共同參與建設(shè)AI開源創(chuàng)新生態(tài)。

向上滑動(dòng)查看

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.