始智AI wisemodel.cn開源社區(qū)
始智AI wisemodel.cn社區(qū)是源自中國(guó)的中立開放的AI開源社區(qū)。正在,歡迎加入共同成長(zhǎng)。wisemodel社區(qū)上線,最新上線4090資源不限量,價(jià)格實(shí)惠,靈活方便,支持在線微調(diào)訓(xùn)練模型,及和,并。
在AI語(yǔ)音交互領(lǐng)域,重大突破正在改寫格局!OpenAI尚未實(shí)現(xiàn)的實(shí)時(shí)交互,被中國(guó)團(tuán)隊(duì)以創(chuàng)新性「端到端」方案成功攻克。
成果便是備受矚目的SpeechGPT 2.0-preview ,這是邁向情景智能推出的首個(gè)擬人化實(shí)時(shí)交互系統(tǒng),基于百萬(wàn)小時(shí)級(jí)語(yǔ)音數(shù)據(jù)訓(xùn)練。
其端到端語(yǔ)音大模型設(shè)計(jì),實(shí)現(xiàn)擬人口語(yǔ)化表達(dá)、百毫秒級(jí)低延遲響應(yīng)與實(shí)時(shí)打斷交互,還對(duì)齊語(yǔ)音和文本模態(tài),支持多情感風(fēng)格控制、工具調(diào)用等 ,盡顯技術(shù)創(chuàng)新實(shí)力。該模型已上線始智AI-wisemodel開源社區(qū),歡迎大家前去體驗(yàn)。
模型地址
https://wisemodel.cn/models/singularity/SpeechGPT-2.0-preview-7B
01.
模型概述
SpeechGPT 2.0-preview是邁向情景智能推出的第一個(gè)擬人化實(shí)時(shí)交互系統(tǒng)。作為在百萬(wàn)小時(shí)級(jí)語(yǔ)音數(shù)據(jù)上訓(xùn)練的端到端語(yǔ)音大模型,它具有擬人口語(yǔ)化表達(dá)與百毫秒級(jí)低延遲響應(yīng),支持自然流暢的實(shí)時(shí)打斷交互。
SpeechGPT 2.0-preview較好的對(duì)齊了語(yǔ)音和文本兩個(gè)模態(tài):
一方面展現(xiàn)出了一定的風(fēng)格泛化能力,能夠遵循用戶指令,實(shí)現(xiàn)多情感、多風(fēng)格、多音色的控制與智能切換;擁有不錯(cuò)的角色扮演能力,能夠模擬各類角色的語(yǔ)氣和情感狀態(tài);它還具備多種語(yǔ)音才藝,能夠進(jìn)行詩(shī)歌朗誦、故事講述、說(shuō)方言等;
另一方面,它在具備語(yǔ)音表現(xiàn)力的同時(shí)有不錯(cuò)的智商與文本能力,從而具備支持工具調(diào)用、聯(lián)網(wǎng)搜索、外掛知識(shí)庫(kù)等功能的能力。
SpeechGPT 2.0-preview目前只在中文語(yǔ)音數(shù)據(jù)上做了訓(xùn)練,沒有混英文語(yǔ)音數(shù)據(jù)訓(xùn)練,因此目前模型還沒有英文對(duì)話能力。
02.
技術(shù)簡(jiǎn)介
SpeechGPT 2.0-preview作為一款端到端語(yǔ)音對(duì)話大模型,凝聚了研究團(tuán)隊(duì)在在端到端語(yǔ)音對(duì)話方向上的認(rèn)知與技術(shù)積累和沉淀。在其開發(fā)進(jìn)程中,一系列創(chuàng)新性技術(shù)與系統(tǒng)發(fā)揮了關(guān)鍵作用:
自研超低比特率流式語(yǔ)音Codec:能處理24khz的語(yǔ)音輸入,將語(yǔ)音壓縮至每秒75個(gè)token,支持流式輸入輸出,實(shí)現(xiàn)200ms以內(nèi)延遲的實(shí)時(shí)交互。
語(yǔ)音數(shù)據(jù)處理系統(tǒng):構(gòu)建了高效的語(yǔ)音數(shù)據(jù)爬取系統(tǒng)、多功能高效率語(yǔ)音數(shù)據(jù)清洗pipeline和全方面多粒度語(yǔ)音數(shù)據(jù)標(biāo)注系統(tǒng),積累并精細(xì)標(biāo)注了百萬(wàn)小時(shí)級(jí)的真實(shí)語(yǔ)音數(shù)據(jù),為模型訓(xùn)練提供了豐富且高質(zhì)量的數(shù)據(jù)。
對(duì)話語(yǔ)音合成系統(tǒng):開發(fā)的對(duì)話語(yǔ)音合成系統(tǒng)具有高度口語(yǔ)化和極強(qiáng)音色克隆能力,基于此合成了數(shù)十萬(wàn)小時(shí)的多角色多風(fēng)格語(yǔ)音對(duì)話數(shù)據(jù),使模型的語(yǔ)音輸出更加自然、豐富。
語(yǔ)音文本混合建模:提出新的語(yǔ)音文本混合建模模型架構(gòu)以及多階段語(yǔ)音文本混合建模訓(xùn)練流程,包括模態(tài)適應(yīng)預(yù)訓(xùn)練、跨模態(tài)指令微調(diào)和鏈?zhǔn)侥B(tài)微調(diào)等,兼顧了文本能力與語(yǔ)音能力,還能支持工具調(diào)用、聯(lián)網(wǎng)搜索、外掛知識(shí)庫(kù)等功能。
通過(guò)端到端的方式建模語(yǔ)音對(duì)話,SpeechGPT 2.0-preview 在實(shí)際測(cè)試中實(shí)現(xiàn)了200ms以內(nèi)的延遲,能夠?yàn)橛脩籼峁┝鲿车膶?shí)時(shí)交互體驗(yàn)。
在實(shí)驗(yàn)過(guò)程中,研究團(tuán)隊(duì)也觀察到了很多有意思的現(xiàn)象和結(jié)論:比如通過(guò)充分的語(yǔ)音文本對(duì)齊預(yù)訓(xùn)練,發(fā)現(xiàn)模型可以"涌現(xiàn)"出語(yǔ)音風(fēng)格的泛化性,比如沒有用語(yǔ)速調(diào)整的對(duì)話數(shù)據(jù)訓(xùn)練就可以做到語(yǔ)速控制,比如可以扮演對(duì)話數(shù)據(jù)中從未見過(guò)的角色與風(fēng)格的語(yǔ)氣等;語(yǔ)音數(shù)據(jù)合成引擎的質(zhì)量是提升端到端語(yǔ)音模型的各訓(xùn)練階段能力的關(guān)鍵。
語(yǔ)義-聲學(xué)聯(lián)合建模的超低比特率流式語(yǔ)音 Codec
SpeechGPT 2.0-preview具備一系列卓越關(guān)鍵特性,其支持24khz語(yǔ)音輸入,采用語(yǔ)義-聲學(xué)聯(lián)合建模技術(shù),實(shí)現(xiàn)了低比特率—750bps(每秒75 token),還支持流式輸入輸出,極大提升交互效率與體驗(yàn)。
基于Codec Patchify的語(yǔ)音-文本混合建模模型架構(gòu)
Codec patchify,我們通過(guò)Codec patchify來(lái)有效減小語(yǔ)音和文本序列之間的模態(tài)差異,從而緩解跨模態(tài)建模中的沖突問(wèn)題。具體而言,該方法將相鄰T個(gè)時(shí)間步的RVQ codec token聚合為一個(gè)patch,通過(guò)patch projector模塊將其映射為統(tǒng)一的向量表示,隨后輸入到speech-text LLM中進(jìn)行聯(lián)合建模。
在模型架構(gòu)設(shè)計(jì)上,LLM的隱藏狀態(tài)會(huì)同時(shí)用于兩個(gè)解碼任務(wù):一方面解碼生成文本輸出,另一方面輸入到patch decoder中進(jìn)行語(yǔ)音重建。
特別地,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)具有多解碼頭的自回歸語(yǔ)言模型作為patch decoder,該模塊能夠通過(guò)自回歸方式逐步解碼,每次生成一個(gè)時(shí)間步的多個(gè)RVQ codec token,從而輸出語(yǔ)音。
語(yǔ)音文本聯(lián)合建模,靈活交叉自由組合,speech-text LLM會(huì)同時(shí)輸入和輸出語(yǔ)音和文本表示。
03.
模型能力
SpeechGPT 2.0-preview為用戶提供了一系列令人矚目的體驗(yàn)?zāi)芰?。?dāng)你與它交流時(shí),會(huì)發(fā)現(xiàn)其對(duì)話輸出極為自然流暢,高度口語(yǔ)化的表達(dá)就如同與身邊的朋友親切交談,毫無(wú)生硬之感。在交互過(guò)程中,它能夠做到實(shí)時(shí)響應(yīng),憑借先進(jìn)的技術(shù)實(shí)現(xiàn)200ms以內(nèi)的低延時(shí),即使你在對(duì)話中途靈活打斷,它也能迅速調(diào)整,緊跟你的思路。 其生成的語(yǔ)音不僅情感豐富,可隨語(yǔ)境表達(dá)出喜怒哀樂等多種情緒,而且風(fēng)格多樣,或幽默風(fēng)趣,或沉穩(wěn)專業(yè)。值得一提的是,它還擅長(zhǎng)角色扮演,不管是扮演歷史人物講述過(guò)去的故事,還是模擬專業(yè)人士解答疑難問(wèn)題,都能游刃有余,堪稱多才多藝,為用戶帶來(lái)獨(dú)一無(wú)二的對(duì)話體驗(yàn)。
SpeechGPT 2.0-preview在模型穩(wěn)定性以及音質(zhì)穩(wěn)定性上還需要進(jìn)一步的加強(qiáng),研究團(tuán)隊(duì)正在進(jìn)行雙工模型的訓(xùn)練以及系統(tǒng)搭建,結(jié)合RLHF來(lái)增強(qiáng)模型表現(xiàn)力與穩(wěn)定性以及進(jìn)一步擴(kuò)增語(yǔ)音數(shù)據(jù)量以及擴(kuò)展到更多的語(yǔ)言,請(qǐng)期待下一版本的更新。
編輯丨趙雅鑫
----- END -----
wisemodel相關(guān):
系統(tǒng)升級(jí):
大賽報(bào)名:
系列模型:
關(guān)于wisemodel更多
1
歡迎持續(xù)關(guān)注和支持
開源社區(qū)建設(shè)需要長(zhǎng)期堅(jiān)持和投入,更需要廣大用戶的積極參與、貢獻(xiàn)和維護(hù),歡迎大家加入wisemodel開源社區(qū)的志愿者計(jì)劃和開源共創(chuàng)計(jì)劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請(qǐng)加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動(dòng)態(tài)。
2
歡迎加盟wisemodel開源社區(qū)
始智AI wisemodel社區(qū)自2023年9月上線以來(lái),逐漸成為影響力日益擴(kuò)大的中立開放的AI開源社區(qū),為了加快公司發(fā)展,我們長(zhǎng)期需要技術(shù)、運(yùn)營(yíng)等人才加盟,技術(shù)側(cè)重在AI infra、后端開發(fā),熟悉K8S、模型訓(xùn)練和推理等技術(shù), 以及熟悉開發(fā)者生態(tài)運(yùn)營(yíng)的成員,歡迎感興趣的朋友加盟,可以通過(guò)添加wisemodel微信,或者將簡(jiǎn)歷投遞到郵箱:liudaoquan@wisemodel.cn
3
歡迎投稿優(yōu)質(zhì)內(nèi)容
歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵(lì)高校實(shí)驗(yàn)室、大企業(yè)研究團(tuán)隊(duì)、個(gè)人等,在wisemodel平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實(shí)踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。
4
關(guān)于wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū)由清華校友總會(huì)AI大數(shù)據(jù)專委會(huì)副秘書長(zhǎng)劉道全創(chuàng)立,旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高??蒲性核?、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個(gè)人開發(fā)者,以及政府部門、學(xué)會(huì)協(xié)會(huì)、聯(lián)盟、基金會(huì)等,還有投資機(jī)構(gòu)、科技媒體等,共同參與建設(shè)AI開源創(chuàng)新生態(tài)。
向上滑動(dòng)查看
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.