99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Kimi-Audio開源橫掃全場景,1300萬+小時(shí)數(shù)據(jù)煉成語音世界“大一統(tǒng)”

0
分享至

大數(shù)據(jù)文摘出品

昨天,kim發(fā)布了一款 “萬能型”音頻大模型—Kimi-Audio, 支持語音識別(ASR)、音頻問答(AQA)、音頻字幕(AAC)、語音情感識別(SER)、聲音事件/場景分類(SEC/ASC)、文本到語音(TTS)、語音轉(zhuǎn)換(VC)和端到端語音對話。

換句話說,它可以聽、可以說、可以理解、可以對話,支持實(shí)時(shí)語音會(huì)話,多輪交流。


一套架構(gòu),橫掃音頻全場景,開源可用。

從學(xué)術(shù)和工業(yè)角度,我認(rèn)為有兩點(diǎn)貢獻(xiàn):

1.模型架構(gòu)和預(yù)訓(xùn)練規(guī)??涨?/strong>——13萬小時(shí)級別的音頻數(shù)據(jù)+大語言模型初始化,音頻和文本信號雙線處理,架構(gòu)極其“融合”。

2.全鏈路開放+評測工具包——所有代碼、模型參數(shù)、評測工具全部開源,直接對社區(qū)開放,標(biāo)準(zhǔn)化評測徹底解決“無法復(fù)現(xiàn)”的老大難問題。

01 模型架構(gòu):語音世界的“大一統(tǒng)”


圖注:Kimi-Audio技術(shù)架構(gòu)

Kimi-Audio的核心架構(gòu)其實(shí)就三大塊:音頻分詞器(Tokenizer)、音頻大模型(Audio LLM)以及音頻反分詞器(Detokenizer)。

就像把一句話切成一個(gè)個(gè)字,音頻分詞器把聲音變成一串“音頻詞”。Kimi用的是12.5Hz采樣率(就是每秒拆12.5個(gè)“詞”),既有“離散語義詞”(理解內(nèi)容),又有“連續(xù)聲學(xué)特征”(保留音色、情感等細(xì)節(jié))。

說白了,就是既能知道你說了啥,還能盡量還原你怎么說的。

音頻大模型的核心是一個(gè)“多模態(tài)大腦”,一邊能處理“音頻詞”,一邊能處理文本詞;底層結(jié)構(gòu)和流行的大模型(transformer那一套)一樣,但上面分兩頭:一頭專門“寫字”輸出文本,一頭專門“說話”輸出音頻。這個(gè)模型底子其實(shí)是個(gè)現(xiàn)成的文本大模型(Qwen2.5 7B),直接“嫁接”了音頻輸入輸出的能力,兼容性強(qiáng),省了很多訓(xùn)練資源。

音頻反分詞器就是把模型輸出的“音頻詞”重新拼成聲音。“分塊+流式”方案,就是把長音頻切成一小塊一小塊,每塊單獨(dú)快速合成,然后拼起來,減少延遲,體驗(yàn)更絲滑。還做了“l(fā)ook-ahead”機(jī)制,就是每塊合成時(shí)偷偷看一點(diǎn)后面的內(nèi)容,讓拼接更自然,不斷句。

02 數(shù)據(jù)管線:1300萬+小時(shí)音頻,流水線級別的數(shù)據(jù)清洗


圖注:數(shù)據(jù)處理流程圖

Kimi-Audio這波,采用的預(yù)訓(xùn)練音頻數(shù)據(jù)高達(dá)1300萬+小時(shí),涵蓋語音、音樂、環(huán)境聲,各種應(yīng)用場景全覆蓋。

那這么多音頻怎么處理?報(bào)告中說,Kimi團(tuán)隊(duì)搞了個(gè)自動(dòng)化大流水線,從原始音頻到高質(zhì)量“帶標(biāo)注”的數(shù)據(jù),大致分幾步:

語音增強(qiáng):先用AI降噪,把環(huán)境雜音、回聲處理掉。但為了不丟失真實(shí)世界的多樣性,訓(xùn)練時(shí)一半用原聲,一半用降噪后的。

說話人分割(Diarization):用PyAnnote工具給每段音頻“數(shù)人頭”,誰說了哪段切清楚。還專門寫了合并/細(xì)分/優(yōu)化的后處理流程,確保每個(gè)說話段準(zhǔn)確且長度合理。

轉(zhuǎn)寫+打標(biāo):用Whisper大模型自動(dòng)識別英文,用FunASR的Paraformer-Zh識別中文,還根據(jù)時(shí)間戳智能加標(biāo)點(diǎn),保證后續(xù)訓(xùn)練能用。

據(jù)說,除了公開數(shù)據(jù),還加了自家ASR數(shù)據(jù),音頻理解/問答數(shù)據(jù)。


03 訓(xùn)練方式:任務(wù)多、策略細(xì),兼容音頻和文本智能


圖注:預(yù)訓(xùn)練任務(wù)列表

Kimi-Audio的訓(xùn)練分兩步:萬能預(yù)訓(xùn)練→精細(xì)指令微調(diào)。

萬能預(yù)訓(xùn)練采用音頻+文本混合學(xué),一邊學(xué)“純文本”(用MoonLight數(shù)據(jù)),一邊學(xué)“純音頻”,再加上“音頻對文本”“文本對音頻”的互轉(zhuǎn)任務(wù),最后還有“音頻-文本交錯(cuò)混合”的難度提升;

精細(xì)指令微調(diào)中任務(wù)全靠“自然語言指令”分流,不用人為切換,直接靠“你說什么任務(wù),我就做什么”,且每種任務(wù)都生成多種隨機(jī)指令,訓(xùn)練時(shí)反復(fù)調(diào)換,模型抗干擾強(qiáng)。

04 各項(xiàng)指標(biāo)“遙遙領(lǐng)先”


Kimi-Audio與以往音頻語言模型在各類基準(zhǔn)測試上的表現(xiàn)對比

語音識別方面,LibriSpeech英文測試集,Kimi-Audio的錯(cuò)誤率(WER)只有1.28%,比Qwen2.5-Omni的2.37%還低一截。AISHELL-1中文:WER 0.60%,比上一代模型低一半。此外多場景、多語種、多環(huán)境,Kimi-Audio基本都是榜首。

音頻理解方面,Kimi-Audio在MMAU、MELD、VocalSound、TUT2017等公開集上,分?jǐn)?shù)都是最高。比如MMAU的“聲音理解”類,Kimi-Audio得分73.27,超過其它競品。

音頻對話&音頻聊天方面,VoiceBench的多項(xiàng)任務(wù),Kimi-Audio都是第一,平均得分76.93。

語音對話表達(dá)方面,采用人類主觀打分,在速度控制、情感表達(dá)、同理心等多個(gè)維度,Kimi-Audio都能做到接近GPT-4o的效果,平均得分3.9(滿分5分)


Kimi-Audio中用于實(shí)時(shí)語音到語音對話的生產(chǎn)部署工作流程

05 one more thing

官方也坦誠地提到,當(dāng)前Kimi-Audio音頻大模型還存在三大挑戰(zhàn):

一是“轉(zhuǎn)錄”信息有限,描述性理解還需加強(qiáng),現(xiàn)在模型對音頻的理解,大多還停留在“你說了什么”(轉(zhuǎn)寫),但很多聲音里“怎么說、什么情緒、什么場景”更重要。

二是音頻“語義+細(xì)節(jié)”融合的表示還不夠完美:純語義Token容易丟細(xì)節(jié),純聲學(xué)Token又缺理解,如何把“內(nèi)容”和“感覺”都融在一套表達(dá)里,是下一個(gè)技術(shù)突破點(diǎn)。

三是無法擺脫ASR/TTS依賴:目前大部分音頻大模型,底層還是靠ASR(語音識別)和TTS(語音合成)撐著,實(shí)際上就是在拼裝已有的技術(shù)。

論文地址:

github.com/MoonshotAI/Kimi-Audio/blob/master/assets/kimia_report.pdf

模型地址:

huggingface.co/moonshotai/Kimi-Audio-7B-Instruct

repo地址:

github.com/MoonshotAI/Kimi-Audio

GPU算力按需租用

A100/H100 GPU算力按需租用,

秒級計(jì)費(fèi),平均節(jié)省開支30%以上!

掃碼了解詳情?


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
80后女演員成“惡婆婆專業(yè)戶”:“以前愛笑,現(xiàn)在面相都變兇了”!

80后女演員成“惡婆婆專業(yè)戶”:“以前愛笑,現(xiàn)在面相都變兇了”!

封面新聞
2025-05-02 04:45:06
轉(zhuǎn)機(jī)!商務(wù)部回應(yīng)!美方愿與中方就關(guān)稅問題進(jìn)行談判,A股穩(wěn)了。

轉(zhuǎn)機(jī)!商務(wù)部回應(yīng)!美方愿與中方就關(guān)稅問題進(jìn)行談判,A股穩(wěn)了。

風(fēng)風(fēng)順
2025-05-02 11:00:49
牡丹江站附近路段多趟列車延誤數(shù)小時(shí),親歷者稱下車后當(dāng)?shù)嘏R時(shí)調(diào)度大巴接送,多方回應(yīng)

牡丹江站附近路段多趟列車延誤數(shù)小時(shí),親歷者稱下車后當(dāng)?shù)嘏R時(shí)調(diào)度大巴接送,多方回應(yīng)

瀟湘晨報(bào)
2025-05-02 12:02:07
關(guān)稅戰(zhàn)傳來新消息!全球股市沸騰,恒生科指一度漲3%,標(biāo)普500期貨漲0.7%

關(guān)稅戰(zhàn)傳來新消息!全球股市沸騰,恒生科指一度漲3%,標(biāo)普500期貨漲0.7%

華爾街見聞官方
2025-05-02 11:57:48
中方宣布“不跪”后,不到24小時(shí),特朗普愿意和解,開出1個(gè)條件

中方宣布“不跪”后,不到24小時(shí),特朗普愿意和解,開出1個(gè)條件

說天說地說實(shí)事
2025-05-01 04:13:34
上海鼻涕姐不雅行為后續(xù):身份徹底曝光,黑歷史被扒,警方已介入

上海鼻涕姐不雅行為后續(xù):身份徹底曝光,黑歷史被扒,警方已介入

影像溫度
2025-05-02 08:14:45
一年賣17億,騰訊啟明投的戶外品牌要上市了

一年賣17億,騰訊啟明投的戶外品牌要上市了

藍(lán)鯨新聞
2025-05-02 11:19:19
協(xié)和“4+4”培養(yǎng)出的董醫(yī)生,醫(yī)術(shù)如何?

協(xié)和“4+4”培養(yǎng)出的董醫(yī)生,醫(yī)術(shù)如何?

中國新聞周刊
2025-05-02 12:22:13
突發(fā)!他也辭職了

突發(fā)!他也辭職了

魯中晨報(bào)
2025-05-02 07:40:02
微博:嚴(yán)厲打擊對肖某董某事件蹭炒熱點(diǎn)、編造故事博流量等行為

微博:嚴(yán)厲打擊對肖某董某事件蹭炒熱點(diǎn)、編造故事博流量等行為

界面新聞
2025-05-01 19:11:26
金磚外長會(huì)不歡而散,印度不僅再次缺席,還從背后給了中國一刀

金磚外長會(huì)不歡而散,印度不僅再次缺席,還從背后給了中國一刀

張學(xué)昆看世界
2025-05-01 10:03:11
中方幾十年布局終于開花結(jié)果:美軍75%武器命脈,掌握在中國手中

中方幾十年布局終于開花結(jié)果:美軍75%武器命脈,掌握在中國手中

空天力量
2025-05-02 10:07:02
歐洲遭遇大停電,中國一位電工意外“紅”了

歐洲遭遇大停電,中國一位電工意外“紅”了

上觀新聞
2025-05-02 09:54:23
三菱日聯(lián):石油市場將面臨嚴(yán)重供應(yīng)過剩

三菱日聯(lián):石油市場將面臨嚴(yán)重供應(yīng)過剩

財(cái)聯(lián)社
2025-05-01 17:04:28
全紅嬋老家蓋別墅動(dòng)工:村里只批200平,房高不能超3層,圖紙曝光

全紅嬋老家蓋別墅動(dòng)工:村里只批200平,房高不能超3層,圖紙曝光

侃球熊弟
2025-05-02 00:00:53
國家發(fā)改委領(lǐng)導(dǎo)有調(diào)整

國家發(fā)改委領(lǐng)導(dǎo)有調(diào)整

魯中晨報(bào)
2025-05-02 07:36:19
心態(tài)崩了!備降3次,延誤超12小時(shí),山東航空致歉;自駕也堵麻了,上海繞城高速1公里用了6小時(shí)

心態(tài)崩了!備降3次,延誤超12小時(shí),山東航空致歉;自駕也堵麻了,上海繞城高速1公里用了6小時(shí)

新民晚報(bào)
2025-05-01 21:28:35
店主往籠里放5只小貓忙出殘影 網(wǎng)友:5只放出50只的效果

店主往籠里放5只小貓忙出殘影 網(wǎng)友:5只放出50只的效果

大象新聞
2025-05-02 11:08:10
00:01深圳北站,票都不檢了!直接放人進(jìn),網(wǎng)友:這半小時(shí)太難熬

00:01深圳北站,票都不檢了!直接放人進(jìn),網(wǎng)友:這半小時(shí)太難熬

火山詩話
2025-05-02 06:08:56
布倫森40分送制勝三分!尼克斯拒絕逆轉(zhuǎn),4-2活塞晉級對陣綠軍

布倫森40分送制勝三分!尼克斯拒絕逆轉(zhuǎn),4-2活塞晉級對陣綠軍

湖人崛起
2025-05-02 10:28:06
2025-05-02 15:08:49
大數(shù)據(jù)文摘 incentive-icons
大數(shù)據(jù)文摘
專注大數(shù)據(jù),每日有分享!
6611文章數(shù) 94407關(guān)注度
往期回顧 全部

科技要聞

在華不及預(yù)期!蘋果稱關(guān)稅將增9億美元成本

頭條要聞

英媒:美國與"五眼聯(lián)盟"分享絕密中國太空情報(bào)

頭條要聞

英媒:美國與"五眼聯(lián)盟"分享絕密中國太空情報(bào)

體育要聞

為了湖人的28號秀,森林狼差點(diǎn)沒換來戈貝爾

娛樂要聞

霍啟剛郭晶晶夫婦現(xiàn)身馬麗新片首映

財(cái)經(jīng)要聞

黃仁勛在美國又穿西裝表態(tài),怎么看?

汽車要聞

全路況 大格局 前路山海皆坦途

態(tài)度原創(chuàng)

藝術(shù)
本地
數(shù)碼
公開課
軍事航空

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

春色滿城關(guān)不住 | 花漾千陽!塬上秘境藏幾重詩意?

數(shù)碼要聞

蘋果 AirPods 耳機(jī)專利獲批,可監(jiān)測佩戴者呼吸速率

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美航母撞船后又將戰(zhàn)機(jī)甩進(jìn)海里 專家:艦員高度緊張

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 万盛区| 永宁县| 北票市| 定结县| 巩留县| 嘉兴市| 两当县| 天台县| 巍山| 乌拉特中旗| 五寨县| 三门县| 淮北市| 博兴县| 伊宁市| 温泉县| 理塘县| 镇雄县| 巫山县| 稻城县| 临朐县| 绥化市| 东源县| 宣城市| 卓资县| 德庆县| 苏尼特右旗| 台南市| 绵竹市| 平邑县| 繁峙县| 石渠县| 北宁市| 同德县| 永城市| 通化县| 宜川县| 钟祥市| 瓦房店市| 大渡口区| 谷城县|