智東西
作者 王涵
編輯 漠影
智東西7月16日消息,今日,谷歌和Meta前研究人員創立的AI初創公司Mistral AI,最新發布了首個開源語音模型:Voxtral語音理解模型系列!
該模型包含24B和3B兩個參數規模的版本,均基于Apache 2.0許可證開源,同時提供API服務接口。
Voxtral模型支持32k token的上下文窗口,能夠處理長達30分鐘的音頻轉錄任務或40分鐘的語義理解任務,在各項基準測試指標上全面超越目前主流的開源語音轉錄模型Whisper large-v3。
Voxtral模型繼承了Mistral Small 3.1基座模型的文本理解能力,除了基礎的語音轉文字功能外,還可以直接對音頻內容進行問答交互,生成結構化摘要,并通過語音指令觸發API調用。
在公告中,Mistral還給出了幾個實例展現其語音生成能力,包括:
法國男人說法語:
https://oss.zhidx.com/bc5c551f5e78418ce996300229d3f173/68767b00/uploads/2025/07/68771da55bf0d_68771da5557f5_68771da5557ca_chat-fr.m4a
法國男人說英語:
https://oss.zhidx.com/b9d986efdf1a6a1775f86444f331168e/68767b00/uploads/2025/07/68771db31d1fe_68771db319648_68771db319622_chat-en.m4a
還可以加背景音,例如在喧鬧的大街上對話:
https://oss.zhidx.com/88b1d1a527869423a1ef311b8bf10feb/68767b00/uploads/2025/07/68771dbda9878_68771dbda5a08_68771dbda59e3_street.m4a
就連印地語混雜英語都能生成:
https://oss.zhidx.com/2dccd5f38674f04c90ac76962bbaf34b/68767b00/uploads/2025/07/68771dfe69e68_68771dfe657c3_68771dfe65788_audio-hi.m4a
在成本敏感型應用場景中,Voxtral Mini轉錄版的性能優于OpenAI Whisper,而使用成本僅為后者的50%以下。在高階應用場景中,Voxtral Small在保持與ElevenLabs Scribe相當性能水平的同時,使用成本同樣控制在后者50%以下。
開發者可以在Le Chat上試用,通過Hugging Face平臺獲取模型進行本地部署,也可以使用云端API服務。
針對企業級應用,該模型支持私有化部署方案,可進行特定領域的微調適配,并提供高級上下文處理功能以及專屬集成支持。
未來兩周內Voxtral模型將在網頁和移動端的語音模式中向所有用戶推出。
一、轉錄能力全面碾壓Whisper,3項測試超越GPT-4o mini
在轉錄能力上,Voxtral通過多個英語及多語種基準測試進行驗證,每個任務的評測結果均采用跨語言宏平均詞錯率呈現,即數值越低越好。針對英語任務,還分別統計了短音頻(<30秒)和長音頻(>30秒)的平均表現。
結果顯示,Voxtral在各項指標上全面超越當前領先的開源語音轉錄模型Whisper large-v3。在英語短音頻,以及覆蓋多種語言和方言的大規模語音數據庫Mozilla Common Voice基準上,Voxtral Small超越Gemini 2.5 Flash與GPT-4o mini Transcribe,在英語長音頻測試上也超越了Scribe和GPT-4o mini Transcribe。
在多語言基準測試FLEURS的評估中,Voxtral Small模型在所有任務上都超越了Whisper large-V3,并在法語和德語中占據榜單首位。
二、語音翻譯成績占據榜首,語音理解能力追平GPT-4o-mini、Gemini 2.5 Flash
為了更好地測試Voxtral Small和Mini版本的語音理解能力,Mistral的研究團隊將三項標準文本理解任務轉換為語音輸入形式,并構建了包含40個長音頻樣本的內部音頻理解基準(AU Benchmark),要求模型完成復雜問答任務。此外,還基于FLEURS-Translation基準測試了Voxtral的語音翻譯性能。
測試結果顯示,Voxtral Small在所有任務中與GPT-4o-mini及Gemini 2.5 Flash表現相當,并在語音翻譯任務FLEURS Translation中,超越GPT-4o-mini及Gemini 2.5 Flash,位列第一。
在文本方面,Voxtral保留了其基座語言模型的文本處理能力,在各項文本測試中與Mistral Small 3.1成績相當,官方稱可直接替代Ministral和Mistral Small 3.1模型使用。
結語:Voxtral表現超越開源項目,但難敵商業模型
Mistral AI發布的Voxtral語音模型系列為開源語音AI領域帶來了新的技術選擇。
從測試結果上看,該模型在轉錄準確率上超越了同為開源的Whisper,但其與商業模型GPT-4o-mini及Gemini 2.5 Flash還是有著一定的差距,Scribe依舊是語音模型中的“老大”。
Mistral AI在公告中還特別提到,未來幾個月,Voxtral模型的音頻處理能力還會持續增強,并且將新增說話人分割、音頻標記(如年齡和情緒)、詞級時間戳、非語音音頻識別等功能。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.