網易首頁 > 網易號 > 正文申請入駐

Mistral首個開源語音模型來了！全面碾壓Whisper，多項測試超越GPT-4o mini

2025-07-16 22:45:28　來源: 智東西

北京舉報

分享至

智東西
作者王涵
編輯漠影

智東西7月16日消息，今日，谷歌和Meta前研究人員創立的AI初創公司Mistral AI，最新發布了首個開源語音模型：Voxtral語音理解模型系列！

該模型包含24B和3B兩個參數規模的版本，均基于Apache 2.0許可證開源，同時提供API服務接口。

Voxtral模型支持32k token的上下文窗口，能夠處理長達30分鐘的音頻轉錄任務或40分鐘的語義理解任務，在各項基準測試指標上全面超越目前主流的開源語音轉錄模型Whisper large-v3。

Voxtral模型繼承了Mistral Small 3.1基座模型的文本理解能力，除了基礎的語音轉文字功能外，還可以直接對音頻內容進行問答交互，生成結構化摘要，并通過語音指令觸發API調用。

在公告中，Mistral還給出了幾個實例展現其語音生成能力，包括：

法國男人說法語：

https://oss.zhidx.com/bc5c551f5e78418ce996300229d3f173/68767b00/uploads/2025/07/68771da55bf0d_68771da5557f5_68771da5557ca_chat-fr.m4a

法國男人說英語：

https://oss.zhidx.com/b9d986efdf1a6a1775f86444f331168e/68767b00/uploads/2025/07/68771db31d1fe_68771db319648_68771db319622_chat-en.m4a

還可以加背景音，例如在喧鬧的大街上對話：

https://oss.zhidx.com/88b1d1a527869423a1ef311b8bf10feb/68767b00/uploads/2025/07/68771dbda9878_68771dbda5a08_68771dbda59e3_street.m4a

就連印地語混雜英語都能生成：

https://oss.zhidx.com/2dccd5f38674f04c90ac76962bbaf34b/68767b00/uploads/2025/07/68771dfe69e68_68771dfe657c3_68771dfe65788_audio-hi.m4a

在成本敏感型應用場景中，Voxtral Mini轉錄版的性能優于OpenAI Whisper，而使用成本僅為后者的50%以下。在高階應用場景中，Voxtral Small在保持與ElevenLabs Scribe相當性能水平的同時，使用成本同樣控制在后者50%以下。

開發者可以在Le Chat上試用，通過Hugging Face平臺獲取模型進行本地部署，也可以使用云端API服務。

針對企業級應用，該模型支持私有化部署方案，可進行特定領域的微調適配，并提供高級上下文處理功能以及專屬集成支持。

未來兩周內Voxtral模型將在網頁和移動端的語音模式中向所有用戶推出。

一、轉錄能力全面碾壓Whisper，3項測試超越GPT-4o mini

在轉錄能力上，Voxtral通過多個英語及多語種基準測試進行驗證，每個任務的評測結果均采用跨語言宏平均詞錯率呈現，即數值越低越好。針對英語任務，還分別統計了短音頻（＜30秒）和長音頻（＞30秒）的平均表現。

結果顯示，Voxtral在各項指標上全面超越當前領先的開源語音轉錄模型Whisper large-v3。在英語短音頻，以及覆蓋多種語言和方言的大規模語音數據庫Mozilla Common Voice基準上，Voxtral Small超越Gemini 2.5 Flash與GPT-4o mini Transcribe，在英語長音頻測試上也超越了Scribe和GPT-4o mini Transcribe。

在多語言基準測試FLEURS的評估中，Voxtral Small模型在所有任務上都超越了Whisper large-V3，并在法語和德語中占據榜單首位。

二、語音翻譯成績占據榜首，語音理解能力追平GPT-4o-mini、Gemini 2.5 Flash

為了更好地測試Voxtral Small和Mini版本的語音理解能力，Mistral的研究團隊將三項標準文本理解任務轉換為語音輸入形式，并構建了包含40個長音頻樣本的內部音頻理解基準（AU Benchmark），要求模型完成復雜問答任務。此外，還基于FLEURS-Translation基準測試了Voxtral的語音翻譯性能。

測試結果顯示，Voxtral Small在所有任務中與GPT-4o-mini及Gemini 2.5 Flash表現相當，并在語音翻譯任務FLEURS Translation中，超越GPT-4o-mini及Gemini 2.5 Flash，位列第一。

在文本方面，Voxtral保留了其基座語言模型的文本處理能力，在各項文本測試中與Mistral Small 3.1成績相當，官方稱可直接替代Ministral和Mistral Small 3.1模型使用。

結語：Voxtral表現超越開源項目，但難敵商業模型

Mistral AI發布的Voxtral語音模型系列為開源語音AI領域帶來了新的技術選擇。

從測試結果上看，該模型在轉錄準確率上超越了同為開源的Whisper，但其與商業模型GPT-4o-mini及Gemini 2.5 Flash還是有著一定的差距，Scribe依舊是語音模型中的“老大”。

Mistral AI在公告中還特別提到，未來幾個月，Voxtral模型的音頻處理能力還會持續增強，并且將新增說話人分割、音頻標記（如年齡和情緒）、詞級時間戳、非語音音頻識別等功能。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.