網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

阿里開源Qwen2.5-Omni-7B：首個端到端全模態(tài)大模型、看聽說寫打通

2025-03-27 14:22:53　來源: FounderPark

北京舉報

分享至

通義千問今天發(fā)布并開源了旗下的首個端到端的全模態(tài)大模型 Qwen2.5-Omni-7B。

該模型專為全方位多模態(tài)感知設(shè)計，能夠無縫處理文本、圖像、音頻和視頻等多種輸入形式，并通過實時流式響應(yīng)同時生成文本與自然語音合成輸出。

主要特點

全能創(chuàng)新架構(gòu)：提出了一種全新的Thinker-Talker架構(gòu)，這是一種端到端的多模態(tài)模型，旨在支持文本/圖像/音頻/視頻的跨模態(tài)理解，同時以流式方式生成文本和自然語音響應(yīng)。一種新的位置編碼技術(shù)，稱為TMRoPE（Time-aligned Multimodal RoPE），通過時間軸對齊實現(xiàn)視頻與音頻輸入的精準同步。
實時音視頻交互：架構(gòu)旨在支持完全實時交互，支持分塊輸入和即時輸出。
自然流暢的語音生成：在語音生成的自然性和穩(wěn)定性方面超越了許多現(xiàn)有的流式和非流式替代方案。
全模態(tài)性能優(yōu)勢：在同等規(guī)模的單模態(tài)模型進行基準測試時，表現(xiàn)出卓越的性能。Qwen2.5-Omni在音頻能力上優(yōu)于類似大小的Qwen2-Audio，并與Qwen2.5-VL-7B保持同等水平。
卓越的端到端語音指令跟隨能力：Qwen2.5-Omni在端到端語音指令跟隨方面表現(xiàn)出與文本輸入處理相媲美的效果，在MMLU通用知識理解和GSM8K數(shù)學推理等基準測試中表現(xiàn)優(yōu)異。

Qwen2.5-Omni-7B demo

以下內(nèi)容轉(zhuǎn)載自官方稿件，略有調(diào)整。

Founder Park 正在搭建開發(fā)者社群，邀請積極嘗試、測試新模型、新技術(shù)的開發(fā)者、創(chuàng)業(yè)者們加入，請掃碼詳細填寫你的產(chǎn)品/項目信息，通過審核后工作人員會拉你入群～

進群之后，你有機會得到：

高濃度的主流模型（如 DeepSeek 等）開發(fā)交流；
資源對接，與 API、云廠商、模型廠商直接交流反饋的機會；
好用、有趣的產(chǎn)品/案例，F(xiàn)ounder Park 會主動做宣傳。

01模型架構(gòu)Qwen2.5-Omni采用Thinker-Talker雙核架構(gòu)。Thinker 模塊如同大腦，負責處理文本、音頻、視頻等多模態(tài)輸入，生成高層語義表征及對應(yīng)文本內(nèi)容；Talker 模塊則類似發(fā)聲器官，以流式方式接收 Thinker實時輸出的語義表征與文本，流暢合成離散語音單元。 Thinker 基于 Transformer 解碼器架構(gòu)，融合音頻/圖像編碼器進行特征提取；Talker則采用雙軌自回歸 Transformer 解碼器設(shè)計，在訓練和推理過程中直接接收來自 Thinker 的高維表征，并共享全部歷史上下文信息，形成端到端的統(tǒng)一模型架構(gòu)。

模型架構(gòu)圖

02模型性能Qwen2.5-Omni在包括圖像，音頻，音視頻等各種模態(tài)下的表現(xiàn)都優(yōu)于類似大小的單模態(tài)模型以及封閉源模型，例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。

在多模態(tài)任務(wù)OmniBench，Qwen2.5-Omni達到了SOTA的表現(xiàn)。此外，在單模態(tài)任務(wù)中，Qwen2.5-Omni在多個領(lǐng)域中表現(xiàn)優(yōu)異，包括語音識別（Common Voice）、翻譯（CoVoST2）、音頻理解（MMAU）、圖像推理（MMMU、MMStar）、視頻理解（MVBench）以及語音生成（Seed-tts-eval和主觀自然聽感）。

模型性能圖

03首創(chuàng)Thinker-Talker雙核架構(gòu)

該部分內(nèi)容轉(zhuǎn)自「量子位」文章。

目前官方已放出Qwen2.5-Omni技術(shù)Blog和論文。

Qwen2.5-Omni采用通義團隊首創(chuàng)的全新架構(gòu)——Thinker-Talker雙核架構(gòu)。

其中，Thinker就像“大腦”，負責處理和理解來自文本、音頻、視頻等多模態(tài)的輸入信息，生成高層語義表征以及對應(yīng)的文本內(nèi)容。

Talker則更像“嘴巴”，以流式的方式接收由Thinker實時輸出的語義表征與文本，并流暢地合成離散語音tokens。

具體來說，Thinker基于Transformer解碼器架構(gòu)，融合音頻/圖像編碼器進行特征提取。

而Talker采用雙軌自回歸Transformer解碼器設(shè)計，在訓練和推理過程中直接接收來自Thinker的高維表征，并共享Thinker的全部歷史上下文信息。因此，整個架構(gòu)作為一個緊密結(jié)合的單一模型運行，支持端到端的訓練和推理。

與此同時，團隊還提出了一種新的位置編碼算法TMRoPE（Time-aligned Multimodal RoPE）以及Position Embedding （位置嵌入）融合音視頻技術(shù)。

TMRoPE編碼多模態(tài)輸入的三維位置信息，即多模態(tài)旋轉(zhuǎn)位置嵌入（M-RoPE），并結(jié)合絕對時間位置，通過將原始旋轉(zhuǎn)嵌入分解為時間、高度和寬度三個部分實現(xiàn)。

另外值得一提的是，從技術(shù)層面來看，Qwen2.5-Omni和一般的視頻/語音理解模型以及其相應(yīng)的視頻/語音對話的AI功能，也有本質(zhì)性區(qū)別。

在傳統(tǒng)語音理解大模型的人機交互場景里，一般運用 ASR（Automatic Speech Recognition，自動語音識別）技術(shù)，把人類語音轉(zhuǎn)換為文字文本，隨后將其交給大語言模型處理，最終生成的內(nèi)容借助 TTS（Text-to-Speech，語音合成）技術(shù)轉(zhuǎn)化為語音反饋給用戶。

而視頻理解模型是基于圖片、視頻進行大模型理解，并以文字形式輸出反饋。

這兩種模型均屬于相互獨立的單鏈路模型。在一些AI應(yīng)用中，甚至會串聯(lián)多個模型來實現(xiàn)類似功能，如此一來，鏈路變得更長，效率大打折扣。

Qwen2.5-Omni-7B的特點在于，它原生支持視頻、圖片、語音、文字等多模態(tài)輸入，并能原生生成語音及文字等多模態(tài)輸出。

也就是說，一個模型就能通過“看”、“聽”、“閱讀”等多種方式來綜合思考。

所以Qwen2.5-Omni得以在一系列同等規(guī)模的單模態(tài)模型權(quán)威基準測試中，拿下最強全模態(tài)性能，在語音理解、圖片理解、視頻理解、語音生成等領(lǐng)域的測評分數(shù)，均領(lǐng)先于專門的音頻（Audio）或視覺語言（VL）模型

體驗方式

Qwen Chat：https://chat.qwenlm.ai
Hugging Face：https://huggingface.co/Qwen/Qwen2.5-Omni-7B
ModelScope：https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B
DashScope：https://help.aliyun.com/zh/model-studio/user-guide/qwen-omni
GitHub：https://github.com/QwenLM/Qwen2.5-Omni
Demo體驗：https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo

轉(zhuǎn)載原創(chuàng)文章請?zhí)砑游⑿牛篺ounderparker

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.