機(jī)器之心編輯部
3 月 27 日凌晨,阿里通義千問(wèn)團(tuán)隊(duì)發(fā)布 Qwen2.5-Omni。
這是 Qwen 系列中全新的旗艦級(jí)多模態(tài)大模型,專(zhuān)為全面的多模式感知設(shè)計(jì),可以無(wú)縫處理包括文本、圖像、音頻和視頻的各種輸入,同時(shí)支持流式的文本生成和自然語(yǔ)音合成輸出。
從此以后,你可以像打電話(huà)或進(jìn)行視頻通話(huà)一樣與 Qwen 聊天!可以說(shuō)是「語(yǔ)音聊天 + 視頻聊天」都實(shí)現(xiàn)了。
體驗(yàn)地址:https://chat.qwen.ai/
更重要的是,團(tuán)隊(duì)人員將支持這一切的模型 Qwen2.5-Omni-7B 開(kāi)源了,采用 Apache 2.0 許可證,并且發(fā)布了技術(shù)報(bào)告,分享所有細(xì)節(jié)!
現(xiàn)在,開(kāi)發(fā)者和企業(yè)可免費(fèi)下載商用Qwen2.5-Omni,手機(jī)等終端智能硬件也可輕松部署運(yùn)行。
論文地址:https://github.com/QwenLM/Qwen2.5-Omni/blob/main/assets/Qwen2.5_Omni.pdf
博客地址:https://qwenlm.github.io/blog/qwen2.5-omni/
GitHub 地址:https://github.com/QwenLM/Qwen2.5-Omni
Hugging Face 地址:https://huggingface.co/Qwen/Qwen2.5-Omni-7B
ModelScope:https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B
有網(wǎng)友表示,這才是真正的 Open AI。
大家可以通過(guò)官方 demo 感受一下 Qwen2.5-Omni 真實(shí)表現(xiàn)。
Qwen2.5-Omni 模型架構(gòu)
Qwen2.5-Omni 具有以下特點(diǎn):
Omni 和創(chuàng)新架構(gòu):團(tuán)隊(duì)提出了 Thinker-Talker 架構(gòu),這是一個(gè)端到端的多模態(tài)模型,旨在感知包括文本、圖像、音頻和視頻在內(nèi)的多種模態(tài),同時(shí)以流式方式生成文本和自然語(yǔ)音響應(yīng)。此外,團(tuán)隊(duì)還提出了一種名為 TMRoPE(Time-aligned Multimodal RoPE)的新型位置嵌入,用于同步視頻輸入與音頻的時(shí)間戳;
實(shí)時(shí)語(yǔ)音和視頻聊天:該架構(gòu)專(zhuān)為完全實(shí)時(shí)交互而設(shè)計(jì),支持分塊輸入和即時(shí)輸出;
自然且穩(wěn)健的語(yǔ)音生成:在語(yǔ)音生成方面,Qwen2.5-Omni 超越了許多現(xiàn)有的流式和非流式替代方案,展現(xiàn)出卓越的穩(wěn)健性和自然性;
多模態(tài)性能強(qiáng)勁:在與同樣大小的單模態(tài)模型進(jìn)行基準(zhǔn)測(cè)試時(shí),Qwen2.5-Omni 在所有模態(tài)上均展現(xiàn)出卓越的性能。Qwen2.5-Omni 在音頻能力上超越了同樣大小的 Qwen2-Audio,并且達(dá)到了與 Qwen2.5-VL-7B 相當(dāng)?shù)男阅埽?/p>
出色的端到端語(yǔ)音指令遵循能力:Qwen2.5-Omni 在端到端語(yǔ)音指令遵循方面的表現(xiàn)可與文本輸入的有效性相媲美,這一點(diǎn)在 MMLU 和 GSM8K 等基準(zhǔn)測(cè)試中得到了證明。
前文我們已經(jīng)提到,Qwen2.5-Omni 采用了 Thinker-Talker 架構(gòu)。
Thinker 就像大腦一樣,負(fù)責(zé)處理和理解來(lái)自文本、音頻和視頻模態(tài)的輸入,生成高級(jí)表示以及對(duì)應(yīng)的文本。
Talker 則像人類(lèi)的嘴巴,以流式方式接收 Thinker 產(chǎn)生的高級(jí)表示和文本,并流暢地輸出離散的語(yǔ)音 token。
Thinker 是一個(gè) Transformer 解碼器,配備有音頻和圖像的編碼器,以便于提取信息。相比之下,Talker 被設(shè)計(jì)為一種雙軌自回歸 Transformer 解碼器架構(gòu)。
在訓(xùn)練和推理過(guò)程中,Talker 直接接收來(lái)自 Thinker 的高維表示,并共享 Thinker 的所有歷史上下文信息。因此,整個(gè)架構(gòu)作為一個(gè)統(tǒng)一的單一模型運(yùn)行,實(shí)現(xiàn)了端到端的訓(xùn)練和推理。
Qwen2.5-Omni 模型架構(gòu)
模型性能
團(tuán)隊(duì)人員對(duì) Qwen2.5-Omni 進(jìn)行了全面評(píng)估,結(jié)果表明,該模型在所有模態(tài)上的表現(xiàn)均優(yōu)于類(lèi)似大小的單模態(tài)模型以及閉源模型,例如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro。
在需要集成多種模態(tài)的任務(wù)中,如 OmniBench,Qwen2.5-Omni 達(dá)到了最先進(jìn)的水平。
此外,在單模態(tài)任務(wù)中,Qwen2.5-Omni 在多個(gè)領(lǐng)域中表現(xiàn)優(yōu)異,包括語(yǔ)音識(shí)別(Common Voice)、翻譯(CoVoST2)、音頻理解(MMAU)、圖像推理(MMMU, MMStar)、視頻理解(MVBench)以及語(yǔ)音生成(Seed-tts-eval 和 subjective naturalness)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.