99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

阿里開源Qwen2.5-Omni-7B:首個端到端全模態(tài)大模型、看聽說寫打通

0
分享至

通義千問今天發(fā)布并開源了旗下的首個端到端的全模態(tài)大模型 Qwen2.5-Omni-7B。

該模型專為全方位多模態(tài)感知設(shè)計,能夠無縫處理文本、圖像、音頻和視頻等多種輸入形式,并通過實時流式響應(yīng)同時生成文本與自然語音合成輸出。

主要特點

  • 全能創(chuàng)新架構(gòu):提出了一種全新的Thinker-Talker架構(gòu),這是一種端到端的多模態(tài)模型,旨在支持文本/圖像/音頻/視頻的跨模態(tài)理解,同時以流式方式生成文本和自然語音響應(yīng)。一種新的位置編碼技術(shù),稱為TMRoPE(Time-aligned Multimodal RoPE),通過時間軸對齊實現(xiàn)視頻與音頻輸入的精準同步。

  • 實時音視頻交互:架構(gòu)旨在支持完全實時交互,支持分塊輸入和即時輸出。

  • 自然流暢的語音生成:在語音生成的自然性和穩(wěn)定性方面超越了許多現(xiàn)有的流式和非流式替代方案。

  • 全模態(tài)性能優(yōu)勢:在同等規(guī)模的單模態(tài)模型進行基準測試時,表現(xiàn)出卓越的性能。Qwen2.5-Omni在音頻能力上優(yōu)于類似大小的Qwen2-Audio,并與Qwen2.5-VL-7B保持同等水平。

  • 卓越的端到端語音指令跟隨能力:Qwen2.5-Omni在端到端語音指令跟隨方面表現(xiàn)出與文本輸入處理相媲美的效果,在MMLU通用知識理解和GSM8K數(shù)學推理等基準測試中表現(xiàn)優(yōu)異。

Qwen2.5-Omni-7B demo

以下內(nèi)容轉(zhuǎn)載自官方稿件,略有調(diào)整。

Founder Park 正在搭建開發(fā)者社群,邀請積極嘗試、測試新模型、新技術(shù)的開發(fā)者、創(chuàng)業(yè)者們加入,請掃碼詳細填寫你的產(chǎn)品/項目信息,通過審核后工作人員會拉你入群~

進群之后,你有機會得到:

  • 高濃度的主流模型(如 DeepSeek 等)開發(fā)交流;

  • 資源對接,與 API、云廠商、模型廠商直接交流反饋的機會;

  • 好用、有趣的產(chǎn)品/案例,F(xiàn)ounder Park 會主動做宣傳。

01模型架構(gòu)Qwen2.5-Omni采用Thinker-Talker雙核架構(gòu)。Thinker 模塊如同大腦,負責處理文本、音頻、視頻等多模態(tài)輸入,生成高層語義表征及對應(yīng)文本內(nèi)容;Talker 模塊則類似發(fā)聲器官,以流式方式接收 Thinker實時輸出的語義表征與文本,流暢合成離散語音單元。 Thinker 基于 Transformer 解碼器架構(gòu),融合音頻/圖像編碼器進行特征提取;Talker則采用雙軌自回歸 Transformer 解碼器設(shè)計,在訓練和推理過程中直接接收來自 Thinker 的高維表征,并共享全部歷史上下文信息,形成端到端的統(tǒng)一模型架構(gòu)。


模型架構(gòu)圖

02模型性能Qwen2.5-Omni在包括圖像,音頻,音視頻等各種模態(tài)下的表現(xiàn)都優(yōu)于類似大小的單模態(tài)模型以及封閉源模型,例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。

在多模態(tài)任務(wù)OmniBench,Qwen2.5-Omni達到了SOTA的表現(xiàn)。此外,在單模態(tài)任務(wù)中,Qwen2.5-Omni在多個領(lǐng)域中表現(xiàn)優(yōu)異,包括語音識別(Common Voice)、翻譯(CoVoST2)、音頻理解(MMAU)、圖像推理(MMMU、MMStar)、視頻理解(MVBench)以及語音生成(Seed-tts-eval和主觀自然聽感)。


模型性能圖

03首創(chuàng)Thinker-Talker雙核架構(gòu)

該部分內(nèi)容轉(zhuǎn)自「量子位」文章。

目前官方已放出Qwen2.5-Omni技術(shù)Blog和論文。

Qwen2.5-Omni采用通義團隊首創(chuàng)的全新架構(gòu)——Thinker-Talker雙核架構(gòu)。

其中,Thinker就像“大腦”,負責處理和理解來自文本、音頻、視頻等多模態(tài)的輸入信息,生成高層語義表征以及對應(yīng)的文本內(nèi)容。

Talker則更像“嘴巴”,以流式的方式接收由Thinker實時輸出的語義表征與文本,并流暢地合成離散語音tokens。

具體來說,Thinker基于Transformer解碼器架構(gòu),融合音頻/圖像編碼器進行特征提取。

而Talker采用雙軌自回歸Transformer解碼器設(shè)計,在訓練和推理過程中直接接收來自Thinker的高維表征,并共享Thinker的全部歷史上下文信息。因此,整個架構(gòu)作為一個緊密結(jié)合的單一模型運行,支持端到端的訓練和推理。

與此同時,團隊還提出了一種新的位置編碼算法TMRoPE(Time-aligned Multimodal RoPE)以及Position Embedding (位置嵌入)融合音視頻技術(shù)。

TMRoPE編碼多模態(tài)輸入的三維位置信息,即多模態(tài)旋轉(zhuǎn)位置嵌入(M-RoPE),并結(jié)合絕對時間位置,通過將原始旋轉(zhuǎn)嵌入分解為時間、高度和寬度三個部分實現(xiàn)。


另外值得一提的是,從技術(shù)層面來看,Qwen2.5-Omni和一般的視頻/語音理解模型以及其相應(yīng)的視頻/語音對話的AI功能,也有本質(zhì)性區(qū)別。

在傳統(tǒng)語音理解大模型的人機交互場景里,一般運用 ASR(Automatic Speech Recognition,自動語音識別)技術(shù),把人類語音轉(zhuǎn)換為文字文本,隨后將其交給大語言模型處理,最終生成的內(nèi)容借助 TTS(Text-to-Speech,語音合成)技術(shù)轉(zhuǎn)化為語音反饋給用戶。

而視頻理解模型是基于圖片、視頻進行大模型理解,并以文字形式輸出反饋。

這兩種模型均屬于相互獨立的單鏈路模型。在一些AI應(yīng)用中,甚至會串聯(lián)多個模型來實現(xiàn)類似功能,如此一來,鏈路變得更長,效率大打折扣。

Qwen2.5-Omni-7B的特點在于,它原生支持視頻、圖片、語音、文字等多模態(tài)輸入,并能原生生成語音及文字等多模態(tài)輸出。

也就是說,一個模型就能通過“看”、“聽”、“閱讀”等多種方式來綜合思考。

所以Qwen2.5-Omni得以在一系列同等規(guī)模的單模態(tài)模型權(quán)威基準測試中,拿下最強全模態(tài)性能,在語音理解、圖片理解、視頻理解、語音生成等領(lǐng)域的測評分數(shù),均領(lǐng)先于專門的音頻(Audio)或視覺語言(VL)模型

體驗方式

  • Qwen Chat:https://chat.qwenlm.ai

  • Hugging Face:https://huggingface.co/Qwen/Qwen2.5-Omni-7B

  • ModelScope:https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

  • DashScope:https://help.aliyun.com/zh/model-studio/user-guide/qwen-omni

  • GitHub:https://github.com/QwenLM/Qwen2.5-Omni

  • Demo體驗:https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo


轉(zhuǎn)載原創(chuàng)文章請?zhí)砑游⑿牛篺ounderparker

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
4個中校2個中隊長,巴鐵公開擊落印軍名單,除了殲10還有梟龍戰(zhàn)果

4個中校2個中隊長,巴鐵公開擊落印軍名單,除了殲10還有梟龍戰(zhàn)果

說天說地說實事
2025-05-29 19:02:12
外交部:中國政府高度重視保障勞動者的合法權(quán)益

外交部:中國政府高度重視保障勞動者的合法權(quán)益

澎湃新聞
2025-05-29 15:54:07
不是迷信!明日端午前一天,記得:1不空,2不去,3不吃,別大意

不是迷信!明日端午前一天,記得:1不空,2不去,3不吃,別大意

小談食刻美食
2025-05-29 08:12:20
鼓勵學生相互舉報,是一個危險信號

鼓勵學生相互舉報,是一個危險信號

末名先生
2025-05-29 15:34:15
賴清德提議“有條件統(tǒng)一”,國臺辦正式給出回應(yīng),邀兩岸共同協(xié)商

賴清德提議“有條件統(tǒng)一”,國臺辦正式給出回應(yīng),邀兩岸共同協(xié)商

說天說地說實事
2025-05-28 22:17:17
國務(wù)院任免21名干部!剛卸任副省長的她進京履新,他“空降”江蘇后被免去公安部職務(wù)

國務(wù)院任免21名干部!剛卸任副省長的她進京履新,他“空降”江蘇后被免去公安部職務(wù)

上觀新聞
2025-05-29 18:06:09
大裁員!某銀行手術(shù)刀式裁員!

大裁員!某銀行手術(shù)刀式裁員!

挖掘機007
2025-05-29 11:19:49
網(wǎng)傳“成都6月1日起所有公路邊停車位免費”?最新回應(yīng)

網(wǎng)傳“成都6月1日起所有公路邊停車位免費”?最新回應(yīng)

愛看頭條
2025-05-29 21:31:10
烏克蘭使用彈道導彈對俄發(fā)起第7輪空襲,莫斯科市民工人四散奔逃

烏克蘭使用彈道導彈對俄發(fā)起第7輪空襲,莫斯科市民工人四散奔逃

史政先鋒
2025-05-29 10:30:08
中央巡視組進駐后,“亞洲最大醫(yī)院”原院長被查!

中央巡視組進駐后,“亞洲最大醫(yī)院”原院長被查!

上觀新聞
2025-05-29 15:59:07
深圳男子買彩票中2億,6天后去兌獎,卻被工作人員趕了出去

深圳男子買彩票中2億,6天后去兌獎,卻被工作人員趕了出去

今天說故事
2025-05-28 14:49:59
兩部門:云南西北部、西藏東南部局地發(fā)生山洪災(zāi)害可能性較大

兩部門:云南西北部、西藏東南部局地發(fā)生山洪災(zāi)害可能性較大

界面新聞
2025-05-29 18:05:38
人保集團財會部總經(jīng)理瞿棟開會期間突發(fā)心梗離世,終年55歲

人保集團財會部總經(jīng)理瞿棟開會期間突發(fā)心梗離世,終年55歲

魯中晨報
2025-05-29 19:09:47
浙江一地驚現(xiàn)“雙頭蛇”!村民嚇懵:還會倒著爬

浙江一地驚現(xiàn)“雙頭蛇”!村民嚇懵:還會倒著爬

瀟湘晨報
2025-05-29 12:55:51
貝萊德在中國石油股份的持股比例于05月23日從6.94%升至7.07%

貝萊德在中國石油股份的持股比例于05月23日從6.94%升至7.07%

每日經(jīng)濟新聞
2025-05-29 17:19:06
俄媒警告:如果德國援烏武器打擊莫斯科,俄“唯一選擇將是打擊柏林”

俄媒警告:如果德國援烏武器打擊莫斯科,俄“唯一選擇將是打擊柏林”

紅星新聞
2025-05-29 12:08:16
曾因問題疫苗引咎辭職,畢井泉被查,系今年打掉第5個正部

曾因問題疫苗引咎辭職,畢井泉被查,系今年打掉第5個正部

南方都市報
2025-05-29 21:24:24
兩位正部級,黃明、王榮有新身份,曾長期在江蘇工作

兩位正部級,黃明、王榮有新身份,曾長期在江蘇工作

揚子晚報
2025-05-29 17:32:25
印度在印巴沖突中獲得未爆炸的中國研制空空導彈?國防部回應(yīng)

印度在印巴沖突中獲得未爆炸的中國研制空空導彈?國防部回應(yīng)

澎湃新聞
2025-05-29 16:10:30
美國對中國留學生下手,27萬留美學生一夜之間……

美國對中國留學生下手,27萬留美學生一夜之間……

販財局
2025-05-29 14:55:12
2025-05-29 21:55:00
FounderPark incentive-icons
FounderPark
關(guān)注AI創(chuàng)業(yè),專注和創(chuàng)業(yè)者聊真問題
762文章數(shù) 133關(guān)注度
往期回顧 全部

科技要聞

英偉達財報炸裂 黃仁勛卻嘆退出中國太可惜

頭條要聞

疑因2年前的一句"阿姨" 男子遭電話短信騷擾不敢回家

頭條要聞

疑因2年前的一句"阿姨" 男子遭電話短信騷擾不敢回家

體育要聞

納達爾,法網(wǎng),漫長告別

娛樂要聞

辛柏青沉默8天后,這些事還是發(fā)生了

財經(jīng)要聞

若對等關(guān)稅叫停,特朗普還能怎么加關(guān)稅

汽車要聞

換上高爾夫GTI同款2.0T動力 新凌渡L GTS實車曝光

態(tài)度原創(chuàng)

房產(chǎn)
藝術(shù)
教育
家居
公開課

房產(chǎn)要聞

清盤倒計時!這個天河芯紅盤,贏的不止多一點!

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

剛剛發(fā)布:南京市開始啟動!

家居要聞

暖色復古 溫馨小資情調(diào)

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 临泉县| 清水县| 额济纳旗| 昆明市| 曲沃县| 牟定县| 双鸭山市| 高阳县| 赤水市| 东至县| 洛扎县| 师宗县| 永昌县| 綦江县| 仁化县| 阿图什市| 屏东县| 顺平县| 美姑县| 靖西县| 都匀市| 德庆县| 长葛市| 民县| 山东省| 饶河县| 庆云县| 宁夏| 岐山县| 冕宁县| 两当县| 旅游| 古蔺县| 通化县| 永靖县| 上虞市| 阿拉善左旗| 辰溪县| 阜新| 寻甸| 岑溪市|