99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Stream-Omni:同時支持各種模態組合交互的多模態大模型

0
分享至



GPT-4o式的多模態大模型(LMMs)展現出在文本、視覺和語音模態上的全能能力,其在線語音服務還能在語音交互過程中同步提供中間文本結果(即用戶輸入和模型響應的轉錄內容),為用戶提供“邊看邊聽”的靈活交互體驗。因此,如何構建支持文本、視覺和語音三種模態的多模態大模型成為近期研究熱點。現有的多模態大模型通常利用多個編碼器提取各個模態的表示,然后將各模態表示沿序列維度拼接并輸入至大語言模型基座中以生成回復。這些基于拼接的方法簡化了模態集成過程,但它們在很大程度上依賴大規模數據,以數據驅動的方式學習模態對齊。此外,這種基于拼接的維度對齊方式缺乏足夠的靈活性,無法像GPT-4o那樣在語音交互過程中同時生成中間文本結果。



為應對這一挑戰,中國科學院計算技術研究所自然語言處理團隊提出了文本-視覺-語音多模態大模型——Stream-Omni,其能同時支持各種模態組合下的交互。通過對各模態間的關系進行更有針對性的建模,Stream-Omni實現了更加高效和靈活的文本-視覺-語音模態對齊。僅依賴包含2.3萬小時語音的多模態數據,Stream-Omni即可具備文本交互、語音交互、基于視覺的語音交互等各種模態上的交互能力。與此同時,依賴于創新的語音建模方式,Stream-Omni能在語音交互過程中像GPT-4o一樣同步輸出中間文本轉錄結果,為用戶提供全方位的多模態交互體驗。



  • 論文題目:
  • Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model
  • 論文鏈接:
  • https://arxiv.org/abs/2506.13642
  • 開源代碼:
  • https://github.com/ictnlp/Stream-Omni
  • 模型下載:
  • https://huggingface.co/ICTNLP/stream-omni-8b

Stream-Omni的模態對齊



現有多模態大模型中的模態對齊(如左圖所示):在序列維度上將三種模態的表示進行拼接,輸入至大語言模型基座

為了減輕對大規模三模態數據的依賴,Stream-Omni更有針對性地建模各模態之間的關系,即語音與文本應在語義上高度一致,而視覺則在語義上對文本形成互補關系。因此,Stream-Omni對不同模態采用不同對齊方式(如右圖所示):

  • 視覺-文本對齊:序列維度的視覺文本拼接
  • 語音-文本對齊:層級維度的語音文本映射

實現上,Stream-Omni以大語言模型(LLM)為核心,并在其底部和頂部引入語音層,通過連接時序分類(Connectionist Temporal Classification,CTC)建模語音到文本的映射,此建模方式的優勢在于:

  • 支持通過語音模態進行外部交互,同時利用文本模態在內部控制生成的內容;
  • 基于CTC的語音-文本映射為語音文本在表示和結構的對齊上提供更加直接的監督,因此Stream-Omni 能夠在僅使用少量語音數據的情況下,將 LLM 主干的文本能力遷移至語音模態。
  • 層級維度映射使得Stream-Omni在語音交互過程中還能同步輸出中間文本結果(即指令和回復的轉錄文本),為用戶提供更全面的多模態體驗。

Stream-Omni



Stream-Omni以大語言模型作為主干,逐步將視覺和語音與文本對齊,高效地構建了一個支持文本、視覺和語音的多模態大模型。在視覺-文本對齊方面,Stream-Omni采用視覺編碼器和投影模塊提取視覺表示,并將其與文本表示進行拼接。在語音-文本對齊方面,Stream-Omni在LLM主干的底部和頂部分別引入若干語音層,用于將語音映射到文本以及基于文本生成語音。

視覺模態

基于視覺模態與文本模態之間具有語義互補性,Stream-Omni采用LLaVA架構中的序列維度拼接的方式進行視覺-文本對齊。

語音模態

(1)語音離散化:Stream-Omni采用CosyVoice Tokenizer對語音輸入進行離散化,編碼為若干離散的語音單元(< Audio_965>…)。

(2)語音到文本映射:為了充分利用LLM的能力,Stream-Omni在LLM的底部引入語音層,用于學習語音與文本之間的映射關系,從而將LLM中的文本能力遷移到語音模態中。Stream-Omni利用在ASR任務上的CTC損失直接監督底部語音層語音表示,將其與文本模態對齊。

(3)文本生成:LLM基于輸入的視覺表示和語音表示,生成文本回復。

(4)文本到語音生成:Stream-Omni通過頂部語音層來完成文本到語音生成。為了在生成文本的同時生成語音單元,Stream-Omni在頂部語音層中引入了alignment-based fusion模塊。Alignment-based fusion沿用了StreamSpeech等實時生成研究中的同步生成策略,利用CTC對齊來指導同步生成過程。

任意模態組合下的多模態交互

Stream-Omni能夠通過靈活組合視覺編碼器、底部語音層、LLM、頂部語音層來實現任意模態組合下的交互。同時,由于層級維度語音文本映射,Stream-Omni能夠在語音到語音生成過程中提供中間的文本結果。

實驗結果

視覺理解能力



Stream-Omni和相同規模和數據量級的視覺大模型取得相當的表現。

語音交互能力



在事實性的語音交互上,Stream-Omni相比于現有方法具有優勢,源于層級維度的語音文本映射將LLM的文本能力遷移到語音模態上。

基于視覺的語音交互能力



在本實例中,在指令分別通過文本和語音輸入的情況下,VITA-1.5給出了兩個相互矛盾的回答:“不允許前往二樓”和“直接通往二樓”。這一在面對不同模態指令時產生的矛盾回應,源于沿序列維度拼接視覺、語音和文本表示來實現多模態對齊的方法,并未對語音與文本模態之間的語義進行嚴格對齊建模。相比之下,Stream-Omni引入語音到文本的映射機制,實現了語音與文本表示之間更精確的語義對齊。因此,Stream-Omni在不同模態下表現更加一致,無論指令是通過文本還是語音輸入,都能生成相似的響應。另外,Stream-Omni還能生成高質量的語音回復,更多實例請在https://github.com/ictnlp/Stream-Omni體驗。

總結

  • Stream-Omni是一個GPT-4o式的文本-視覺-語音多模態大模型,能夠支持多種模態組合下的多模態交互。
  • Stream-Omni能夠在語音交互過程中輸出中間文本結果,為用戶提供更全面的多模態交互體驗。
  • Stream-Omni關注如何構建模態對齊,語音表現力等方面的增強不是本研究的重點,因此其在擬人化、音色多樣性等方面存在局限性。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
偽娘“阿紅”事件,讓很多網友都看懵了!

偽娘“阿紅”事件,讓很多網友都看懵了!

麥杰遜
2025-07-07 16:48:32
42歲蒼井空老師紅色性感裙子亮相,童顏巨乳,少女感滿滿

42歲蒼井空老師紅色性感裙子亮相,童顏巨乳,少女感滿滿

說真話的小陳
2025-06-25 09:25:05
WTT大滿貫男單首日冷門多,日韓全軍覆沒,國乒僅王楚欽1人晉級

WTT大滿貫男單首日冷門多,日韓全軍覆沒,國乒僅王楚欽1人晉級

浪子阿邴聊體育
2025-07-07 11:53:25
王思聰新女友懶懶火了!內衣上街炸場,巴黎街頭全是她

王思聰新女友懶懶火了!內衣上街炸場,巴黎街頭全是她

橙星文娛
2025-07-05 11:01:12
馬斯克的結局如何?美國歷史或早已給出答案,而且是兩次

馬斯克的結局如何?美國歷史或早已給出答案,而且是兩次

霽寒飄雪
2025-07-07 13:22:02
當初掏空家底,舉債120億收購沃爾沃,如今15年過去,吉利賺了多少

當初掏空家底,舉債120億收購沃爾沃,如今15年過去,吉利賺了多少

楊哥歷史
2025-04-09 10:28:49
《以法之名》:99%的觀眾都不知,為何孫飛逃跑前還要去喝羊肉湯

《以法之名》:99%的觀眾都不知,為何孫飛逃跑前還要去喝羊肉湯

簡清醬
2025-07-07 12:09:57
俄軍11小時1000次爆炸,展示核武外戰術

俄軍11小時1000次爆炸,展示核武外戰術

觀察者小海風
2025-07-08 00:01:35
50歲后才明白:再大的房子再多的存款,也不如子女有個穩定工作

50歲后才明白:再大的房子再多的存款,也不如子女有個穩定工作

四象八卦
2025-06-28 10:27:26
一部好劇四個戲混子!《以法之名》觀眾怒了:這些演員怎么混進去?

一部好劇四個戲混子!《以法之名》觀眾怒了:這些演員怎么混進去?

科學發掘
2025-07-07 15:01:12
一個團被敵三個師包圍,失聯七天竟零傷亡突圍,彭德懷:提拔

一個團被敵三個師包圍,失聯七天竟零傷亡突圍,彭德懷:提拔

花心電影
2025-07-05 10:40:28
1940年,德軍把波蘭女子送到慰安所,把她雙腿捆綁在凳子上……

1940年,德軍把波蘭女子送到慰安所,把她雙腿捆綁在凳子上……

百態人間
2025-07-07 16:27:56
特朗普稱美國將在本周與中國討論涉TikTok交易,外交部回應

特朗普稱美國將在本周與中國討論涉TikTok交易,外交部回應

環球網資訊
2025-07-07 15:48:39
青島大學宿管被熱死,巨大落差引熱議,校長兒子經歷讓人眼紅

青島大學宿管被熱死,巨大落差引熱議,校長兒子經歷讓人眼紅

溫柔看世界
2025-07-07 11:53:17
1998年,美國雜交犬深夜將女主人折磨致死,調查后原因令人心酸

1998年,美國雜交犬深夜將女主人折磨致死,調查后原因令人心酸

舊時樓臺月
2025-06-24 13:41:57
男子查出主動脈夾層拒絕手術 醫生自掏3萬也要救

男子查出主動脈夾層拒絕手術 醫生自掏3萬也要救

大象新聞
2025-07-07 19:52:57
痛心!阿壩車禍6 人最后影像流出,行李箱在石縫,現場搜救照曝光

痛心!阿壩車禍6 人最后影像流出,行李箱在石縫,現場搜救照曝光

行走的知識庫
2025-07-07 15:06:13
愧對領袖 普京痛心得知俄羅斯交通部長自裁報國

愧對領袖 普京痛心得知俄羅斯交通部長自裁報國

腌臜潑才
2025-07-07 21:45:09
突傳噩耗!溫州一知名人物去世

突傳噩耗!溫州一知名人物去世

溫百君
2025-07-07 20:34:22
未來港首可能是霍啟剛了。

未來港首可能是霍啟剛了。

老友科普
2025-07-07 20:23:30
2025-07-08 01:55:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10799文章數 142354關注度
往期回顧 全部

科技要聞

投資大佬一語扎心:中國機器人"可悲"現狀

頭條要聞

專家稱鉛中毒幼兒智商很難恢復 有家長傷心過度被搶救

頭條要聞

專家稱鉛中毒幼兒智商很難恢復 有家長傷心過度被搶救

體育要聞

不會再有第二個,快樂又偉大的托馬斯-穆勒

娛樂要聞

鹿晗狀態回升賬號恢復 演唱會公開表白

財經要聞

特朗普要發關稅函 美國貿易談判進展如何

汽車要聞

預售10.58萬起/6秒級加速 零跑B01將于7月下旬上市

態度原創

本地
家居
房產
教育
公開課

本地新聞

建筑地標如何成為城市人才匯聚的 “強磁場”?

家居要聞

醺光伴讀 品質兼顧實用

房產要聞

容積率1.0,這可能是海口近三年最猛的一塊地!

教育要聞

祝賀!這些考生已被名校提前錄取!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 双鸭山市| 屏东市| 胶南市| 德化县| 商水县| 洮南市| 盘山县| 旺苍县| 湟中县| 定陶县| 嘉鱼县| 辰溪县| 新晃| 宁安市| 东明县| 睢宁县| 什邡市| 封开县| 北海市| 株洲县| 禹州市| 琼海市| 台前县| 阿坝| 玉门市| 永顺县| 辽阳县| 璧山县| 虞城县| 伽师县| 城口县| 阿拉善盟| 图木舒克市| 五家渠市| 图们市| 塘沽区| 西乡县| 商水县| 蓝田县| 南靖县| 镇康县|