99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

2025年中國多模態(tài)大模型行業(yè)核心技術(shù)現(xiàn)狀 關(guān)鍵在表征、翻譯、對齊、融合、協(xié)同技術(shù)【組圖】

0
分享至

行業(yè)主要上市公司:阿里巴巴(09988.HK,BABA.US);百度(09888.HK,BIDU.US);騰訊(00700.HK, TCEHY);科大訊飛(002230.SZ);萬興科技(300624.SZ);三六零(601360.SH);昆侖萬維(300418.SZ);云從科技(688327.SH);拓爾思(300229.SZ)等

多模態(tài)大模型的核心技術(shù)-表征

表征學(xué)習(xí)是多模態(tài)任務(wù)的基礎(chǔ),其中包含了一些開放性問題,例如:如何結(jié)合來源不同的異質(zhì)數(shù)據(jù),如何處理不同模態(tài)的不同噪聲等級,測試樣本的某種模態(tài)缺失怎么辦。相較于多模態(tài),基于單模態(tài)的表征學(xué)習(xí)已被廣泛且深入地研究。在Transformer出現(xiàn)之前,不同模態(tài)所適用的最佳表征學(xué)習(xí)模型不同,例如,CNN廣泛適用CV領(lǐng)域,LSTM占領(lǐng)NLP領(lǐng)域。較多的多模態(tài)工作仍舊局限在使用N個異質(zhì)網(wǎng)絡(luò)單獨(dú)提取N個模態(tài)的特征,之后采用Joint或Coordinated結(jié)構(gòu)進(jìn)行訓(xùn)練。不過這種思路在很快改變,隨著越來越多工作證實Transformer在CV和NLP以及Speech領(lǐng)域都可以獲得極佳的性能,僅使用Transformer統(tǒng)一多個模態(tài)、甚至多個跨模態(tài)任務(wù)成為可能。基于Transformer的多模態(tài)預(yù)訓(xùn)練模型在2019年后噴涌而出。


注:聯(lián)合和協(xié)調(diào)表示的結(jié)構(gòu)。點(diǎn)表示使用所有模態(tài)作為輸入投射到相同的空間,另一方面,協(xié)調(diào)表示存在于自己的空間中,但通過相似性(例如歐幾里得距離)或結(jié)構(gòu)約束(例如偏序)進(jìn)行協(xié)調(diào)。

多模態(tài)大模型的核心技術(shù)-翻譯

跨模態(tài)翻譯的目的是學(xué)習(xí)如何將源模態(tài)映射(map)到目標(biāo)模態(tài)。例如:輸入一張圖像,我們希望生成一句話描述它,或者輸入一句話,我們生成與之匹配的一張圖。

基于語法模版,即人為設(shè)定多個針對目標(biāo)模態(tài)的語法模版,將模型的預(yù)測結(jié)果插入模版中作為翻譯結(jié)果。以圖像描述為例,模版定義為who did what to whom in a place,其中有四個待替換的插槽。通過不同類型的目標(biāo)/屬性/場景檢測器可以獲得who, what, whom, place等具體單詞,進(jìn)而完成翻譯。

編碼-解碼器(encoder-decoder):首先將源模態(tài)的數(shù)據(jù)編碼為隱特征,后續(xù)被解碼器用于生成目標(biāo)模態(tài)。以圖像描述為例,編碼器(一般為CNN+spatial pooling)將圖像編碼為一個或多個特征向量,進(jìn)而輸入到RNN中以自回歸的方式生成單詞序列。

連續(xù)性生成(continuous generation):它針對源模態(tài)與目標(biāo)模態(tài)都為流數(shù)據(jù)且在時間上嚴(yán)格對齊的任務(wù)。以文本合成語音為例,它與圖像描述不同,語音數(shù)據(jù)與文本數(shù)據(jù)在時間上嚴(yán)格對齊。WaveNet采用了CNN并行預(yù)測+CTC loss解決該類問題。當(dāng)然,編碼-解碼器理論上也可完成該任務(wù),但需處理數(shù)據(jù)對齊問題。


多模態(tài)大模型的核心技術(shù)-對齊

對齊是多模態(tài)學(xué)習(xí)中的一個關(guān)鍵環(huán)節(jié),它涉及如何在不同的數(shù)據(jù)模態(tài)之間發(fā)現(xiàn)和建立對應(yīng)關(guān)系。通過對齊,多模態(tài)模型能夠?qū)W習(xí)到不同模態(tài)之間的相互表示,從而增強(qiáng)對復(fù)雜場景的理解能力。跨模態(tài)對齊目的是挖掘多模態(tài)數(shù)據(jù)的子元素之間的關(guān)聯(lián)性,例如visual grounding任務(wù)。在學(xué)習(xí)表征或翻譯時也可能隱式地學(xué)習(xí)對齊。

顯式對齊:此處對實例具有兩個或更多子組件的對齊進(jìn)行分類。如何衡量相似性在顯式對齊中很重要。用于設(shè)計相似性度量的基于學(xué)習(xí)的方法可以分為無監(jiān)督和監(jiān)督。Unsupervised的大部分內(nèi)容都受到統(tǒng)計機(jī)器翻譯和基因組測序等方法的啟發(fā)。一個典型的例子是動態(tài)時間扭曲(DTW)。使用CCA和高斯混合模型的監(jiān)督方法已經(jīng)被提出,但深度學(xué)習(xí)方法變得更加流行。

隱式對齊:與顯式對齊不同,隱式對齊用作其他任務(wù)中使用的潛在表示。這可用于提高沒有嚴(yán)格對齊的任務(wù)的方法的性能,例如VQA或機(jī)器翻譯。方法大致可分為圖模型和神經(jīng)網(wǎng)絡(luò)。圖形模型已用于機(jī)器翻譯和語音現(xiàn)象對齊。然而,這些方法需要在單詞之間進(jìn)行手動映射。神經(jīng)網(wǎng)絡(luò)近年來得到了廣泛的應(yīng)用,編碼器-解碼器模型可以解決這些傳統(tǒng)的機(jī)器翻譯問題。然而,如果不使用隱式對齊,對編碼器的要求會很大(需要熟練地將整個文檔和圖像轉(zhuǎn)換為潛在表示)。注意力機(jī)制是解決這個問題的一種眾所周知的方法。

多模態(tài)對齊目前處于其發(fā)展的非常初期階段,主要強(qiáng)調(diào)與人類指令的對齊,但忽略了如美德和社會規(guī)范等高層次和多樣化的人類價值。確保無害性提出了一個重大且不可忽視的挑戰(zhàn)。


多模態(tài)大模型的核心技術(shù)-融合

融合是將多模態(tài)數(shù)據(jù)或其特征結(jié)合在一起,以便進(jìn)行統(tǒng)一的分析和決策。其核心在于如何有效結(jié)合不同模態(tài)的信息以增強(qiáng)學(xué)習(xí)任務(wù)的性能。融合是一個使用多種模式的數(shù)據(jù)進(jìn)行預(yù)測的領(lǐng)域。最古老的多模式學(xué)習(xí)形式之一。優(yōu)點(diǎn)包括能夠通過使用來自多種模態(tài)的數(shù)據(jù)進(jìn)行更穩(wěn)健的預(yù)測,以及即使某些模態(tài)的數(shù)據(jù)丟失也能夠進(jìn)行預(yù)測。應(yīng)用領(lǐng)域廣泛,包括視聽語音識別(AVSR)、情感識別、醫(yī)學(xué)圖像分析和多媒體事件檢測。這里,F(xiàn)usion分為模型無關(guān)的和基于模型的。

早期融合(Early Fusion):在特征層面進(jìn)行融合,將不同模態(tài)的特征早早地合并,以充分利用各模態(tài)的互補(bǔ)信息。

晚期融合(Late Fusion):在決策層面進(jìn)行融合,即在模型輸出后再結(jié)合不同模態(tài)的結(jié)果,這有助于在最終決策時綜合考慮各模態(tài)的見解。

混合融合(Hybrid Fusion):結(jié)合早期和晚期融合的優(yōu)點(diǎn),可能在多個層面進(jìn)行特征和決策的結(jié)合,以實現(xiàn)更靈活的信息整合。

多模態(tài)融合是依賴于任務(wù)和數(shù)據(jù)的,現(xiàn)有工作中常常是多種融合手段的堆積,并未真正統(tǒng)一的理論支撐。最近,神經(jīng)網(wǎng)絡(luò)已成為處理多模態(tài)融合的一種非常流行的方式,然而圖形模型和多核學(xué)習(xí)仍然被使用,特別是在訓(xùn)練數(shù)據(jù)有限或模型可解釋性很重要的任務(wù)中。


多模態(tài)大模型的核心技術(shù)-協(xié)同

協(xié)同學(xué)習(xí)是通過使用另一種模態(tài)(擁有大量數(shù)據(jù))的數(shù)據(jù)來設(shè)計一種模態(tài)模型的過程。在共同學(xué)習(xí)中,來自另一種模式的數(shù)據(jù)僅在訓(xùn)練期間使用,而不在測試期間使用。根據(jù)訓(xùn)練時使用的數(shù)據(jù)資源,協(xié)同學(xué)習(xí)可以分為并行、非并行和混合。

并行學(xué)習(xí):并行數(shù)據(jù)方法需要訓(xùn)練數(shù)據(jù)集,其中來自一個模態(tài)的觀察直接與來自其他模態(tài)的觀察相關(guān)聯(lián)。換句話說,當(dāng)多模態(tài)觀察來自相同的實例時,比如在一個音視頻語音數(shù)據(jù)集中,視頻和語音樣本來自同一說話者。

非并行協(xié)同學(xué)習(xí):非并行數(shù)據(jù)方法不需要不同模態(tài)觀察之間的直接鏈接。這些方法通常通過在類別方面的重疊來實現(xiàn)協(xié)同學(xué)習(xí)。例如,在零樣本學(xué)習(xí)中,常規(guī)的視覺對象識別數(shù)據(jù)集可以通過擴(kuò)展為包括來自維基百科的第二個純文本數(shù)據(jù)集,以提高視覺對象識別的泛化性能。

混合協(xié)同方法:在混合數(shù)據(jù)設(shè)置中,通過共享模態(tài)或數(shù)據(jù)集來連接模態(tài)。協(xié)同學(xué)習(xí)中使用的數(shù)據(jù)并行類型:并行-模式來自同一數(shù)據(jù)集,并且實例之間存在直接對應(yīng);非并行模式來自不同的數(shù)據(jù)集,沒有重疊的實例,但在一般類別或概念上有重疊;混合模式-實例或概念由第三種模式或數(shù)據(jù)集連接。

多模態(tài)協(xié)同學(xué)習(xí)允許一種模態(tài)影響另一種模態(tài)的訓(xùn)練,利用跨模態(tài)的互補(bǔ)信息。值得注意的是,協(xié)同學(xué)習(xí)是與任務(wù)無關(guān)的,可以用于創(chuàng)建更好的融合、翻譯和對齊模型。這一挑戰(zhàn)可以通過諸如協(xié)同訓(xùn)練、多模態(tài)表示學(xué)習(xí)、概念接地和零樣本學(xué)習(xí)(ZSL)等算法來解決,并已在視覺分類、動作識別、視聽語音識別和語義相似度估計等領(lǐng)域得到廣泛應(yīng)用。


更多本行業(yè)研究分析詳見前瞻產(chǎn)業(yè)研究院《全球及中國多模態(tài)大模型行業(yè)發(fā)展前景與投資戰(zhàn)略規(guī)劃分析報告》

同時前瞻產(chǎn)業(yè)研究院還提供產(chǎn)業(yè)新賽道研究、投資可行性研究、產(chǎn)業(yè)規(guī)劃、園區(qū)規(guī)劃、產(chǎn)業(yè)招商、產(chǎn)業(yè)圖譜、產(chǎn)業(yè)大數(shù)據(jù)、智慧招商系統(tǒng)、行業(yè)地位證明、IPO咨詢/募投可研、專精特新小巨人申報、十五五規(guī)劃等解決方案。如需轉(zhuǎn)載引用本篇文章內(nèi)容,請注明資料來源(前瞻產(chǎn)業(yè)研究院)。

更多深度行業(yè)分析盡在【前瞻經(jīng)濟(jì)學(xué)人APP】,還可以與500+經(jīng)濟(jì)學(xué)家/資深行業(yè)研究員交流互動。更多企業(yè)數(shù)據(jù)、企業(yè)資訊、企業(yè)發(fā)展情況盡在【企查貓APP】,性價比最高功能最全的企業(yè)查詢平臺。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
我們的社保已經(jīng)變成底層百姓可望而不可及的奢侈品!

我們的社保已經(jīng)變成底層百姓可望而不可及的奢侈品!

逍遙論經(jīng)
2025-06-09 10:05:19
于文華:三拒尹相杰,轉(zhuǎn)身嫁才子,58歲田園喂狗趕大集

于文華:三拒尹相杰,轉(zhuǎn)身嫁才子,58歲田園喂狗趕大集

傅林娛樂
2025-06-08 16:16:46
臺風(fēng)要來了!今年1號臺風(fēng)“蝴蝶”將生成,暴雨、大暴雨……這些區(qū)域“雨一直下”

臺風(fēng)要來了!今年1號臺風(fēng)“蝴蝶”將生成,暴雨、大暴雨……這些區(qū)域“雨一直下”

上觀新聞
2025-06-09 15:00:08
少林寺回應(yīng)NBA球星文班亞馬“剃發(fā)閉關(guān)”:人確實在寺里

少林寺回應(yīng)NBA球星文班亞馬“剃發(fā)閉關(guān)”:人確實在寺里

界面新聞
2025-06-09 17:29:59
后續(xù)來了!山東高考女生午休睡路邊引淚目,官方回應(yīng),目擊者發(fā)聲

后續(xù)來了!山東高考女生午休睡路邊引淚目,官方回應(yīng),目擊者發(fā)聲

愛侃娛的丁丁
2025-06-09 13:55:45
頂級奢華!朝鮮官方全景展示金正恩辦公室

頂級奢華!朝鮮官方全景展示金正恩辦公室

IN朝鮮
2025-06-09 12:53:12
46歲章子怡,一臉雀斑連眉毛都漂了,打臉多少偶像包袱明星

46歲章子怡,一臉雀斑連眉毛都漂了,打臉多少偶像包袱明星

陳述影視
2025-06-07 20:44:35
56歲許晴參加活動變化大,眼尾上挑嘴巴凹陷,埋線填充痕跡明顯

56歲許晴參加活動變化大,眼尾上挑嘴巴凹陷,埋線填充痕跡明顯

野山歷史
2025-06-09 13:50:33
奇葩一幕!輸球后女排一人抱著主任哭,領(lǐng)導(dǎo)兩手插褲兜反應(yīng)冷冰冰

奇葩一幕!輸球后女排一人抱著主任哭,領(lǐng)導(dǎo)兩手插褲兜反應(yīng)冷冰冰

南海浪花
2025-06-09 07:19:04
救命!狗子把貓?zhí)虺伞懊⒐恕睕_上熱搜,受害貓連夜寫投訴信:這發(fā)型沒法見人了!

救命!狗子把貓?zhí)虺伞懊⒐恕睕_上熱搜,受害貓連夜寫投訴信:這發(fā)型沒法見人了!

貓來了
2025-06-09 12:07:24
老太當(dāng)母狗面摔死六只幼崽,打麻將忘鎖門回家后,被眼前景象嚇到

老太當(dāng)母狗面摔死六只幼崽,打麻將忘鎖門回家后,被眼前景象嚇到

溫情郵局
2025-06-07 18:02:24
印度前國防參謀長:62年的慘痛教訓(xùn)不再有,中印再開戰(zhàn)中國會失敗

印度前國防參謀長:62年的慘痛教訓(xùn)不再有,中印再開戰(zhàn)中國會失敗

舊時樓臺月
2025-06-09 11:46:49
法國高考作文題目曝光!多涉及深度哲學(xué)議題,網(wǎng)友驚呼完全看不懂

法國高考作文題目曝光!多涉及深度哲學(xué)議題,網(wǎng)友驚呼完全看不懂

三言四拍
2025-06-08 14:49:28
奇瑞固態(tài)電池將上車,已測試完畢!首搭新車曝光,像液態(tài)金屬

奇瑞固態(tài)電池將上車,已測試完畢!首搭新車曝光,像液態(tài)金屬

米粒說車唯一呀
2025-06-09 14:23:11
意足協(xié)主席:允許拉涅利同時擔(dān)任意大利主帥和羅馬俱樂部顧問

意足協(xié)主席:允許拉涅利同時擔(dān)任意大利主帥和羅馬俱樂部顧問

懂球帝
2025-06-09 08:56:11
尼日爾頂不住了!油井快廢,回頭又找中國談合作幫忙了

尼日爾頂不住了!油井快廢,回頭又找中國談合作幫忙了

特特農(nóng)村生活
2025-06-09 11:53:53
華盛頓郵報:烏克蘭剛剛重寫了戰(zhàn)爭規(guī)則

華盛頓郵報:烏克蘭剛剛重寫了戰(zhàn)爭規(guī)則

霹靂炮
2025-06-08 23:17:32
“80后”!原省科技廳副廳長,任211校長

“80后”!原省科技廳副廳長,任211校長

中國教育在線
2025-06-09 16:21:32
C羅:我將留在利雅得勝利,明年世界杯葡萄牙可以和任何強(qiáng)隊競爭

C羅:我將留在利雅得勝利,明年世界杯葡萄牙可以和任何強(qiáng)隊競爭

直播吧
2025-06-09 08:22:11
張若昀唐藝昕帶女兒看海,小公主坐爸爸肩頭,一家三口好幸福

張若昀唐藝昕帶女兒看海,小公主坐爸爸肩頭,一家三口好幸福

偵探娛樂
2025-06-09 15:24:18
2025-06-09 18:08:49
前瞻網(wǎng) incentive-icons
前瞻網(wǎng)
中國產(chǎn)業(yè)科技深度服務(wù)平臺
187725文章數(shù) 362545關(guān)注度
往期回顧 全部

科技要聞

今年618平臺集體想通了,主打一個簡單粗暴

頭條要聞

碾壓騎行男孩司機(jī)已到工地上班 不起訴結(jié)論仍遭質(zhì)疑

頭條要聞

碾壓騎行男孩司機(jī)已到工地上班 不起訴結(jié)論仍遭質(zhì)疑

體育要聞

“從來沒想過,我會成為英超最佳球員候選”

娛樂要聞

劉品言閃婚閃孕官宣 崴腳時被照顧打動

財經(jīng)要聞

一批又一批老人,奮不顧身地跳進(jìn)養(yǎng)老騙局

汽車要聞

小鵬G7將于6月11日亮相 首款具有L3級算力的AI汽車

態(tài)度原創(chuàng)

游戲
親子
本地
教育
家居

《往昔之夢》將于6月20日登陸Steam亞洲區(qū)域

親子要聞

搖骰子疊杯子挑戰(zhàn)!

本地新聞

非遺里的河南 | 黃河泥變身千年墨寶,寫字都帶仙氣兒~

教育要聞

轉(zhuǎn)給考生!省教育考試院重要提醒:收到此類短信,不要上當(dāng)!

家居要聞

簡約輕奢 現(xiàn)代實用私宅

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 肃宁县| 青川县| 黔江区| 绥棱县| 临漳县| 蓝山县| 叶城县| 义马市| 梓潼县| 织金县| 印江| 龙江县| 黄石市| 施甸县| 玉屏| 宜兰市| 巴林右旗| 密山市| 景东| 和顺县| 邮箱| 精河县| 墨竹工卡县| 信丰县| 霞浦县| 柳河县| 天镇县| 库尔勒市| 敦煌市| 嘉黎县| 麻江县| 浦北县| 郎溪县| 二连浩特市| 赤城县| 日喀则市| 信阳市| 嘉祥县| 锡林郭勒盟| 中卫市| 临武县|