行業(yè)主要上市公司:阿里巴巴(09988.HK,BABA.US);百度(09888.HK,BIDU.US);騰訊(00700.HK, TCEHY);科大訊飛(002230.SZ);萬興科技(300624.SZ);三六零(601360.SH);昆侖萬維(300418.SZ);云從科技(688327.SH);拓爾思(300229.SZ)等
多模態(tài)大模型的核心技術(shù)-表征
表征學(xué)習(xí)是多模態(tài)任務(wù)的基礎(chǔ),其中包含了一些開放性問題,例如:如何結(jié)合來源不同的異質(zhì)數(shù)據(jù),如何處理不同模態(tài)的不同噪聲等級,測試樣本的某種模態(tài)缺失怎么辦。相較于多模態(tài),基于單模態(tài)的表征學(xué)習(xí)已被廣泛且深入地研究。在Transformer出現(xiàn)之前,不同模態(tài)所適用的最佳表征學(xué)習(xí)模型不同,例如,CNN廣泛適用CV領(lǐng)域,LSTM占領(lǐng)NLP領(lǐng)域。較多的多模態(tài)工作仍舊局限在使用N個異質(zhì)網(wǎng)絡(luò)單獨(dú)提取N個模態(tài)的特征,之后采用Joint或Coordinated結(jié)構(gòu)進(jìn)行訓(xùn)練。不過這種思路在很快改變,隨著越來越多工作證實Transformer在CV和NLP以及Speech領(lǐng)域都可以獲得極佳的性能,僅使用Transformer統(tǒng)一多個模態(tài)、甚至多個跨模態(tài)任務(wù)成為可能。基于Transformer的多模態(tài)預(yù)訓(xùn)練模型在2019年后噴涌而出。
注:聯(lián)合和協(xié)調(diào)表示的結(jié)構(gòu)。點(diǎn)表示使用所有模態(tài)作為輸入投射到相同的空間,另一方面,協(xié)調(diào)表示存在于自己的空間中,但通過相似性(例如歐幾里得距離)或結(jié)構(gòu)約束(例如偏序)進(jìn)行協(xié)調(diào)。
多模態(tài)大模型的核心技術(shù)-翻譯
跨模態(tài)翻譯的目的是學(xué)習(xí)如何將源模態(tài)映射(map)到目標(biāo)模態(tài)。例如:輸入一張圖像,我們希望生成一句話描述它,或者輸入一句話,我們生成與之匹配的一張圖。
基于語法模版,即人為設(shè)定多個針對目標(biāo)模態(tài)的語法模版,將模型的預(yù)測結(jié)果插入模版中作為翻譯結(jié)果。以圖像描述為例,模版定義為who did what to whom in a place,其中有四個待替換的插槽。通過不同類型的目標(biāo)/屬性/場景檢測器可以獲得who, what, whom, place等具體單詞,進(jìn)而完成翻譯。
編碼-解碼器(encoder-decoder):首先將源模態(tài)的數(shù)據(jù)編碼為隱特征,后續(xù)被解碼器用于生成目標(biāo)模態(tài)。以圖像描述為例,編碼器(一般為CNN+spatial pooling)將圖像編碼為一個或多個特征向量,進(jìn)而輸入到RNN中以自回歸的方式生成單詞序列。
連續(xù)性生成(continuous generation):它針對源模態(tài)與目標(biāo)模態(tài)都為流數(shù)據(jù)且在時間上嚴(yán)格對齊的任務(wù)。以文本合成語音為例,它與圖像描述不同,語音數(shù)據(jù)與文本數(shù)據(jù)在時間上嚴(yán)格對齊。WaveNet采用了CNN并行預(yù)測+CTC loss解決該類問題。當(dāng)然,編碼-解碼器理論上也可完成該任務(wù),但需處理數(shù)據(jù)對齊問題。
多模態(tài)大模型的核心技術(shù)-對齊
對齊是多模態(tài)學(xué)習(xí)中的一個關(guān)鍵環(huán)節(jié),它涉及如何在不同的數(shù)據(jù)模態(tài)之間發(fā)現(xiàn)和建立對應(yīng)關(guān)系。通過對齊,多模態(tài)模型能夠?qū)W習(xí)到不同模態(tài)之間的相互表示,從而增強(qiáng)對復(fù)雜場景的理解能力。跨模態(tài)對齊目的是挖掘多模態(tài)數(shù)據(jù)的子元素之間的關(guān)聯(lián)性,例如visual grounding任務(wù)。在學(xué)習(xí)表征或翻譯時也可能隱式地學(xué)習(xí)對齊。
顯式對齊:此處對實例具有兩個或更多子組件的對齊進(jìn)行分類。如何衡量相似性在顯式對齊中很重要。用于設(shè)計相似性度量的基于學(xué)習(xí)的方法可以分為無監(jiān)督和監(jiān)督。Unsupervised的大部分內(nèi)容都受到統(tǒng)計機(jī)器翻譯和基因組測序等方法的啟發(fā)。一個典型的例子是動態(tài)時間扭曲(DTW)。使用CCA和高斯混合模型的監(jiān)督方法已經(jīng)被提出,但深度學(xué)習(xí)方法變得更加流行。
隱式對齊:與顯式對齊不同,隱式對齊用作其他任務(wù)中使用的潛在表示。這可用于提高沒有嚴(yán)格對齊的任務(wù)的方法的性能,例如VQA或機(jī)器翻譯。方法大致可分為圖模型和神經(jīng)網(wǎng)絡(luò)。圖形模型已用于機(jī)器翻譯和語音現(xiàn)象對齊。然而,這些方法需要在單詞之間進(jìn)行手動映射。神經(jīng)網(wǎng)絡(luò)近年來得到了廣泛的應(yīng)用,編碼器-解碼器模型可以解決這些傳統(tǒng)的機(jī)器翻譯問題。然而,如果不使用隱式對齊,對編碼器的要求會很大(需要熟練地將整個文檔和圖像轉(zhuǎn)換為潛在表示)。注意力機(jī)制是解決這個問題的一種眾所周知的方法。
多模態(tài)對齊目前處于其發(fā)展的非常初期階段,主要強(qiáng)調(diào)與人類指令的對齊,但忽略了如美德和社會規(guī)范等高層次和多樣化的人類價值。確保無害性提出了一個重大且不可忽視的挑戰(zhàn)。
多模態(tài)大模型的核心技術(shù)-融合
融合是將多模態(tài)數(shù)據(jù)或其特征結(jié)合在一起,以便進(jìn)行統(tǒng)一的分析和決策。其核心在于如何有效結(jié)合不同模態(tài)的信息以增強(qiáng)學(xué)習(xí)任務(wù)的性能。融合是一個使用多種模式的數(shù)據(jù)進(jìn)行預(yù)測的領(lǐng)域。最古老的多模式學(xué)習(xí)形式之一。優(yōu)點(diǎn)包括能夠通過使用來自多種模態(tài)的數(shù)據(jù)進(jìn)行更穩(wěn)健的預(yù)測,以及即使某些模態(tài)的數(shù)據(jù)丟失也能夠進(jìn)行預(yù)測。應(yīng)用領(lǐng)域廣泛,包括視聽語音識別(AVSR)、情感識別、醫(yī)學(xué)圖像分析和多媒體事件檢測。這里,F(xiàn)usion分為模型無關(guān)的和基于模型的。
早期融合(Early Fusion):在特征層面進(jìn)行融合,將不同模態(tài)的特征早早地合并,以充分利用各模態(tài)的互補(bǔ)信息。
晚期融合(Late Fusion):在決策層面進(jìn)行融合,即在模型輸出后再結(jié)合不同模態(tài)的結(jié)果,這有助于在最終決策時綜合考慮各模態(tài)的見解。
混合融合(Hybrid Fusion):結(jié)合早期和晚期融合的優(yōu)點(diǎn),可能在多個層面進(jìn)行特征和決策的結(jié)合,以實現(xiàn)更靈活的信息整合。
多模態(tài)融合是依賴于任務(wù)和數(shù)據(jù)的,現(xiàn)有工作中常常是多種融合手段的堆積,并未真正統(tǒng)一的理論支撐。最近,神經(jīng)網(wǎng)絡(luò)已成為處理多模態(tài)融合的一種非常流行的方式,然而圖形模型和多核學(xué)習(xí)仍然被使用,特別是在訓(xùn)練數(shù)據(jù)有限或模型可解釋性很重要的任務(wù)中。
多模態(tài)大模型的核心技術(shù)-協(xié)同
協(xié)同學(xué)習(xí)是通過使用另一種模態(tài)(擁有大量數(shù)據(jù))的數(shù)據(jù)來設(shè)計一種模態(tài)模型的過程。在共同學(xué)習(xí)中,來自另一種模式的數(shù)據(jù)僅在訓(xùn)練期間使用,而不在測試期間使用。根據(jù)訓(xùn)練時使用的數(shù)據(jù)資源,協(xié)同學(xué)習(xí)可以分為并行、非并行和混合。
并行學(xué)習(xí):并行數(shù)據(jù)方法需要訓(xùn)練數(shù)據(jù)集,其中來自一個模態(tài)的觀察直接與來自其他模態(tài)的觀察相關(guān)聯(lián)。換句話說,當(dāng)多模態(tài)觀察來自相同的實例時,比如在一個音視頻語音數(shù)據(jù)集中,視頻和語音樣本來自同一說話者。
非并行協(xié)同學(xué)習(xí):非并行數(shù)據(jù)方法不需要不同模態(tài)觀察之間的直接鏈接。這些方法通常通過在類別方面的重疊來實現(xiàn)協(xié)同學(xué)習(xí)。例如,在零樣本學(xué)習(xí)中,常規(guī)的視覺對象識別數(shù)據(jù)集可以通過擴(kuò)展為包括來自維基百科的第二個純文本數(shù)據(jù)集,以提高視覺對象識別的泛化性能。
混合協(xié)同方法:在混合數(shù)據(jù)設(shè)置中,通過共享模態(tài)或數(shù)據(jù)集來連接模態(tài)。協(xié)同學(xué)習(xí)中使用的數(shù)據(jù)并行類型:并行-模式來自同一數(shù)據(jù)集,并且實例之間存在直接對應(yīng);非并行模式來自不同的數(shù)據(jù)集,沒有重疊的實例,但在一般類別或概念上有重疊;混合模式-實例或概念由第三種模式或數(shù)據(jù)集連接。
多模態(tài)協(xié)同學(xué)習(xí)允許一種模態(tài)影響另一種模態(tài)的訓(xùn)練,利用跨模態(tài)的互補(bǔ)信息。值得注意的是,協(xié)同學(xué)習(xí)是與任務(wù)無關(guān)的,可以用于創(chuàng)建更好的融合、翻譯和對齊模型。這一挑戰(zhàn)可以通過諸如協(xié)同訓(xùn)練、多模態(tài)表示學(xué)習(xí)、概念接地和零樣本學(xué)習(xí)(ZSL)等算法來解決,并已在視覺分類、動作識別、視聽語音識別和語義相似度估計等領(lǐng)域得到廣泛應(yīng)用。
更多本行業(yè)研究分析詳見前瞻產(chǎn)業(yè)研究院《全球及中國多模態(tài)大模型行業(yè)發(fā)展前景與投資戰(zhàn)略規(guī)劃分析報告》
同時前瞻產(chǎn)業(yè)研究院還提供產(chǎn)業(yè)新賽道研究、投資可行性研究、產(chǎn)業(yè)規(guī)劃、園區(qū)規(guī)劃、產(chǎn)業(yè)招商、產(chǎn)業(yè)圖譜、產(chǎn)業(yè)大數(shù)據(jù)、智慧招商系統(tǒng)、行業(yè)地位證明、IPO咨詢/募投可研、專精特新小巨人申報、十五五規(guī)劃等解決方案。如需轉(zhuǎn)載引用本篇文章內(nèi)容,請注明資料來源(前瞻產(chǎn)業(yè)研究院)。
更多深度行業(yè)分析盡在【前瞻經(jīng)濟(jì)學(xué)人APP】,還可以與500+經(jīng)濟(jì)學(xué)家/資深行業(yè)研究員交流互動。更多企業(yè)數(shù)據(jù)、企業(yè)資訊、企業(yè)發(fā)展情況盡在【企查貓APP】,性價比最高功能最全的企業(yè)查詢平臺。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.