2025年中國多模態(tài)大模型行業(yè)核心技術(shù)現(xiàn)狀關(guān)鍵在表征、翻譯、對齊、融合、協(xié)同技術(shù)【組圖】

2025-06-03 13:15:14　來源: 前瞻網(wǎng)

廣東舉報

分享至

行業(yè)主要上市公司：阿里巴巴(09988.HK，BABA.US);百度(09888.HK，BIDU.US);騰訊(00700.HK， TCEHY);科大訊飛(002230.SZ);萬興科技(300624.SZ);三六零(601360.SH);昆侖萬維(300418.SZ);云從科技(688327.SH);拓爾思(300229.SZ)等

多模態(tài)大模型的核心技術(shù)-表征

表征學(xué)習(xí)是多模態(tài)任務(wù)的基礎(chǔ)，其中包含了一些開放性問題，例如：如何結(jié)合來源不同的異質(zhì)數(shù)據(jù)，如何處理不同模態(tài)的不同噪聲等級，測試樣本的某種模態(tài)缺失怎么辦。相較于多模態(tài)，基于單模態(tài)的表征學(xué)習(xí)已被廣泛且深入地研究。在Transformer出現(xiàn)之前，不同模態(tài)所適用的最佳表征學(xué)習(xí)模型不同，例如，CNN廣泛適用CV領(lǐng)域，LSTM占領(lǐng)NLP領(lǐng)域。較多的多模態(tài)工作仍舊局限在使用N個異質(zhì)網(wǎng)絡(luò)單獨(dú)提取N個模態(tài)的特征，之后采用Joint或Coordinated結(jié)構(gòu)進(jìn)行訓(xùn)練。不過這種思路在很快改變，隨著越來越多工作證實Transformer在CV和NLP以及Speech領(lǐng)域都可以獲得極佳的性能，僅使用Transformer統(tǒng)一多個模態(tài)、甚至多個跨模態(tài)任務(wù)成為可能。基于Transformer的多模態(tài)預(yù)訓(xùn)練模型在2019年后噴涌而出。

注：聯(lián)合和協(xié)調(diào)表示的結(jié)構(gòu)。點(diǎn)表示使用所有模態(tài)作為輸入投射到相同的空間，另一方面，協(xié)調(diào)表示存在于自己的空間中，但通過相似性(例如歐幾里得距離)或結(jié)構(gòu)約束(例如偏序)進(jìn)行協(xié)調(diào)。

多模態(tài)大模型的核心技術(shù)-翻譯

跨模態(tài)翻譯的目的是學(xué)習(xí)如何將源模態(tài)映射(map)到目標(biāo)模態(tài)。例如：輸入一張圖像，我們希望生成一句話描述它，或者輸入一句話，我們生成與之匹配的一張圖。

基于語法模版，即人為設(shè)定多個針對目標(biāo)模態(tài)的語法模版，將模型的預(yù)測結(jié)果插入模版中作為翻譯結(jié)果。以圖像描述為例，模版定義為who did what to whom in a place，其中有四個待替換的插槽。通過不同類型的目標(biāo)/屬性/場景檢測器可以獲得who, what, whom, place等具體單詞，進(jìn)而完成翻譯。

編碼-解碼器(encoder-decoder)：首先將源模態(tài)的數(shù)據(jù)編碼為隱特征，后續(xù)被解碼器用于生成目標(biāo)模態(tài)。以圖像描述為例，編碼器(一般為CNN+spatial pooling)將圖像編碼為一個或多個特征向量，進(jìn)而輸入到RNN中以自回歸的方式生成單詞序列。

連續(xù)性生成(continuous generation)：它針對源模態(tài)與目標(biāo)模態(tài)都為流數(shù)據(jù)且在時間上嚴(yán)格對齊的任務(wù)。以文本合成語音為例，它與圖像描述不同，語音數(shù)據(jù)與文本數(shù)據(jù)在時間上嚴(yán)格對齊。WaveNet采用了CNN并行預(yù)測+CTC loss解決該類問題。當(dāng)然，編碼-解碼器理論上也可完成該任務(wù)，但需處理數(shù)據(jù)對齊問題。

多模態(tài)大模型的核心技術(shù)-對齊

對齊是多模態(tài)學(xué)習(xí)中的一個關(guān)鍵環(huán)節(jié)，它涉及如何在不同的數(shù)據(jù)模態(tài)之間發(fā)現(xiàn)和建立對應(yīng)關(guān)系。通過對齊，多模態(tài)模型能夠?qū)W習(xí)到不同模態(tài)之間的相互表示，從而增強(qiáng)對復(fù)雜場景的理解能力。跨模態(tài)對齊目的是挖掘多模態(tài)數(shù)據(jù)的子元素之間的關(guān)聯(lián)性，例如visual grounding任務(wù)。在學(xué)習(xí)表征或翻譯時也可能隱式地學(xué)習(xí)對齊。

顯式對齊：此處對實例具有兩個或更多子組件的對齊進(jìn)行分類。如何衡量相似性在顯式對齊中很重要。用于設(shè)計相似性度量的基于學(xué)習(xí)的方法可以分為無監(jiān)督和監(jiān)督。Unsupervised的大部分內(nèi)容都受到統(tǒng)計機(jī)器翻譯和基因組測序等方法的啟發(fā)。一個典型的例子是動態(tài)時間扭曲(DTW)。使用CCA和高斯混合模型的監(jiān)督方法已經(jīng)被提出，但深度學(xué)習(xí)方法變得更加流行。

隱式對齊：與顯式對齊不同，隱式對齊用作其他任務(wù)中使用的潛在表示。這可用于提高沒有嚴(yán)格對齊的任務(wù)的方法的性能，例如VQA或機(jī)器翻譯。方法大致可分為圖模型和神經(jīng)網(wǎng)絡(luò)。圖形模型已用于機(jī)器翻譯和語音現(xiàn)象對齊。然而，這些方法需要在單詞之間進(jìn)行手動映射。神經(jīng)網(wǎng)絡(luò)近年來得到了廣泛的應(yīng)用，編碼器-解碼器模型可以解決這些傳統(tǒng)的機(jī)器翻譯問題。然而，如果不使用隱式對齊，對編碼器的要求會很大(需要熟練地將整個文檔和圖像轉(zhuǎn)換為潛在表示)。注意力機(jī)制是解決這個問題的一種眾所周知的方法。

多模態(tài)對齊目前處于其發(fā)展的非常初期階段，主要強(qiáng)調(diào)與人類指令的對齊，但忽略了如美德和社會規(guī)范等高層次和多樣化的人類價值。確保無害性提出了一個重大且不可忽視的挑戰(zhàn)。

多模態(tài)大模型的核心技術(shù)-融合

融合是將多模態(tài)數(shù)據(jù)或其特征結(jié)合在一起，以便進(jìn)行統(tǒng)一的分析和決策。其核心在于如何有效結(jié)合不同模態(tài)的信息以增強(qiáng)學(xué)習(xí)任務(wù)的性能。融合是一個使用多種模式的數(shù)據(jù)進(jìn)行預(yù)測的領(lǐng)域。最古老的多模式學(xué)習(xí)形式之一。優(yōu)點(diǎn)包括能夠通過使用來自多種模態(tài)的數(shù)據(jù)進(jìn)行更穩(wěn)健的預(yù)測，以及即使某些模態(tài)的數(shù)據(jù)丟失也能夠進(jìn)行預(yù)測。應(yīng)用領(lǐng)域廣泛，包括視聽語音識別(AVSR)、情感識別、醫(yī)學(xué)圖像分析和多媒體事件檢測。這里，F(xiàn)usion分為模型無關(guān)的和基于模型的。

早期融合(Early Fusion)：在特征層面進(jìn)行融合，將不同模態(tài)的特征早早地合并，以充分利用各模態(tài)的互補(bǔ)信息。

晚期融合(Late Fusion)：在決策層面進(jìn)行融合，即在模型輸出后再結(jié)合不同模態(tài)的結(jié)果，這有助于在最終決策時綜合考慮各模態(tài)的見解。

混合融合(Hybrid Fusion)：結(jié)合早期和晚期融合的優(yōu)點(diǎn)，可能在多個層面進(jìn)行特征和決策的結(jié)合，以實現(xiàn)更靈活的信息整合。

多模態(tài)融合是依賴于任務(wù)和數(shù)據(jù)的，現(xiàn)有工作中常常是多種融合手段的堆積，并未真正統(tǒng)一的理論支撐。最近，神經(jīng)網(wǎng)絡(luò)已成為處理多模態(tài)融合的一種非常流行的方式，然而圖形模型和多核學(xué)習(xí)仍然被使用，特別是在訓(xùn)練數(shù)據(jù)有限或模型可解釋性很重要的任務(wù)中。

多模態(tài)大模型的核心技術(shù)-協(xié)同

協(xié)同學(xué)習(xí)是通過使用另一種模態(tài)(擁有大量數(shù)據(jù))的數(shù)據(jù)來設(shè)計一種模態(tài)模型的過程。在共同學(xué)習(xí)中，來自另一種模式的數(shù)據(jù)僅在訓(xùn)練期間使用，而不在測試期間使用。根據(jù)訓(xùn)練時使用的數(shù)據(jù)資源，協(xié)同學(xué)習(xí)可以分為并行、非并行和混合。

并行學(xué)習(xí)：并行數(shù)據(jù)方法需要訓(xùn)練數(shù)據(jù)集，其中來自一個模態(tài)的觀察直接與來自其他模態(tài)的觀察相關(guān)聯(lián)。換句話說，當(dāng)多模態(tài)觀察來自相同的實例時，比如在一個音視頻語音數(shù)據(jù)集中，視頻和語音樣本來自同一說話者。

非并行協(xié)同學(xué)習(xí)：非并行數(shù)據(jù)方法不需要不同模態(tài)觀察之間的直接鏈接。這些方法通常通過在類別方面的重疊來實現(xiàn)協(xié)同學(xué)習(xí)。例如，在零樣本學(xué)習(xí)中，常規(guī)的視覺對象識別數(shù)據(jù)集可以通過擴(kuò)展為包括來自維基百科的第二個純文本數(shù)據(jù)集，以提高視覺對象識別的泛化性能。

混合協(xié)同方法：在混合數(shù)據(jù)設(shè)置中，通過共享模態(tài)或數(shù)據(jù)集來連接模態(tài)。協(xié)同學(xué)習(xí)中使用的數(shù)據(jù)并行類型：并行-模式來自同一數(shù)據(jù)集，并且實例之間存在直接對應(yīng);非并行模式來自不同的數(shù)據(jù)集，沒有重疊的實例，但在一般類別或概念上有重疊;混合模式-實例或概念由第三種模式或數(shù)據(jù)集連接。

多模態(tài)協(xié)同學(xué)習(xí)允許一種模態(tài)影響另一種模態(tài)的訓(xùn)練，利用跨模態(tài)的互補(bǔ)信息。值得注意的是，協(xié)同學(xué)習(xí)是與任務(wù)無關(guān)的，可以用于創(chuàng)建更好的融合、翻譯和對齊模型。這一挑戰(zhàn)可以通過諸如協(xié)同訓(xùn)練、多模態(tài)表示學(xué)習(xí)、概念接地和零樣本學(xué)習(xí)(ZSL)等算法來解決，并已在視覺分類、動作識別、視聽語音識別和語義相似度估計等領(lǐng)域得到廣泛應(yīng)用。

更多本行業(yè)研究分析詳見前瞻產(chǎn)業(yè)研究院《全球及中國多模態(tài)大模型行業(yè)發(fā)展前景與投資戰(zhàn)略規(guī)劃分析報告》

同時前瞻產(chǎn)業(yè)研究院還提供產(chǎn)業(yè)新賽道研究、投資可行性研究、產(chǎn)業(yè)規(guī)劃、園區(qū)規(guī)劃、產(chǎn)業(yè)招商、產(chǎn)業(yè)圖譜、產(chǎn)業(yè)大數(shù)據(jù)、智慧招商系統(tǒng)、行業(yè)地位證明、IPO咨詢/募投可研、專精特新小巨人申報、十五五規(guī)劃等解決方案。如需轉(zhuǎn)載引用本篇文章內(nèi)容，請注明資料來源（前瞻產(chǎn)業(yè)研究院）。

更多深度行業(yè)分析盡在【前瞻經(jīng)濟(jì)學(xué)人APP】，還可以與500+經(jīng)濟(jì)學(xué)家/資深行業(yè)研究員交流互動。更多企業(yè)數(shù)據(jù)、企業(yè)資訊、企業(yè)發(fā)展情況盡在【企查貓APP】，性價比最高功能最全的企業(yè)查詢平臺。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.