作為AI領域的大勢所趨,多模態可謂是火的一塌糊涂,在各大頂會都是霸榜的存在!
關于它的研究,近來也發生了諸多變化:跨界縫合成為新風向,比如用多模態模型分析財報文本+管理層表情+市場指標預測企業價值;研究視角也從靜態分析,走向動態推理;模型的可解釋性、結合垂直領域開發專屬大模型等也成為重點!
為讓大家能夠緊跟領域前沿,早點發出自己的頂會,我給大家梳理了目前還好出創新點的7大方向:多模態大模型、多模態預訓練、多模態生成、多模態感知、多模態推理、多模態數據高效學習、多模態可解釋。每個方向還給大家準備了代表性論文、最新論文和源碼,共100篇!
掃描下方二維碼,回復「100多態」
免費獲取全部論文合集及項目代碼
1.多模態大模型 論文:Harnessing Multimodal Large Language Models for Multimodal Sequential Recommendation 內容
該論文提出了一種名為MLLM-MSR的模型,旨在利用多模態大語言模型(MLLMs)來增強多模態序列推薦系統,介紹了大語言模型(LLMs)在推薦系統中的應用進展,并指出了現有研究主要集中在將用戶行為日志轉換為文本提示以利用LLMs進行推薦任務。
2.多模態預訓練 論文:Parameter-Inverted Image Pyramid Networks for Visual Perception and Multimodal Understanding 內容
該論文介紹了一種名為PIIP的新型網絡架構,旨在提高計算機視覺任務中多尺度特征提取的效率,通過使用不同參數規模的預訓練模型來處理不同分辨率的圖像,其中高分辨率圖像由參數較少的網絡分支處理,以平衡計算成本和性能。
3.多模態生成 論文:GRAPHGPT-O: Synergistic Multimodal Comprehension and Generation on Graphs CVPR25 內容
該論文提出了GRAPHGPT-O,這是一個針對多模態屬性圖(MMAGs)的多模態大型語言模型(MLLMs),用于理解和生成圖中的文本和圖像內容。該模型通過個性化PageRank采樣方法提取相關子圖信息,解決了圖規模爆炸問題。
掃描下方二維碼,回復「100多態」
免費獲取全部論文合集及項目代碼
4.多模態數據高效學習 論文:Multimodal Task Vectors Enable Many-Shot Multimodal In-Context Learning 內容
該論文提出了一種名為MTV的方法,旨在解決多模態領域中大型多模態模型(LMMs)在多示例上下文學習中的限制問題,通過在LMM的注意力頭中壓縮多示例上下文為緊湊的隱式表示,從而克服了這一限制。
5.多模態可解釋 論文:SNIFFER: Multimodal Large Language Model for Explainable Out-of-Context Misinformation Detection 內容
該論文介紹了一種名為SNIFFER的新型多模態大型語言模型,專門用于檢測和解釋“情境外”虛假信息。SNIFFER通過兩階段指令調優在InstructBLIP基礎上進行優化,通過檢索和工具使用增強外部知識,不僅檢測文本與圖像之間的一致性,還利用外部知識進行上下文驗證。
6.多模態感知 論文:Correlation-Decoupled Knowledge Distillation for Multimodal Sentiment Analysis with Incomplete Modalities 內容
本文提出了一種名為CorrKD的框架,用于處理多模態情感分析(MSA)任務中模態不完整的情況。該框架通過樣本級對比蒸餾機制、類別引導的原型蒸餾機制和響應解耦的一致性蒸餾策略,從教師網絡向學生網絡傳遞包含跨樣本相關性的全面知識,以重建缺失的語義信息。
7.多模態推理 論文:Mind with Eyes: from Language Reasoning to Multimodal Reasoning 內容
本文提供了一個關于多模態推理方法的系統性綜述,將這些方法分為兩個層次:以語言為中心的多模態推理和協作式多模態推理,分析了這些方法的技術演變,討論了其固有挑戰,并介紹了評估多模態推理性能的關鍵基準任務和評估指標。
掃描下方二維碼,回復「100多態」
免費獲取全部論文合集及項目代碼
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.