王勁,香港大學計算機系二年級博士生,導師為羅平老師。研究興趣包括多模態大模型訓練與評測、偽造檢測等,有多項工作發表于 ICML、CVPR、ICCV、ECCV 等國際學術會議。
近年來,大型語言模型(LLMs)在多模態任務中取得了顯著進展,在人工通用智能(AGI)的兩大核心支柱(即理解與生成)方面展現出強大潛力。然而,目前大多數多模態大模型仍采用自回歸(Autoregressive, AR)架構,通過從左到右逐步處理多模態 token 來完成任務,推理缺乏靈活性。
與此同時,基于掩碼的離散擴散模型憑借雙向建模能力也逐漸興起,該架構通過雙向信息建模顯著提升了模型的建模能力。例如,DeepMind 的 Gemini Diffusion 驗證了離散擴散在文本建模領域的潛力;在開源社區,LLaDA、Dream 等擴散式大語言模型(dLLM)也催生了如 MMaDA、LaViDA、Dimple 和 LLaDA-V 等多模態模型。基于掩碼(mask)離散擴散為多模態任務提供了一種重要的建模范式。
然而,生成模型的實現方式并不局限于上述兩類架構,探索新的生成建模范式對于推動多模態模型的發展同樣具有重要意義。
基于這一理念,來自香港大學和華為諾亞方舟實驗室的研究團隊提出了FUDOKI,一個基于全新非掩碼(mask-free)離散流匹配(Discrete Flow Matching)架構的通用多模態模型。
與傳統的自回歸方法不同,FUDOKI 通過并行去噪機制實現了高效的雙向信息整合,顯著提升了模型的復雜推理和生成能力。與離散擴散架構相比,FUDOKI 采用更加通用的概率路徑建模框架,從均勻分布出發,允許模型在推理過程中不斷更新和修正生成結果,為多模態模型打開了一條嶄新的技術路徑。
- 論文標題:FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities
- 論文鏈接:https://arxiv.org/abs/2505.20147
- 項目主頁:https://fudoki-hku.github.io/
FUDOKI 的核心亮點包括如下:
- 統一架構:一套簡單直觀的框架搞定圖像生成與文本理解
- 徹底去掩碼:無需掩碼(mask)策略,與 mask-based discrete diffusion 相比更通用
- 支持動態修正:生成過程可實時調整,更接近人類推理方式
- 性能對標 / 超越同參數 AR 模型(在 GenEval & 多模態 QA 上有實測)
我們先來看以下兩個效果展示:
圖片生成
圖片理解
在社媒上,FUDOKI 獲得了Meta Research Scientist/ Discrete Flow Matching 系列作者推薦:
統一的多模態能力
FUDOKI 對文本模態和圖像模態均采用通過統一的離散流匹配框架,實現了理解與生成任務的統一建模。
- 圖像生成:文本到圖像生成任務上在 GenEval 基準上達到 0.76,超過現有同尺寸 AR 模型的性能,展現出色的生成質量和語義準確性
文生圖樣例
GenEval 基準評測結果
離散流生成過程
- 視覺理解:在多模理解任務上接近同參數量 AR 模型的性能水平,并允許模型在推理過程不斷修復回答。
視覺理解樣例
視覺理解基準評測
視覺理解案例的過程對比,FUDOKI 允許對已生成的回答進行修正
架構特色
FUDOKI 的核心創新在于將多模態建模統一到離散流匹配框架中。具體而言,FUDOKI 采用度量誘導的概率路徑(metric-induced probability paths)和動力學最優速度(kinetic optimal velocities),完成從源分布到目標分布的離散流匹配。
結語
FUDOKI 的提出不僅挑戰了現有自回歸和掩碼擴散范式,也為多模態生成與理解的統一架構帶來了新的思路。通過離散流匹配的方法,它為通用人工智能的發展提供了更加靈活和高效的技術基礎。我們期待未來會有更多的探索和進展。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.