99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

首個統一多模態大模型評測框架,MME-Unify構建標準化評估新范式

0
分享至

始智AI wisemodel.cn開源社區

始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在,歡迎加入共同成長。wisemodel社區上線,價格實惠,靈活方便,支持在線微調訓練模型,及和,并。


統一多模態大模型(U-MLLMs)逐漸成為研究熱點,近期GPT-4o,Gemini-2.0-flash都展現出了非凡的理解和生成能力,而且還能實現跨模態輸入輸出,比如圖像+文本輸入,生成圖像或文本。

相比傳統的多模態模型(比如 GPT-4V 或 DALL·E 3),這類模型在任務適應性和靈活性上更具優勢。然而,當前研究領域還存在幾個突出的問題:

1、評測標準混亂:不同研究選用的評測數據集與指標各不相同,使得模型之間難以公平比較;

2、混合模態生成能力缺乏評測體系:例如,在圖像中畫輔助線解題、根據推理結果生成圖像等案例雖然很有代表性,但沒有統一的 benchmark 能夠全面測評這類能力。

這些問題嚴重限制了U-MLLMs的發展和落地應用,因此迫切需要一個系統、標準的評測框架。MME-Unify(簡稱 MME-U)正是為了解決上述問題而提出的。現已上線始智AI-wisemodel開源社區,歡迎使用和體驗。


數據集地址

https://wisemodel.cn/datasets/WulinXie/MME-Unify

01.

主要貢獻

MME-Unify不僅為統一多模態大模型的評估提供了缺失已久的標準化工具,也進一步推動了這一方向從“炫技”向“實用”邁進,是當前U-MLLMs 領域不可或缺的基準評測體系。

1. 首次提出統一評測框架:

MME-U 是第一個涵蓋“理解”、“生成”與“統一任務(混合模態生成)”的 benchmark,支持從不同維度系統性評估 U-MLLMs 的綜合能力。

2. 構建覆蓋廣泛的任務體系:

  • 從12個現有數據集中篩選整理,形成10大類任務,包含30個子任務

  • 理解類任務涵蓋:單圖感知、多圖推理、視頻理解等;

  • 生成類任務涵蓋:文本生成圖像、圖像編輯、圖像轉視頻等。

3. 統一評測標準:

  • 將理解任務統一轉為多選題,使用準確率作為評測指標;

  • 將生成任務的多種指標標準化、歸一化,輸出統一分數,便于橫向比較。

4. 設計五類“統一任務”,考察模型對多模態信息的協同處理能力:

  • 圖像編輯與解釋:

模型需理解編輯指令并執行;

  • 常識問答生成圖像:

模型需根據問答內容生成合適圖像;

  • 輔助線任務:

要求模型畫出解幾何題所需的輔助線并解題;

  • 找不同(SpotDiff):

在兩張圖中找并畫出差異;

  • 視覺鏈式推理(Visual CoT):

邊推理邊生成下一步圖像結果。

5. 實測分析12個主流U-MLLMs表現

包括 Janus-Pro、EMU3、Gemini 2 等,發現它們在多項任務中差異顯著,尤其是在復雜生成任務和指令理解方面仍有很大提升空間。

6. 揭示了開放模型與閉源模型之間的差距:

閉源模型如GPT-4o、Gemini 2.0 Flash在生成質量與細節還原度方面甚至優于一些專用生成模型(如 DALL·E-3);而開放模型的性能則尚顯不足。


Table 1. Comparison of MiME-U and other Benchmark, SIPU: Single lmage Perception & Understanding; MITIU: Multiple &Interleaved lmage-Text Understanding; VPU: Video Perception & Understanding; CIVG: Conditional Image-to- Video Generation; FlR:Fine-grained lmage Reconstruction; TlE: Text-Guided lmage Editing; TIG: Text-to-lmage Generation, TVG: Text-to-Video Generation; VP: Video Prediction; UT: Unifed Task.

MME-Unify分為三個主要評測能力板塊,涵蓋數據構建、任務設計與評估策略,整體條理清晰、便于理解。


02.

MME-Unify 評測框架設計詳解

本節介紹MME-Unify的數據構建方式、任務標注流程以及統一的評測方法。MME-U將多模態統一模型能力劃分為三大類:

  • 多模態理解能力

  • 多模態生成能力

  • 統一任務能力


多模態理解(Multimodal Understanding)

1. 數據構建

理解類任務根據視覺輸入類型劃分為三類,共收集1900個樣本,覆蓋OCR、圖表解析、空間感知、屬性/行為推理等24種任務,其中感知類任務1600條,推理類任務300條,每類子任務不少于50對 QA 樣本。

  • SIPU(單圖感知與理解):評估圖文對的理解能力。

  • MITIU(多圖/圖文交叉理解):評估模型處理多張圖和交替圖文輸入的能力。

  • VPU(視頻感知與理解):評估模型的視頻理解能力。

2. QA 標準化轉化

為統一評估標準,所有理解類任務轉為四選一多選題,干擾項與正確選項語義接近;無法處理視頻的模型則使用關鍵幀,單圖模型取首圖。

3. 評估策略

采用規則匹配法過濾答案(如 MME-Realworld),并隨機打亂選項順序以避免位置偏差。最終以平均準確率評估理解能力。


多模態生成(Multimodal Generation)

1. 任務類型(6類)

1) FIR:圖像細節重建
2) TIE:文本指導圖像編輯
3) TIG:文本生成圖像
4) CIVG:圖像+文本生成視頻
5) TVG:文本生成視頻
6) VP:視頻預測(預測后續幀)

每類任務不少于 200 個樣本,數據來源包括 COCO、MSR-VTT、Pexel 等。

數據標準化流程

  • 屬性統一:將 30 多種屬性統一為 Text Prompt、Src Image、Ref Image、Video 等。

  • 任務專屬提示語:為每類生成任務設計 prompt 模板,并統一數據格式。

2. 評估策略

  • 各任務先用專屬指標(如 CLIP-I、FID、FVD)評估;

  • 再將所有指標標準化到 0–100 分數區間;

  • 取標準化后的平均分作為最終生成能力分數,實現跨任務可比性。


統一任務能力(Unify Capability)

MME-Unify 精心設計了5類混合模態統一任務,每類任務包括文本與圖像雙重輸入輸出,體現 U-MLLMs 的綜合處理能力:

1. 常識問答生成圖像(CSQ)

  • 任務:根據常識謎語類問題選出正確答案并生成相應圖像(如“國寶” → 熊貓)。

  • 流程:GPT-4o 生成問題,人工搜圖,模型需同時答題并作圖。

2. 圖像編輯與解釋(IEE)

  • 任務:理解復雜編輯指令,生成修改圖,并解釋修改內容。

  • 構建方式:文本選項由 GPT-4o 生成,圖像干擾項由 InstructPix2Pix 生成。模型需先解釋修改內容(文本問答),再輸出修改圖(圖像問答)。

3. 找不同任務(SpotDiff)

  • 來源:SpotDiff 網站

  • 模型需識別圖像對的不同區域,輸出數目和定位圖,考察空間記憶和視覺推理能力。

4. 幾何題輔助線任務(Auxiliary Lines)

  • 來源:Geometry3K

  • 模型需在圖上畫出解題輔助線,并作答(含邏輯和視覺兩部分),考察推理+生成整合能力。

5. 視覺鏈式推理(Visual CoT)

任務:通過逐步生成導航動作、坐標和迷宮圖像來走迷宮,模擬現實中的多步視覺決策過程。

每一步包括動作、坐標和圖像輸出,后續步驟包含歷史信息,實現逐步 reasoning。

統一任務評估策略

  • 文本部分:

用 CLIP-T 相似度判斷模型生成解釋與正確選項的接近程度;或直接選擇選項。

  • 圖像部分:

用 CLIP-I 計算生成圖與選項圖像的相似度,選出最高者。

acc 與 acc+:

acc:文本準確率與圖像準確率的平均值;
acc+:文本和圖像都答對的樣本占比;

對于 Visual CoT,則分別統計動作、坐標、圖像的 acc,再取平均。

最終,MME-U 總得分為理解分 + 生成分 + 統一任務分的平均值,構成系統的、全面的模型評估體系。

03.

有趣的實驗發現總結

本文對多模態大模型(MLLMs)和統一多模態大模型(U-MLLMs)進行了系統性評測,總共涵蓋了22個主流模型。研究重點集中在三個維度:理解能力(Understanding)、生成能力(Generation)以及統一能力(Unify Capability)。評估采用MME-U評分體系,并包含多個細粒度子任務。以下為實驗中的關鍵發現與亮點總結:


1. 理解能力方面

  • 表現最強的模型

是閉源的 Gemini2.0-flash-exp,在所有理解類任務中遙遙領先。

  • 開源陣營中表現最好的是Janus-Flow與Janus-Pro

它們采用了兩個獨立的視覺編碼器,分別用于理解與生成任務,成功避開了如VQGAN等通用 tokenizer 在圖像理解上的局限。

  • 采用單一tokenizer 的模型(如 Emu3、Show-o)在理解任務上表現普遍較差

即便模型體量相當,也難以達到Janus系列的水準。

  • MIO-Instruct展現了強大的理解能力

其背后是海量多模態數據(包含圖像、視頻、音頻)與復雜三階段訓練流程的支持,強調了數據多樣性在理解任務中的重要性。

2. 生成能力方面

  • 在圖像生成任務中,U-MLLMs的表現與專注型生成模型的差距不如理解任務那么大。

  • 舉例來說,Gemini2.0-flash-exp 在Text-to-Image任務中甚至超過了DALL·E 3 六個點,展現出強大的生成潛力。

  • 多數U-MLLMs(如 EMU3、HermersFlow、GILL)在圖像生成任務的平均得分均高于48,顯示基礎圖像生成已具一定可用性。

  • 不過,在視頻生成任務上仍是短板。盡管如Emu3聲稱具備視頻生成能力,但由于缺乏相應 checkpoint,暫時無法驗證。

  • 從圖像細節還原的角度看,當前開源U-MLLMs與DALL·E等模型仍有顯著差距,尤其是在特定文本細節(如T恤號碼、背景標語等)上的還原。



3. 統一能力方面(Unify Tasks)

  • 統一任務對模型提出了更高要求——既要生成合理圖像,又要完成對應文本推理。

  • 目前,開源模型中表現最好的 Anole 在簡單任務上也僅有約60%的準確率

在復雜統一任務上幾乎沒有模型超過30%準確率。

  • 在視覺鏈式推理(Visual CoT)任務中,無一模型能夠成功完成多步推理與圖像生成結合的完整流程。

分析顯示,統一任務對模型的多模態交叉能力提出了極高要求,目前仍是行業技術瓶頸。

4. 深入分析與趨勢觀察


當前模型在基礎能力(理解/生成)與統一能力之間普遍存在 “性能權衡困境”:

例如,MiniGPT-5、GILL、Anole 在統一任務設計上更激進,但犧牲了基礎理解與生成能力,導致整體分數偏低。

而如MIO-Instruct雖然在基礎能力上表現優秀,但在圖文交錯生成的統一任務中表現不佳。

這種表現差異提示:現有訓練范式未能有效整合基礎任務與跨模態任務的學習目標,可能需要重新設計對齊策略或任務混合訓練流程。

04.

總結

整體來看,U-MLLMs雖然展示了多模態統一任務的潛力,但距離實際可用仍有明顯距離。特別是在如何協調理解與生成、單步與多步、圖文協同等維度,仍存在諸多技術挑戰。MME-Unify提供了一套系統性測評框架,并量化了主流模型的能力上限,為未來模型設計提供了清晰參照與方向指引。

編輯丨趙雅鑫

----- END -----


wisemodel相關:

系統升級:

大賽報名:

系列模型:

8

關于wisemodel更多

1

歡迎持續關注和支持

開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發布到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續關注wisemodel.cn開源社區動態。

2

歡迎加盟wisemodel開源社區

始智AI wisemodel社區自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區,為了加快公司發展,我們長期需要技術、運營等人才加盟,技術側重在AI infra、后端開發,熟悉K8S、模型訓練和推理等技術, 以及熟悉開發者生態運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關于wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。

向上滑動查看

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
絕地反殺!宗慶后私生子申請鑒定,宗馥莉一舉動表態度,勝券在握

絕地反殺!宗慶后私生子申請鑒定,宗馥莉一舉動表態度,勝券在握

洲洲影視娛評
2025-07-15 18:03:37
太突然!朱孝天自曝患病,時間不多了!同意F4合體是怕以后沒機會

太突然!朱孝天自曝患病,時間不多了!同意F4合體是怕以后沒機會

小娛樂悠悠
2025-07-17 09:39:01
聯合國向韓國下最后通牒!137項鐵證砸下,文化小偷無處遁形

聯合國向韓國下最后通牒!137項鐵證砸下,文化小偷無處遁形

流年拾光
2025-07-17 03:49:16
特斯拉將在中國發布Model 3+,續航里程800公里

特斯拉將在中國發布Model 3+,續航里程800公里

鞭牛士
2025-07-16 23:04:44
宗馥莉事件最新進展!直接將弟弟們從公司除名!態度強硬不慣著!

宗馥莉事件最新進展!直接將弟弟們從公司除名!態度強硬不慣著!

愛下廚的阿釃
2025-07-16 15:48:14
隱婚生子風波后,王鷗再被曝猛料!令人驚訝程度堪比當年夜光劇本

隱婚生子風波后,王鷗再被曝猛料!令人驚訝程度堪比當年夜光劇本

聚合大娛
2025-07-16 17:28:29
AA制生活37年,丈夫接婆婆來養老,60歲阿姨怒道:做夢,誰媽誰養

AA制生活37年,丈夫接婆婆來養老,60歲阿姨怒道:做夢,誰媽誰養

清水家庭故事
2025-07-16 08:07:34
徐正源妻子炮轟成都蓉城:你們逼他說出自己走,孤立他

徐正源妻子炮轟成都蓉城:你們逼他說出自己走,孤立他

懂球帝
2025-07-16 23:02:56
肚子總‘咕咕叫’?別以為只是餓了!可能是身體在‘報警’!

肚子總‘咕咕叫’?別以為只是餓了!可能是身體在‘報警’!

資說
2025-07-15 13:33:03
46歲朱孝天自曝患病!同意F4合體是怕以后沒機會,坦言時間不多了

46歲朱孝天自曝患病!同意F4合體是怕以后沒機會,坦言時間不多了

萌神木木
2025-07-16 17:26:47
和特朗普談不攏,加拿大居然轉頭“捅”中國一刀…

和特朗普談不攏,加拿大居然轉頭“捅”中國一刀…

觀察者網
2025-07-17 09:43:14
陳立人7月14日庭審:已找精神鑒定做無罪辯護,發胖原因細思恐極

陳立人7月14日庭審:已找精神鑒定做無罪辯護,發胖原因細思恐極

古希臘掌管松餅的神
2025-07-16 10:27:45
保障變特權?全民養老困局如何破,過高養老金完全違背設立初衷

保障變特權?全民養老困局如何破,過高養老金完全違背設立初衷

社科品論
2025-05-26 11:00:09
理想高管回應MEGA交付時間久:因銷量慘淡縮減產能,今年用戶喜歡超預期

理想高管回應MEGA交付時間久:因銷量慘淡縮減產能,今年用戶喜歡超預期

鞭牛士
2025-07-17 08:24:36
定居美國10余年,78歲卻回國“撈金”,她憑啥被稱“人民藝術家”

定居美國10余年,78歲卻回國“撈金”,她憑啥被稱“人民藝術家”

夢史
2025-04-01 11:59:20
嚴打!廣西一80后書記被查

嚴打!廣西一80后書記被查

嶺南美玉
2025-07-17 01:53:25
據說上海廣州等地流行新的結婚模式,女方不要彩禮,雙方不辦酒席

據說上海廣州等地流行新的結婚模式,女方不要彩禮,雙方不辦酒席

星河也燦爛
2025-07-16 17:24:34
為什么說毛主席的父親——毛順生,是一個十分了不起的人?

為什么說毛主席的父親——毛順生,是一個十分了不起的人?

小童歷史
2025-07-14 09:41:04
網友網戀一個月奔現,花千元、見了親戚,房事時摸到男性生殖器

網友網戀一個月奔現,花千元、見了親戚,房事時摸到男性生殖器

社會醬
2025-07-13 17:33:17
外交部:中歐決定同步全面取消對相互交往的限制

外交部:中歐決定同步全面取消對相互交往的限制

新京報
2025-07-16 16:44:03
2025-07-17 10:36:49
wisemodel開源社區 incentive-icons
wisemodel開源社區
始智AI wisemodel.cn開源社區,打造中國版“huggingface”
308文章數 12關注度
往期回顧 全部

科技要聞

不只H20?黃仁勛:希望對華銷售更好的芯片

頭條要聞

上海最大原拆原建小區回搬:始建于1958年 有94種戶型

頭條要聞

上海最大原拆原建小區回搬:始建于1958年 有94種戶型

體育要聞

不給楊瀚森傳球,他有自己的理由

娛樂要聞

都美竹將參加綜藝,單身媽媽發文抵制

財經要聞

宗馥莉的繼承之戰 會把娃哈哈打散嗎?

汽車要聞

理想i8內飾官圖公布 李想回應"被打臉"

態度原創

健康
教育
數碼
公開課
軍事航空

呼吸科專家破解呼吸道九大謠言!

教育要聞

高中數學求函數值基礎題目,這道題你有思路嗎?

數碼要聞

英特爾下一場大型活動將首次在亞利桑那州鳳凰城舉行

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

胡塞武裝稱襲擊以色列多處目標 致其“航班中斷”

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 丰原市| 曲沃县| 永寿县| 台前县| 永定县| 阿拉善盟| 阿合奇县| 珠海市| 淮滨县| 丽江市| 繁峙县| 宁晋县| 清流县| 封开县| 黎川县| 虞城县| 泰宁县| 内丘县| 麻栗坡县| 仁怀市| 仙桃市| 新建县| 南通市| 红桥区| 金塔县| 江陵县| 武川县| 兴宁市| 汉沽区| 平度市| 丰台区| 临澧县| 霍城县| 尉氏县| 阳曲县| 来宾市| 鞍山市| 临高县| 青海省| 濉溪县| 遵义市|