99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

中科院自動化所推出多圖數(shù)學(xué)推理新基準(zhǔn) ,已被CVPR 2025錄用

0
分享至

MV-MATH團(tuán)隊 投稿
來源 | 量子位

挑戰(zhàn)多圖數(shù)學(xué)推理新基準(zhǔn),大模型直接全軍覆沒?!

事情是這樣的。

近日,中國科學(xué)院自動化研究所推出多圖數(shù)學(xué)推理全新基準(zhǔn)MV-MATH(該工作已被CVPR 2025錄用),這是一個精心策劃的多圖數(shù)學(xué)推理數(shù)據(jù)集,旨在全面評估MLLM(多模態(tài)大語言模型)在多視覺場景中的數(shù)學(xué)推理能力。


結(jié)果評估下來發(fā)現(xiàn),GPT-4o僅得分32.1,類o1模型QvQ得分29.3,所有模型均不及格。

具體咋回事,下面接著看。

給大模型數(shù)學(xué)推理上難度

截止目前,多模態(tài)大模型在數(shù)學(xué)推理領(lǐng)域展現(xiàn)出了巨大的潛力。

然而,現(xiàn)有的多模態(tài)數(shù)學(xué)基準(zhǔn)測試大多局限于單一視覺場景(單圖推理),這與現(xiàn)實世界中復(fù)雜的多視覺數(shù)學(xué)應(yīng)用(多圖推理)相去甚遠(yuǎn)。

基于這一情況,多圖數(shù)學(xué)推理數(shù)據(jù)集MV-MATH應(yīng)運(yùn)而生。

MV-MATH介紹

MV-MATH包含2009個高質(zhì)量數(shù)學(xué)問題,涵蓋了從K-12教育場景中提取的真實問題。

每個問題都結(jié)合了多個圖像和文本,形成了圖文交錯的多視覺場景。

這些問題分為選擇題、填空題和多步問答題三種類型,覆蓋了11個數(shù)學(xué)領(lǐng)域,包括解析幾何、代數(shù)、度量幾何、組合學(xué)、變換幾何、邏輯、立體幾何、算術(shù)、組合幾何、描述性幾何和統(tǒng)計學(xué),并分為三個難度級別。


下圖展示了MV-MATH與現(xiàn)有數(shù)據(jù)集的對比以及分布情況:

(a)與現(xiàn)有數(shù)學(xué)基準(zhǔn)的比較(圓圈大小代表圖片數(shù)量);(b)每個問題的長度分布;(c)每個問題的圖像數(shù)量分布。


數(shù)據(jù)集特點

(1)多視覺場景

MV-MATH數(shù)據(jù)集中的每個問題都包含多個圖像(2-8個圖片),這些圖像與文本交織在一起,形成了復(fù)雜的多視覺場景。

MV-MATH中的每個問題都是從真實的K-12場景中收集而來,這種設(shè)計更接近于現(xiàn)實世界中的數(shù)學(xué)問題,能夠更好地評估MLLM在處理多視覺信息時的推理能力。

(2)豐富的標(biāo)注

為了確保數(shù)據(jù)集的質(zhì)量和可靠性,每個樣本都經(jīng)過了至少兩名標(biāo)注者的交叉驗證。標(biāo)注內(nèi)容包括問題、答案、詳細(xì)分析以及圖像關(guān)聯(lián)性,為模型評估提供了詳細(xì)的信息。

(3)多樣化的數(shù)學(xué)領(lǐng)域

MV-MATH涵蓋了從基礎(chǔ)算術(shù)到高級幾何的11個數(shù)學(xué)領(lǐng)域,并根據(jù)詳細(xì)答案的長度劃分為3個難度等級,能夠全面評估MLLM在不同數(shù)學(xué)領(lǐng)域的推理能力。

(4)圖像關(guān)聯(lián)性

MV-MATH首次引入圖像相關(guān)性這一特征標(biāo)簽,根據(jù)據(jù)圖像是否相關(guān),數(shù)據(jù)集被分為兩個子集:相互依賴集(Mutually Dependent Set,MD)和獨立集(Independent Set,ID)。

在MD子集中,圖像之間相互關(guān)聯(lián),理解一個圖像需要參考其他圖像;而在ID子集中,圖像之間相互獨立,可以單獨解釋。

例如,下圖中前兩個題目屬于相互依賴集,最后一個為題目屬于獨立集。


多圖推理綜合評估

研究團(tuán)隊在MV-MATH上進(jìn)行了廣泛的實驗,評測了24個主流開源和閉源多模態(tài)大模型。

實驗結(jié)果表明,即使是最先進(jìn)的MLLM在多視覺數(shù)學(xué)任務(wù)中也面臨著巨大的挑戰(zhàn),其表現(xiàn)與人類能力之間存在顯著差距。


從模型總體表現(xiàn)來看,在MV-MATH數(shù)據(jù)集上,表現(xiàn)最好的模型是Claude-3.5,其整體準(zhǔn)確率為33.9%,遠(yuǎn)低于人類水平(76.5%)。

其他表現(xiàn)較好的模型還包括GPT-4o(32.1%)、Gemini-1.5-Pro(29.1%)和Qwen-vl-max(26.9%)。

值得注意的是,開源模型LLaVA-OneVision-Chat-72B取得了26.2%的準(zhǔn)確率,僅次于Qwen-vl-max。類o1模型QVQ-72B-Preview性能為29.3%,僅次于GPT-4o,這說明慢思考系統(tǒng)在多圖推理任務(wù)上同樣有效。

此外,模型在不同領(lǐng)域的表現(xiàn)也存在差異

在算術(shù)領(lǐng)域,Claude-3.5的準(zhǔn)確率最高,達(dá)到54.2%;而在組合幾何領(lǐng)域,其準(zhǔn)確率僅為27.0%。

這表明MLLM在處理需要復(fù)雜圖像理解和推理的領(lǐng)域時存在較大困難。

與此同時,團(tuán)隊針對題目難度模型提示圖像關(guān)聯(lián)性以及圖像輸入方式四個維度對實驗結(jié)果進(jìn)行了更細(xì)粒度的分析。


具體而言,如圖中(a)所示,在不同難度級別上,模型的表現(xiàn)也有所不同

在簡單問題上,GPT-4o的準(zhǔn)確率最高,達(dá)到40.3%;而在中等難度問題上,Claude-3.5的準(zhǔn)確率最高,為37.5%。在困難問題上,所有模型的表現(xiàn)都大幅下降,Claude-3.5的準(zhǔn)確率僅為26.6%。

而圖(b)表明,對于閉源模型,CoT和few-shot對MV-MATH多圖推理并不一定有效。對于所有的開源模型,CoT和few-shot都會降點

在圖像關(guān)聯(lián)性上,MD子集包含相互依賴的圖像,需要更高水平的跨圖像理解。

如圖中(c)所示,絕大多數(shù)模型在MD子集上的性能均低于ID子集,其中Gemini-1.5-pro的性能差距最大,達(dá)到 7.8%。

這一觀察結(jié)果表明,大多數(shù)模型在處理數(shù)學(xué)場景中的相互依賴圖像任務(wù)上面臨挑戰(zhàn),凸顯了MLLM在處理數(shù)學(xué)多視覺環(huán)境中跨圖像相互依賴關(guān)系的潛在局限性。

至于圖像輸入方式,如圖中(d)所示,結(jié)果一致表明,在所有測試模型中,圖像序列輸入的表現(xiàn)都優(yōu)于合并輸入,這表明保留圖像的位置和順序信息對于多圖推理至關(guān)重要

序列輸入的高性能凸顯了結(jié)構(gòu)化視覺信息在增強(qiáng)模型解釋和處理復(fù)雜數(shù)學(xué)場景的能力方面的重要性。

小結(jié)

隨著最近OpenAI o1,DeepSeek-R1等模型的爆火,大家看到了慢思考模型在文本推理上的強(qiáng)大性能。然而目前視覺大模型的慢推理仍然沒有一個固定的范式。

本研究通過大量實驗證實了MLLM在復(fù)雜多視覺感知與圖像交叉理解上仍然存在困難,在多圖數(shù)學(xué)推理上存在極大的改進(jìn)空間。

本研究旨在全面評估MLLM在多視覺場景中的數(shù)學(xué)推理能力,推動多圖數(shù)學(xué)推理的進(jìn)一步發(fā)展。

論文鏈接:
https://arxiv.org/abs/2502.20808
主頁鏈接:
https://eternal8080.github.io/MV-MATH.github.io/


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
私自踢蘇超比賽!申花小將遭俱樂部處罰 點贊球迷評論“你沒錯”

私自踢蘇超比賽!申花小將遭俱樂部處罰 點贊球迷評論“你沒錯”

風(fēng)過鄉(xiāng)
2025-07-04 08:10:00
又是一場鬧劇落幕,汪峰女友森林北又有緋聞傳出,汪峰卻毫不在意

又是一場鬧劇落幕,汪峰女友森林北又有緋聞傳出,汪峰卻毫不在意

自娛眾樂
2025-07-03 15:49:59
女孩嫁印度20年沒回中國,父親退休后去探望,見到女婿后原地痛哭

女孩嫁印度20年沒回中國,父親退休后去探望,見到女婿后原地痛哭

黃家湖的憂傷
2025-06-30 17:29:00
由于NBA收入低于預(yù)期,24-25賽季每位球員僅能拿到合同總額的90.9%

由于NBA收入低于預(yù)期,24-25賽季每位球員僅能拿到合同總額的90.9%

雷速體育
2025-07-03 20:06:12
全網(wǎng)都在吃的“健康食品”,竟被查出含毒鉛!孩子大人都中招!

全網(wǎng)都在吃的“健康食品”,竟被查出含毒鉛!孩子大人都中招!

北美省錢快報
2025-07-03 06:13:42
7大銀行開一類儲蓄卡實測:反復(fù)詢問開卡原因、查社保、被拒絕

7大銀行開一類儲蓄卡實測:反復(fù)詢問開卡原因、查社保、被拒絕

南方都市報
2025-07-03 11:07:23
網(wǎng)壇金童玉女已分手!溫網(wǎng)失利成壓垮戀情的最后一顆稻草

網(wǎng)壇金童玉女已分手!溫網(wǎng)失利成壓垮戀情的最后一顆稻草

體育妞世界
2025-07-04 07:37:32
1950 年,四川地主拿出朱德欠條,朱總司令:馬上把他接到北京來

1950 年,四川地主拿出朱德欠條,朱總司令:馬上把他接到北京來

紀(jì)實文錄
2025-06-21 14:47:10
看來泰王還是明智,就在佩通坦被停職的同一天,新的內(nèi)閣名單通過

看來泰王還是明智,就在佩通坦被停職的同一天,新的內(nèi)閣名單通過

鐵錘簡科
2025-07-03 23:33:31
雷軍:所有同行投入測試的規(guī)模至少離小米差3到5倍!小米:嚴(yán)禁以任何形式詆毀競品

雷軍:所有同行投入測試的規(guī)模至少離小米差3到5倍!小米:嚴(yán)禁以任何形式詆毀競品

大白聊IT
2025-07-03 18:13:26
太開放了!屁股夾衣服高開叉到腰!美女超市購物穿成這樣?

太開放了!屁股夾衣服高開叉到腰!美女超市購物穿成這樣?

說點真嘞叭
2025-06-23 08:36:25
印度空調(diào)荒爆發(fā)全民搶購,莫迪深夜簽發(fā)緊急文件,救急還得靠中國

印度空調(diào)荒爆發(fā)全民搶購,莫迪深夜簽發(fā)緊急文件,救急還得靠中國

流年拾光
2025-07-03 17:05:18
川普和馬斯克的第二回合

川普和馬斯克的第二回合

西樓飲月
2025-07-03 21:26:11
中國外交官已全部離開立陶宛,立總理對華遞交建議書,想重建關(guān)系

中國外交官已全部離開立陶宛,立總理對華遞交建議書,想重建關(guān)系

袁周院長
2025-07-03 10:54:19
僅播6集就口碑大爆,評分高達(dá)9.2,這才是國產(chǎn)黑馬劇該有的樣子

僅播6集就口碑大爆,評分高達(dá)9.2,這才是國產(chǎn)黑馬劇該有的樣子

夢涵說體育
2025-07-03 08:53:57
四川發(fā)布一批干部任前公示,涉多個廳級領(lǐng)導(dǎo)職務(wù)

四川發(fā)布一批干部任前公示,涉多個廳級領(lǐng)導(dǎo)職務(wù)

上觀新聞
2025-07-03 08:59:10
“惹不起”的小米,正在飯圈化

“惹不起”的小米,正在飯圈化

首席品牌評論
2025-07-02 22:48:46
原來,保衛(wèi)戰(zhàn)早已打響!

原來,保衛(wèi)戰(zhàn)早已打響!

大道微言
2025-07-01 15:00:15
跌慘了!263萬跌到123萬,廣州一樓盤跌幅接近60%,4年虧掉140萬

跌慘了!263萬跌到123萬,廣州一樓盤跌幅接近60%,4年虧掉140萬

明月雜談
2025-07-03 19:38:27
國足如果使用這套陣容踢東亞杯,估計連香港隊都踢不過……!

國足如果使用這套陣容踢東亞杯,估計連香港隊都踢不過……!

田先生籃球
2025-07-03 19:42:52
2025-07-04 09:32:49
人工智能研究 incentive-icons
人工智能研究
分享深度學(xué)習(xí)、CV、NLP
275文章數(shù) 130關(guān)注度
往期回顧 全部

科技要聞

再不改飯碗都快沒了?百度搜索終于放大招

頭條要聞

美國民主黨領(lǐng)袖抗議"大而美"法案 演講近9小時創(chuàng)紀(jì)錄

頭條要聞

美國民主黨領(lǐng)袖抗議"大而美"法案 演講近9小時創(chuàng)紀(jì)錄

體育要聞

你永不獨行!球迷前往安菲爾德悼念若塔

娛樂要聞

森林北又有緋聞傳出?汪峰毫不在意?

財經(jīng)要聞

闖禍電芯商部分產(chǎn)線停產(chǎn)!羅馬仕通知停工

汽車要聞

6.5秒破百 長安第三代UNI-V有更強(qiáng)2.0T

態(tài)度原創(chuàng)

家居
房產(chǎn)
旅游
藝術(shù)
公開課

家居要聞

溫潤質(zhì)感 生活如此明亮動人

房產(chǎn)要聞

“全運(yùn)”為何獨寵凱粵灣?揭秘官方蓋章的“人居生活樣本”底層邏輯

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 黔东| 福贡县| 安化县| 佛冈县| 瑞昌市| 珲春市| 遂昌县| 涟源市| 韶山市| 思南县| 平塘县| 大荔县| 长子县| 铁力市| 鲁山县| 泾源县| 临潭县| 淮安市| 南召县| 罗田县| 巢湖市| 克什克腾旗| 永平县| 博兴县| 衢州市| 揭东县| 博罗县| 宜城市| 高阳县| 东乡族自治县| 昆明市| 花垣县| 高密市| 通辽市| 清新县| 民勤县| 宝清县| 楚雄市| 洞口县| 获嘉县| 睢宁县|