99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

o3拼盡全力無法戰勝?全新視覺推理Benchmark揭露AI與人類在核心能力上的差異

0
分享至

隨著AI的發展進入下半場,定義問題變得更加重要。盡管多模態大模型在現有評測基準中的分數大幅上升,但在實際應用中卻仍然面臨諸多局限。因此,為以OpenAI o3和Gemini 2.5 Pro為代表的視覺推理模型設計全新的評測基準顯得尤為重要。

本文介紹了一個新提出的多模態大模型(LMMs)評測數據集MOAT。為了研究現有LMMs與人類之間的差距和背后的原因,MOAT中的每個題目需要同時運用多種基礎視覺能力。此外,在團隊設計的能力分類體系中,首次提出了跟隨復雜文本指令和跟隨復雜視覺指令的能力。在MOAT上,人類準確率比表現最好的LMM(OpenAI o1)高43.9%。

在論文發布后,Gemini 2.5 Pro和OpenAI o3等新一代推理模型相繼問世。團隊發現這些模型雖然相比于o1有較大提升(準確率從38.8%提升至48%左右),但仍然與人類表現(82.7%)有明顯差距,尤其是在物體計數、空間理解、指令跟隨等方面。即使是對于o3,MOAT中的復雜視覺任務仍然屬于“拼盡全力無法戰勝”的狀態。


論文題目: MOAT: Evaluating LMMs for Capability Integration and Instruction Grounding 論文鏈接: https://arxiv.org/abs/2503.09348 項目鏈接: https://cambrian-yzt.github.io/MOAT/
一、動機

視覺是人類感知和理解世界的重要方式之一。因此,視覺能力也一直是人工智能領域的研究熱點之一。多模態大模型(LMMs)雖然展現出了解決視覺-文本任務上的能力,但在許多任務上仍與人類水平有較大差距。與之相比,大語言模型在很多純文本任務上已經超越了人類普遍水平、甚至人類專家水平。

為了研究LMMs性能劣勢的原因,我們需要準確、系統地考察和評測LMMs。而現有的評測數據集中,有些數據集的每個題目只能針對一種視覺-文本能力,忽略了真實視覺場景的復雜性;有些數據集的評測受到大模型內置知識和語言生成風格的影響,難以準確評測LMMs的真實能力;有些數據集的能力分類不夠全面,尤其是遺漏了復雜指令跟隨的能力。因此,我們需要一個新的LMMs評測數據集,不僅能提供一個全面的視覺-文本能力分類體系,同時也能夠考察LMMs是否能夠同時運用多種能力。

對此,我們提出一個全新的LMMs評測數據集MOAT,和對應的能力分類體系。我們的分類體系包含4個大類、共10種基礎能力,使其能夠細粒度地評價LMMs。我們的分類中首次提出了復雜文本指令跟隨能力和視覺指令跟隨能力。MOAT中的問題涉及多種能力,一道題考察的能力數量最多高達6種。此外,為了防止評測結果受到文本生成質量和模型知識庫的干擾、保證評測的公平性,MOAT中的每個題目都是有唯一正確答案的客觀題,并且在題目中提供了所有解題所需的知識。


我們將MOAT評測了20余個LMMs,其中OpenAI o1效果最優(準確率38.8%),遠低于人類水平(準確率82.7%)。此外,我們針對能力分類進行了細粒度的分析,并總結了一些值得注意的現象,用于指導未來LLMs相關的研究:對于部分能力,所有的LMMs有統一的性能缺陷;不同的模型家族具有不同的能力優劣傾向;參數規模能顯著提高表現;基于提示詞的思維鏈(Chain-of-Thought,CoT)和推理模型在某些能力上展現出穩定的提升,但在有些能力上展現出穩定的性能退化;通過調整圖像大小來避免圖像tiling可以顯著提升使用tiling機制LMMs的分類能力。

二、數據集細節2.1 能力分類體系

我們定義了共4大類、10種視覺-文本基礎能力的分類體系。為了保證評測的準確性,我們的分類體系排除了:所有任務都需要的能力,例如物體和屬性識別(模型在這些能力上的表現可以通過benchmark上的總準確率反映);純文本模態的能力,例如文本生成能力和數學能力。我們的分類體系包括:

  • 感知類

    • 計數 (CNT):準確數出圖像中特定物體的個數。

    • 文本識別 (OCR):閱讀圖像中的文字。

    • 理解圖表和可視化 (UCV):能夠理解圖表或其它利用顏色、形狀、文本等的組合來傳達的直觀信息。

  • 空間理解

    • 理解空間關系 (RLA):理解二維或三維空間中,物體之間的相對位置關系或物理連接關系。

    • 理解空間變換 (3DTF):理解三維空間中空間變換,并能理解變換對應的語義。例如一個化學分子球棍模型旋轉后不改變其分子結構。

    • 理解空間物理量 (3DQNT):能夠估計或比較空間物理量,例如長度、角度、面積、體積等。

  • 指令跟隨

    • 文本指令跟隨 (GNDT):理解并運用復雜的文本指令。例如理解靶紙的復雜計分規則。

    • 視覺指令跟隨 (GNDV):理解并運用基于圖像的指令。例如理解宜家說明書。

  • 處理復雜場景

    • 信息富集場景中檢索任務相關信息 (RET):在具有大量信息場景中,檢索出和具體問題相關的信息。例如在10余個出口的車站檢索目標相關信息。

    • 多圖像理解 (MTIMG):處理多張圖像的能力。

2.2 數據集構建

基于上述的能力分類體系,我們構建了評測數據集MOAT,并對每個問題標注了解答所需的能力。此外,對于需要額外知識的問題,我們會通過文本或圖像的形式來提供對應的知識,保證回答者自身不需要具備任何專業知識就可以回答MOAT中的所有問題。對于有些問題,我們會在提示詞中提供可選的選項。

三、實驗

我們選擇了20余個商用或開源LMMs,測試了它們在MOAT上的運行結果。此外,我們測試了人類在MOAT上的結果。然后,我們針對具體的能力分類進行了細粒度分析,并提供了一些有利于未來LMMs研究工作的實驗結論。

3.1 實驗結果


實驗結果。開源模型以淡藍底標注。'random guess'表示在選擇題中隨機選擇、并放棄非選擇題時的準確率。

在實驗結果中,我們發現:

  • 人類遙遙領先:在MOAT上,人類在所有能力都遠遠超過LMMs,準確率最高可領先62.8%,最低也有20.1%。在整體準確率上,差距也有43.9%。

  • 不同家族各有側重:不同的LMMs家族在能力優劣上各有側重,并且同一系列的模型往往有統一性。例如,OpenAI系列(GPT-4v、GPT-4o、o1)在UCV、3DTF、MTIMG、RLA能力上表現出色,而Claude 3.7系列則在3DQNT、GNDT、GNDV上領先。

  • 部分能力嚴重落后:所有模型在CNT、RLA、GNDT、GNDV能力上都表現不佳。除了極少數模型之外,UCV能力的準確率也很低。

3.1 細粒度分析3.1.1 純文本推理的不足

我們比較了三個模型在不同推理設置(無推理提示詞、基于提示詞的CoT、內置推理能力)下的表現。從整體的準確率來看,基于提示詞的CoT和現在大火的原生推理能力均無法穩定提升表現。

從具體每個能力分析,純文本推理在純視覺能力或視覺占主導的能力上(例如3DTF、3DQNT、GNDT、GNDV)反而會表現出明顯的性能下降。通過對推理過程的觀察,我們猜測這是因為文本模態的推理加劇了細粒度理解能力的不足帶來的幻覺;而在文本模態強相關、或涉及上下文信息的能力上(例如OCR、UCV、RLA、RET),推理能力才具有一定的提升效果。


比較相同基座模型,在不同設置下(無推理提示詞、基于提示詞的CoT、內置推理能力)的表現。 3.1.2 Tiling機制嚴重影響計數能力(CNT)

在麻將計數任務中,LMMs需要先根據文本指令找到需要計數的麻將位置(Phase 1)、再進行計數(Phase 2)。如果將圖片裁剪出需要計數的區域,則僅需要CNT能力。


麻將技術任務的兩個步驟

我們發現,相比于計數本身,對LMMs更難的是找到需要計數的區域;同時,tiling會導致計數能力嚴重下降,這可能是因為tiling將圖片分割為固定大小的tile時,把同一個物體切分進了多個tile,破壞了圖片在計數層面的語義。


在麻將計數任務上的實驗結果。Original表示輸入圖像不進行任何修改、問題涉及包括CNT的多種能力;CNT-only表示將輸入圖像裁剪成只包含待計數區域,問題只涉及CNT能力;CNT-only w/o Tiling表示在此之上,調整圖像大小使其不需要進行tiling。 四、總結

我們提出了一個新的LMMs評測數據集MOAT,它需要LMMs同時運用多種能力,并且首次提出考察指令跟隨能力。MOAT提出了一個包含10種基本能力的分類體系,使其可以準確全面地評價現有的LMMs,并為未來LMMs地研究提供指導。MOAT中的復雜視覺任務對于OpenAI o3、Gemini 2.5 Pro等最新的視覺推理模型仍然具有極高的挑戰性,在MOAT上取得突破可能需要LMMs在范式層面的創新。

llustration From IconScout By IconScout Store

-The End-

掃碼觀看!

本周上新!

“AI技術流”原創投稿計劃

TechBeat是由將門創投建立的AI學習社區(www.techbeat.net)。社區上線600+期talk視頻,3000+篇技術干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平臺,希望為AI人才打造更專業的服務和體驗,加速并陪伴其成長。

投稿內容

// 最新技術解讀/系統性知識分享 //

// 前沿資訊解說/心得經歷講述 //

投稿須知

稿件需要為原創文章,并標明作者信息。

我們會選擇部分在深度技術解析及科研心得方向,對用戶啟發更大的文章,做原創性內容獎勵

投稿方式

發送郵件到

melodybai@thejiangmen.com

或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關注“將門創投”公眾號,后臺回復“投稿”二字,獲得投稿說明。

關于我“門”

將門是一家以專注于數智核心科技領域新型創投機構,也是北京市標桿型孵化器。 公司致力于通過連接技術與商業,發掘和培育具有全球影響力的科技創新企業,推動企業創新發展與產業升級。

將門成立于2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投后服務,歡迎發送或者推薦項目給我“門”:

bp@thejiangmen.com


點擊右上角,把文章分享到朋友圈

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
曝小米前總監馮德兵出軌!200份“包養合同”,親密照曝光太炸裂

曝小米前總監馮德兵出軌!200份“包養合同”,親密照曝光太炸裂

180視角
2025-06-25 08:59:42
吳艷妮穿三角褲緊身衣秀身材,網友這也太好看了?

吳艷妮穿三角褲緊身衣秀身材,網友這也太好看了?

娛樂領航家
2025-06-24 16:52:18
722分!浙江高考學霸是他

722分!浙江高考學霸是他

大永強
2025-06-25 17:46:03
河南女生高考288分全家沸騰!媽媽金句:健康快樂才是人生高分

河南女生高考288分全家沸騰!媽媽金句:健康快樂才是人生高分

教育人看世界
2025-06-25 17:25:54
四川宜賓地震,重慶、云南、貴州多地有震感

四川宜賓地震,重慶、云南、貴州多地有震感

瀟湘晨報
2025-06-25 16:00:11
如何操縱價值21億美元的B-2轟炸機?美退役中將揭秘:吃飯無鹽無味,憑記憶加油

如何操縱價值21億美元的B-2轟炸機?美退役中將揭秘:吃飯無鹽無味,憑記憶加油

紅星新聞
2025-06-25 13:06:12
國務院官宣兩個好消息:除閱兵外,四個月后,兩岸同慶一個大日子

國務院官宣兩個好消息:除閱兵外,四個月后,兩岸同慶一個大日子

一家說
2025-06-25 14:46:29
陳剛在柳州主持召開廣西壯族自治區黨委常委會擴大會議:舉全區之力支持柳州化解債務

陳剛在柳州主持召開廣西壯族自治區黨委常委會擴大會議:舉全區之力支持柳州化解債務

揚子晚報
2025-06-25 20:49:29
以色列國防部長: 應情報機構摩薩德要求,將伊朗央行列為恐怖組織,另外兩家伊朗銀行和三名官員也被列入名單

以色列國防部長: 應情報機構摩薩德要求,將伊朗央行列為恐怖組織,另外兩家伊朗銀行和三名官員也被列入名單

和訊網
2025-06-25 16:57:14
小米前總監被曝200份包養協議,舔、口、喝都有,陪72小時給100萬

小米前總監被曝200份包養協議,舔、口、喝都有,陪72小時給100萬

社會醬
2025-06-25 17:13:35
哈梅內伊已交權!

哈梅內伊已交權!

深度報
2025-06-24 22:59:53
中方最擔心的事發生了,特朗普親手毀了中東,伊朗作出一危險決定

中方最擔心的事發生了,特朗普親手毀了中東,伊朗作出一危險決定

掌青說歷史
2025-06-25 16:25:58
吉林一高速驚現“奪命”鋼絲繩 00后小伙:生日差點變忌日

吉林一高速驚現“奪命”鋼絲繩 00后小伙:生日差點變忌日

大象新聞
2025-06-25 18:57:24
國臺辦:2025年7月1日至2027年12月31日,免收臺灣“首來族”申辦臺胞證證件費

國臺辦:2025年7月1日至2027年12月31日,免收臺灣“首來族”申辦臺胞證證件費

環球網資訊
2025-06-25 10:32:07
伊朗宣布戰后重建,特朗普稱東方大國可以繼續購買伊朗石油了

伊朗宣布戰后重建,特朗普稱東方大國可以繼續購買伊朗石油了

曉風說
2025-06-25 10:34:09
游船突遇狂風被掀翻,美國外賣巨頭高管及父母喪生,妻子因在岸邊照顧女兒幸免于難

游船突遇狂風被掀翻,美國外賣巨頭高管及父母喪生,妻子因在岸邊照顧女兒幸免于難

紅星新聞
2025-06-25 18:18:13
18歲王鈺棟25米貼地斬,轟賽季第10球 遺憾傷退:被隊醫背離球場

18歲王鈺棟25米貼地斬,轟賽季第10球 遺憾傷退:被隊醫背離球場

風過鄉
2025-06-25 20:52:19
俄軍襲擊造成近200人死傷,莫斯科指責塞爾維亞向烏提供遠程導彈

俄軍襲擊造成近200人死傷,莫斯科指責塞爾維亞向烏提供遠程導彈

史政先鋒
2025-06-25 17:46:23
廣東江門一飯店白米飯免費,老人每天打一碗米飯配醬油吃,店主:只要營業,就一直提供

廣東江門一飯店白米飯免費,老人每天打一碗米飯配醬油吃,店主:只要營業,就一直提供

大風新聞
2025-06-25 18:36:07
伊朗裝備了從中國引進的先進防空系統,為何這次沒能擊落一架戰機

伊朗裝備了從中國引進的先進防空系統,為何這次沒能擊落一架戰機

小院之觀
2025-06-25 05:30:05
2025-06-25 21:27:00
將門創投 incentive-icons
將門創投
加速及投資技術驅動型初創企業
2156文章數 591關注度
往期回顧 全部

科技要聞

小米YU7已下線500輛展車 26日前運往全國

頭條要聞

與汪峰節目牽手引猜測 寧靜談擇偶標準:他不是我的菜

頭條要聞

與汪峰節目牽手引猜測 寧靜談擇偶標準:他不是我的菜

體育要聞

山西太原大媽,在NBA闖出一片天

娛樂要聞

向佐接機郭碧婷,全程無交流像陌生人

財經要聞

免除蘇寧易購5億債務的神秘人是誰?

汽車要聞

售14.99萬/限量200臺 別克昂科威S新增丹霞紅內飾

態度原創

游戲
親子
房產
藝術
公開課

《死亡擱淺2》引擎封神?玩家盛贊開放世界表現!

親子要聞

終于見面啦!!!!原創dy:@辣炒年糕

房產要聞

三亞頂豪!內部資料曝光!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 宁远县| 灵山县| 达拉特旗| 永康市| 皮山县| 古丈县| 德惠市| 陆丰市| 谷城县| 武胜县| 大安市| 遂平县| 鞍山市| 赤壁市| 沙湾县| 青神县| 灵台县| 九寨沟县| 新民市| 长葛市| 武定县| 健康| 沙洋县| 宿迁市| 安达市| 白山市| 故城县| 玛纳斯县| 军事| 刚察县| 合阳县| 罗定市| 宝丰县| 牡丹江市| 中阳县| 花莲县| 富平县| 石台县| 化德县| 张家界市| 三河市|