99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

GPT-4o不敵Qwen,無一模型及格!UC伯克利港大等提出多模態新基準

0
分享至

All-Angles Bench 團隊 投稿至 凹非寺
量子位 | 公眾號 QbitAI

多視圖理解推理有新的評判標準了!

什么是多視圖理解?也就是從不同視角整合視覺信息進而實現理解決策。

想象一下,機器人在復雜環境中執行任務,這就需要根據多個攝像頭的畫面準確判斷物體位置、距離和運動方向,這就依賴于強大的多視圖理解能力。

但過去,由于評估多視圖推理能力的基準測試稀缺,這一領域的研究進展相對緩慢。

來自UC伯克利、憶生科技、香港大學、紐約大學、加州大學戴維斯分校、牛津大學等多家機構的研究者聯合提出了All-Angles Bench,旨在全面評估MLLMs的多視圖理解能力。它涵蓋了90個真實場景下,超過2100組人工標注的多視圖問答對。

其評測數據集以及評測代碼現已全部開源。



他們對27個領先的多模態大語言模型進行基準測試,其中包括Gemini-2.0-Flash、Claude-3.7-Sonnet和GPT-4o。

結果顯示,多模態大語言模型與人類水平之間存在顯著差距,并進一步發現模態大語言模型存在兩種主要的缺陷模式:(1)在遮擋情況下跨視圖對應能力較弱;(2)對粗略相機位姿的估計能力較差。



具體來看:

多視圖理解Bench

數據構建



All-Angles Bench是一個包含超過2100組人工標注的多視圖問答對的大規模基準,涵蓋了90個來源于EGO4D-EXO和EgoHumans數據集的真實世界場景。

數據集包含六大具有挑戰性的任務,分別是Counting、Attribute Identification、Relative Distance、Relative Direction、Object Manipulation和Camera Pose Estimation。

這些任務旨在從多角度考察MLLMs對3D場景的理解能力,包括物體之間的位置關系、物體與相機之間的位置關系等。

構建過程



1. 數據收集與問題類型設計:研究團隊精心挑選了90個多樣化的多視圖場景,并利用GPT設計了上述六大任務下的相關問題。

2. 問題篩查與人工標注:通過人工標注對問題進行細化,修飾以及答案生成。研究團隊并且使用交叉檢查的方法,確保了問題的清晰度、正確性和相關性,使得測試問題能夠準確地評估模型的能力。

3. 成對問題生成與人工質量檢查:為了評估模型在跨視圖一致性方面的表現,研究團隊通過重新表述問題或改變視角來生成成對問題。在生成過程中,保持視角對應關系不變,并進行最后的質量控制,以確保成對問題的有效性。

性能評估

研究團隊對27個領先的MLLMs進行了全面評估,其中包括知名的Gemini-2.0-Flash、Claude-3.7-Sonnet、GPT-4o,以及多種開源和閉源模型。

結果發現,無論是閉源還是開源的多模態大語言模型,在多視圖理解能力方面與人類水平之間仍存在顯著差距。



發現1:對人類來說簡單的任務,比如粗略的相機位姿估計,對多模態大語言模型而言卻頗具挑戰。

在Camera Pose Estimation任務中,人類標注者的準確率達到88.9%,而Gemini-2.0-Flash、Qwen2.5-VL-72B和InternVL2.5-38B這些頂尖的多模態大語言模型,其準確率落后超過50%,這凸顯了其與人類推理水平的顯著差距。

發現2:某些開源多模態大語言模型在方向敏感的任務上超越了閉源模型。

有趣的是,Ovis2-34B和Qwen2.5-VL-72B在Relative Direction和Object Manipulation任務上的表現甚至優于Gemini-2.0-Flash和Claude-3.7-Sonnet等閉源模型。推測這可能得益于開源模型集成的視頻理解能力和精細的視覺定位能力,使得在跨視圖跟蹤物體重新定向方面表現出色。

實驗分析

1、多模態大語言模型在成對問答中的不一致性



研究人員將模型的回答分為三類:CC(兩個回答都正確)、WW(兩個回答都錯誤)和IC(一個正確,一個錯誤)。較高的IC占比表明模型的多視圖理解能力較弱,即簡單的換個說法就會導致其回答出錯。

在對六個頂尖的多模態大語言模型進行評估時發現:

1)GPT-4o在Relative Distance任務上的IC得分最高(約70%),遠高于其他模型在該任務上的IC得分。

2)所有模型在Relative Direction任務上平均IC得分最高,表明在處理方向變化時存在困難。

3)Gemini-2.0-Flash和Claude-3.7-Sonnet在各個任務中的不一致性較為均衡,而Ovis2-34B和GPT-4o則表現出顯著的基于任務的不一致性差異。

2、多模態大語言模型在多視圖對應方面表現不佳

雖然在所有物體在單一視角下都可見(完全可見)的情況下,多模態大語言模型(MLLMs)往往能夠成功處理任務,但在跨視角整合碎片化信息(部分可見)時,它們有時會出現問題。

例如,GPT-4o 有時會選擇每個視角中的最大數量,而不是對跨視角的物體數量進行統一統計.



研究人員還在完全可見和部分可見的設置下,對 GPT-4o、Ovis2-34B 和 InternVL2.5-38B 這三款模型評估了以下三種方法:1)Zero-Shot CoT;2)Self-Consistency;3)Identification CoT。

雖然思維鏈方法在部分可見的情況下提升了 GPT-4o 的表現,但對于在多視圖計數方面本就表現出色的模型(如 InternVL2.5-38B)而言,帶來的提升比較微少。

這表明,僅靠優化提示詞并不夠,如果要對多視圖理解有根本性的性能提升,還需要進行專門的多視圖訓練。



3、多模態大語言模型在粗略的相機位姿估計方面表現不佳



通過可視化的方法,研究人員讓MLLM推理多視圖下的物體和和相機的位置與朝向,可以發現,雖然 GPT-4o 和 Gemini-2.0-Flash 對單張圖像的場景理解表現尚可,但它們在對齊不同的相機視角時存在困難,難以正確處理視角變換,進而影響多模態大語言模型的多視圖一致性。

論文地址:https://arxiv.org/abs/2504.15280
項目主頁:https://danielchyeh.github.io/All-Angles-Bench/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
今日中超:蘇亞雷斯、劉誠宇、馬萊萊加盟北京國安!

今日中超:蘇亞雷斯、劉誠宇、馬萊萊加盟北京國安!

兩兄弟養牛
2025-05-14 17:25:00
這次連五常都勸不動!巴鐵直搗新德里,400架無人機立下大功!

這次連五常都勸不動!巴鐵直搗新德里,400架無人機立下大功!

荷蘭豆愛健康
2025-05-13 20:33:18
金邊國際機場將于7月10日全面關閉

金邊國際機場將于7月10日全面關閉

人民資訊
2025-05-14 10:00:03
廣東省中醫院脾胃病科大科主任張北平病逝,年僅52歲

廣東省中醫院脾胃病科大科主任張北平病逝,年僅52歲

澎湃新聞
2025-05-13 22:38:27
美預言家朱迪再爆猛料:美日中命運已定,此島將首遭災

美預言家朱迪再爆猛料:美日中命運已定,此島將首遭災

心靈短笛
2025-05-12 10:05:25
G4得分掛零!付政浩:杰曼被打回原形罷了 這就是他的真實水平

G4得分掛零!付政浩:杰曼被打回原形罷了 這就是他的真實水平

直播吧
2025-05-14 23:06:08
女子唱K后感染病毒!目前無藥根治!陽江街坊警惕!

女子唱K后感染病毒!目前無藥根治!陽江街坊警惕!

陽江號V
2025-05-13 10:44:30
看懂伊朗的“蠢”,就懂了沙特為何跟美國簽署,史上最大軍售協議

看懂伊朗的“蠢”,就懂了沙特為何跟美國簽署,史上最大軍售協議

說天說地說實事
2025-05-14 19:37:49
4個月30萬人斷供,這一次銀行真的害怕了!

4個月30萬人斷供,這一次銀行真的害怕了!

梧通淺聊
2025-05-13 08:29:31
居民存款被“鎖死”?2025年起,個人存取現金將全部按“新規”來

居民存款被“鎖死”?2025年起,個人存取現金將全部按“新規”來

發姐談房
2025-04-10 16:10:14
國乒機場穿搭消費觀,王楚欽63.5萬,林詩棟4.1萬,孫穎莎最意外

國乒機場穿搭消費觀,王楚欽63.5萬,林詩棟4.1萬,孫穎莎最意外

觀察鑒娛
2025-05-14 11:00:29
華為昇騰芯片遭美國全球禁止使用

華為昇騰芯片遭美國全球禁止使用

經濟觀察報
2025-05-14 14:40:10
騎士交易米切爾,美媒提議送走米切爾,并列出了潛在四大下家

騎士交易米切爾,美媒提議送走米切爾,并列出了潛在四大下家

阿雄侃籃球
2025-05-14 23:36:06
男性最“耗陽”的行為,煙酒未上榜,排第一的,多數人不重視

男性最“耗陽”的行為,煙酒未上榜,排第一的,多數人不重視

熊貓醫學社
2025-05-12 11:38:54
真的低估了吃“蒸蘋果”的威力,短短幾天,孩子和我都舒服了

真的低估了吃“蒸蘋果”的威力,短短幾天,孩子和我都舒服了

江江食研社
2025-05-05 08:30:08
巴鐵很無奈:中國武器雖物美價廉,但有時候買啥,不是自己說了算

巴鐵很無奈:中國武器雖物美價廉,但有時候買啥,不是自己說了算

阿傖說事
2025-05-10 07:54:02
Selina亮相專訪活動像鄰家大嬸胖到不忍直視,產后變低調賬號停更

Selina亮相專訪活動像鄰家大嬸胖到不忍直視,產后變低調賬號停更

曉風說
2025-05-14 22:06:38
克宮消息人士:俄方或派梅德韋杰夫與澤連斯基談判

克宮消息人士:俄方或派梅德韋杰夫與澤連斯基談判

鳳凰衛視
2025-05-14 16:50:07
太驚艷!張靚穎發布《九萬字》變裝跳舞視頻,抹胸裙配上金絲眼鏡,真是絕了

太驚艷!張靚穎發布《九萬字》變裝跳舞視頻,抹胸裙配上金絲眼鏡,真是絕了

FM93浙江交通之聲
2025-05-14 17:00:50
張新年律師出來了,望奎縣前人大主任丁君可能要進去了!

張新年律師出來了,望奎縣前人大主任丁君可能要進去了!

兵叔評說
2025-05-14 13:30:43
2025-05-14 23:48:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10478文章數 176142關注度
往期回顧 全部

科技要聞

騰訊開始靠AI賺錢 馬化騰:貢獻是實質性的

頭條要聞

印度外交部聲稱明確反對中國對藏南地區命名 中方駁斥

頭條要聞

印度外交部聲稱明確反對中國對藏南地區命名 中方駁斥

體育要聞

NBA最被低估球員,帶隊爆殺東部第一

娛樂要聞

趙麗穎趙德胤戀愛時間線被扒!

財經要聞

中美互降關稅:企業搶發貨 貨代頻爆單

汽車要聞

配獵鷹駕駛輔助系統/軸距超3米 風云A9L預計6月交付

態度原創

房產
教育
數碼
公開課
軍事航空

房產要聞

狂降40萬!海口這個改善盤殺出好價?你想多了!

教育要聞

如果你直接去括號化簡,你會發現不可行

數碼要聞

聯手京東方、哈曼卡頓,創維“家庭影院”A6F Pro竟是這么來的?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美國與沙特簽署1420億美元軍售協議

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 浪卡子县| 探索| 屯留县| 漳州市| 佛学| 台前县| 融水| 大悟县| 开平市| 同心县| 视频| 庄河市| 忻城县| 勐海县| 永善县| 务川| 湟中县| 金塔县| 阿克陶县| 滦南县| 岚皋县| 山丹县| 苍溪县| 达拉特旗| 阿鲁科尔沁旗| 宁远县| 许昌县| 南涧| 墨脱县| 通山县| 浦江县| 阳泉市| 西宁市| 公安县| 翁牛特旗| 吐鲁番市| 洱源县| 武义县| 桐梓县| 海安县| 西吉县|