99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

5700問答對全面評估拷問AI空間感!新基準來了丨浙大&成電&港中文

0
分享至

ZJU REAL Lab 投稿
量子位 | 公眾號 QbitAI

杯子在我的左邊還是右邊?

這個對人類來說非常簡單的問題,連GPT-4o這樣級別的視覺語言大模型(VLMs)也可能答錯。

究其根本,還是當前的視覺語言大模型在大規模圖文數據中學習到的空間信息往往是片段化的,僅限于靜態視角的理解,缺乏多維度、多視角的空間推理能力

因此,當面對需要多視角空間推理的任務時,這些模型們就頻頻卡殼。



但是,具備穩健的空間推理能力與視角理解能力的AI系統,才能真正成為與人類協作的智能體。

為此,來自浙江大學、電子科技大學和香港中文大學的研究團隊提出了首個系統評估VLM多視角多任務下的空間定位能力的基準體系

ViewSpatial-Bench,涵蓋五種不同的任務類型,從相機和人類視角出發,全面評估模型的空間推理能力。

同時還并配備了能夠生成精確方向標簽的自動化3D標注流水線。通過高效的3D方向標注生成流程,實現了超過5700個問答對,覆蓋豐富的3D場景。

通過在多視角空間數據集上的微調,ViewSpatial-Bench團隊實現了模型性能的整體提升46.24%。



五大任務,覆蓋雙重視角

ViewSpatial-Bench評估集中包含5700個問答對,涵蓋相機視角與人類視角兩種框架下的五種空間定位識別任務



如圖所示,無論圖像聚焦的是場景布局還是人物動作,該基準測試要求模型在不同場景中準確理解空間結構并進行定位,系統性評估多模態模型的跨視角空間推理能力,其中包括:

從相機視角出發的兩類任務,主要評估視覺語言大模型基于自我視角的直觀空間理解能力。

  1. 物體相對方向識別:直接基于圖像判斷物體之間的空間關系。
  2. 人物視線方向識別:從相機視角識別圖中人物的注視方向。

還有三類任務從人類視角出發,聚焦于模型是否具備抽象的、依賴感知的空間理解能力。分別是:

  1. 物體相對方向識別:從圖中人物的視角,判斷其他物體與其的空間關系。
  2. 人物視線方向識別:假設自己處于圖中人物的位置,推斷其面朝的方向。
  3. 場景模擬的相對方向識別:通過模擬“自身”在場景中位置判斷物體的相對位置。

為構建高質量的空間推理評估基準,研究團隊基于ScanNet和MS-COCO兩大經典視覺數據集,開發了完整的自動化數據構建流水線。

構建流程如下:

首先從場景中選取包含豐富三維信息的圖像,結合現有標注信息精準提取物體位置坐標或人物姿態方向。

隨后基于這些三維坐標或朝向角度計算各類相對空間關系,通過精心設計的自然語言模板自動生成語義明確的問答對,最終經過人工驗證確保質量。



這一自動化處理方式在保證數據規模化和高效率的同時,兼顧了空間關系的準確性和語言表述的多樣性,為模型訓練和評估奠定了堅實的數據基礎。

多模態大模型并未真正理解空間結構

基于構建的 ViewSpatial-Bench,研究團隊系統評估了包括GPT-4o、Gemini 2.0、InternVL3、Qwen2.5-VL等在內的十余種主流模型的表現,結果顯示:

在真正理解空間關系上,當前VLMs的表現還遠遠不夠



從整體準確率來看,多個頂尖模型在ViewSpatial-Bench上的得分并不高。

這表明,盡管模型具備基本的圖像理解能力,但在涉及多視角空間定位時,仍缺乏空間感與換位思考能力

更值得關注的是不同任務類型間的顯著表現差異。

在攝像頭視角下,模型在人物面朝方向判斷任務上的平均準確率僅為25.6%,遠低于”物體相對方向判斷”的38.9%。然而在人物視角下,這一趨勢卻完全反轉。

這種“任務-視角”交叉表現的失衡揭示了當前VLMs的核心缺陷:它們無法構建統一的三維空間認知框架來支持跨視角推理

實質上,模型并未真正理解空間結構,而是將不同視角下的推理過程割裂處理,缺乏從統一空間表征中靈活調度信息的能力。

有趣的是,實驗結果還揭示出一個反直覺的現象:

大多數模型在人物視角的任務上表現略優于攝像頭視角

例如,GPT-4o 在人物視角平均準確率為36.29%,略高于攝像頭視角的33.57%;InternVL2.5、Kimi-VL也表現出類似趨勢。

這一現象打破了我們對“自我視角更易處理”的常識性認知,這與上面任務表現的失衡有直接聯系,說明模型在訓練過程中可能存在學習了更偏“第三人稱”視角的空間分布規律,而缺乏從相機視角進行空間映射的能力。

這種偏差揭示了當前訓練語料在視角分布上存在結構性不平衡,為未來的數據構建和模型優化指明了重要方向。

如何讓模型理解“換位思考”

針對當前視覺語言大模型在多視角空間推理方面的根本性局限,研究團隊開發了Multi-View Spatial Model(MVSM)專門用于跨視角空間理解進行系統性優化

MVSM采用自動化空間標注框架生成了約43000個高質量的多樣化空間關系樣本,全面覆蓋ViewSpatial-Bench的五個任務類別。

實驗結果顯示,在ViewSpatial-Bench上,MVSM相比其骨干模型Qwen2.5-VL實現了46.24%的絕對性能提升,充分驗證了針對性訓練在解決空間認知缺陷方面的有效性。



如上圖所示,為了進一步驗證MVSM的空間理解能力,研究團隊在VSI-Bench和自建的ViewSpatial Interaction Application Dataset(VSI-App)上進行了評估。

在VSI-Bench中,MVSM在需要視角轉換能力的物體相對方向任務上取得了0.93%的提升,在路徑規劃任務上更是實現了9.54%的顯著改進。



VSI-App包含50個場景(25個室內,25個戶外),專門設計用于評估具身交互環境中的人類中心空間推理。

在這個更貼近現實的測試中,MVSM依然取得了顯著領先,尤其在結構更清晰的室內場景中表現尤為出色(提升+20%),在戶外場景中也有適度提升(+4.00%)

以上結果證明,MVSM不僅能夠建模靜態空間關系,還能處理穿越3D環境的動態軌跡以及人機交互場景——這些能力都是從視角感知訓練方法中自然涌現的,而非通過顯式的優化獲得。

ViewSpatial-Bench和MVSM的提出不僅為多模態模型的空間理解能力提供了系統評估工具,也首次在數據和訓練范式上重構了“視角采擇”這一關鍵人類認知能力的建模方式。

通過建立首個多視角空間推理基準并實現顯著的性能突破,為AI系統獲得類人空間認知能力提供了可行路徑:

更聰明的空間感知,是下一代機器人與多模態助手的關鍵一步。

論文鏈接:
https://arxiv.org/abs/2505.21500
項目主頁:
https://zju-real.github.io/ViewSpatial-Page
GitHub倉庫:
https://github.com/ZJU-REAL/ViewSpatial-Bench

— 完 —

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
受賄1900萬,銀聯“內鬼”的灰色生意

受賄1900萬,銀聯“內鬼”的灰色生意

財經眾議院
2025-06-09 07:05:02
盒馬,也開始搞“擦邊”了?

盒馬,也開始搞“擦邊”了?

大佬灼見
2025-06-08 15:04:50
游客在安徽遭圍毆,打人老板身份曝光,背景不簡單,官方文旅介入

游客在安徽遭圍毆,打人老板身份曝光,背景不簡單,官方文旅介入

麓谷隱士
2025-06-08 07:42:04
血液黏稠,血管堵塞?常吃這樣東西,溶解血栓,預防老年癡呆

血液黏稠,血管堵塞?常吃這樣東西,溶解血栓,預防老年癡呆

本草世界
2025-06-09 09:00:03
震驚!南方醫科大學,塌方式腐?。?>
    </a>
        <h3>
      <a href=柳葉刀學術
2025-06-07 20:38:43
中美經貿磋商今日舉行 美方稱“他”或將出席

中美經貿磋商今日舉行 美方稱“他”或將出席

看看新聞Knews
2025-06-09 11:49:03
敘利亞將重新接入跨境支付系統SWIFT

敘利亞將重新接入跨境支付系統SWIFT

界面新聞
2025-06-09 14:34:42
那些靠搶得來的老公是啥樣的?網友:月入五萬被04年妹子火速拿下

那些靠搶得來的老公是啥樣的?網友:月入五萬被04年妹子火速拿下

解讀熱點事件
2025-04-29 00:15:04
很不過三秒,剛對烏全境發動空襲,俄蘇-35就被擊落,F-16干的?

很不過三秒,剛對烏全境發動空襲,俄蘇-35就被擊落,F-16干的?

近史閣
2025-06-09 12:15:45
公職人員下班后聚餐算違紀嗎?中紀委給出明確標準

公職人員下班后聚餐算違紀嗎?中紀委給出明確標準

戶外小阿隋
2025-05-29 10:16:20
小時候,我們最怕的蛇不是銀環蛇,而是眼鏡王蛇,因為它會追人

小時候,我們最怕的蛇不是銀環蛇,而是眼鏡王蛇,因為它會追人

超人強動物俱樂部
2025-06-09 12:14:19
人社部定調!2025養老金新變化,工齡15、30、40年,上漲差距多少

人社部定調!2025養老金新變化,工齡15、30、40年,上漲差距多少

拾遺補闕
2025-06-08 15:08:53
安徽毆打游客的飯店老板被拘留 賠9000元 和稀泥的派出所長被免職

安徽毆打游客的飯店老板被拘留 賠9000元 和稀泥的派出所長被免職

水晶的視界
2025-06-09 04:33:14
烏克蘭“蛛網行動”2.0版再續傳奇,俄士兵遺體交換為何被烏拒絕

烏克蘭“蛛網行動”2.0版再續傳奇,俄士兵遺體交換為何被烏拒絕

史政先鋒
2025-06-08 19:55:55
不要嘲笑印度

不要嘲笑印度

難得君
2025-05-08 10:09:16
北京游客到西藏偶遇婚禮,隨禮500吃席,吃飽離開竟被攔住不讓走

北京游客到西藏偶遇婚禮,隨禮500吃席,吃飽離開竟被攔住不讓走

濤哥美食匯
2025-06-06 08:31:06
進化掉食欲的打工人,已經開始吃飼料了

進化掉食欲的打工人,已經開始吃飼料了

酷玩實驗室
2025-06-03 12:55:26
中國學者:若中美有戰,只需1天,全球會知道美國不再是超級大國

中國學者:若中美有戰,只需1天,全球會知道美國不再是超級大國

歷史求知所
2025-06-08 18:20:04
人生建議:不要把伴侶看得太重,婚姻里真正重要的事就一件

人生建議:不要把伴侶看得太重,婚姻里真正重要的事就一件

特特農村生活
2025-06-01 15:37:20
不會真有人,把30年房貸從頭還到尾吧,聽聽銀行工作人員怎么說

不會真有人,把30年房貸從頭還到尾吧,聽聽銀行工作人員怎么說

夢史
2025-06-05 13:42:26
2025-06-09 17:55:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10619文章數 176165關注度
往期回顧 全部

科技要聞

今年618平臺集體想通了,主打一個簡單粗暴

頭條要聞

碾壓騎行男孩司機已到工地上班 不起訴結論仍遭質疑

頭條要聞

碾壓騎行男孩司機已到工地上班 不起訴結論仍遭質疑

體育要聞

“從來沒想過,我會成為英超最佳球員候選”

娛樂要聞

劉品言閃婚閃孕官宣 崴腳時被照顧打動

財經要聞

一批又一批老人,奮不顧身地跳進養老騙局

汽車要聞

小鵬G7將于6月11日亮相 首款具有L3級算力的AI汽車

態度原創

家居
房產
游戲
旅游
親子

家居要聞

簡約輕奢 現代實用私宅

房產要聞

海南地王,方案曝光!三亞灣豪宅,神仙打架!

《往昔之夢》將于6月20日登陸Steam亞洲區域

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

親子要聞

搖骰子疊杯子挑戰!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 双桥区| 韶关市| 固始县| 博白县| 石门县| 凭祥市| 嘉禾县| 曲靖市| 灵山县| 漯河市| 甘德县| 禄丰县| 峨山| 无锡市| 桐梓县| 琼结县| 营口市| 漳浦县| 万宁市| 谢通门县| 新竹县| 胶南市| 灵璧县| 象山县| 宁夏| 江西省| 余姚市| 望都县| 安国市| 彰化县| 乐昌市| 富裕县| 榆社县| 洪湖市| 顺昌县| 开化县| 阳春市| 唐河县| 延边| 六枝特区| 德保县|