ZJU REAL Lab 投稿
量子位 | 公眾號 QbitAI
杯子在我的左邊還是右邊?
這個對人類來說非常簡單的問題,連GPT-4o這樣級別的視覺語言大模型(VLMs)也可能答錯。
究其根本,還是當前的視覺語言大模型在大規模圖文數據中學習到的空間信息往往是片段化的,僅限于靜態視角的理解,缺乏多維度、多視角的空間推理能力
因此,當面對需要多視角空間推理的任務時,這些模型們就頻頻卡殼。
但是,具備穩健的空間推理能力與視角理解能力的AI系統,才能真正成為與人類協作的智能體。
為此,來自浙江大學、電子科技大學和香港中文大學的研究團隊提出了首個系統評估VLM多視角多任務下的空間定位能力的基準體系
ViewSpatial-Bench,涵蓋五種不同的任務類型,從相機和人類視角出發,全面評估模型的空間推理能力。
同時還并配備了能夠生成精確方向標簽的自動化3D標注流水線。通過高效的3D方向標注生成流程,實現了超過5700個問答對,覆蓋豐富的3D場景。
通過在多視角空間數據集上的微調,ViewSpatial-Bench團隊實現了模型性能的整體提升46.24%。
五大任務,覆蓋雙重視角
ViewSpatial-Bench評估集中包含5700個問答對,涵蓋相機視角與人類視角兩種框架下的五種空間定位識別任務
如圖所示,無論圖像聚焦的是場景布局還是人物動作,該基準測試要求模型在不同場景中準確理解空間結構并進行定位,系統性評估多模態模型的跨視角空間推理能力,其中包括:
從相機視角出發的兩類任務,主要評估視覺語言大模型基于自我視角的直觀空間理解能力。
- 物體相對方向識別:直接基于圖像判斷物體之間的空間關系。
- 人物視線方向識別:從相機視角識別圖中人物的注視方向。
還有三類任務從人類視角出發,聚焦于模型是否具備抽象的、依賴感知的空間理解能力。分別是:
- 物體相對方向識別:從圖中人物的視角,判斷其他物體與其的空間關系。
- 人物視線方向識別:假設自己處于圖中人物的位置,推斷其面朝的方向。
- 場景模擬的相對方向識別:通過模擬“自身”在場景中位置判斷物體的相對位置。
為構建高質量的空間推理評估基準,研究團隊基于ScanNet和MS-COCO兩大經典視覺數據集,開發了完整的自動化數據構建流水線。
構建流程如下:
首先從場景中選取包含豐富三維信息的圖像,結合現有標注信息精準提取物體位置坐標或人物姿態方向。
隨后基于這些三維坐標或朝向角度計算各類相對空間關系,通過精心設計的自然語言模板自動生成語義明確的問答對,最終經過人工驗證確保質量。
這一自動化處理方式在保證數據規模化和高效率的同時,兼顧了空間關系的準確性和語言表述的多樣性,為模型訓練和評估奠定了堅實的數據基礎。
多模態大模型并未真正理解空間結構
基于構建的 ViewSpatial-Bench,研究團隊系統評估了包括GPT-4o、Gemini 2.0、InternVL3、Qwen2.5-VL等在內的十余種主流模型的表現,結果顯示:
在真正理解空間關系上,當前VLMs的表現還遠遠不夠
從整體準確率來看,多個頂尖模型在ViewSpatial-Bench上的得分并不高。
這表明,盡管模型具備基本的圖像理解能力,但在涉及多視角空間定位時,仍缺乏空間感與換位思考能力
更值得關注的是不同任務類型間的顯著表現差異。
在攝像頭視角下,模型在人物面朝方向判斷任務上的平均準確率僅為25.6%,遠低于”物體相對方向判斷”的38.9%。然而在人物視角下,這一趨勢卻完全反轉。
這種“任務-視角”交叉表現的失衡揭示了當前VLMs的核心缺陷:它們無法構建統一的三維空間認知框架來支持跨視角推理
實質上,模型并未真正理解空間結構,而是將不同視角下的推理過程割裂處理,缺乏從統一空間表征中靈活調度信息的能力。
有趣的是,實驗結果還揭示出一個反直覺的現象:
大多數模型在人物視角的任務上表現略優于攝像頭視角
例如,GPT-4o 在人物視角平均準確率為36.29%,略高于攝像頭視角的33.57%;InternVL2.5、Kimi-VL也表現出類似趨勢。
這一現象打破了我們對“自我視角更易處理”的常識性認知,這與上面任務表現的失衡有直接聯系,說明模型在訓練過程中可能存在學習了更偏“第三人稱”視角的空間分布規律,而缺乏從相機視角進行空間映射的能力。
這種偏差揭示了當前訓練語料在視角分布上存在結構性不平衡,為未來的數據構建和模型優化指明了重要方向。
如何讓模型理解“換位思考”
針對當前視覺語言大模型在多視角空間推理方面的根本性局限,研究團隊開發了Multi-View Spatial Model(MVSM)專門用于跨視角空間理解進行系統性優化
MVSM采用自動化空間標注框架生成了約43000個高質量的多樣化空間關系樣本,全面覆蓋ViewSpatial-Bench的五個任務類別。
實驗結果顯示,在ViewSpatial-Bench上,MVSM相比其骨干模型Qwen2.5-VL實現了46.24%的絕對性能提升,充分驗證了針對性訓練在解決空間認知缺陷方面的有效性。
如上圖所示,為了進一步驗證MVSM的空間理解能力,研究團隊在VSI-Bench和自建的ViewSpatial Interaction Application Dataset(VSI-App)上進行了評估。
在VSI-Bench中,MVSM在需要視角轉換能力的物體相對方向任務上取得了0.93%的提升,在路徑規劃任務上更是實現了9.54%的顯著改進。
VSI-App包含50個場景(25個室內,25個戶外),專門設計用于評估具身交互環境中的人類中心空間推理。
在這個更貼近現實的測試中,MVSM依然取得了顯著領先,尤其在結構更清晰的室內場景中表現尤為出色(提升+20%),在戶外場景中也有適度提升(+4.00%)
以上結果證明,MVSM不僅能夠建模靜態空間關系,還能處理穿越3D環境的動態軌跡以及人機交互場景——這些能力都是從視角感知訓練方法中自然涌現的,而非通過顯式的優化獲得。
ViewSpatial-Bench和MVSM的提出不僅為多模態模型的空間理解能力提供了系統評估工具,也首次在數據和訓練范式上重構了“視角采擇”這一關鍵人類認知能力的建模方式。
通過建立首個多視角空間推理基準并實現顯著的性能突破,為AI系統獲得類人空間認知能力提供了可行路徑:
更聰明的空間感知,是下一代機器人與多模態助手的關鍵一步。
論文鏈接:
https://arxiv.org/abs/2505.21500
項目主頁:
https://zju-real.github.io/ViewSpatial-Page
GitHub倉庫:
https://github.com/ZJU-REAL/ViewSpatial-Bench
— 完 —
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.