明敏 克雷西 發自 凹非寺
量子位 | 公眾號
CVPR 2025獎項出爐!謝賽寧蘇昊齊獲青年學者獎。
該獎項面向獲得博士學位不超過7年的早期研究工作者,表彰他們在計算機視覺領域的杰出研究貢獻
其中,蘇昊是李飛飛的博士生,他參與了對計算機視覺領域鼎鼎有名的ImageNet
謝賽寧以一作身份和何愷明合作完成ResNeXt,同時也參與了MAE,都是計算機視覺領域影響深遠的工作。
最值得關注的CVPR 2025最佳論文獎也新鮮出爐!
今年只有一篇論文獲獎:《VGGT: Visual Geometry Grounded Transformer》,由Meta和牛津大學聯合提出,第一作者為牛津大學Meta聯培博士王建元。
VGGT是首個能在單次前饋中端到端預測完整3D場景信息的大型Transformer,性能超越多項現有幾何或深度學習方法,具有廣泛的應用潛力。
Best Student Paper頒給《Neural Inverse Rendering from Propagating Light》,由多倫多大學、卡內基梅隆大學等聯合帶來。
它首次提出針對從多視角、時間分辨的光傳播視頻進行物理基礎的神經逆向渲染(Neural Inverse Rendering)。
Best Paper Honorable Mention一共有4篇,分別是:
- MegaSaM: Accurate, Fast, and Robust Structure and Motion from Casual Dynamic Videos
- Navigation World Models
- Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models
- 3D Student Splatting and Scooping
最佳論文
VGGT: Visual Geometry Grounded Transformer
論文鏈接:https://arxiv.org/abs/2503.11651
傳統的三維視覺(如Structure-from-Motion、Multi-view Stereo)方法嚴重依賴幾何優化(如Bundle Adjustment),不僅計算復雜、時間消耗大,還難以端到端訓練。
本研究提出的問題是:能否使用簡單的前饋神經網絡(無后處理)同時預測所有核心3D屬性(相機參數、深度圖、點云圖、3D軌跡),并優于傳統幾何優化方案?
VGGT基于Vision Transformer,采用交替“全局-幀內”自注意力(Alternating Attention)機制。
它不含幾何歸納偏置,僅靠大量3D標注數據自學習。
實現輸入:1張到200張圖像;輸出:每張圖的相機內外參、深度圖、點圖、特征圖(用于點追蹤)。
輸入圖像被分塊為patch tokens,每幀加入一個“相機token”和多個“寄存token”來分別學習相機參與與全局場景特性。
Alternating Attention中,Frame-wise Self-Attention處理每一幀圖像內的patch tokens(保持局部一致性);Global Self-Attention實現不同幀間的tokens交互(整合多視角信息),兩種注意力機制在24層Transformer中交替堆疊。
這種設計可以在保留單幀細節同時,整合多幀場景信息,同時相比直接使用Global attention更省內存(最高40GB)。
本文一作為王建元,他是牛津大學和Meta AI研究和VGG聯合博士生。
最佳學生論文
Neural Inverse Rendering from Propagating Light
論文鏈接:http://www.arxiv.org/abs/2506.05347
這篇論文的核心內容是提出了一種基于物理模型的神經逆向渲染方法,用于從多視點、時間分辨的激光雷達(LiDAR)測量數據中重建場景幾何和材質,并生成新的光傳播視頻。
簡單來說,它實現了讓激光雷達不僅看見直接光,還能看懂間接光,并利用這些信息來重建場景。
核心思路有兩步:
第一,提出時間分辨輻射緩存(time-resolved radiance cache),記錄某一時刻某個位置的光線是從哪來的、經過了哪些反射。這個緩存可以理解為一個“光的地圖”,能告訴我們光是怎么傳播的。
第二,用神經網絡加速計算。“提前學會”光的傳播規律。這樣一來,只需要簡單查詢這個“光的記憶庫”,就能快速計算出場景中每一點的光線分布。
這種技術在自動駕駛、3D建模和虛擬現實等領域有廣泛應用前景。
Best Paper Honorable Mention
MegaSaM: Accurate, Fast, and Robust Structure and Motion from Casual Dynamic Videos
論文鏈接:https://arxiv.org/abs/2412.04463
本文提出了一種系統,能夠從動態場景的普通單目視頻中準確、快速且魯棒地估計相機參數和深度圖。傳統的結構光束法(SfM)和單目SLAM方法通常依賴于具有大量視差且主要為靜態場景的視頻輸入,在不滿足這些條件時,容易產生錯誤估計。
本項研究開發了一個改進的深度視覺SLAM系統,通過對訓練方式和推理過程的優化,使得這個系統可以:
- 適應真實世界中復雜的動態場景。
- 處理相機運動軌跡不規則的視頻(甚至是相機運動很少的情況)。
大量在合成和真實視頻上的實驗表明,該系統在相機姿態和深度估計方面的準確性和魯棒性明顯優于現有和同期工作,同時運行速度更快或相當。
Navigation World Models
論文鏈接:https://arxiv.org/abs/2412.03572
這篇研究來自LeCun團隊。
本文提出了一種導航世界模型(Navigation World Model,簡稱NWM),這是一種可控的視頻生成模型,能夠基于過去的視覺觀測和導航動作預測未來的視覺觀測。
NWM 采用了一種叫“條件擴散變換器”的技術,可以根據導航動作和過去的視覺信息,生成下一步可能的視覺畫面。
這個模型是用大量“第一視角”(egocentric)視頻訓練的,包括人類和機器人在各種環境中的導航視頻,總參數規模達到10億。
在熟悉的環境中,NWM可以“在腦內模擬”不同的路徑,并判斷哪條路徑能達到目標。
不像固定規則的導航方法,NWM可以在規劃路徑時靈活加入新的約束(比如避開障礙物)。
即使是在陌生的環境中,NWM也能從一張圖片(比如初始場景)出發,想象出可能的導航路徑,表現出很強的適應性。
實驗結果顯示,NWM可以在沒有現成導航策略的情況下,直接規劃出合理的路徑。對于其他導航系統生成的路徑,NWM可以對其進行排名,找到最優解。
Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models
論文鏈接:https://arxiv.org/abs/2409.17146
本項研究提出了一個新的視覺-語言模型家族Molmo,是當時最強開源模型之一。它有72億參數規模,不僅拿下開源SOTA,還超越了Claude 3.5 Sonnet、Gemini 1.5 Pro等(注:該論文第一版發表時間為2024年9月)
作者認為,現有性能最強的開源權重模型在很大程度上依賴于由閉源VLM生成的合成數據來獲得良好表現,實質上是將這些閉源模型“蒸餾”成開源模型。
因此,作者認為學術界一直缺乏關于如何從零開始構建高性能VLM的基礎知識,Molmo就是基于這一背景提出。
Molmo模型架構采用標準的視覺編碼器(ViT)+語言模型設計,模型設計與優化方面,Molmo提出了若干新策略。
例如重疊多裁剪(overlapping multi-crop)圖像處理策略、改進了視覺-語言連接模塊、設計了支持指點能力的訓練流程,這些創新提高了模型對復雜視覺任務(如定位、計數、自然圖像理解)的能力。
他們還創建了一組全新數據集PixMo,完全沒有依賴外部閉源模型生成。
其中包括用于預訓練的高細節圖像描述數據集、用于微調的自由問答圖像數據集,以及一個創新的二維指點(pointing)數據集。
此外,PixMo還包含數個輔助的合成數據集,增強模型在讀表、讀圖、讀鐘表等特定技能上的能力。
3D Student Splatting and Scooping
論文鏈接:https://arxiv.org/abs/2503.10148
這項研究提出了一個新的3D模型——Student Splatting and Scooping,簡稱SSS,其作者全部為華人,且均來自英國高校。
隨著3DGS(3D高斯潑濺)逐漸成為眾多模型的基礎組件,任何對3DGS本身的改進都可能帶來巨大的收益,為此,作者致力于改進3DGS的基本范式和公式結構。
但3DGS本質上是一個未歸一化的混合模型,因此不必局限于高斯分布,也不一定要采用潑濺方式。
因此,作者提出了一種由靈活的Student’s t分布(distribution)組成的新型混合模型,它具有正密度(潑濺Splatting)和負密度(挖空Scooping)兩種形式,這就是其名稱的由來。
與傳統高斯相比,Student’s t 分布通過可學習的尾部厚度參數實現了對從Cauchy到Gaussian的廣泛分布建模能力,使得 SSS 在表達能力上更為強大。
但在提供更強表達能力的同時,SSS也帶來了新的學習挑戰,主要是參數耦合問題和負密度引入的優化復雜性。
為此,作者還提出了一種新的、具有理論依據的采樣優化方法——SGHMC。
SGHMC通過在優化過程中引入動量變量(momentum)和受控噪聲項,使得參數在優化過程中能跳出局部最優,同時能有效緩解參數之間的耦合問題。
通過在多個數據集、設置和評測指標上的全面評估與對比,作者證明了 SSS 在質量和參數效率方面優于現有方法。
在使用相似數量組件的情況下,SSS 可實現相當甚至更高的渲染質量,同時在某些場景下可將組件數量最多減少 82%,仍保持可比的結果。
最后,再次祝賀所有獲獎團隊與學者!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.