新智元報道
編輯:犀牛 好困
【新智元導讀】CVPR 2025獎項重磅揭曉!華人博士生王建元憑借創新論文摘得最佳論文獎。Hao Su、謝賽寧獲年輕研究者獎。本屆大會投稿量激增13%,接收率22.1%,全球超9000名學者齊聚,學術盛況空前。
就在剛剛,CVPR 2025大會最佳論文等獎項發布!
今年共有14篇論文入圍最佳論文角逐,最終5篇脫穎而出:1篇摘得最佳論文獎,4篇獲得最佳論文榮譽提名。
此外,還有1篇最佳學生論文和1篇最佳學生論文榮譽提名。
大會官方統計,今年的投稿量再創新高!
來自全球4萬多名作者的13008篇論文蜂擁而至,比去年(11532篇)增長了13%。
最終,2872篇論文被接收,每篇論文由3位審稿人和1位領域主席評審,總體接收率為22.1%。
其中,96篇(3.3%)入選Oral報告,387篇(13.7%)被選為Highlight展示。
投稿作者、審稿人和領域主席(AC)的數量都創下了歷史新高。
現場參會人數也相當壯觀,超過9000名學者從70多個國家和地區趕來。
CVPR 2025官方還公布了各細分領域的論文接收情況:圖像與視頻生成領域的接收數量最多,而多視角/傳感器3D和單圖像3D領域的接收率最高。
審稿人質量統計顯示,學術界審稿人中有70.4%達到預期水平,PhD學生和產業界審稿人分別有24.9%和24.1%的表現超出預期,展現了較高水平的評審能力。
低于預期的比例則相對較低,學術界為6.9%、PhD學生為4.6%、產業界為6.8%,表明整體審稿質量較為穩定。
值得一提的是,最佳論文獎評審委員會中還有我們熟悉的AI大牛——ResNet的作者何愷明!
年輕研究員獎
本次大會頒發了兩個年輕研究者獎,獲獎者分別是加州大學圣迭戈分校的副教授Hao Su和紐約大學計算機科學助理教授謝賽寧。
這個獎項每年都會頒給在計算機視覺領域有突出研究貢獻的年輕學者,但獲獎者拿到博士學位的時間不能超過七年。
Hao Su,北大航空航天大學應用數學博士,斯坦福大學數學與計算機科學博士,現在是加州大學圣迭戈分校的副教授(兼職)。
他的研究方向很廣,覆蓋了計算機視覺、計算機圖形學、機器學習、通用人工智能和機器人技術。
去年,他還參與創立了一家叫Hillbot的機器人公司,擔任CTO。
謝賽寧,2013年從上海交通大學本科畢業,2018年在加州大學圣迭戈分校計算機科學與工程系拿到了博士學位,研究方向主要是深度學習和計算機視覺。
之后,他加入了Facebook人工智能研究室(FAIR)做研究科學家。
2022年,他和William Peebles一起發表了DiT論文,首次把Transformer和擴散模型結合了起來。
榮譽提名
獲得榮譽提名的是Ishan Misra,在Meta的GenAI團隊擔任研究科學家主任,領導視頻生成模型的研究工作。
在此之前,他在Meta的FAIR團隊,專注于計算機視覺的自監督學習和多模態學習。
他在卡內基梅隆大學拿到了博士學位。2024年,因為在計算機視覺和機器學習方面的研究貢獻,獲得了卡內基梅隆大學頒發的近期校友成就獎。
最佳論文
VGGT: Visual Geometry Grounded Transformer
作者:Jianyuan Wang,Minghao Chen,Nikita Karaev,Andrea Vedaldi,Christian Rupprecht,David Novotny
機構:牛津大學,Meta AI
論文地址:https://arxiv.org/abs/2503.11651
代碼模型:https://github.com/facebookresearch/vggt
本次CVPR 2025最佳論文來自牛津大學、Meta AI,提出了一種前饋神經網絡,能夠從場景的單個、少量或數百個視圖中直接推斷出其所有關鍵三維屬性,包括相機參數、點圖、深度圖和三維點軌跡。
在三維計算機視覺領域,模型通常僅限于并專用于單一任務,而這種方法代表了該領域的一大進步。
它還兼具簡潔與高效的特點,能在一秒內完成圖像重建,并且其性能優于那些需要采用視覺幾何優化技術進行后處理的替代方案。
該網絡在多項三維任務中均取得了當前最佳SOTA成果,包括相機參數估計、多視圖深度估計、密集點云重建以及三維點跟蹤。
文中還證明,使用預訓練的VGGT作為特征主干網絡,能顯著增強下游任務的性能,例如非剛性點跟蹤和前饋式新視角合成。
論文第一作者Jianyuan Wang為Facebook AI Research和牛津大學視覺幾何組(VGG)的聯合博士研究生。
他的博士研究專注于打造創新的端到端幾何推理框架,主導開發了PoseDiffusion、VGGSfM,以及本次提出的通用3D基礎模型VGGT。
同樣是Jianyuan Wang作為第一作者的VGGSfM研究被CVPR 2024接收,并入選Highlight論文。
另一位華人作者Minghao Chen是牛津大學的博士生,導師是Andrea Vedaldi教授和Iro Laina博士。同時,也在Meta GenAI進行研究科學家實習。
此前,他曾在石溪大學攻讀博士學位,師從Haibin Ling教授。期間在微軟亞洲研究院實習,合作導師為Houwen Peng博士。
他分別在哥倫比亞大學獲得碩士學位,在北京航空航天大學獲得學士學位。
最佳學生論文
Neural Inverse Rendering from Propagating Light
作者:Anagh Malik,Benjamin Attal,Andrew Xie,Matthew O’Toole,David B. Lindell
機構:多倫多大學,Vector Institute,卡內基梅隆大學
論文地址:https://arxiv.org/pdf/2506.05347
最佳學生論文來自多倫多大學、Vector Institute以及CMU,提出了基于物理的神經逆渲染,利用多視角視頻中的光傳播進行處理。
該方法依賴于神經輻射緩存的時序擴展技術——這種技術通過存儲從任意方向到達任意點的無限次反射輻射來加速逆渲染。
由此生成模型能精確模擬直接和間接光傳輸效應,結合閃光激光雷達系統的捕捉數據,即使在強間接光環境下也能實現頂尖的3D重建。
此外,本文展示了光傳播的視圖合成、自動分解捕捉數據為直接和間接分量,以及對捕獲場景進行多視圖時間分辨重新照明等新功能。
本文的時間分辨渲染器結合基于物理的主射線渲染和神經渲染的間接輻射緩存,計算傳感器像素處的入射輻射。優化場景外觀和幾何形狀,確保渲染與捕獲測量一致。
與基線相比,本文中的方法能夠恢復更準確的法線以及相似或更優的強度圖像(見激光雷達幀插圖中的箭頭)。
榮譽提名
最佳論文提名
論文1:MegaSaM: Accurate, Fast and Robust Structure and Motion from Casual Dynamic Videos
作者:Zhengqi Li,Richard Tucker,Forrester Cole,Qianqian Wang,Linyi Jin,Vickie Ye,Angjoo Kanazawa,Aleksander Holynski,Noah Snavely
機構:Google DeepMind,加州大學伯克利分校,密歇根大學
論文地址:https://arxiv.org/abs/2412.04463
論文2:Navigation World Models
作者:Amir Bar,Gaoyue Zhou,Danny Tran,Trevor Darrell,Yann LeCun
機構:Meta,紐約大學,伯克利AI研究院
論文地址:https://arxiv.org/abs/2412.03572
論文3:Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models
作者:Matt Deitke,Christopher Clark,Sangho Lee,Rohun Tripathi,Yue Yang,Jae Sung Park,Reza Salehi,Niklas Muennighoff,Kyle Lo,Luca Soldaini,Jiasen Lu,Taira Anderson,Erin Bransom,Kiana Ehsani,Huong Ngo,Yen-Sung Chen,Ajay Patel,Mark Yatskar,Chris Callison-Burch,Andrew Head,Rose Hendrix,Favyen Bastani,Eli VanderBilt,Nathan Lambert,Yvonne Chou,Arnavi Chheda-Kothary,Jenna Sparks,Sam Skjonsberg,Michael Schmitz,Aaron Sarnat,Byron Bischoff,Pete Walsh,Christopher Newell,Piper Wolters,Tanmay Gupta,Kuo-Hao Zeng,Jon Borchardt,Dirk Groeneveld,Crystal Nam,Sophie Lebrecht,Caitlin Wittlif,Carissa Schoenick,Oscar Michel,Ranjay Krishna,Luca Weihs,Noah A. Smith,Hannaneh Hajishirzi,Ross Girshick,Ali Farhadi,Aniruddha Kembhavi
機構:艾倫人工智能研究所,華盛頓大學,賓夕法尼亞大學
論文地址:https://arxiv.org/abs/2409.17146
論文4:3D Student Splatting and Scooping
作者:Jialin Zhu,Jiangbei Yue,Feixiang He,He Wang
機構:倫敦大學學院
論文地址:https://arxiv.org/abs/2503.10148
最佳學生論文提名
論文:Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens
作者:Kaihang Pan,Wang Lin,Zhongqi Yue,Tenglong Ao,Liyu Jia,Wei Zhao,Juncheng Li,Siliang Tang,Hanwang Zhang
機構:浙江大學,南洋理工大學,北京大學,華為新加坡研究所
論文地址:https://arxiv.org/abs/2504.14666
最佳論文候選
國內高校機構云集
可以說,在整個最佳論文的候選名單中,不僅有大量的華人作者,還有很多來自國內的高校和機構。
比如浙江大學,西湖大學,香港中文大學,香港科技大學(廣州),湖南大學,華中科技大學,南京大學,以及商湯等等。
完整名單:https://cvpr.thecvf.com/virtual/2025/events/AwardCandidates2025
PAMI-TC獎
Thomas Huang紀念獎
Thomas S. Huang紀念獎表彰的是在科研、教學與指導以及為計算機視覺學術社區服務方面堪為楷模的研究人員。每年授予一名博士畢業至少7年的研究者,處于職業生涯中期(博士畢業不超過25年)的學者將獲優先考慮。
該獎設立于CVPR 2020,自2021年起每年頒發一次,旨在紀念已故的Thomas S. Huang教授。
今年獲獎的Kristen Grauman在FAIR擔任研究科學家,同時也是德克薩斯大學奧斯汀分校計算機科學系的教授。
她于2006年獲得了麻省理工學院的博士學位,是IEEE Fellow、AAAI Fellow、斯隆學者,并榮獲了「計算機與思想獎」。
她的研究方向為計算機視覺與機器學習,專注于視覺識別、視頻分析、第一人稱視角感知和具身智能。
Longuet-Higgins獎
Longuet-Higgins獎以理論化學家和認知科學家H. Christopher Longuet-Higgins的名字命名,授予的是在10年前發表且對計算機視覺研究產生重大影響的CVPR論文。
今年獲得該獎的論文共有兩篇。
論文1:Going deeper with convolutions
作者:Christian Szegedy,Wei Liu,Yangqing Jia,Pierre Sermanet,Scott Reed,Dragomir Anguelov,Dumitru Erhan,Vincent Vanhoucke,Andrew Rabinovich
機構:谷歌,北卡羅來納大學教堂山分校,密歇根大學
論文2:Fully Convolutional Networks for Semantic Segmentation
作者:Jonathan Long,Evan Shelhamer,Trevor Darrell
機構:加州大學伯克利分校
參考資料:
https://x.com/CVPR/status/1933525241877442670
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.