智東西
編譯 王涵
編輯 漠影
智東西6月16日消息,上周五,IEEE計算機學會(CS)與計算機視覺基金會(CVF)聯合公布了2025年計算機視覺與模式識別會議(CVPR)獲獎論文及本年度AI藝術獎項。本次公布的7篇獲獎論文全部都有華人科研人員參與其中,其中2篇文章由全華人團隊完成。尤為亮眼的是,斬獲“CVPR 2025 最佳論文” 的成果同樣出自華人研究員之手。
CVPR是IEEE國際計算機視覺與模式識別會議 (IEEE/CVF Conference on Computer Vision and Pattern Recognition) 。它是計算機視覺和模式識別領域最重要的年度國際會議之一,被公認為該領域的頂級盛會,許多人甚至稱其為計算機視覺界的“奧斯卡”。
該會議的論文錄用標準非常嚴格,今年共有13008份有效投稿并進入評審流程,其中2878篇被錄用,最終錄用率為22.1%。而其中能夠進行口頭報告的論文更是少之又少,這意味著能被CVPR錄用的論文,通常代表了該領域最前沿、最具創新性的研究方向和最高水平。
一、CVPR 2025最佳論文:華人一作,多項3D任務達最先進水平
摘得CVPR 2025最佳論文的論文題目為《VGGT: Visual Geometry Grounded Transformer》(VGGT:視覺幾何基礎Transformer)。作者包括Jianyuan Wang、Minghao Chen、Nikita Karaev、Andrea Vedaldi、Christian Rupprecht、David Novotny,來自牛津大學與Meta AI的工程師團隊,其中第一作者Jianyuan Wang、第二作者Minghao Chen均為華人。
該文章提出VGGT(視覺幾何基礎Transformer),能夠直接從單視角、多視角乃至上百個視角中推斷場景的所有關鍵3D屬性,包括相機參數、點云圖、深度圖和3D點軌跡。該方法推動了3D計算機視覺領域的發展,傳統模型通常局限于單一任務且需要專門優化。
VGGT不僅結構簡潔高效(圖像重建耗時不足1秒),其性能更超越了需要視覺幾何優化技術進行后處理的替代方案。該網絡在多項3D任務中達到最先進水平,包括相機參數估計、多視角深度估計、稠密點云重建和3D點追蹤。實驗表明,將預訓練的VGGT作為特征骨干網絡,可顯著提升非剛性點追蹤和前饋式新視角合成等下游任務的性能。
二、CVPR 2025最佳學生論文:根據物理規律逆向渲染,可屏蔽反射光干擾
獲得CVPR 2025最佳學生論文的是《Neural Inverse Rendering from Propagating Light》(傳播光線的神經逆向渲染),作者包括Anagh Malik、Benjamin Attal、 Andrew Xie、 Matthew O’Toole、David B. Lindell,來自多倫多大學、Vector研究所與卡內基梅隆大學,其中第三作者Andrew Xie為華人。
該團隊首次實現基于物理的神經逆向渲染系統,能夠處理多視角傳播光線視頻。該方法通過擴展神經輻射緩存技術(一種通過存儲任意點從各方向接收的無限次彈射輻射來加速逆向渲染的技術),引入時間分辨率維度。所構建的模型能精確模擬直接與間接光傳輸效應,當應用于閃光激光雷達系統的捕獲數據時,可在強間接光照環境下實現最先進的3D重建。此外,該團隊還展示了傳播光線的視角合成、捕獲數據的直接/間接光自動分解,以及多視角時間分辨重照明等創新功能。
三、榮譽提名獎項:華為和北大浙大的全華團隊奪得最佳學生論文提名
榮譽提名獎項授予那些在質量上僅次于最佳論文,但同樣非常優秀且具有顯著影響力的論文。它表明這些論文雖然不是最終的“第一名”,但其研究成果和貢獻也得到了高度認可。
其中共有4篇論文獲得最佳論文榮譽提名,1篇論文獲得最佳學生論文提名,分別是:
1、最佳論文榮譽提名
《MegaSaM: Accurate, Fast and Robust Structure and Motion from Casual Dynamic Videos》(MegaSaM:從動態視頻中快速穩健地重建結構與運動),作者包括Zhengqi Li、Richard Tucker、Forrester Cole、Qianqian Wang、Linyi Jin、Vickie Ye、Angjoo Kanazawa、Aleksander Holynski、Noah Snavely,來自谷歌DeepMind與加州大學伯克利分校和密歇根大學,其中第一作者Zhengqi Li和共同作者Qianqian Wang、Linyi Jin、Vickie Ye為華人。
來自谷歌DeepMind與加州大學伯克利分校、密歇根大學的團隊提出了一種能夠從動態場景的單目視頻中快速、準確且穩定地估計相機參數和深度圖的系統。傳統運動恢復結構(Structure from Motion)和單目SLAM技術大多假設輸入視頻以靜態場景為主且具有顯著視差,當這些條件不滿足時往往會產生錯誤估計。近期基于神經網絡的方法嘗試解決這些問題,但這些方法要么計算成本高昂,要么在相機運動不受控或視場未知的動態視頻中表現脆弱。
該團隊證明了一個深度視覺SLAM框架經過訓練和推理方案的精心改進后,能夠驚人地適應真實世界中相機路徑不受限的復雜動態場景視頻(包括相機視差較小的視頻)。在合成與真實視頻上的大量實驗表明,相較于現有研究,該系統在相機位姿和深度估計方面顯著提升了精度與穩定性,同時保持相當或更快的運行速度。
《Navigation World Models》(導航世界模型),作者包括Amir Bar、Gaoyue Zhou、Danny Tran、Trevor Darrell、Yann LeCun(楊立昆),來自Meta FAIR團隊、紐約大學與伯克利大學AI研究所,其中第二作者Gaoyue Zhou為華人。
該團隊提出導航世界模型(Navigation World Model,NWM),這是一種基于視覺運動能力的智能體基礎導航系統。作為可控視頻生成模型,NWM能根據歷史觀測和導航動作預測未來視覺場景。為捕捉復雜環境動態,NWM采用條件擴散Transformer架構(Conditional Diffusion Transformer, CDiT),通過大規模訓練(10億參數)于人類和機器人主體的第一視角視頻數據集。
在熟悉環境中,NWM可通過軌跡模擬與目標達成度評估自主規劃路徑。與傳統固定行為的監督式導航策略不同,NWM能在規劃過程中動態整合約束條件。實驗證明其具備兩種核心能力:(1)從零開始規劃軌跡;(2)對外部策略采樣軌跡進行擇優。更突出的是,NWM能基于單張輸入圖像,利用學習到的視覺先驗對陌生環境進行軌跡推演,這使其成為新一代導航系統中兼具靈活性與強大性能的工具。
《Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models》(Molmo與PixMo:先進視覺語言模型的開源權重與數據),有Matt Deitke、Christopher Clark、Sangho Lee、Rohun Tripathi、Yue Yang、Jae Sung Park、Mohammadreza Salehi、Niklas Muennighoff、Kyle Lo、Luca Soldaini等39名作者,來自艾倫人工智能研究所與華盛頓大學,有Yue Yang等多名華人為共同作者。
該團隊提出Molmo系列模型。核心突破在于PixMo數據集組合:包含用于預訓練的精細化圖像描述數據集、用于微調的自由格式圖像問答數據集,以及創新的2D指向數據集,所有數據均未借助外部VLM生成。該方案的成功取決于三個要素:(1)精細的建模選擇;(2)優化充分的訓練流程;(3)最關鍵的新建數據集質量。他們提出的72B旗艦模型不僅超越同類開源模型,更在學術基準和大規模人工評估中勝過Claude 3.5 Sonnet、Gemini 1.5 Pro/Flash等商業大模型,性能僅次于GPT-4o。
《3D Student Splatting and Scooping》(3D學生飛濺與挖掘技術),作者包括Jialin Zhu、Jiangbei Yue、Feixiang He、He Wang,來自倫敦大學與倫敦大學AI中心、利茲大學,三名作者全部為華人。
該團隊提出了一個由靈活的學生t分布(Student’s t distributions)組成的新混合模型,該模型同時包含正密度(濺射)和負密度(舀取)。此模型被命名為“學生濺射與舀取”(Student Splatting and Scooping),簡稱SSS。通過在多個數據集、設置和指標上進行的詳盡評估與比較,該團隊證明了SSS在質量和參數效率方面均優于現有方法。例如,在使用相似數量組件的情況下,SSS能達到同等或更優的質量;并且在將組件數量減少高達82%的情況下,仍能獲得可比較的結果。
2、最佳學生論文榮譽提名
獲得最佳學生論文榮譽提名的論文是《Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens》(基基于離散擴散時間步長tokens的生成式多模態預訓練),作者包括Kaihang Pan, Wang Lin, Zhongqi Yue, Tenglong Ao, Liyu Jia, Wei Zhao, Juncheng Li, Siliang Tang, Hanwang Zhang,來自華為新加坡研究中心、北京大學、浙江大學與南洋理工大學,為全華人團隊。
多模態大語言模型(MLLM)的最新研究致力于通過結合LLM與擴散模型(分別為各自任務中的前沿技術)來實現視覺理解與生成的統一。現有方法依賴于空間視覺tokens,即圖像塊按空間順序(如光柵掃描)編碼排列。但研究發現,空間tokens缺乏語言固有的遞歸結構,導致LLM難以掌握這種 “非語言化” 表征。
該研究提出通過擴散時間步長學習離散遞歸視覺tokens,可隨時間步長遞增遞歸補償噪聲圖像的漸進屬性損失,使擴散模型能在任意時間步重建原始圖像。該方法有效融合了LLM自回歸推理優勢與擴散模型精確圖像生成能力,在統一框架內實現了無縫多模態理解與生成。大量實驗表明,相比其他MLLMs,該模型在多模態理解與生成任務上同步取得了更優性能。
四、讓AI與藝術對話,全華人團隊獲獎
除技術研究外,CVPR AI藝術項目(AI Art Program)探索科學與藝術的交叉領域,征集運用計算機視覺技術(包括生成模型、物體與面部識別等)的創作作品。今日公布的獲獎作品從100余件入選作品中脫穎而出:
1、Tom White的《Atlas of Perception(感知圖冊)》,通過探索神經網絡的潛空間(latent space),揭示視覺模型的“視覺詞匯”。該雕塑作品解析機器如何理解世界,展現外觀本身的語法規則:視覺的模塊化語義。
2、Masaru Mizuochi的《Green Diffusion(綠色擴散)》,將土壤微生物分解物質為養分的“破壞”過程,與AI擴散模型(diffusion model)的加噪去噪“創造”過程并置,凸顯二者的同步性。
3、全華人團隊Mingyong Cheng, Sophia Sun, Han Zhang的《Learning to Move, Learning to Play, Learning to Animate(學習運動、學習游戲、學習動畫)》,是跨學科多媒體表演作品,包含自主研發的拾得材料機器人、實時AI生成、動作追蹤、音頻空間化及基于生物反饋(bio-feedback)的音頻合成技術。
AI藝術項目策展人Luba Elliott評價稱:“AI與藝術交匯處蘊藏豐富素材,本項目鼓勵藝術家持續探索其潛力。祝賀所有獲獎者及參與者對當下圖景的深刻詮釋。”
結語:華人正站在世界AI研究前沿
CVPR 2025程序委員會聯合主席、美國麻省理工學院(MIT)副教授Phillip Isola對以上獲獎論文贊賞稱:“這些論文代表了本屆會議最高質量的研究成果,包含突破性發現、廣受關注的重要工具以及富有創造力的新思路。”
此次CVPR 2025大會上,科技巨頭Meta和谷歌都沒有缺席領獎臺,華為的研究團隊也獲得了榮譽提名。除此之外,華人在獲獎論文中的參與度讓人十分驚喜。
華人在CVPR 2025上的超高“出鏡率” 凸顯了華人在全球計算機視覺與模式識別領域的卓越貢獻,多篇獲獎論文及成果也彰顯了中國在全球AI發展進程中日益增長的影響力。
來源:CVPR 2025
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.