99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

謝賽寧蘇昊CVPR25獲獎!華人博士王建元一作拿下最佳論文

0
分享至

明敏 克雷西 發自 凹非寺
量子位 | 公眾號

CVPR 2025獎項出爐!謝賽寧蘇昊齊獲青年學者獎。

該獎項面向獲得博士學位不超過7年的早期研究工作者,表彰他們在計算機視覺領域的杰出研究貢獻



其中,蘇昊是李飛飛的博士生,他參與了對計算機視覺領域鼎鼎有名的ImageNet

謝賽寧以一作身份和何愷明合作完成ResNeXt,同時也參與了MAE,都是計算機視覺領域影響深遠的工作。

最值得關注的CVPR 2025最佳論文獎也新鮮出爐!

今年只有一篇論文獲獎:《VGGT: Visual Geometry Grounded Transformer》,由Meta和牛津大學聯合提出,第一作者為牛津大學Meta聯培博士王建元。

VGGT是首個能在單次前饋中端到端預測完整3D場景信息的大型Transformer,性能超越多項現有幾何或深度學習方法,具有廣泛的應用潛力。



Best Student Paper頒給《Neural Inverse Rendering from Propagating Light》,由多倫多大學、卡內基梅隆大學等聯合帶來。



它首次提出針對從多視角、時間分辨的光傳播視頻進行物理基礎的神經逆向渲染(Neural Inverse Rendering)。

Best Paper Honorable Mention一共有4篇,分別是:

  • MegaSaM: Accurate, Fast, and Robust Structure and Motion from Casual Dynamic Videos
  • Navigation World Models
  • Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models
  • 3D Student Splatting and Scooping

最佳論文

VGGT: Visual Geometry Grounded Transformer

論文鏈接:https://arxiv.org/abs/2503.11651



傳統的三維視覺(如Structure-from-Motion、Multi-view Stereo)方法嚴重依賴幾何優化(如Bundle Adjustment),不僅計算復雜、時間消耗大,還難以端到端訓練。
本研究提出的問題是:能否使用簡單的前饋神經網絡(無后處理)同時預測所有核心3D屬性(相機參數、深度圖、點云圖、3D軌跡),并優于傳統幾何優化方案?

VGGT基于Vision Transformer,采用交替“全局-幀內”自注意力(Alternating Attention)機制。

它不含幾何歸納偏置,僅靠大量3D標注數據自學習。

實現輸入:1張到200張圖像;輸出:每張圖的相機內外參、深度圖、點圖、特征圖(用于點追蹤)。



輸入圖像被分塊為patch tokens,每幀加入一個“相機token”和多個“寄存token”來分別學習相機參與與全局場景特性。

Alternating Attention中,Frame-wise Self-Attention處理每一幀圖像內的patch tokens(保持局部一致性);Global Self-Attention實現不同幀間的tokens交互(整合多視角信息),兩種注意力機制在24層Transformer中交替堆疊。

這種設計可以在保留單幀細節同時,整合多幀場景信息,同時相比直接使用Global attention更省內存(最高40GB)。



本文一作為王建元,他是牛津大學和Meta AI研究和VGG聯合博士生。



最佳學生論文

Neural Inverse Rendering from Propagating Light

論文鏈接:http://www.arxiv.org/abs/2506.05347



這篇論文的核心內容是提出了一種基于物理模型的神經逆向渲染方法,用于從多視點、時間分辨的激光雷達(LiDAR)測量數據中重建場景幾何和材質,并生成新的光傳播視頻。

簡單來說,它實現了讓激光雷達不僅看見直接光,還能看懂間接光,并利用這些信息來重建場景。

核心思路有兩步:

第一,提出時間分辨輻射緩存(time-resolved radiance cache),記錄某一時刻某個位置的光線是從哪來的、經過了哪些反射。這個緩存可以理解為一個“光的地圖”,能告訴我們光是怎么傳播的。

第二,用神經網絡加速計算。“提前學會”光的傳播規律。這樣一來,只需要簡單查詢這個“光的記憶庫”,就能快速計算出場景中每一點的光線分布。



這種技術在自動駕駛、3D建模和虛擬現實等領域有廣泛應用前景。

Best Paper Honorable Mention

MegaSaM: Accurate, Fast, and Robust Structure and Motion from Casual Dynamic Videos

論文鏈接:https://arxiv.org/abs/2412.04463



本文提出了一種系統,能夠從動態場景的普通單目視頻中準確、快速且魯棒地估計相機參數和深度圖。傳統的結構光束法(SfM)和單目SLAM方法通常依賴于具有大量視差且主要為靜態場景的視頻輸入,在不滿足這些條件時,容易產生錯誤估計。

本項研究開發了一個改進的深度視覺SLAM系統,通過對訓練方式和推理過程的優化,使得這個系統可以:

  • 適應真實世界中復雜的動態場景。
  • 處理相機運動軌跡不規則的視頻(甚至是相機運動很少的情況)。



大量在合成和真實視頻上的實驗表明,該系統在相機姿態和深度估計方面的準確性和魯棒性明顯優于現有和同期工作,同時運行速度更快或相當。

Navigation World Models

論文鏈接:https://arxiv.org/abs/2412.03572



這篇研究來自LeCun團隊。

本文提出了一種導航世界模型(Navigation World Model,簡稱NWM),這是一種可控的視頻生成模型,能夠基于過去的視覺觀測和導航動作預測未來的視覺觀測。

NWM 采用了一種叫“條件擴散變換器”的技術,可以根據導航動作和過去的視覺信息,生成下一步可能的視覺畫面。

這個模型是用大量“第一視角”(egocentric)視頻訓練的,包括人類和機器人在各種環境中的導航視頻,總參數規模達到10億。



在熟悉的環境中,NWM可以“在腦內模擬”不同的路徑,并判斷哪條路徑能達到目標。

不像固定規則的導航方法,NWM可以在規劃路徑時靈活加入新的約束(比如避開障礙物)。

即使是在陌生的環境中,NWM也能從一張圖片(比如初始場景)出發,想象出可能的導航路徑,表現出很強的適應性。

實驗結果顯示,NWM可以在沒有現成導航策略的情況下,直接規劃出合理的路徑。對于其他導航系統生成的路徑,NWM可以對其進行排名,找到最優解。

Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models

論文鏈接:https://arxiv.org/abs/2409.17146



本項研究提出了一個新的視覺-語言模型家族Molmo,是當時最強開源模型之一。它有72億參數規模,不僅拿下開源SOTA,還超越了Claude 3.5 Sonnet、Gemini 1.5 Pro等(注:該論文第一版發表時間為2024年9月)

作者認為,現有性能最強的開源權重模型在很大程度上依賴于由閉源VLM生成的合成數據來獲得良好表現,實質上是將這些閉源模型“蒸餾”成開源模型。

因此,作者認為學術界一直缺乏關于如何從零開始構建高性能VLM的基礎知識,Molmo就是基于這一背景提出。

Molmo模型架構采用標準的視覺編碼器(ViT)+語言模型設計,模型設計與優化方面,Molmo提出了若干新策略。

例如重疊多裁剪(overlapping multi-crop)圖像處理策略、改進了視覺-語言連接模塊、設計了支持指點能力的訓練流程,這些創新提高了模型對復雜視覺任務(如定位、計數、自然圖像理解)的能力。

他們還創建了一組全新數據集PixMo,完全沒有依賴外部閉源模型生成。

其中包括用于預訓練的高細節圖像描述數據集、用于微調的自由問答圖像數據集,以及一個創新的二維指點(pointing)數據集。

此外,PixMo還包含數個輔助的合成數據集,增強模型在讀表、讀圖、讀鐘表等特定技能上的能力。



3D Student Splatting and Scooping

論文鏈接:https://arxiv.org/abs/2503.10148



這項研究提出了一個新的3D模型——Student Splatting and Scooping,簡稱SSS,其作者全部為華人,且均來自英國高校。

隨著3DGS(3D高斯潑濺)逐漸成為眾多模型的基礎組件,任何對3DGS本身的改進都可能帶來巨大的收益,為此,作者致力于改進3DGS的基本范式和公式結構。

但3DGS本質上是一個未歸一化的混合模型,因此不必局限于高斯分布,也不一定要采用潑濺方式。

因此,作者提出了一種由靈活的Student’s t分布(distribution)組成的新型混合模型,它具有正密度(潑濺Splatting)和負密度(挖空Scooping)兩種形式,這就是其名稱的由來。

與傳統高斯相比,Student’s t 分布通過可學習的尾部厚度參數實現了對從Cauchy到Gaussian的廣泛分布建模能力,使得 SSS 在表達能力上更為強大。

但在提供更強表達能力的同時,SSS也帶來了新的學習挑戰,主要是參數耦合問題和負密度引入的優化復雜性。

為此,作者還提出了一種新的、具有理論依據的采樣優化方法——SGHMC。

SGHMC通過在優化過程中引入動量變量(momentum)和受控噪聲項,使得參數在優化過程中能跳出局部最優,同時能有效緩解參數之間的耦合問題。

通過在多個數據集、設置和評測指標上的全面評估與對比,作者證明了 SSS 在質量和參數效率方面優于現有方法。

在使用相似數量組件的情況下,SSS 可實現相當甚至更高的渲染質量,同時在某些場景下可將組件數量最多減少 82%,仍保持可比的結果。

最后,再次祝賀所有獲獎團隊與學者!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
這一次,下了章子怡面子的趙麗穎,終于不再顧忌內娛所謂的體面!

這一次,下了章子怡面子的趙麗穎,終于不再顧忌內娛所謂的體面!

頭號劇委會
2025-06-14 00:10:03
建國76年來只有16人達標今天一場新增四人 中國田徑弱項要大翻身

建國76年來只有16人達標今天一場新增四人 中國田徑弱項要大翻身

威猛孟巍
2025-06-15 16:13:18
90后00后集體喊話,誰有刀郎電話號碼,演唱會別再開了

90后00后集體喊話,誰有刀郎電話號碼,演唱會別再開了

小椰的奶奶
2025-06-12 01:27:32
謝爸突襲南京要禮物全程咧嘴,浩男慷慨買單。2個細節疑鄭琴同行

謝爸突襲南京要禮物全程咧嘴,浩男慷慨買單。2個細節疑鄭琴同行

阿燕姐說育兒
2025-06-15 18:05:40
印度墜機機長原計劃辭職照顧病重父親,副駕系寶萊塢男星親友

印度墜機機長原計劃辭職照顧病重父親,副駕系寶萊塢男星親友

半島晨報
2025-06-14 11:59:46
退休后才明白,家庭最大的悲哀,是老人過早弄丟了這三張底牌

退休后才明白,家庭最大的悲哀,是老人過早弄丟了這三張底牌

三農老歷
2025-06-15 14:08:43
49歲馬伊琍真實狀態曝光,跟普通人沒啥區別,真沒啥特別的!

49歲馬伊琍真實狀態曝光,跟普通人沒啥區別,真沒啥特別的!

草莓解說體育
2025-06-10 00:54:17
越南:內并省市,外近金磚,意思很明確

越南:內并省市,外近金磚,意思很明確

新民周刊
2025-06-15 09:11:03
洪晃:一嫁美國律師,二嫁陳凱歌,三嫁法國外交官,43歲遇第四任

洪晃:一嫁美國律師,二嫁陳凱歌,三嫁法國外交官,43歲遇第四任

七公子娛樂
2025-06-15 11:20:03
給當官的表叔送了兩瓶茅臺,他也回我一盒茶葉,回家打開后我愣了

給當官的表叔送了兩瓶茅臺,他也回我一盒茶葉,回家打開后我愣了

五元講堂
2025-06-10 15:32:23
剛剛確認:全面影響杭州!明天更猛

剛剛確認:全面影響杭州!明天更猛

19樓
2025-06-15 09:11:09
殲-36地面照曝光,首次對全球展露巨大機頭,雷達口徑超過一米五

殲-36地面照曝光,首次對全球展露巨大機頭,雷達口徑超過一米五

天擇雜談
2025-06-12 00:10:32
扁擔女孩火到央視!正臉照流出,班主任曝真實成績,家族成員發聲

扁擔女孩火到央視!正臉照流出,班主任曝真實成績,家族成員發聲

鋭娛之樂
2025-06-14 08:47:55
每體:尼科-威廉斯在國家隊對巴薩球員說:兄弟,帶我去巴薩

每體:尼科-威廉斯在國家隊對巴薩球員說:兄弟,帶我去巴薩

懂球帝
2025-06-15 09:33:44
河南隊公告:部分成都球迷嚴重違背足球精神,已通報相關部門

河南隊公告:部分成都球迷嚴重違背足球精神,已通報相關部門

懂球帝
2025-06-15 13:03:14
妻子整晚未歸,我沒鬧,次日攜其褲襪檢測,結果令妻子驚慌失措

妻子整晚未歸,我沒鬧,次日攜其褲襪檢測,結果令妻子驚慌失措

溫情郵局
2025-06-13 13:54:58
范冰冰,裙開叉開到大腿根,領口深v,饅頭真白還大

范冰冰,裙開叉開到大腿根,領口深v,饅頭真白還大

說真話的小陳
2025-06-13 09:52:49
公安部祭出最嚴“禁酒令”:嚴禁違規宴請飲酒的規定及解釋

公安部祭出最嚴“禁酒令”:嚴禁違規宴請飲酒的規定及解釋

據說說娛樂
2025-06-13 00:49:24
長沙玉蘭路死灰復燃!網友爆料:顧客嫖娼致雞婆身亡,法醫都來了

長沙玉蘭路死灰復燃!網友爆料:顧客嫖娼致雞婆身亡,法醫都來了

社會醬
2025-06-14 18:17:14
大陸動漫在臺灣火了!《哪吒2》藝術總監:傳統文化是兩岸共同的語言

大陸動漫在臺灣火了!《哪吒2》藝術總監:傳統文化是兩岸共同的語言

海峽導報社
2025-06-15 21:07:04
2025-06-15 21:35:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10670文章數 176167關注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴重缺貨

頭條要聞

牛彈琴:伊朗遭遇了"三重背叛" 連俄羅斯都被騙了

頭條要聞

牛彈琴:伊朗遭遇了"三重背叛" 連俄羅斯都被騙了

體育要聞

裁判可以噴,但也從步行者自身找找問題?

娛樂要聞

朱丹重男輕女惹爭議!讓弟弟吃雞腿惹怒網友

財經要聞

以伊沖突持續升級,對全球市場影響多大

汽車要聞

長城為了拿環塔冠軍有多拼?魏建軍在下一盤大棋!

態度原創

本地
藝術
游戲
手機
親子

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

《寂靜嶺f》自己的女護士!官方曬詭異大姐姐美圖

手機要聞

榮耀Magic7 Pro更新MagicOS 9.0.175體驗:不吐不快,真實感受

親子要聞

普通家庭認知誤區:老人沒有義務幫忙帶孩子

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 南通市| 航空| 双辽市| 秦安县| 遵化市| 清涧县| 五华县| 利津县| 乳源| 府谷县| 扎囊县| 鄂温| 五大连池市| 九龙县| 乌鲁木齐县| 胶南市| 上蔡县| 鹤山市| 巴东县| 建始县| 延寿县| 北安市| 通化市| 高台县| 万州区| 沙坪坝区| 安阳市| 万载县| 合肥市| 抚顺市| 行唐县| 蒲江县| 盐池县| 思南县| 蒙阴县| 依兰县| 镇坪县| 禹城市| 克拉玛依市| 重庆市| 孟州市|