作者:Kyla、王兆洋
CVPR是一個(gè)“冷門(mén)學(xué)術(shù)會(huì)議”的時(shí)代一去不復(fù)返了。
2024年,因?yàn)榇竽P鸵约癝ora等的橫空出世,全球計(jì)算機(jī)視覺(jué)屆三大頂會(huì)之一的CVPR涌入了破紀(jì)錄的1.2萬(wàn)人()。而2025年,這種火熱繼續(xù),雖然關(guān)注度沒(méi)有上一屆那么夸張,但我們今年在現(xiàn)場(chǎng)參會(huì)的觀感,以及與諸多研究者交流的感受是:
它從一個(gè)學(xué)術(shù)交流、計(jì)算機(jī)科學(xué)家聚會(huì)、新的研究idea亮相與碰撞的會(huì)議,開(kāi)始轉(zhuǎn)為了工業(yè)界與學(xué)術(shù)界互動(dòng)、AI公司搶奪注意力和人才、更偏向?qū)嶋H應(yīng)用及工程化的成果集中展示的AI行業(yè)大聚會(huì)。
今年的CVPR在美國(guó)田納西州納什維爾舉辦。6月11日開(kāi)幕,6月13日最佳論文等官方的獎(jiǎng)項(xiàng)頒獎(jiǎng),之后多日是各種poster展示和各類(lèi)交流論壇和線下聚會(huì)。
今年CVPR上重要和有意思的事情也不少:
最佳論文給到了VGGT,這是一個(gè)最近少有的被很多人評(píng)價(jià)為“實(shí)至名歸”的成果。 3D似乎正在來(lái)到徹底爆發(fā)的前夜,成為高質(zhì)量論文和Demo出現(xiàn)的重要方向。 “世界模型”的名字越來(lái)越多的出現(xiàn)在各種論文、poster session和workshop里。 偏向應(yīng)用和工程的,離產(chǎn)業(yè)界更近的研究肉眼可見(jiàn)的多了起來(lái),大廠們逐漸搶奪走CVPR上更多的注意力。 去年第一次沒(méi)有論文被選中的ResNet架構(gòu)提出者、AI明星研究員何愷明,回歸大會(huì),除了論文和分享講座,他也是最佳論文委員會(huì)成員之一。 而諸多年輕研究員繼續(xù)在CVPR上完成著自己學(xué)術(shù)追星的計(jì)劃,比如與何愷明的各種合影充滿(mǎn)了社交媒體…
以下是我們從現(xiàn)場(chǎng)發(fā)回的一手直擊。
1
最佳論文再次是華人一作,3D和世界模型大熱
許多參會(huì)者是第一次來(lái)納什維爾。當(dāng)你走出這座美國(guó)中部城市的機(jī)場(chǎng),你立刻就能感覺(jué)到,身邊背著電腦包、拖著行李箱、戴著大會(huì)證件的人特別多,市區(qū)的酒店幾乎全滿(mǎn),早上打車(chē)還得排隊(duì)。人山人海,明顯不是納什維爾平常的節(jié)奏。
6月13日,CVPR頒發(fā)最佳論文獎(jiǎng),人們涌入會(huì)場(chǎng),會(huì)場(chǎng)大廳里是各種膚色、各種語(yǔ)言的交匯。
根據(jù)CVPR官方的介紹,今年共有 14 篇論文入圍最佳論文,最終 5 篇論文摘得獎(jiǎng)項(xiàng),包括 1 篇最佳論文、4 篇最佳論文榮譽(yù)提名。另外還有學(xué)生最佳論文獎(jiǎng)。
最終獲得最佳論文的,是VGGT的工作——VGGT:Visual Geometry Grounded Transformer。
這是一個(gè)可以實(shí)現(xiàn)從多個(gè)圖像數(shù)據(jù)里推出關(guān)鍵的3D屬性的技術(shù),比如從一些二維的圖片,來(lái)得到相機(jī)參數(shù)、點(diǎn)云、深度圖等用于3D重建的關(guān)鍵信息。在實(shí)現(xiàn)上,它用一次Transformer的典型的前饋輸入和神經(jīng)網(wǎng)絡(luò)的處理操作,可以把3D的數(shù)據(jù)提取推導(dǎo)全部做完,也就是行業(yè)最熱議的“端到端”的概念,而且據(jù)論文展示,它的速度也比傳統(tǒng)的方法快了10多倍,可以在幾秒內(nèi)就完成一次復(fù)雜的任務(wù)。
它簡(jiǎn)潔而效果很好,而且,這個(gè)研究是典型的對(duì)于工業(yè)界價(jià)值極大的節(jié)點(diǎn)性的論文——它證明了一個(gè)方向,然后降低了一個(gè)行業(yè)應(yīng)用爆發(fā)的門(mén)檻,同時(shí),給那些有充分計(jì)算資源的大廠指明了一條充滿(mǎn)誘惑的道路。
去年的CVPR最佳論文之一,第一作者是華人研究員。而今年這篇最佳論文的第一作者也是華人研究員。
王建元是牛津大學(xué)視覺(jué)幾何組(VGG)與 Meta AI 的聯(lián)合培養(yǎng)博士生,長(zhǎng)期研究3D 重建方法,聚焦于端到端幾何推理框架的創(chuàng)新。之前,他的許多工作就被行業(yè)關(guān)注,包括去年CVPR的Highlight論文,VGGSfM(一個(gè)能從大量圖像中自動(dòng)重建三維場(chǎng)景結(jié)構(gòu)和相機(jī)位姿的系統(tǒng)),以及PoseDiffusion(將相機(jī)位姿估計(jì)視為一個(gè)擴(kuò)散Diffusion過(guò)程,通過(guò)學(xué)習(xí)多視角下條件分布的擴(kuò)散模型,逐步優(yōu)化相機(jī)參數(shù))。
圖源:王建元的X
根據(jù)會(huì)方統(tǒng)計(jì),今年大會(huì)共收到 4 萬(wàn)多名作者提交的 13008 份論文,再破紀(jì)錄。相比去年投稿數(shù)增長(zhǎng) 13%,2872 篇論文被接收,最終接收率約22.1%。
有意思的是,在一個(gè)研究競(jìng)爭(zhēng)激烈的領(lǐng)域,VGGT的獲獎(jiǎng)被不少人形容是實(shí)至名歸,毫無(wú)懸念。“它開(kāi)創(chuàng)了新的階段,代替了此前的主流方法。有點(diǎn)類(lèi)似當(dāng)初RestNet的意義。”一名研究員說(shuō)。
CVPR就像是時(shí)尚行業(yè)每年定義當(dāng)年流行元素的大會(huì),它的風(fēng)潮也總在變化。去年,結(jié)合語(yǔ)言和視覺(jué)的論文增加了兩倍,擴(kuò)散模型和生成模型論文增加了三倍。那些有OpenAI Sora作者參加的workshop,排隊(duì)排出了明星見(jiàn)面會(huì)的效果。
今年Sora早已被人忘掉。但生成式AI繼續(xù)火熱。官方數(shù)據(jù)顯示,今年接收數(shù)量最多的依然是圖像與視頻生成領(lǐng)域。
不過(guò),可能更能體現(xiàn)風(fēng)向標(biāo)變化的是接收率。今年接收率最高的是3D相關(guān)的研究。
另外,在我們參加的workshop,以及和各路人馬的交流中,明顯感受到“世界模型”這個(gè)詞也出現(xiàn)的更多了。
我們?cè)诂F(xiàn)場(chǎng)和幾位researcher的交流,也提到,今年生成式AI、3D視覺(jué)、多模態(tài)相關(guān)的論文和talk熱度最高,世界模型和3D Gaussian Splatting反復(fù)被提起,不少session滿(mǎn)場(chǎng)。
最佳論文候選中,AI大佬Yann LeCun參與的Navigation World Models,提出了一個(gè)可控的視頻生成模型,用于環(huán)境導(dǎo)航的世界模型。
在6月11日備受關(guān)注的CVPR自動(dòng)駕駛的workshop里,世界模型方向也得到很多討論,其中作為被邀請(qǐng)的唯一汽車(chē)廠商,小鵬的相關(guān)研究也展示了一個(gè)從真實(shí)駕駛數(shù)據(jù)中訓(xùn)練出的高保真世界模型。
3D正在快速進(jìn)入實(shí)際場(chǎng)景,世界模型也得到了類(lèi)似的關(guān)注,似乎真的都開(kāi)始走向應(yīng)用。
1
“很多idea都開(kāi)始面向產(chǎn)業(yè)應(yīng)用”,大廠存在感繼續(xù)增高
CVPR上的workshop琳瑯滿(mǎn)目。而其中越來(lái)越多的討論里,會(huì)有更多工業(yè)界的人參與其中。會(huì)場(chǎng)里,像Meta、NVIDIA、Google、Apple等企業(yè)logo遍布,很多researcher也掛著這些公司工牌,企業(yè)研究人員的占比明顯上升。不少技術(shù)talk和panel討論直接圍繞“從論文到產(chǎn)品”的話題,工業(yè)界和學(xué)術(shù)界的界限在進(jìn)一步模糊。
中國(guó)公司也十分搶眼。騰訊的企鵝長(zhǎng)鵝飄在半空中,字節(jié)、阿里都有各自的活動(dòng),宇樹(shù)的展區(qū)也在準(zhǔn)備接受“圍堵”。我們趁著“堵車(chē)”前去拍了一些照片。
今年CVPR的現(xiàn)場(chǎng)氛圍非常快節(jié)奏,走廊里總是有人飛快穿梭、低頭看會(huì)議手冊(cè)查下一個(gè)workshop在哪兒。很多人在走廊邊的椅子上抱著電腦工作,咖啡區(qū)永遠(yuǎn)排著長(zhǎng)隊(duì)。Poster區(qū)尤其熱鬧,幾乎每一張海報(bào)前都圍著一圈人。
研究者們一邊講解,一邊被各種提問(wèn)“這個(gè)能不能商用”,“模型開(kāi)源了嗎”。
務(wù)實(shí)的很。
作為今年很重要研究方向,3D相關(guān)的論文和demo很多也是工業(yè)界關(guān)注的焦點(diǎn)。像3D Gaussian Splatting,很多demo現(xiàn)場(chǎng)直接展示出高質(zhì)量、實(shí)時(shí)的3D重建效果,吸引了不少人圍觀。生成式AI依然是焦點(diǎn),不少論文探索如何結(jié)合3D、物理世界信息提升生成效果,技術(shù)演示上也更強(qiáng)調(diào)實(shí)用性和效率。今年整體感覺(jué)是demo和應(yīng)用性變強(qiáng)了,很多成果已經(jīng)能直接服務(wù)工業(yè)界需求。
工業(yè)界和學(xué)術(shù)界進(jìn)一步融合,是今年CVPR現(xiàn)場(chǎng)很明顯的感受。從錄用論文來(lái)看,偏應(yīng)用、偏工程、關(guān)注實(shí)際落地效果的研究變多了,很多論文直接針對(duì)工業(yè)界需求展開(kāi),行業(yè)關(guān)注度很高。
產(chǎn)業(yè)界和學(xué)術(shù)界共同設(shè)置的workshop門(mén)口經(jīng)常排隊(duì),比如一場(chǎng)“基于基礎(chǔ)模型的開(kāi)放詞匯 3D 場(chǎng)景理解”的workshop,座位要提前20分鐘去才有位置,人多到會(huì)議室后面的空余的地上都坐滿(mǎn)了人。
有去年也參會(huì)的研究員對(duì)我們說(shuō),今年產(chǎn)業(yè)界參與感更強(qiáng),企業(yè)研究和學(xué)術(shù)交流結(jié)合更緊密,CVPR“出圈”的趨勢(shì)更明顯了。
1
頂流何愷明們,“應(yīng)該也被合照合煩了吧”
在會(huì)場(chǎng)到處穿梭,就可能遇到一些學(xué)術(shù)明星。CVPR也是一個(gè)學(xué)術(shù)追星的“重災(zāi)區(qū)”。
其中,何愷明一直是CVPR的頂流。他是ResNet這個(gè)計(jì)算機(jī)視覺(jué)領(lǐng)域的流行架構(gòu)的提出者,相關(guān)論文的引用數(shù)量突破20萬(wàn)次,曾經(jīng)多次獲得CVPR最佳論文獎(jiǎng)。
因此,當(dāng)去年CVPR成為歷史上最火爆的一次,卻同時(shí)也是第一次沒(méi)有何愷明參與的論文入選的一次CVPR時(shí),引發(fā)了廣泛的討論。也成了當(dāng)時(shí)CVPR出圈的討論話題之一。
而今年,何愷明“回歸”,他擔(dān)任了最佳論文評(píng)委委員之一,在頒獎(jiǎng)前參與了workshop,做了一個(gè)演講。
這也讓何愷明顯的“無(wú)處不在”,在小紅書(shū)上,有很多與何愷明合影的研究員,以及在各種角落偶遇何愷明的人們。不過(guò)對(duì)于何愷明的這場(chǎng)講座,似乎很少有人在分享講座本身的內(nèi)容。
“他應(yīng)該也被合影合煩了吧。”一名研究員說(shuō)。
其實(shí),除了何愷明,華人研究員在CVPR的存在感也很強(qiáng),而且今年感覺(jué)越來(lái)越耀眼。
最佳論文里除了一作,另一位作者M(jìn)inghao Chen來(lái)自牛津大學(xué),同時(shí)在Meta GenAI實(shí)習(xí)。最佳論文提名里,另一個(gè)很棒的研究MegaSam,第一作者Zhengqi Li,正是去年CVPR最佳論文之一的第一作者。在最佳學(xué)生論文的榮譽(yù)提名里,浙大、北大等高校也在列。
另外,華人年輕AI科學(xué)家謝賽寧和蘇昊也得到了青年學(xué)者獎(jiǎng)。
賈揚(yáng)清在2014年參與的論文Going Deeper with Convolutions(由Google的研究組提出的一種高效的卷積神經(jīng)網(wǎng)絡(luò)模型,在ImageNet分類(lèi)任務(wù)中取得了優(yōu)異成績(jī),核心在于采用了Inception模塊來(lái)提高網(wǎng)絡(luò)性能。所以經(jīng)常被人稱(chēng)為GoogleNet),得到了時(shí)間檢驗(yàn)獎(jiǎng)。
知名的AI學(xué)者、Idea研究院創(chuàng)院理事長(zhǎng)沈向洋也在當(dāng)天開(kāi)幕上做了主旨演講。
很多研究者跟我們交流中提到,今年不只是中國(guó)的研究者,來(lái)自中國(guó)企業(yè)的論文質(zhì)量也很突出,討論度很高。產(chǎn)業(yè)界的存在感也很強(qiáng)。整體看,中國(guó)研究者無(wú)論在學(xué)術(shù)圈還是產(chǎn)業(yè)圈,都在CVPR上有越來(lái)越重要的影響力。
當(dāng)然,這樣影響力,與今天詭異的大環(huán)境相碰撞,也會(huì)有很多“時(shí)代注腳”般的畫(huà)面出現(xiàn)。比如在poster區(qū)路過(guò)一個(gè)華為相關(guān)研究部門(mén)的展示,發(fā)現(xiàn)它的poster上,研究機(jī)構(gòu)名字居然是后來(lái)用馬克筆潦草地手寫(xiě)上去的。
作為一個(gè)此刻最火爆的行業(yè),在其中的研究員們肯定不愿錯(cuò)過(guò)任何可能的職業(yè)機(jī)會(huì)。大家都很積極在connect,會(huì)場(chǎng)外附近的café、餐廳里,隨處可見(jiàn)脖子上掛著參會(huì)證的人,三五成群討論項(xiàng)目、交換名片,微信、LinkedIn加好友幾乎成了標(biāo)配。今年CVPR更像是一場(chǎng)技術(shù)和產(chǎn)業(yè)界緊密結(jié)合的大集市,信息流動(dòng)速度很快,交流氛圍也比想象中還要活躍很多。
穿梭在這些poster session和workshop的會(huì)議室,走廊里永遠(yuǎn)有人在打電話、聊項(xiàng)目、或者低頭敲鍵盤(pán)。很多人干脆抱著電腦坐在走廊邊的椅子上工作,會(huì)議室的門(mén)一開(kāi)一合,大家行色匆匆地趕場(chǎng)子,生怕錯(cuò)過(guò)什么“爆款”講座。
站在CVPR的會(huì)場(chǎng),像是被一股看不見(jiàn)的力量拉到了某個(gè)舞臺(tái)的中央。看著這么多人彼此爭(zhēng)分奪秒,多少有點(diǎn)興奮,也有點(diǎn)跟不上節(jié)奏。而這已經(jīng)是常態(tài),每個(gè)人都在FOMO中繼續(xù)前進(jìn)著。
點(diǎn)個(gè)愛(ài)心,再走 吧
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.