新智元報道
編輯:LRST
【新智元導讀】ZPressor能高效壓縮3D高斯潑濺(3DGS)模型的多視圖輸入,解決其在處理密集視圖時的性能瓶頸,提升渲染效率和質量。通過信息瓶頸原理,將視圖分為錨點和支持集,利用交叉注意力機制壓縮信息,顯著降低內存占用和推理時間,同時提升性能,讓3DGS在高視圖輸入下也能高效運行。
在增強現實(AR)和虛擬現實(VR)等前沿應用領域,新視角合成(Novel View Synthesis, NVS)正扮演著越來越關鍵的角色。
近年來,3D高斯潑濺(3D Gaussian Splatting, 3DGS)技術橫空出世,憑借其革命性的實時渲染能力和卓越的視覺質量,迅速成為NVS領域的一大突破。
然而,傳統3DGS對耗時的「逐場景優化」的依賴,嚴重限制了其在實際應用中的部署。前饋3DGS(Feed-Forward 3DGS),通過單次前向推理獲取場景的三維信息。
這種演進看似解決了核心問題,但隨之而來的挑戰卻讓其在「多視角」前步履維艱:當前的前饋3DGS模型在處理密集輸入視圖時,其可擴展性受到了根本性的制約。
深入分析現有前饋3DGS模型的架構,可以發現其核心癥結在于編碼器容量的有限性。當輸入視圖變得密集時,編碼器難以有效處理隨之而來的「信息過載」,導致計算成本飆升。
這種現象并非偶然,而是源于場景總信息量(即所有視圖特征的聯合熵)中存在大量冗余信息。在特征提取之后,如何去除這些不相關信息,同時保留其預測能力,是高效利用輸入視圖信息的關鍵。
以當前最先進的模型DepthSplat為例,實驗結果清晰地表明,隨著輸入視圖數量的增加,其性能會顯著下降,同時計算成本也急劇攀升。
例如,在處理36個輸入視圖時,DepthSplat的PSNR等指標會大幅降低,推理時間和內存占用也會顯著增加。這揭示了信息過載對模型性能和資源消耗的直接因果關系:過多的冗余信息不僅拖慢了處理速度,更降低了最終的渲染質量。
浙江大學的研究人員提出ZPressor,一種即插即用的輕量級模塊,壓縮前饋3DGS特征,增強模型密集視角擴展性和性能,36個輸入視圖下提升4.65dB,推理時間減少70%,顯存占用減少80%,并拓展可輸入的視圖數目到接近500個。
論文地址:https://www.arxiv.org/abs/2505.23734
項目主頁:https://lhmd.top/zpressor
代碼鏈接:https://github.com/ziplab/ZPressor
為了從理論層面理解并解決信息過載問題,研究人員引入了信息瓶頸(Information Bottleneck, IB)原理。
IB原理為學習緊湊型表示提供了一個堅實的理論基礎,其核心思想是:從輸入(X)中提取一個壓縮表示(Z),使Z盡可能地保留與目標(Y)相關的信息,同時盡可能地壓縮X中與Y無關的信息。
可以直觀地理解為,IB原理旨在最小化「壓縮分數」(即Z攜帶關于X的信息量),同時最大化「預測分數」(即Z對于預測目標Y的有效信息量)。
該原理為3DGS面臨的「信息過載」這一「甜蜜負擔」提供了理論上的「減負」之道。
基于對信息瓶頸原理的理解,研究人員提出了ZPressor,一個輕量級、且 「架構無關」的模塊。
ZPressor的核心功能在于高效地將多視圖輸入壓縮成一個緊湊的潛在狀態Z,這種壓縮并非簡單地丟棄信息,而是巧妙地保留了場景中的必要信息,同時有效剔除冗余,從而直接解決了前向式3DGS模型長期以來面臨的「信息過載」難題 (1)。
三步走,打造高效「信息壓縮機」
ZPressor的精妙之處在于其將復雜的信息壓縮過程分解為三個步驟,打造了一個高效的「信息壓縮機」。
第一步:錨點視圖選擇(Anchor View Selection)
ZPressor首先通過 「最遠點采樣」(farthest point sampling)方法來選擇錨點視圖。這一迭代過程基于相機位置,確保所選的錨點在空間上具有多樣性,并能最大限度地代表整個場景。
第二步:支持視圖歸屬(Support-to-Anchor Assignment)
一旦錨點視圖確定,每個剩余的支持視圖都會根據相機距離被分配到其最近的錨點視圖。精準的歸屬機制確保了支持視圖中互補的場景細節能夠與空間上最相關的錨點視圖進行分組,保證了信息的「對口」融合,避免了無序。
第三步:視圖信息融合(Views Information Fusion)
這是ZPressor實現信息壓縮的關鍵步驟。它采用定制化的交叉注意力(cross-attention)模塊進行信息融合。
具體而言,從錨點視圖中提取的特征充當「查詢」(query),而支持視圖的特征則提供「鍵」(keys)和「值」(values)。
通過這種方式,支持視圖的信息被有效地整合到錨點視圖中,不僅捕捉了兩者之間的關聯性,還在保持緊湊性的同時避免了冗余。
最終,交叉注意力機制的運用,讓這些互補信息真正「融會貫通」,形成精煉而全面的Z態。
性能飆升,內存狂降,讓3DGS「脫胎換骨」
ZPressor對前向式3DGS模型產生了變革性的影響,這一點通過對DepthSplat、MVSplat和pixelSplat等經典模型在DL3DV-10K、RealEstate10K和ACID等大規模基準數據集進行的廣泛實驗中得到了充分驗證。
更令人振奮的是,ZPressor解決了現有模型在內存方面的根本性障礙。例如,pixelSplat在輸入視圖超過8個時就因「內存溢出」(OOM)而無法運行,而ZPressor不僅使其能夠成功運行至少36個視圖,還在性能上帶來了顯著提升。
ZPressor在效率方面的優勢同樣令人驚嘆。它有助于在輸入視圖數量增加時,保持3D高斯數量、測試時推理延遲和峰值內存使用量的穩定。這與基線模型中這些指標呈線性增長的趨勢形成了鮮明對比,后者很快就會變得難以承受。
研究人員也通過實驗驗證了場景中確實存在可見的信息瓶頸,并且信息瓶頸在平衡壓縮和信息保存方面至關重要。
不止于此,應用前景更加廣闊
本研究對現有前饋3DGS模型的容量限制進行了深入分析,并從信息瓶頸原理的視角揭示了其根本原因。
在此基礎上,研究團隊提出了ZPressor——一個輕量級、架構無關的模塊,通過高效壓縮多視圖輸入,成功幫助模型克服了固有的局限性,實現了對更多輸入視圖的處理能力。
實驗結果表明,ZPressor不僅在適中視圖設置下持續提升了現有基線模型的性能,更在密集輸入場景下顯著增強了模型的魯棒性,同時保持了極具競爭力的效率(包括內存和速度)。
ZPressor所帶來的持續性能提升和效率改進,其意義遠不止于基準測試中的亮眼數據。這種可擴展性、魯棒性和效率的提升,直接指向了ZPressor在現實世界應用中的深遠影響。ZPressor的出現,使得AR/VR能夠提供更流暢、更逼真的體驗,同時降低對硬件資源的需求,從而加速這些技術的普及和應用。
研究人員提出的基于信息瓶頸的「化繁為簡」壓縮范式,也絕不只局限于3DGS領域。
有理由相信,在眾多存在「冗余信息」和「信息瓶頸」挑戰的其他AI領域——無論是多模態數據處理、大規模傳感器融合,還是復雜系統狀態估計——ZPressor所蘊含的「信息瓶頸」智慧,都可能成為解決之道,開啟一個全新的「通用信息壓縮」時代!
參考資料:
https://www.arxiv.org/abs/2505.23734
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.