想象一下,給機器展示幾張不同角度拍攝的氣球狗雕塑圖片,它能否像人類一樣,將這些二維圖像在大腦中重構成完整的三維模型?這正是ISCO(迭代超二次曲面物體重構)技術所解決的挑戰。它不需要復雜的三維訓練數據,僅憑多角度二維圖像,就能逐步構建出物體的三維表示。通過一種"由粗到細"的方法,ISCO首先捕捉物體的主要結構,然后逐漸添加細節,最終將簡單的幾何形狀組合成復雜的三維模型。這項技術讓機器不僅能"看見"物體,還能"理解"物體的組成部分,為虛擬現實和機器人等領域開辟了新的可能性。
超越平面的視覺
人類看世界很簡單。當我們看到杰夫昆斯的"氣球狗"雕塑時,即使它沒有狗的鼻子或牙齒,我們也能立刻認出這是一條狗。這是因為我們的大腦能夠自動將物體分解成有意義的部分,然后在腦海中重新組合它們。但對計算機來說,這項任務卻異常困難。
傳統的三維重構方法需要大量的三維數據作為訓練素材。這些數據通常來自激光掃描或深度相機,獲取成本高昂且耗時。更麻煩的是,即使有了這些數據,計算機也常常只能識別出它已經學習過的物體類型,面對新奇的形狀就會束手無策。
超二次曲面作為一種數學工具,提供了一個優雅的解決方案。它是一種可以表示各種形狀的幾何體,從立方體、球體到橢圓體,只需要調整幾個參數就能實現形狀的變化。這種表示方式的優勢在于它既簡單又富有表現力。
以一個普通的椅子為例,傳統方法可能需要數千個點或三角形來表示它的三維形狀。而使用超二次曲面,我們只需要幾個簡單的形狀就能捕捉椅子的主要結構:一個扁平的超二次曲面表示座位,一個豎直的超二次曲面表示靠背,四個細長的超二次曲面表示腿部。這種表示不僅節省了計算資源,更重要的是,它提供了對物體結構的語義理解。
然而,如何從二維圖像直接推斷出這些三維超二次曲面,而不依賴昂貴的三維監督數據,成為了一個關鍵挑戰。現有的方法如EMS和NBP需要點云作為輸入,而獲取精確的點云本身就需要三維數據或復雜的重構過程。
最近的神經輻射場(NeRF)技術展示了從多視角圖像中學習隱式三維表示的可能性,但它們通常生成的是密集的、難以解釋的表示,而非結構化的簡單幾何體組合。這就是ISCO技術的創新之處——它直接從二維視圖出發,構建基于超二次曲面的顯式三維表示。
拼圖式的立體重構
ISCO的核心理念是將三維物體看作一系列簡單形狀的組合,就像拼圖一樣逐塊構建完整畫面。它不需要預先訓練的神經網絡,而是針對每個具體物體實例,通過優化超二次曲面參數來實現重構。
在實際操作中,ISCO首先收集物體的多個視角圖像。這些圖像可以來自圍繞物體移動的相機,或者是靜態物體在轉臺上旋轉時拍攝的照片。為了簡化問題,ISCO關注的是物體的輪廓而非紋理,因此它使用物體的輪廓掩碼(silhouettes)作為輸入。
創新的地方在于ISCO的迭代策略。它不是一次性放置所有超二次曲面,而是一個接一個地添加。每次添加新的超二次曲面時,ISCO會計算當前重構結果與真實輪廓之間的差異,并在差異最大的區域初始化一個新的形狀。
這種方法有點像雕塑家先塑造物體的大體形狀,然后逐漸添加細節。第一個超二次曲面往往會覆蓋物體的主體部分,比如椅子的座位或飛機的機身。隨后的超二次曲面則會逐漸填補更細微的結構,如椅子的腿或飛機的翅膀。
為了實現這一過程,ISCO利用了可微分渲染技術。簡單來說,它在計算機中模擬光線如何穿過場景并形成圖像,然后比較渲染圖像與真實圖像之間的差異。關鍵的是,這個過程是可微分的,意味著我們可以計算出超二次曲面的參數應該如何調整,以減小這種差異。
在數學上,ISCO定義了一個損失函數,衡量渲染視圖與真實視圖之間的差異。通過反向傳播算法,它計算這個損失函數相對于每個超二次曲面參數的梯度,并據此更新參數。這個過程反復進行,直到渲染視圖與真實視圖足夠接近,或者達到預定的超二次曲面數量上限。
比如在重構一個臺燈時,ISCO可能首先放置一個超二次曲面來表示燈座,然后添加另一個形狀來表示燈臂,最后是一個超二次曲面表示燈罩。在每一步中,這些形狀的精確位置、大小和形狀都會通過優化過程確定,而非預先設定。
ISCO的另一個關鍵設計是它對重構誤差的不同權重。對于物體內部的像素(即真實輪廓內的區域),ISCO賦予較高權重,確保超二次曲面能準確覆蓋物體的真實部分。對于物體外部的像素,權重較低,這樣可以防止超二次曲面過度擴展到物體之外。
在ShapeNet數據集上的實驗表明,使用僅僅16個不同視角的圖像,ISCO就能實現平均65.6%的體積交并比(IoU),顯著優于使用完整點云的EMS(33.0%)和NBP(58.8%)方法。即使只有4個視角的圖像,ISCO的性能(57.6%)也超過了這些傳統方法。
值得注意的是,隨著超二次曲面數量的增加,重構精度會逐漸提高,但增益遞減。在實踐中,10個超二次曲面通常就足以捕捉大多數物體的主要結構,保持了表示的簡潔性和可解釋性。
更令人印象深刻的是,ISCO在沒有任何語義監督的情況下,自然而然地學會了將相似的物體部分用類似的超二次曲面表示。這種一致性使ISCO不僅能重構物體形狀,還能識別出物體的語義部分,如椅子的座位、靠背和腿部。
解讀物體的語義密碼
當我們看到一把椅子時,不假思索就能識別出它的座位、靠背和腿部。這種將物體分解為有意義部分的能力對人類來說是如此自然,但對機器卻是一項復雜任務。ISCO技術在這方面取得了令人矚目的進展,它能夠在不依賴任何語義標注的情況下,自動識別物體的組成部分。
在傳統方法中,計算機要理解物體的語義結構,通常需要標注數據集,告訴它"這部分是椅子的腿,那部分是椅子的靠背"。這些標注工作耗時費力,且難以覆蓋所有可能的物體類型和形狀變化。而ISCO采用了完全不同的思路:它不是通過學習標注數據來理解語義,而是通過對單個物體實例進行優化,自然而然地發現物體的組成部分。
在ShapeNet-Part數據集上的實驗展示了ISCO在語義解析方面的能力。這個數據集包含了各種物體的三維模型,以及它們的部件標注,比如飛機被分為機身、機翼、尾翼等部分。盡管ISCO在訓練時完全沒有見過這些標注,但在測試時,它所識別出的超二次曲面與真實部件之間顯示出高度的一致性。
具體來說,對于飛機類別,ISCO在實例級別的優化中達到了67.7%的部件識別準確率,與需要大量訓練數據的專門語義解析方法RIM(67.8%)相當。對于椅子類別,ISCO達到76.6%的準確率,遠高于使用點云作為輸入的NBP方法(53.4%)和EMS方法(45.6%)。
這種驚人的性能來自ISCO的迭代策略。當它放置第一個超二次曲面時,往往會覆蓋物體的主體部分,比如椅子的座位或飛機的機身。隨后的超二次曲面則自然而然地對應到其他主要部件。這種"先主后次"的方式與人類認知物體的過程相似,我們也是先看到物體的整體,然后才注意到細節。
更有趣的是,ISCO在不同物體實例間表現出一定程度的語義一致性。當它處理多把椅子時,第一個超二次曲面通常都會對應到座位,第二個對應到靠背,后續的則對應到各條腿。這種一致性并非人為設計的結果,而是優化過程自然涌現的特性。
在一個實驗中,研究者比較了ISCO與需要強語義監督的方法(如SQ、BAE和RIM)在保持跨實例語義一致性方面的表現。結果表明,雖然ISCO沒有顯式地訓練語義一致性,但當強制要求超二次曲面按順序對應到特定部件時,它仍然顯示出相當的性能。例如,在桌子類別中,ISCO達到70.7%的準確率,雖然低于RIM的91.2%,但考慮到它不需要任何訓練數據,這個結果已經相當令人印象深刻。
當然,由于ISCO是獨立處理每個物體實例的,它不能保證不同實例間的語義對應完全一致。在某些情況下,同一類物體的不同實例可能會有不同的超二次曲面順序。比如,一架飛機的第二個和第三個超二次曲面可能分別表示左右機翼,而另一架飛機則可能相反。這導致了ISCO在強制語義一致性評估時的性能下降。
然而,這種限制在實際應用中可能并不是大問題。在許多場景中,我們關心的是能否準確識別出單個物體的組成部分,而非跨物體的語義映射。例如,在機器人抓取任務中,重要的是能識別出"這是椅子的扶手",而不是扶手在所有椅子中都對應到第幾個超二次曲面。
ISCO的這種語義理解能力開辟了許多應用可能性。例如,它可以用于增強現實應用,讓虛擬物體的部分與真實物體對齊;也可以用于機器人操作,讓機器人理解物體的功能部件并進行相應交互。
走進現實的三維世界
計算機圖形學的美麗世界經常局限在完美的實驗室環境中,但ISCO技術證明了它可以走出實驗室,直面真實世界的混亂與復雜。通過在Common Objects in 3D (CO3D)數據集上的測試,ISCO展示了它在處理現實世界圖像方面的強大能力。
CO3D數據集包含了約19,000個來自50個MS-COCO類別的物體,每個物體都有多視角圖像和相應的相機位置。與ShapeNet這樣的合成數據集不同,CO3D中的圖像來自真實世界,帶有各種復雜因素:不均勻的光照、背景雜亂、物體遮擋,甚至相機抖動等問題。
在這樣的環境中,ISCO依然能夠從多個視角準確重構物體的三維形狀。例如,對于一個泰迪熊玩具,ISCO能夠精確地識別出它的頭部、身體和四肢,并用相應的超二次曲面表示它們。對于一臺電視機,ISCO能夠區分出屏幕和底座,并準確捕捉它們的幾何關系。
這種能力在現實應用中尤為寶貴。想象一下,一個增強現實應用需要在用戶看到的真實物體上疊加虛擬內容。如果系統能夠理解物體的組成部分,它就能更自然地將虛擬內容與物體的特定部位對齊,比如在桌面上放置虛擬物品,或在墻上掛虛擬畫作。
ISCO的另一個關鍵優勢是它不需要預先訓練的模型。這意味著它可以處理各種各樣的物體,即使是訓練數據中從未見過的物體類別。例如,在CO3D數據集中的滑板、筆記本電腦和玩具卡車等物體上,ISCO都能給出合理的三維重構,盡管這些物體具有復雜的幾何形狀和部件結構。
對比來看,基于點云的方法如EMS和NBP在處理現實世界圖像時面臨更大的挑戰。首先,從多視角圖像重構準確的點云本身就是一個困難的問題,特別是當圖像質量不佳或視角有限時。其次,即使有了點云,這些方法也往往難以準確識別物體的語義部分。在CO3D的實驗中,EMS常常會用多個重疊的超二次曲面覆蓋物體的單個部分,而NBP則可能只覆蓋物體的一小部分,導致不完整的重構。
ISCO的成功在很大程度上歸功于它的實例級優化策略。傳統的基于神經網絡的方法通常在大量數據上訓練一個模型,然后將其應用到新的實例上。這種方法在訓練數據分布與測試數據分布相似時效果很好,但在面對分布外的數據時性能會急劇下降。相比之下,ISCO為每個物體實例單獨優化超二次曲面參數,這使它能夠適應各種物體形狀,無論它們是否在訓練數據中出現過。
當然,ISCO也有其局限性。當可用的視角太少或分布不均勻時,它可能難以準確重構物體的某些部分。例如,如果只有正面視圖,沒有側面或背面視圖,那么物體的后部形狀就會變得模糊不清。在CO3D數據集中的一個玩具飛機例子中,由于缺乏側面視圖,ISCO在重構飛機翅膀時表現不佳。
另一個挑戰是計算成本。對于16個視角的情況,ISCO在一塊2080Ti GPU上完成一次更新步驟需要約22毫秒,完整重構一個物體需要33-55秒。雖然這個時間與NBP相當(每個實例20-100秒),但仍然高于EMS(每個實例不到1秒)。不過,隨著神經渲染技術的進步,ISCO的運行時間有望進一步縮短。
盡管存在這些挑戰,ISCO在現實世界應用中的潛力是巨大的。它可以用于增強現實應用,讓虛擬內容與真實物體無縫融合;可以用于機器人感知,讓機器人理解物體的結構并進行相應交互;還可以用于計算機輔助設計,幫助設計師從實物快速創建可編輯的三維模型。
參考資料
Alaniz, S., Mancini, M., &; Akata, Z. (2023). Iterative Superquadric Recomposition of 3D Objects from Multiple Views. ICCV 2023.
Mildenhall, B., et al. (2020). NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis.
Paschalidou, D., et al. (2019). Superquadrics Revisited: Learning 3D Shape Parsing beyond Cuboids.
Reizenstein, J., et al. (2021). Common Objects in 3D: Large-Scale Learning and Evaluation of Real-life 3D Category Reconstruction.
Chang, A.X., et al. (2015). ShapeNet: An Information-Rich 3D Model Repository.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.