本文刊發于《現代電影技術》2025年第6期
專家點評
三維掃描與曲面重建技術是影視制作、數字孿生、數字資產創建、數字文化遺產保護等領域的核心支撐技術。人工智能(AI)特別是深度學習技術的發展進步為三維掃描與曲面重建提供了新引擎和新動能,通過應用AI前沿算法和開展定制研發應用,有力驅動三維掃描與曲面重建技術創新發展、快速迭代和提質升級,使三維掃描與曲面重建的精度、效率和真實感得到顯著提升?!度斯ぶ悄鼙尘跋氯S掃描與曲面重建技術進展及其應用研究》一文從數據采集方法、曲面重建算法、技術性能與實現效率等視角,深入總結了三維掃描與曲面重建技術的最新進展和行業應用,重點闡述了基于深度學習的相位展開、單視圖和多視圖重建、點云到網格重建等AI方法在推動三維掃描技術升級與曲面重建技術重構方面相對于傳統方法的顯著優勢,同時指出了AI方法面臨的發展挑戰、技術瓶頸和未來突破方向,對于推動智能時代三維掃描與曲面重建技術在影視文化領域發展應用具有重要指導意義和應用價值。人類社會向智能化演進升級是大勢所趨,電影科技工作者應當積極踐行國家科技自立自強發展戰略,緊密結合領域業務特征與發展需求,深入研究與應用實踐人工智能生成內容(AIGC)、語言大模型、視覺大模型和多模態大模型等相關技術,研究制定2D/3D AIGC在電影制作生產和數字資產創建中的應用方案。與此同時,現代智能科技也在不斷發展進步和創新升級,我們必須堅持與時俱進和知難而進,積極推進人工智能新型范式(AI for Science & AI for Engineering)在電影科研和工程領域的發展與應用,有力支撐和服務電影全產業鏈的智能化升級。
——劉達
正高級工程師
中國電影科學技術研究所(中央宣傳部電影技術質量檢測所)總工程師
《現代電影技術》主編
摘要
為深入研究影視制作等行業數字資產采集和模型搭建相關技術,本文總結了三維掃描與曲面重建技術的最新進展,涵蓋激光雷達、結構光掃描、攝影測量及飛行時間傳感器等傳統數據采集方法,以及泊松表面重建、德洛內(Delaunay)三角剖分等經典曲面重建算法。隨著人工智能(AI)技術的崛起,深度學習(DL)等AI方法顯著提升了三維重建的精度與效率,尤其在處理噪聲數據、復雜形狀及不完整數據方面表現出色。AI推動了單視圖與多視圖重建技術的革新,實現了從二維圖像到三維模型的精準轉換,優化了點云到網格的轉換流程,增強了重建模型的細節層次與渲染真實感。研究表明,結合AI的三維技術在數字孿生、影視制作、數字遺產保護等領域展現出巨大潛力,為相關領域的創新發展提供了有力支持。
關鍵詞
三維掃描;曲面重建;深度學習;影視制作
1引言
在數字化浪潮推動下,三維掃描與曲面重建技術作為連接物理世界與數字世界的橋梁,正引領數字孿生(Digital Twin)、影視制作、數字遺產保護等多領域的技術應用革新。三維掃描技術通過捕捉現實世界物體的三維數據,為數字模型的構建提供了基礎,廣泛應用于工業設計、城市建模、地形測繪等領域;曲面重建技術則將這些離散的數據點轉化為連續的網格或曲面模型,使數字模型更加逼真、可用。
隨著科技的進步,三維掃描與曲面重建技術不斷迭代升級,從激光掃描到結構光掃描、攝影測量等,技術精度與效率不斷提升。人工智能(AI)技術的興起為相關領域帶來了新的發展機遇。通過深度學習(DL)等AI方法,使用者可更有效地處理三維數據中的噪聲、缺失和復雜結構,實現更高精度的重建。在數字孿生領域,三維掃描與重建技術用于對工業設備(如機器、管道、建筑物)進行高精度建模,生成數字孿生體,可用于實時監控設備運行狀態、預測性維護以及虛擬仿真,從而實現對物理對象的全面管理和優化。
在影視制作領域, 三維掃描技術捕捉演員的面部表情、服裝細節和道具外形,生成逼真的數字資產;曲面重建技術可用于創建復雜的計算機生成動畫(Computer?Generated Imagery, CGI)角色和場景,助力創作者構建出逼真的虛擬世界和角色,為觀眾帶來前所未有的視覺體驗。例如,對演員面部高分辨率三維掃描,可獲取高精度數據并生成真實感人物面部模型,有助于角色呈現。在動畫制作過程中,重建的網格模型可作為綁定(Rigging)和蒙皮(Skinning)的基礎,用于生成角色動畫;點云數據提供的精準運動捕捉信息,可用于捕捉真人動作細節并映射至虛擬角色上,以生成逼真的動畫效果。如在特技場景中,通過捕捉演員的動作數據驅動數字替身,實現流暢自然的動態表現。此外,三維掃描與重建技術為文物的數字化保存與展示提供了有力技術支持,使珍貴的歷史文化遺產得以永久傳承。
本文旨在系統介紹三維掃描與曲面重建技術的傳統方法、理論基礎及算法進展,并探討AI技術如何為這一領域帶來新的突破與發展,以期為相關領域的研究與未來應用提供參考與借鑒。
2三維掃描和空間重建的主要技術和應用場景
2.1 三維掃描的主要技術
三維掃描通過采集空間數據點以捕捉真實世界物體和環境的形狀與幾何結構,是構建數字模型和虛擬場景的重要手段。常用的三維掃描技術包括以下四種:(1)激光雷達(LiDAR),利用激光脈沖測量物體與傳感器間距離,并生成精確的3D點云,已廣泛應用于自動駕駛、城市建模和地形測繪;(2)結構光(Structured Light)掃描,向物體表面投射光柵圖案,通過分析光柵形變實現物體的三維形狀重建,常用于工業檢測、逆向工程及影視和動畫內容制作,具有高精度和快速響應的優勢;(3)攝影測量(Photogrammetry),從不同角度拍攝多張照片,通過匹配特征點生成3D模型,適用于電影和游戲中的真實紋理生成,具有成本低廉、實現便捷的特點;(4)飛行時間(ToF)傳感器,通過測量光線發射與返回時間差生成深度數據,廣泛用于VR/AR設備和機器人導航系統,能實時捕捉動態場景。
2.2 空間重建的主要技術
在空間重建技術中,掃描獲取的離散點云(Point Cloud)數據需轉化為連續的網格或曲面。常用的重建算法包括:(1)泊松表面重建(Poisson Surface Reconstruction)[1]算法,通過求解泊松方程生成光滑且閉合的表面,適用于重建有機形狀和掃描對象,尤其在存在噪聲數據時具有較好的魯棒性;(2)德洛內(Delaunay)三角剖分與Alpha Shapes[2]算法,采用三角剖分方法連接點集,可調控網格密度,適用于CAD模型和幾何形狀的重建,能精準定義邊界;(3)滾球算法(Ball?Pivoting Algorithm, BPA)[3],通過滾動虛擬球體連接相鄰點,生成三角面片,能有效保留銳利邊緣,是機械零件建模的理想選擇;(4)移動最小二乘(Moving Least?Squares, MLS)[4]法,通過擬合局部平面或曲面對噪聲數據進行平滑處理,生成連續的曲面結構,廣泛應用于動畫和視覺效果制作;(5)體素級重建方法——移動立方體(Marching Cubes, MC)算法,從體素數據中提取等值面網格用于生成三維模型,可用于醫學影像數據建模和復雜體數據可視化。
2.3 相關技術的智能化趨勢
近年來,AI技術特別是深度學習方法,在掃描數據處理與點云重建中展現出顯著優勢。傳統算法在面對噪聲、高復雜度形狀或不完整數據時常面臨重建精度與效率之間的權衡,而AI模型通過大量數據訓練,能夠學習從局部幾何到全局結構的映射關系,從而實現更準確的表面重建與拓撲保持。在數字孿生中,AI可輔助進行自動特征識別與語義分割,提升模型的智能化分析能力;在影視與動畫制作中,AI可實現端到端的人臉重建與動畫驅動,大幅簡化傳統建模流程。例如,使用神經輻射場(NeRF)等技術,可從稀疏圖像或點云中重建高質量網格模型,顯著提升計算機圖形學(CG)角色的細節層次與渲染真實感。
總體而言,AI技術的引入不僅提高了建模自動化程度和處理復雜場景的能力,也拓展了三維掃描技術在實時渲染、增強現實(AR)與人機交互等新興領域的應用邊界。
3三維結構光掃描技術
三維結構光技術可實時獲取高精度點云數據,進而建立高質量動態三維曲面,被廣泛應用于數字孿生、電影和動畫制作、工業檢測和生物醫療等領域。因此本文將重點介紹結構光掃描技術的具體原理和算法。
三維結構光系統由數字投影儀(數字光源)與數字攝影機組成,數字光源實時向目標曲面投射余弦條紋,通過反射條紋的扭曲信息以計算幾何深度信息,從而得到動態幾何信息。
在計算機視覺(CV)領域,相移法是一種廣泛應用于結構光立體視覺的技術,可精確地計算物體表面的三維坐標。本文以三步相移法為例實現相位計算,該方法的優點是速度快、幀率高,可實時捕捉動態人臉表情變化。
3.1 三步相移法
三步相移法中,每個圖案均以灰度圖像形式生成,這些圖案可用數學公式表示為:
圖 1 結構光照射下采集的三幅條紋圖像
圖2顯示了直接求解得到的紋理圖像、環境光圖像和相對相位圖像。
圖 2 直接求解得到的紋理圖像、環境光圖像和相對相位圖像
3.2 相位展開算法
路徑跟蹤算法通過對包裹相位圖像進行線積分來展開相位。例如,經典的Goldstein算法[5]從包裹相位圖像中識別殘差點(Residues),并通過分支切割(Branch Cuts)進行平衡,之后沿分支切割進行相位展開。質量引導算法(Quality?Guided Algorithm)不識別殘差點,而是使用從包裹相位圖像中獲取的質量圖,從最高質量像素開始引導展開路徑。Mask Cut算法不僅識別殘差點,還利用質量圖來引導分支切割的放置[6—8]。盡管這些方法快速且有效,但若包裹相位數據中噪聲較大,可能導致方法失效??焖僬归_方法通過二階差分計算可靠性函數[9],以提高質量評估。
最小
L
P
P=2時通過求解泊松方程來展開相位。這些算法通常對噪聲具有較強的魯棒性,但收斂速度較慢。為優化能量,圖割(Graph Cut)算法被應用于相位展開 [10—12] 。
最小不連續性相位展開算法(Minimum?Discontinuity Phase Unwrapping Algorithm)[13]通過檢測不連續性將包裹相位圖像劃分為若干區域,并為每個區域分配2π的整數倍,以最小化不連續點的數量。此算法在路徑跟蹤類算法失效時通常表現良好。
在計算機視覺中,許多問題可建模為基于能量最小化的標簽分配問題,并歸結為馬爾科夫隨機場優化問題,而圖割算法是解決此類問題的強有力工具,并可采用層級方法進行加速。Greig等[14]首次使用最小割/最大流算法解決計算機視覺中的能量最小化問題。Roy等[15]首次將圖割算法應用于多攝影機立體匹配計算。Boykov等[16]開創性地將圖割算法應用于分割問題。自此,越來越多的研究將基于圖的能量最小化方法應用于各種低級視覺問題,例如分割[17]、立體匹配、紋理合成、多視圖重建等。圖3顯示了由這種方法得到的相位計數和絕對相位圖像。
圖 3 馬爾可夫隨機場優化求解得到的相位計數和絕對相位
圖 4 帶黑白紋理的三維點云
圖 5 實時掃描得到的動態人臉曲面
若為三維掃描系統添加一臺彩色相機,可得到彩色圖像,通過相機標定技術,可求出彩色圖像與三維點云間的對應關系,從而得到三維點云的彩色紋理圖像。該方法需采用精確的相機標定算法。圖6為基于上述方法獲取的帶有彩色紋理的動態三維人臉曲面點云數據,可從不同角度查看。
圖 6 實時掃描得到的帶有彩色紋理的動態三維人臉曲面
4曲面重建
4.1 點云融合
點云融合算法旨在將多個點云整合為統一且連貫的三維表示。常用的方法包括迭代最近點算法(ICP)、法向量分布變換(NDT)和基于特征的配準算法。迭代最近點算法通過最小化對應點間的歐氏距離來對齊點云,適用于初始對齊較好的數據。法向量分布變換將點云建模為一組高斯分布,能在稀疏或噪聲較大的環境中實現魯棒對齊?;谔卣鞯呐錅仕惴▌t通過提取和匹配關鍵點(如SIFT或FPFH)來計算變換矩陣,從而在初始對齊誤差較大的情況下實現更精確的對齊。完成對齊后,可采用體素網格濾波或截斷符號距離函數(Truncated Signed Distance Function, TSDF)融合方法整合對齊后的點云,生成優化且一致的三維模型。上述方法廣泛應用于三維重建、同步定位與建圖(Simultaneous Localization and Mapping, SLAM)及多視圖立體視覺等領域。
迭代最近點算法是一種用于對齊源點云和目標點云的方法,通過迭代最小化對應點間的距離。源點云是預期對齊的點云,而目標點云是固定參考點集。初始化變換為恒同變換,將在每次迭代中更新,以逐步將源點云對齊至目標點云。源點云中的每一點需在目標點云中找到最接近的點。這一步驟建立了一組對應點對,其中每一源點對應一個最近目標點,并可計算源點云和目標點云的質心,根據每個點相對于質心的偏移量計算協方差矩陣,以捕捉點云中點的分布情況,并通過旋轉和移動這些點來實現最佳對齊。對協方差矩陣進行奇異值分解(SVD),將矩陣分解為三個矩陣,進而計算最佳旋轉矩陣,隨后計算平移向量,以對齊到目標點云的質心。將這一變換用于更新源點云的位置并不斷迭代,以逐步減少與目標點云之間的距離。若對齊誤差〔例如均方誤差(MSE)〕低于設定閾值,則迭代結束。當算法收斂后,輸出最終的變換矩陣,該矩陣包括旋轉和平移信息,用于將源點云轉換至目標點云的坐標系中。最終對齊后的點云可通過應用該矩陣生成,從而得到統一的三維模型。圖7顯示了迭代最近點算法融合的兩個點云。
圖 7 迭代最近點算法得到的點云融合
4.2 法向量估計
點云的法向量估計是三維數據處理中非常重要的一步,例如在表面重建、分割、特征提取等任務中均會用到這一方法。法向量是指垂直于表面上的一個向量,用于描述表面的方向。在點云數據中,由于點本身并不攜帶法向量信息,因此需要通過其鄰域中的點來計算每個點的法向量。
圖 8 點云的法向量估計
法向量估計的常用方法包括:(1)基于主成分分析(PCA)的方法,即直接計算協方差矩陣并進行特征值分解,適用于平滑且密集的點云數據;(2)基于移動最小二乘(MLS)法的方法,即通過擬合局部平面或曲面計算法向量,對噪聲數據有較好的魯棒性;(3)基于積分圖像的方法,適用于結構化點云(例如深度圖像),計算速度快,內存開銷小。
主成分分析方法較常用。首先需確定每個點的鄰域,例如基于k近鄰(k?NN)方法要求找到距離每個點最近的
k個點,計算每個鄰域點集的質心,構造協方差矩陣。協方差矩陣用于描述鄰域點的分布方向和密度。在對協方差矩陣進行特征值分解(Eigen Decomposition)時,通常將最小特征值對應的特征向量視為法向量,這是因為最小特征值方向對應于點云表面的法線方向。在估計出法向量后,其方向可能仍是不確定的。為確保法向量方向一致,我們通常會進行方向校正。具體而言,選定一個參考方向(例如攝影機方向、Z軸方向等),計算法向量與參考方向的點積,若點積為負,則將法向量反向。圖9顯示了主成分分析方法得到的法向量場。
圖 9 主成分分析方法得到的法向量場
4.3 點云重建
從點云重建網格是將離散點數據轉化為連續曲面表示的關鍵步驟,廣泛應用于3D掃描、CAD建模、計算機視覺等領域。主要的網格重建算法包括泊松表面重建、德洛內三角剖分和Alpha Shapes、滾球算法、基于Voronoi圖的重建算法、移動最小二乘法等。
德洛內三角剖分和Alpha Shapes算法通過連接點集中的最近鄰點生成三維四面體網格;Alpha Shapes算法可通過調整參數
值篩選三角形,當三角形外接圓半徑大于時,將其去除,然后提取Alpha Shapes的外殼,生成網格。這一算法實現簡單,網格細節可控,但缺點在于對噪聲較敏感。滾球算法模擬一個固定半徑的虛擬球,在點云上滾動,通過連接相鄰點形成三角形。算法在點云中找到相距球半徑的三個點,構成第一個三角形;之后在當前三角形邊上滾動球,尋找第三個點并生成新三角形;重復上述過程,直到所有點都被連接。這種算法易于實現,且對均勻采樣點云效果較好。其缺點在于對噪聲和稀疏數據敏感,球半徑參數需手動調節。
基于Voronoi的重建算法首先計算點云的Voronoi圖,再通過其對偶德洛內三角剖分, 提取表面篩選并連接三角形,生成最終網格。該算法優點是理論上具有拓撲正確性,對密集采樣數據效果好,但計算復雜度較高,噪聲點會影響結果。
移動最小二乘法通過局部擬合平面或曲面,平滑處理點云中的噪聲并生成連續表面。該算法為每一點找到其
k個鄰域點,使用最小二乘法擬合局部平面或二次曲面,將點投影到擬合曲面上,完成平滑處理,并使用移動立方體(Marching Cubes)算法生成網格。該算法優點在于能有效平滑噪聲數據,生成連續光滑的表面;缺點在于高頻細節特征有損失,計算開銷較大。
Power Crust算法是一種典型的基于Voronoi圖的重建算法。其通過計算中軸(Medial Axis)并在其內外兩側生成殼體,實現閉合曲面重建。該算法計算Voronoi圖并提取中軸線,在中軸線兩側構建內外殼體,將內外殼體合并,生成最終封閉網格。其優點是生成閉合且光滑的網格,能有效處理噪聲點;其缺點是實現復雜,計算量大,對稀疏數據效果較差。
泊松表面重建算法將網格重建視為泊松方程求解問題,假設了點云數據來自光滑表面,并且已知每個點的法向量。該算法通過求解泊松方程構建隱式函數,并提取零水平集作為重建的網格:首先計算每個點的法向量并統一法向量方向,然后構建八叉樹(Octree),將點云劃分為不同分辨率級別。根據法向量場
n構建泊松方程如式(7)所示。
隨后,使用有限元方法(FEM)求解泊松方程,生成隱式函數
,使用移動立方體算法提取的零水平集,生成最終網格。泊松表面重建算法的優點是能有效處理噪聲和異常點,從而生成光滑且閉合的曲面;缺點是對法向量估計誤差較敏感,數據量大時計算復雜度較高。圖10顯示了基于泊松表面重建算法得到的三角網格。
圖 10 泊松表面重建算法得到的三角網格
掃描所得的數字模型可用于三維打印。圖11(a)、圖11(b)分別為不同角度的原始雕塑與三維打印模型對比。原始雕塑與曲面重建后打印模型誤差低于0.1毫米。
圖 11 不同角度的原始雕塑與曲面重建后三維打印模型比較
5AI技術帶來的進展
5.1 融合AI的三維掃描技術升級
近年來,AI尤其是深度學習技術在光學中的相位展開方法上取得顯著進展。AI與相位展開的結合推動了多個光學計量領域的技術進步:在數字全息顯微技術中,更準確的相位重建使微觀結構的三維成像更加清晰;在光學相干斷層掃描(OCT)領域中,提升了組織結構的可視化效果,助力醫學診斷;在條紋投影輪廓測量中,AI驅動的相位展開實現了高精度的三維表面測量,廣泛應用于工業檢測和質量控制。
深度學習在相位展開中的應用主要包括以下5類:
(1)直接回歸模型卷積神經網絡(CNN)。其被訓練用于將纏繞相位圖直接映射為展開相位圖。例如,Unwrap?Net[18]利用殘差結構實現高精度的相位展開,無需額外的預處理步驟,表現出對噪聲和欠采樣的強魯棒性。
(2)條紋級數分類。一些模型通過預測條紋級數(或纏繞次數)來重建真實的相位圖。其中,Hformer模型[19]結合了CNN和Transformer架構,以提高條紋級數預測精度,超越了傳統基于CNN的方法。
(3)混合深度學習與物理建模。將AI與傳統物理建模方法結合,可提高模型泛化能力和可解釋性。例如,Luo等[20]采用混合方法將深度學習與路徑跟蹤算法結合,在條紋投影輪廓測量中提升了空間相位展開的準確性。
(4)自監督學習。為應對標注數據稀缺的問題,研究者提出了自監督學習方法。Gao等[21]使用未標注的數據訓練模型,即使在缺乏真實相位的場景下也能實現有效的相位展開。
(5)時序與多模態相位展開。先進的模型能夠處理時間序列數據和多種干涉條紋模式。近期Zhao等[22]提出了一種多模態自適應的時序相位展開方法,能在不同頻率和條紋類型下保持高精度。
對比研究表明,基于深度學習的相位展開方法在多種復雜條件下通常優于傳統算法,主要體現在:(1)抗噪性能強。深度學習模型在高噪聲環境中表現更穩定,能維持較高的準確率,而傳統方法往往在此條件下失效。(2)處理相位突變與混疊能力強。AI方法能夠更有效地處理相位跳躍和混疊問題,輸出更加平滑的展開相位圖。(3)計算效率高。訓練完成后的深度學習模型推理速度快,適合實時應用場景。然而,這些模型在泛化能力、未見數據的適應性以及推理過程的可解釋性方面仍存在挑戰。
為進一步推進AI在相位展開中的應用,未來研究可能聚焦于以下方向:(1)增強模型泛化能力,開發能適應多種數據集和實際場景的通用模型。(2)提升可解釋性,構建具有透明推理流程的AI系統,使用戶能夠理解和信任模型的決策。(3)擴展自監督技術,利用未標注數據訓練魯棒模型,減少對大量標注樣本的依賴。這些方向的研究目標是構建更強大、更可信的光學相位展開AI工具。
5.2 AI技術重構曲面重建
三維視覺和計算機圖形學中的曲面重建技術同樣在AI技術應用趨勢下實現重構,主要包括單視圖重建和多視圖重建。
單視圖重建旨在從單張二維圖像中恢復三維形狀。由于該任務的本質是不適定的,因此研究者提出了多種基于學習的方法來解決。早期基于體素的表達曲面,如3D?R2N2[23]利用卷積和循環神經網絡預測體素占據網格。這種方法具有局限性,內存開銷較大,圖像分辨率提升導致計算量急劇增加。后繼方法基于點云或網格的預測,直接回歸點云或網格頂點坐標,適用于更細致的重建。AtlasNet[24]將形狀表示為多個可學習的參數化表面;Pixel2Mesh[25]從圖像特征出發,逐步對初始網格進行形變。近年來興起的方法使用深度神經網絡(DNN)學習隱式表面表示,Occupancy Networks[26]學習一個連續函數,用以判斷點是否在物體內部;DeepSDF[27]使用神經網絡建模點到表面的有符號距離。
多視圖重建方法利用從多個角度拍攝的圖像來更準確地重建三維模型。傳統的多視圖立體視覺(MVS)方法依賴圖像匹配與三角測量,基于深度學習的MVS方法利用構造的代價函數推理深度圖MVSNet[28]從參考圖像構造三維代價體并推理深度圖。CasMVSNet[29]使用金字塔式代價體,從粗到細逐步提升精度。
神經輻射場(NeRF)及其拓展方法通過合成新視角實現間接的三維重建:NeRF通過神經網絡學習空間點的顏色與密度,Mip?NeRF[30]、NeRF++[31]、GeoNeRF[32]提升了可擴展性、視角一致性與場景理解能力。由英偉達(NVIDIA)提出的即時神經圖形原語(Instant Neural Graphics Primitives, Instant?NGP)[33]方法,實現了NeRF的實時訓練和渲染,極大提升了三維重建的效率。該方法通過多分辨率哈希編碼,優化了內存使用和計算速度。
5.3 AI 技術實現網格生成
點云到網格的重建是計算機視覺和圖形學的核心任務,廣泛應用于機器人、增強現實(AR)、醫學成像等領域。傳統方法在處理規則結構的點云時表現良好,但在處理噪聲、稀疏或不完整數據時效果可能不佳。近年來,隨著傳統方法和深度學習方法的發展,相關研究取得了顯著進展。
PointNet[34]及其變體直接處理原始點云數據,實現了對點云的分類和分割,為后續的網格重建提供了基礎。自編碼器(AE)架構通過編碼器-解碼器結構,將點云映射到潛在空間,再重建出網格模型。例如,AtlasNet[35]利用多個參數化平面貼圖重建復雜表面。變形方法從初始網格出發,通過學習點云與網格間的對應關系,逐步變形以匹配目標形狀。Point2Mesh[36]提出了自先驗方法,利用輸入點云自身的信息指導網格變形。Points2Surf[37]和Neural?Pull等方法使用隱式函數對點云片段建模,從而重建連續表面,特別適用于處理局部重疊和稀疏區域。拓撲感知方法,如Neural Template[38]利用拓撲約束和表面結構一致性進行三維建模,提升了拓撲保持和細節恢復能力。近期研究還推動了實時點云處理與多模態輸入融合的研究,如Instant?NGP[33]使用多分辨率哈希編碼(MHE)技術實現了快速的神經表面擬合。
保持銳利特征的重建方法,為了在重建中保留物體的銳利邊緣和特征,提出了結合基元檢測和深度學習的框架。例如,Erler等[37]提出了一種基于基元檢測的重建框架,能夠準確分割基元片段,并在每個片段中擬合網格,確保重建結果具有清晰的銳利邊緣,同時保持模型的輕量化。
6三維掃描和曲面重建技術的行業應用
6.1 電影行業應用
三維掃描與曲面重建技術在電影視覺特效領域具有廣泛應用。
(1)數字角色與虛擬演員建模
應用三維掃描獲取演員面部與身體的高精度幾何數據,驅動數字替身(Digital Doubles)、面部捕捉(Facial Capture)、動作捕捉(Motion Capture)等技術,結合幾何建模與AI驅動的表情合成,實現高度真實的數字角色動畫。類似技術在電影《阿凡達》(
Avatar)、《阿凡達:水之道》(
Avatar: The Way of Water)、《復仇者聯盟4:終局之戰》(
Avengers: Endgame)、《流浪地球2》中得到充分應用。
表情動作捕捉技術運用多攝像頭陣列同步采集動態點云序列,結合形狀重建方法(如非剛性配準、形變網格)用于還原動態表情和動作。電影《猩球崛起》(
Rise of the Planet of the Apes)系列中,演員通過頭戴式三維捕捉系統采集肌肉形變,實現面部動畫與真實表演的無縫結合。
(2)場景與布景數字化
通過激光雷達、結構光或攝影測量掃描實景拍攝地,可重建精細的三維場景模型,并以此作為虛擬布景、虛擬攝制(Virtual Production)與綠幕合成的基礎。同樣,也可對實物道具與服飾進行快速掃描和三維建模,減少人工建模工作量,提升制作效率。
《黑客帝國:矩陣重啟》(
The Matrix Resurrections)應用全景三維掃描技術采集城市街景,用于數字場景還原與實時替換背景。虛擬環境搭建技術采用攝影測量+激光掃描對真實建筑、自然場景進行多視角采集,利用點云重建構建網格化虛擬布景,用于大規模特效合成或景深模擬?!堵_洛人》(
The Mandalorian)制作中使用點云重建與LED全景虛擬舞臺相結合,實現動態景深與虛擬攝制。
(3)特效與合成
精確的幾何模型可用于特效模擬(如碰撞、布料、流體模擬等),實現更真實的物理交互效果。如《飛馳人生2》利用三維掃描技術掃描賽車、山體和賽道模型,從而模擬出更為精準的摩擦、碰撞等效果,營造出真實感賽車環境。
6.2 文化、文物保護和數字遺產領域
三維掃描、點云重建與形狀重建技術在數字遺產保護領域也已廣泛應用。文物數字化技術利用高精度激光掃描對文物表面進行非接觸采樣,結合泊松表面重建、MLS平滑、基于深度的隱式重建技術生成高質量三維網格模型。數字米開朗基羅(Digital Michelangelo)[39]項目將意大利佛羅倫薩的大衛雕像掃描成30億點云數據,為后續修復、研究與傳播提供數字基礎。歷史遺址復原方法對歷史建筑、遺址區域進行大范圍三維掃描,配合Points2Surf、Neural Template等完成破損區域的AI形狀重建,實現虛擬復原。巴黎圣母院火災后,研究人員使用火災前保存的激光點云數據,結合AI技術輔助幾何建模進行三維重建與仿真。上述技術也可應用于虛擬教育與展示,例如利用VR/AR平臺將數字文物導入虛擬展廳,實現可漫游、可交互的虛擬博物館與在線教學。我國“數字敦煌”項目[40]實現了對莫高窟壁畫與建筑的多模態重建與全球共享展示,為遠程教育與學術研究提供了新模式。
6.3 存在的技術瓶頸
(1)高精度與高效率的矛盾。在影視制作中,對模型精度要求極高,尤其在近景或高分辨率渲染中。當前高精度掃描耗時長、成本高,且數據量龐大,給存儲與處理帶來壓力。
(2)復雜表面與材質的建模難題。透明、反射、毛發、軟組織等復雜表面仍難以準確掃描與建模,往往需依賴手工修復與后處理。
(3)大規模數據對齊與拼接問題。多視角、多批次掃描數據需要高效的配準(Registration)與融合算法,當前仍面臨配準誤差累積與數據冗余問題。
(4)缺失數據補全與重建挑戰。在遮擋、陰影等情況下,掃描數據常存在缺失,如何智能補全并保持幾何與視覺一致性仍是挑戰?;贏I的方法正在改善但尚未完全成熟。
(5)實時性不足。對于虛擬攝制與實時渲染場景,當前幾何建模與掃描仍難以滿足實時性要求,影響交互式應用體驗。
(6)成本問題。高端掃描硬件、專業人員與后期處理仍需大量投入,中小型影視制作公司面臨較高技術門檻。
目前學術界正在發展新的技術和方法以解決這些瓶頸。例如:深度學習技術正在逐漸提升缺陷修復、重建精度與自動標注能力,實現AI輔助建模與自動化修復;NeRF與神經幾何建??商峁└咝?、可學習的場景重建新范式,尤其適合影視場景快速構建;未來可能實現從拍攝到可用模型的自動管線,極大降低技術門檻,實現端到端的全流程自動化;結合光場、深度相機與AI算法,實時動態捕捉與建模,支撐虛擬攝制與數字人技術。
7總結與展望
隨著科技發展,三維掃描技術從傳統方法發展到結合AI顯著提升數據處理精度與效率,深度學習在相位展開、單視圖與多視圖重建、點云到網格轉換等方面展現出顯著優勢,有效解決了傳統算法在處理噪聲、復雜形狀及不完整數據時的局限性,推動了數字孿生、影視制作、數字遺產保護等領域的技術應用。
展望未來,隨著AI技術的不斷進步,三維掃描與曲面重建技術有望在多個方面取得更大突破:首先,在算法層面,將致力于提升算法的泛化能力,開發能夠適應多種數據集和實際場景的通用AI模型,以應對不同領域和應用場景的需求;其次,增強模型的可解釋性,通過構建具有透明推理流程的AI系統,使用戶能夠理解和信任模型的決策過程;此外,擴展的自監督學習技術將有效利用未標注數據訓練魯棒模型,減少對大量標注樣本的依賴,降低數據獲取成本;同時,優化實時處理能力,結合硬件加速技術和優化算法,將滿足動態場景捕捉和實時渲染的需求;最后,該領域有望深化跨領域融合,推動三維掃描與重建技術與其他新興技術(如物聯網、區塊鏈等)的深度融合,為沉浸式交互娛樂、智能制造、智慧城市、醫療健康等多個行業帶來創新變革,在更廣泛的領域發揮重要作用。
參考文獻
(向下滑動閱讀)
[1] KAZHDAN M, BOLITHO M, HOPPE H. Poisson surface reconstruction[C]// In Proceedings of the fourth Eurographics symposium on Geometry processing, 2006.DOI:10.1145/1364901.1364904.
[2] MARTON Z, RUSU R B, BEETZ M. Fast surface reconstruction from noisy point clouds without normal estimation[C]//In 2009 IEEE/RSJ International Conference on Intelligent Robots and Systems. IEEE, 2009.
[3] BERNARDINI F, MITTLEMAN J. The ball?pivoting algorithm for surface reconstruction[J].IEEE Transactions on Visualization and Computer Graphics,1999, 5(4):349?359.DOI:10.1109/2945.817351.
[4] LEVIN D. The approximation power of moving least?squares[J]. Math Comp, 1998(67):1517?1531.
[5] GOLDSTEIN R, ZEBKER H, WERNER C. Satellite radar interferometry: Two?dimensional phase unwrapping[J]. Radio Science, 1988,23(4):713?720.
[6] PRATI C, GIANI M, ENGINEER E E. SAR Interferometry: A 2?D Phase Unwrapping Technique Based On Phase And Absolute Values Informations[C]//Geoscience and Remote Sensing Symposium, 1990. IGARSS '90.IEEE, 1990.DOI:10.1109/IGARSS.1990.688929.
[7] DERAUW D. Phase unwrapping using coherence measurements[C]//Proceedings of SPIE?The International Society for Optical Engineering, 1995:319?324.DOI:10.1117/12.227141.
[8] FLYNN T J. Consistent 2?D phase unwrapping guided by a quality map [C]//In Proceedings of IEEE International Geoscience and Remote Sensing Symposium, IEEE, 1996.
[9] HERRáEZ M A, BURTON D R, LALOR M J, et al. Fast two?dimensional phase?unwrapping algorithm based on sorting by reliability following a noncontinuous path[J].Applied Optics, 2002,41(35):7437?7444.DOI:10.1364/AO.41.007437.
[10] BIOUCAS?DIAS J M, VALADAO G. Phase Unwrapping via Graph Cuts[J].IEEE Transactions on Image Processing. 2007,16(3):698?709.DOI: 10.1109/TIP.2006.888351
[11] DONG J, CHEN F, ZHOU D, et al. Phase unwrapping with graph cuts optimization and dual decomposition acceleration for 3D high‐resolution MRI data[J].Magnetic Resonance in Medicine, 2017,77(3):1353.DOI:10.1002/mrm.26174.
[12] DONG J, LIU T, CHEN F, et al. Simultaneous phase unwrapping and removal of chemical shift (SPURS) using graph cuts: application in quantitative susceptibility mapping [J].IEEE Transactions on Medical Imaging, 2015, 34(2):531?540.DOI:10.1109/TMI.2014.2361764.
[13] FLYNN T J. Two?dimensional phase unwrapping with minimum weighted discontinuity[J]. Journal of the Optical Society of America A, 1997,14(10):2692?2701.DOI:10.1364/JOSAA.14.002692.
[14] GREIG D M, PORTEOUS B T, SEHEULT A H. Exact Maximum A Posteriori Estimation for Binary Images[J]. Journal of the Royal Statistical Society. Series B: Methodological, 1989, 51(2):271?279.DOI:10.1111/j.2517?6161.1989.tb01764.x.
[15] ROY S, COX I J. A Maximum?Flow Formulation of the N?Camera Stereo Correspondence Problem[C]//International Conference on Computer Vision. IEEE,1998.DOI:10.1109/ICCV.1998.710763.
[16] BOYKOV Y, JOLLY M. Interactive graph cuts for optimal boundary and region segmentation of objects in n?d images[C]//Proceedings of the International Conference on Computer Vision (ICCV), 2001.
[17] BOYKOV Y, FUNKA?LEA G. Graph Cuts and Efficient N?D Image Segmentation[J]. International Journal of Computer Vision, 2006, 70(2):109?131.DOI:10.1007/s11263-006-7934-5.
[18] YANG W, HE Y, ZHANG L, et al. Unwrap?Net: A deep neural network?based InSAR phase unwrapping method assisted by airborne LiDAR data[J].ISPRS Journal of Photogrammetry and Remote Sensing, 2024:12(218):510?529.
[19] ZHU X, HAN Z, YUAN M, et al. Hformer: hybrid convolutional neural network transformer network for fringe order prediction in phase unwrapping of fringe projection [J]. Optical Engineering,2022, 61(9).
[20] LUO X, SONG W, BAI S, et al. Deep Learning?enabled Spatial Phase Unwrapping for 3D Measurement[EB/OL]. [2025?05?29].https://arxiv.org/abs/2208. 03524.
[21] GAO X, SONG W, TAN C, et al. Self?supervised phase unwrapping in fringe projection profilometry[EB/OL]. (2023?02?13)[2025?05?29].https://arxiv.org/abs/2302.06381.
[22] ZHAO L, ZHU Y, WANG J, et al. Multimodal adaptive temporal phase unwrapping[J]. Applied Physics Letters, 2023,122(6):064104.
[23] CHOY C B, XU D, GWAK J Y, et al. 3D?R2N2: A Unified Approach for Single and Multi?view 3D Object Reconstruction[EB/OL]. (2016?04?02)[2025?05?29].https://arxiv.org/abs/1604.00449.
[24] GROUEIX T, FISHER M, KIM V G, et al. AtlasNet: A papier?maché approach to learning 3d surface generation[EB/OL].(2018?02?15)[2025?05?29].https://arxiv.org/abs/1802.05384.
[25] WANG N, ZHANG Y, LI Z, et al. Pixel2Mesh: Generating 3d mesh models from single RGB images[EB/OL].(2018?02?24)[2025?05?29].https://arxiv.org/abs/1804.01654.
[26] MESCHEDER L, OECHSLE M, NIEMEYER M, et al. Occupancy Networks: Learning 3d reconstruction in function space[C]//In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019.
[27] PARK J J, FLORENCE P, STRAUB J,et al. DeepSDF: Learning continuous signed distance functions for shape representation[C]//In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019.
[28] YAO Y, LUO Z, LI S, et al. MVSNet: Depth inference for unstructured multi?view stereo[C]//In European Conference on Computer Vision (ECCV), 2018.
[29] GU X,FAN Z, DAI Z, et al. Cascade Cost Volume for High?Resolution Multi?View Stereo and Stereo Matching [C]// In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2020.
[30] BARRON J T, MILDENHALL B, TANCIK M, et al. Mip?NeRF: A multiscale representation for anti?aliasing neural radiance fields[C]//In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 2021.
[31] ZHANG K, LIU G R, KOLTUN V, et al. NeRF++: Analyzing and improving neural radiance fields [EB/OL].(2020?10?15)[2025?05?27]. https://arxiv.org/abs/2010.07492.
[32] JOHARI M M, LEPOITTEVIN Y, FLEURET F. GeoNeRF: Generalizing NeRF with Geometry Priors [EB/OL]. (2021?11?26) [2025?05?28]. https://arxiv.org/abs/2111.13539v2.
[33] MüLLER T, EVANS A, SCHIED C, et al. Instant Neural Graphics Primitives with a Multiresolution Hash Encoding[EB/OL]. (2022?01?16)[2025?05?28].http://arxiv.org/abs/2201.05989.
[34] QI C R, SU H, MO K, et al. PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation[C]//In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017.
[35] GROUEIX T, FISHER M, KIM V G, et al. AtlasNet: A papier?maché approach to learning 3d surface generation[C]//In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018.
[36] HANOCKA R, METZER G, GIRYES R, et al. Point2Mesh: A self?prior for deformable meshes[EB/OL]. (2020?05?22)[2025?05?28]. http://arxiv.org/abs/2005.11084v1.
[37] ERLER P, GUERRERO P, OHRHALLINGER S, et al. Points2Surf: Learning Implicit Surfaces from Point Cloud Patches.[EB/OL].(2024?02?13)[2025?05?28].http://arxiv.org/abs/2007.10453.
[38] HUANG Z, LIU L, THEOBALT C. Neural Template: Topology?aware Reconstruction and Disentangled Generation of 3D Meshes[C]//In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022.
[39] LEVOY M, PULLI K, CURLESS B, et al. The digital Michelangelo project: 3D scanning of large statues[C]//In SIGGRAPH, 2001.
[40] 敦煌研究院. 數字敦煌資源庫[EB/OL].[2025?05?27].http://www.e-dunhuang.com.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.