論文作者來自阿里巴巴通義實驗室的 3D 團隊。第一作者何益升,本科畢業于武漢大學,博士畢業于香港科技大學;通訊作者原瑋浩,本科畢業于浙江大學,博士畢業于香港科技大學;團隊 Leader 董子龍,本科博士均畢業于浙江大學。
三維數字頭像的建模、驅動和渲染是計算機圖形學與計算機視覺的重要課題之一,在虛擬會議、影視制作、游戲開發等領域有廣泛應用。傳統方法依賴多視角數據或視頻序列訓練,存在計算成本高、輸入條件難、泛化能力弱等問題。
近年來,基于神經輻射場(NeRF)和 3D 高斯濺射(Gaussian Splatting)的技術雖提升了建模質量,但仍面臨多視角/視頻輸入訓練的依賴以及神經后處理導致的渲染效率低的問題。
LAM(Large Avatar Model)的提出,旨在通過單張圖像實現實時可驅動的 3D 高斯頭像生成,突破傳統方法對視頻數據或復雜后處理的依賴,為輕量化、跨平臺的 3D 數字人應用提供新思路。
- 論文標題:LAM:Large Avatar Model for One-shot Animatable Gaussian Head
- 論文地址:https://arxiv.org/abs/2502.17796
- 項目主頁: https://aigc3d.github.io/projects/LAM
- 代碼庫:https://github.com/aigc3d/LAM
- 國外 Demo:https://huggingface.co/spaces/3DAIGC/LAM
- 國內 Demo:https://www.modelscope.cn/studios/Damo_XR_Lab/LAM_Large_Avatar_Model
核心亮點:
單圖秒級生成超寫實 3D 數字人
WebGL 跨平臺超實時驅動渲染,手機跑滿 120FPS
低延遲實時交互對話數字人 SDK 已全開源
方法
LAM 的核心目標是:單圖輸入、一次前向傳播生成可驅動的 3D 高斯頭像,無需后處理網絡,并兼容傳統圖形渲染管線實現跨平臺實時渲染。其技術框架圍繞以下核心突破展開:
規范化空間的三維高斯球生成
- 人頭模型先驗引導:LAM 基于 FLAME 頭部模板的頂點來初始化高斯球位置,結合形狀混合形變(Blendshapes)與骨骼線性蒙皮(LBS)的驅動機制,將三維頭像的生成置于規范化空間(Canonical Space),統一不同表情與姿態的幾何表達,降低生成復雜度。
- 多模態特征交互 Transformer:LAM 利用預訓練的 DinoV2 提取輸入圖像的多層級特征,通過堆疊式交叉注意力模塊(Cross-Attention)讓 3D 空間中的點特征與 2D 空間中的圖像特征進行交互,預測 3D 高斯球的位置、顏色、透明度等屬性,并引入形變偏移(Offset)優化人頭的幾何形狀(如頭發、飾品等)。
- 細分網格增強細節:FLAME 原始頂點數只有 5023 個,表達能力有限,LAM 通過網格細分算法(Mesh Subdivision)增加點密度(默認兩次細分達 81424 點),從而提升頭發、胡須等細節的建模能力。使用不同的細分程度,也可以在模型生成質量與渲染速度之間進行平衡。
無需神經后處理的驅動與渲染
- 傳統動畫驅動機制直接遷移:生成的規范空間中的 3D 高斯人頭,可直接使用骨骼線性混合蒙皮(LBS)與形狀混合形變(Blendshapes)參數,驅動表情與姿態變化,無需額外神經網絡參與動畫或渲染計算,達到超實時的渲染效率。
- 海量視頻數據訓練:傳統 3D 數字人的訓練數據要求苛刻,有時甚至需要多視角視頻數據,難以 scale up,而 LAM 的模型架構使其可以在普通的單目視頻上進行訓練,從而可以很輕易地 scale up。在模型訓練中,一段視頻中取任意一幀作為輸入圖片,生成 3D 高斯人頭,然后基于視頻檢測得到的頭部姿態和面部表情,渲染不同幀的圖片,與真值之間求損失來優化生成網絡。
跨平臺超實時渲染架構
- 輕量化 3D 高斯表達:LAM 的驅動和渲染沒有任何神經網絡的參與,是直接使用傳統動畫驅動 + 三維高斯濺射渲染,因此可以直接兼容傳統圖形管線。
- WebGL 渲染:LAM 基于 WebGL 實現了表情、動作驅動和三維高斯濺射的渲染,天然支持跨平臺的特性,可以在不同設備如電腦、手機、電視、大屏等設備上進行直接驅動和渲染,效率達到超實時,如 8W 點模型可以在 Macbook 上輕松跑滿屏幕上限 120FPS,2W 點模型甚至能在移動端跑到 120FPS。
實驗
定量結果
論文在 VFHQ(高分辨率視頻人臉數據集)與 HDTF(高清對話視頻數據集)上驗證 LAM 性能,對比對象包括 NeRF 方法及 3D 高斯濺射方法,指標涵蓋重建質量、身份一致性、動畫精度與渲染效率。
從結果來看,LAM 以超寫實的圖像質量刷新記錄,以無神經網絡的超輕量模型擊敗之前的重網絡模型。
更多應用
LAM 不僅限于單圖生成,也可以結合圖像大模型進行實現跨模態藝術創作:
- 文本驅動生成
結合文生圖模型,用戶輸入提示詞(如「戴帽子的卡通男性」)生成任意風格的人頭圖像,LAM 可以直接轉換為可驅動三維高斯模型。如圖所示,生成的頭像可準確保留提示中的服飾元素(帽子)與藝術風格(卡通化):
- 3D 風格遷移
通過圖像編輯模型對輸入圖像進行年齡、妝容等編輯,LAM 可以同步更新高斯屬性。例如將真人頭像轉化為油畫風格時,模型保留幾何結構僅調整顏色與紋理等:
交互對話數字人解決方案
以 LAM 為基礎,通義實驗室構建了完整的智能交互對話數字人解決方案,融合通義千問大語言模型、通義語音算法、通義數字人驅動算法,構建成熟、魯棒的完整工程方案,實現輕量化、低成本、低延遲、跨平臺的端側渲染,支持智能客服、情感陪伴、教育培訓等產品。
目前,完整的解決方案均已開源,包括整個鏈路中的各個模塊。即使用開源的代碼庫,就可以實現輸入一張圖片,生成超寫實 3D 數字人,進行實時的對話聊天。
https://mp.weixin.qq.com/s/41mpwUeWFARsXRWuDrCBZA
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.