網易首頁 > 網易號 > 正文申請入駐

Large Avatar Model：單圖打造寫實3D交互數字人，跨平臺驅動渲染

2025-06-20 19:31:34　來源: 機器之心Pro

天津舉報

分享至

論文作者來自阿里巴巴通義實驗室的 3D 團隊。第一作者何益升，本科畢業于武漢大學，博士畢業于香港科技大學；通訊作者原瑋浩，本科畢業于浙江大學，博士畢業于香港科技大學；團隊 Leader 董子龍，本科博士均畢業于浙江大學。

三維數字頭像的建模、驅動和渲染是計算機圖形學與計算機視覺的重要課題之一，在虛擬會議、影視制作、游戲開發等領域有廣泛應用。傳統方法依賴多視角數據或視頻序列訓練，存在計算成本高、輸入條件難、泛化能力弱等問題。

近年來，基于神經輻射場（NeRF）和 3D 高斯濺射（Gaussian Splatting）的技術雖提升了建模質量，但仍面臨多視角/視頻輸入訓練的依賴以及神經后處理導致的渲染效率低的問題。

LAM（Large Avatar Model）的提出，旨在通過單張圖像實現實時可驅動的 3D 高斯頭像生成，突破傳統方法對視頻數據或復雜后處理的依賴，為輕量化、跨平臺的 3D 數字人應用提供新思路。

論文標題：LAM：Large Avatar Model for One-shot Animatable Gaussian Head
論文地址：https://arxiv.org/abs/2502.17796
項目主頁: https://aigc3d.github.io/projects/LAM
代碼庫：https://github.com/aigc3d/LAM
國外 Demo：https://huggingface.co/spaces/3DAIGC/LAM
國內 Demo：https://www.modelscope.cn/studios/Damo_XR_Lab/LAM_Large_Avatar_Model

核心亮點：

單圖秒級生成超寫實 3D 數字人

WebGL 跨平臺超實時驅動渲染，手機跑滿 120FPS

低延遲實時交互對話數字人 SDK 已全開源

方法

LAM 的核心目標是：單圖輸入、一次前向傳播生成可驅動的 3D 高斯頭像，無需后處理網絡，并兼容傳統圖形渲染管線實現跨平臺實時渲染。其技術框架圍繞以下核心突破展開：

規范化空間的三維高斯球生成

人頭模型先驗引導：LAM 基于 FLAME 頭部模板的頂點來初始化高斯球位置，結合形狀混合形變（Blendshapes）與骨骼線性蒙皮（LBS）的驅動機制，將三維頭像的生成置于規范化空間（Canonical Space），統一不同表情與姿態的幾何表達，降低生成復雜度。

多模態特征交互 Transformer：LAM 利用預訓練的 DinoV2 提取輸入圖像的多層級特征，通過堆疊式交叉注意力模塊（Cross-Attention）讓 3D 空間中的點特征與 2D 空間中的圖像特征進行交互，預測 3D 高斯球的位置、顏色、透明度等屬性，并引入形變偏移（Offset）優化人頭的幾何形狀（如頭發、飾品等）。

細分網格增強細節：FLAME 原始頂點數只有 5023 個，表達能力有限，LAM 通過網格細分算法（Mesh Subdivision）增加點密度（默認兩次細分達 81424 點），從而提升頭發、胡須等細節的建模能力。使用不同的細分程度，也可以在模型生成質量與渲染速度之間進行平衡。

無需神經后處理的驅動與渲染

傳統動畫驅動機制直接遷移：生成的規范空間中的 3D 高斯人頭，可直接使用骨骼線性混合蒙皮（LBS）與形狀混合形變（Blendshapes）參數，驅動表情與姿態變化，無需額外神經網絡參與動畫或渲染計算，達到超實時的渲染效率。

海量視頻數據訓練：傳統 3D 數字人的訓練數據要求苛刻，有時甚至需要多視角視頻數據，難以 scale up，而 LAM 的模型架構使其可以在普通的單目視頻上進行訓練，從而可以很輕易地 scale up。在模型訓練中，一段視頻中取任意一幀作為輸入圖片，生成 3D 高斯人頭，然后基于視頻檢測得到的頭部姿態和面部表情，渲染不同幀的圖片，與真值之間求損失來優化生成網絡。

跨平臺超實時渲染架構

輕量化 3D 高斯表達：LAM 的驅動和渲染沒有任何神經網絡的參與，是直接使用傳統動畫驅動 + 三維高斯濺射渲染，因此可以直接兼容傳統圖形管線。

WebGL 渲染：LAM 基于 WebGL 實現了表情、動作驅動和三維高斯濺射的渲染，天然支持跨平臺的特性，可以在不同設備如電腦、手機、電視、大屏等設備上進行直接驅動和渲染，效率達到超實時，如 8W 點模型可以在 Macbook 上輕松跑滿屏幕上限 120FPS，2W 點模型甚至能在移動端跑到 120FPS。

實驗

定量結果

論文在 VFHQ（高分辨率視頻人臉數據集）與 HDTF（高清對話視頻數據集）上驗證 LAM 性能，對比對象包括 NeRF 方法及 3D 高斯濺射方法，指標涵蓋重建質量、身份一致性、動畫精度與渲染效率。

從結果來看，LAM 以超寫實的圖像質量刷新記錄，以無神經網絡的超輕量模型擊敗之前的重網絡模型。

更多應用

LAM 不僅限于單圖生成，也可以結合圖像大模型進行實現跨模態藝術創作：

文本驅動生成

結合文生圖模型，用戶輸入提示詞（如「戴帽子的卡通男性」）生成任意風格的人頭圖像，LAM 可以直接轉換為可驅動三維高斯模型。如圖所示，生成的頭像可準確保留提示中的服飾元素（帽子）與藝術風格（卡通化）：

3D 風格遷移

通過圖像編輯模型對輸入圖像進行年齡、妝容等編輯，LAM 可以同步更新高斯屬性。例如將真人頭像轉化為油畫風格時，模型保留幾何結構僅調整顏色與紋理等：

交互對話數字人解決方案

以 LAM 為基礎，通義實驗室構建了完整的智能交互對話數字人解決方案，融合通義千問大語言模型、通義語音算法、通義數字人驅動算法，構建成熟、魯棒的完整工程方案，實現輕量化、低成本、低延遲、跨平臺的端側渲染，支持智能客服、情感陪伴、教育培訓等產品。

目前，完整的解決方案均已開源，包括整個鏈路中的各個模塊。即使用開源的代碼庫，就可以實現輸入一張圖片，生成超寫實 3D 數字人，進行實時的對話聊天。

https://mp.weixin.qq.com/s/41mpwUeWFARsXRWuDrCBZA

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.