本文聚焦于華中科技大學、南洋理工大學、大灣區大學和上海人工智能實驗室聯合團隊的最新成果 —— WildAvatar 數據集。該數據集是迄今為止規模最大的自然場景中 3D 數字人重建數據集。其收錄了超過 10,000 個涵蓋多樣化人物與場景的視頻片段,有效解決了以往 3D 數字人重建數據標注成本高昂、數據量有限以及場景過于單一等問題。在當下大數據驅動的大模型時代,該超大規模數據集有望為 3D 數字人重建及生成等相關領域注入強大動力,助力其蓬勃發展,為相關研究提供堅實的數據基礎。
論文題目: WildAvatar: Learning In-the-wild 3D Avatars from the Web 論文鏈接: https://arxiv.org/abs/2407.02165 代碼鏈接: https://github.com/wildavatar/WildAvatar_Toolbox
一、動機
3D 數字人重建技術在 VR/AR、電影制作、元宇宙等領域展現出巨大的應用潛力。然而,當前的技術和數據采集方式在現實場景中的應用面臨諸多限制。盡管神經輻射場(NeRF)等技術的出現使得從簡單實驗室數據中的 2D 圖像或視頻恢復出逼真的 3D 數字人成為可能,但現有數據的簡單性以及復雜且昂貴的采集系統,嚴重制約了 3D 數字人重建技術在現實場景中的應用價值。
目前的 3D 數字人數據集大多依賴于復雜且昂貴的實驗室系統采集,這些系統需要各種先進設備進行準確標注,例如需要精確校準的多目相機、深度傳感器、慣性傳感器(IMU)或昂貴的掃描儀,以及專業的演員和專用舞臺等。然而,在現實場景(例如單目網絡視頻)或消費級應用中,這些理想的數據條件是不現實的。此外,由于現有 3D 數字人重建數據的采集成本極高,難以實現大規模數據的積累,這極大地限制了可泛化的 3D 數字人重建方法的通用性和泛化能力。
為了解決這些問題,本研究將目光轉向網絡視頻,收集并標注了一個超大規模的自然場景中的人體重建數據集。該數據集的構建旨在彌補以往人體重建數據標注成本高、數據體量小、僅局限于簡單場景等不足,為推動 3D 數字人重建技術在更廣泛場景中的應用奠定基礎。
二、方法 2.1 標注框架
本研究致力于高效構建一個大規模且貼近現實應用的 3D 數字人重建數據集。為此,研究團隊從互聯網上爬取了 10 萬個包含人體運動的視頻,并通過以下四個階段對這些視頻進行處理,以獲取高質量的標注數據。
四階段式單目數字人視頻處理流程。首先獲取視頻中主體對象的裁剪框(階段I),其次提取人體分割掩碼(階段II)。再次逐幀粗略估計SMPL參數和相機參數(階段III),最后利用幀間平滑與空間對齊信息,迭代優化SMPL參數和相機參數(階段IV) 階段 I:人體裁剪框檢測與跟蹤
首先利用現有的 Yolo 檢測方法提取主體人物的裁剪框,隨后剔除過短的視頻片段以及人體檢測與跟蹤結果置信度低的片段。
階段 II:人體分割掩碼提取
采用最新的 Segment Anything(SAM)方法,僅需輸入人體檢測、跟蹤和 2D 人體姿態估計中獲得的裁剪框和樣例點,即可自動生成分割掩碼。
階段 III:粗略的 SMPL 參數和相機參數估計
研究團隊首先利用基于單張圖像的人體 SMPL 估計方法,逐幀估計 SMPL 參數和相機參數。
階段 IV:優化 SMPL 參數和相機參數
在階段 III 中估計的 SMPL 參數尚未考慮人體運動的時序一致性。為了進一步優化這些參數,研究團隊采用梯度下降法對整個視頻片段序列進行處理,以逐步平滑標注結果。在此過程中,將估計的 2D 關鍵點和 SAM 掩碼納入優化目標,從而為 SMPL 參數的優化提供更全面的約束條件。
2.2 篩選策略
為確保收集到的視頻片段滿足高質量 3D 數字人重建的要求,研究團隊提出了以下四個篩選策略:
數據篩選策略 策略 I:清晰人體且有顯著運動
從視頻中篩選出人體清晰且無遮擋的片段,并且要求人體有顯著的運動或視角變化。通過檢測人體和 2D 姿態估計的置信度,排除那些人體被嚴重遮擋、持續時間過短以及視角變化不明顯的片段,以確保視頻片段中包含足夠豐富的人體運動信息。頻中包含足夠的人體運動信息。
策略 II:多模型專家的一致性
為確保不同標注模型對同一視頻片段的標注結果保持一致,進而提升標注質量,本研究采用了多種前沿的標注模型,包括檢測模型、2D 姿態估計模型以及 SMPL 估計模型。通過計算這些模型預測結果的平均值作為最終標注結果,并以標準差作為衡量標注一致性的參考指標,從而篩選并剔除標注結果不一致的視頻片段。
策略 III:2D 關鍵點的一致性
檢驗單目 SMPL 估計與 2D 姿態估計結果的匹配度,以提升 SMPL 估計的可信度。通過計算投影的 SMPL 關鍵點與 2D 姿態估計關鍵點之間的 PCK 值來實現。只有當平均 PCK 值超過設定閾值時,才認為估計結果可靠。
策略 IV:SMPL 掩碼與 SAM 掩碼的一致性
確保SMPL 投影掩碼與 Segment Anything(SAM)掩碼的匹配度,從而保障標注的高質量。對比 SMPL 投影掩碼和 SAM 掩碼的重疊部分。通過剔除 SAM 掩碼與 SMPL 掩碼重疊較少的視頻片段,以確保標注的準確性。
三、實驗
本研究廣泛地在 THuman、HuMMan、RenderPeople 和 WildAvatar 數據集上展開實驗,并運用 PSNR、SSIM 和 LPIPS 等常用指標對重建效果進行評估。結果顯示,四階段標注框架在提升重建準確性方面具有顯著優勢。此外,為了驗證 WildAvatar 數據集的超大規模體量對可泛化 3D 人體重建方法的提升作用,研究團隊進行了額外實驗。實驗結果表明,WildAvatar 數據集在現實場景中能夠將現有方法的泛化能力提升近7% 。這些結果突出了 WildAvatar 數據集在提升 3D 人體重建性能方面的潛力,尤其是在復雜現實場景中的應用價值。
使用不同標注的3D數字人重建效果的定量結果對比
WildAavtar和之前實驗室數據集上的泛化能力對比 可泛化3D數字人重建方法在WildAvatar上的定性對比
四、總結和展望
本研究提出了 WildAvatar 數據集,這是一個從互聯網收集并標注的超大規模 3D 數字人重建數據集,包含超過 10,000 個不同的人物主體和場景。與傳統 3D 數字人重建數據集相比,WildAvatar 在人物和場景的多樣性上實現了至少十倍的提升。通過對現有 3D 數字人重建方法在 WildAvatar 數據集上的測試,研究揭示了大規模數據驅動下模型泛化的潛力,同時也暴露了在實際應用中仍需解決的挑戰。該數據集有望為 3D 數字人重建及相關領域的進一步研究提供寶貴的數據支持,相關數據與代碼已開源。
llustration From IconScout By IconScout Store
-The End-
掃碼觀看!
本周上新!
“AI技術流”原創投稿計劃
TechBeat是由將門創投建立的AI學習社區(www.techbeat.net)。社區上線600+期talk視頻,3000+篇技術干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平臺,希望為AI人才打造更專業的服務和體驗,加速并陪伴其成長。
投稿內容
// 最新技術解讀/系統性知識分享 //
// 前沿資訊解說/心得經歷講述 //
投稿須知
稿件需要為原創文章,并標明作者信息。
我們會選擇部分在深度技術解析及科研心得方向,對用戶啟發更大的文章,做原創性內容獎勵
投稿方式
發送郵件到
melodybai@thejiangmen.com
或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關注“將門創投”公眾號,后臺回復“投稿”二字,獲得投稿說明。
關于我“門”
▼
將門是一家以專注于數智核心科技領域的新型創投機構,也是北京市標桿型孵化器。 公司致力于通過連接技術與商業,發掘和培育具有全球影響力的科技創新企業,推動企業創新發展與產業升級。
將門成立于2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。
如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投后服務,歡迎發送或者推薦項目給我“門”:
bp@thejiangmen.com
點擊右上角,把文章分享到朋友圈
點擊“閱讀原文”按鈕,查看社區原文
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.