本文刊發于《現代電影技術》2025年第4期
專家點評
在現代科技浪潮的有力推動下,計算機圖形學(CG)作為計算機科學的前沿領域,近年來發展迅猛,已成為人工智能(AI)技術體系中的關鍵基石。計算機圖形學聚焦對世界的仿真模擬,而人工智能側重于對世界的感知理解,二者深度融合催生出的生成式人工智能(GAI),不僅為真實世界模擬、世界模型構建及具身智能發展奠定基礎,也為影視創作生產帶來了革命性突破。在影視創作生產領域,AIGC憑借 “視覺思維”、模擬仿真和可視化能力,重塑了從劇本到成片的全流程,基于AIGC的虛擬數字人技術的發展應用便是其中之一。人體運動的仿真模擬是虛擬數字人仿真的關鍵要素,包括3D人體重建、骨骼運動遷移、動作風格遷移等。《基于 AIGC 的數字人驅動技術在電影制作中的應用研究》一文系統剖析了該技術在電影制作中的應用,從技術演進路徑、現存關鍵瓶頸、系統研發實踐到未來發展趨勢,進行了全面系統且具前瞻性的探討,提出了面向電影制作的數字人驅動生成系統,為電影行業創新與技術研究提供了重要參考。展望未來,計算機圖形學與影視內容創作領域亟待深化協同創新,以創作生產實踐需求為導向,加速技術迭代升級,為影視行業注入更多創新活力,開創影視數字內容創作的新篇章。
——陳寶權
北京大學博雅特聘教授、智能學院副院長
IEEE Fellow
長江學者特聘教授
作 者 簡 介
李夢甜
上海大學上海電影學院、上海電影特效工程技術研究中心講師,主要研究方向:面向影視、游戲與藝術領域的數字內容理解與生成 。
上海大學上海電影學院碩士研究生在讀,主要研究方向:多模態模型、數字人運動生成。
翟承碩
摘要
隨著人工智能生成內容(AIGC)技術的快速發展,生成式數字人驅動技術正受到越來越多的關注,并有望在未來電影制作中發揮關鍵作用。本文系統梳理了生成式數字人驅動技術的研究現狀,針對目前該技術在電影制作領域存在的訓練數據匱乏、生成時長受限等問題,創新性地提出了面向電影制作的數字人驅動生成系統。該系統基于擴散模型,不僅能根據文本生成高質量的數字人運動,同時還提供了預定義的動作模板,為電影制作流程中的數字人驅動環節提供可靠的技術支持。最后,本文分析和展望了AIGC技術在電影制作領域的發展趨勢,指出其將在高效化劇本創作、個性化角色塑造、智能化場景交互等環節發揮作用,從而提高電影制作的整體效率。
關鍵詞
人工智能生成內容(AIGC);電影制作;數字人驅動生成;擴散模型;多模態數據融合
1引言
數字人的驅動主要關注于如何通過技術手段生成或控制虛擬數字人的行為、動作和表情等,以實現自然、逼真和強交互性的數字人表現。其為數字世界搭建了從靜態向動態跨越的階梯[1],是電影制作中非常重要的技術手段。當前,中國電影工業正經歷以人工智能生成內容(AIGC)為核心的科技變革[2]。在此背景下,基于AI的生成式數字人驅動技術逐漸成為電影制作領域的關鍵創新點。該技術不僅能顯著提升電影制作效率,降低傳統制作過程中的人力與時間成本,還能為創作者提供更加靈活、高效的創作工具,推動電影產業在虛擬與現實融合方向的持續創新。鑒于此,本文將深入探討基于AIGC的數字人驅動技術發展狀況,創新地提出基于擴散模型的數字人驅動生成系統,并分析其在電影制作中的實際應用價值。本文還將展望AIGC技術在電影制作領域的未來發展趨勢,為行業的持續進步提供參考。
2基于AIGC的數字人驅動技術發展狀況
在電影制作的早期階段,數字人的驅動主要依靠手動設計關鍵幀動畫或借助動作捕捉技術來實現角色的逼真運動。盡管這些方法在某些場景中表現出色,但其高度依賴人工調控且制作耗時。調整關鍵幀需設計師逐幀調整角色的姿態和運動軌跡,耗時耗力且對技術要求極高。動作捕捉則依賴于專業的設備和高成本的拍攝環境。這些因素極大限制了在電影制作中驅動數字人運動技術的普及應用和創作自由度。
隨著生成式對抗網絡(GAN)、變分自編碼器(VAE)和去噪擴散概率模型(DDPM)等深度生成模型的引入,數字人驅動技術迎來了新的突破。僅需輸入簡單的控制條件(如文本),模型就能自動生成逼真的人體骨骼運動序列,進而綁定人物模型并驅動其運動。這種生成方式不僅突破了傳統技術對專業設備和人工經驗的依賴,而且大幅度提升制作效率,為電影制作提供了全新的技術支持(圖1)。這一技術革新加速了數字內容生產流程,推動電影工業向智能化、高效化方向快速發展。
圖1 數字人驅動方式及流程
2.1 基于AIGC的數字人驅動技術研究現狀
當前,基于生成模型的數字人驅動技術能通過文本、音頻或場景等多模態輸入,直接生成逼真的人體動作序列。技術依托于人體運動數據訓練的深度生成模型,可實現數字人驅動的快速生成。例如,導演或編劇僅需輸入自然語言描述,如“角色向前跳了兩下”,該技術便可自動生成與描述一致的動作,從而顯著加速角色動畫的設計流程,不僅提升了電影制作的效率,還推動了傳統制作模式的變革。近年來,基于生成式AI的數字人驅動技術發展迅猛,相關研究成果在計算機視覺領域的國際頂級學術會議〔如IEEE國際計算機視覺與模式識別會議(CVPR)和國際計算機圖形與交互技術會議(SIGGRAPH)〕中得到了廣泛關注。本節系統綜述了當前基于生成式AI的數字人驅動技術的研究進展,從控制信號維度出發,圍繞文本驅動、音頻驅動、場景驅動等多模態控制方式展開分析。表1列舉了當前主流的數字人驅動技術的代表性工作。相關研究方法在動作生成質量、時序連貫性和動作多樣性等方面不斷取得進展,技術框架逐漸成熟。但由于訓練數據質量的限制,現有方法生成的動作仍難以達到電影制作要求,尤其在動作真實性和長序列穩定性等關鍵指標上仍需提升。
表1 基于AIGC 的數字人驅動技術代表工作
2.1.1 以文本為控制條件的數字人驅動
2019年,Ahuja等[18]開創性地提出一種名為Joint Language to Pose(JL2P)的新型文本驅動人體動作生成模型。該模型通過動態深度神經網絡實現了文本與姿態的聯合嵌入,成功構建了從文本到人體運動生成的初步框架。這一研究不僅為后續的文本驅動數字人運動奠定了基礎,還標志著自然語言與人體動作生成領域的深度融合。
近年來,文本驅動數字人運動生成的方法不斷涌現,取得了顯著進展。例如,MoMask模型通過分層量化和掩碼建模技術,能根據文本描述生成高質量3D人體動作。MotionFix方法則通過條件擴散模型實現了文本驅動的動作編輯,支持對動作細節的精準調整。
2.1.2 以音頻為控制條件的數字人驅動
除文本描述外,研究者還探索了通過音頻信號生成人體動作的方法。與文本不同,音頻信號通常不會明確描述相應的人體動作,這為生成任務提供了更高的自由度。同時,還要求生成的人體動作應在自然語義和音頻節奏方面保持協調。2019年,Lee等[19]首次引入從音樂到舞蹈的跨模態生成任務,提出一種基于合成與分析的學習框架,將舞蹈分解為一系列基本的舞蹈單元。該模型通過這些單元學習如何移動,這一研究展示了音頻信號在驅動人體動作生成中的潛力。
Zhang等[20]提出一種基于Conformer的自回歸生成框架,通過音樂和舞蹈特征的跨模態建模,生成與音樂節奏同步的連貫舞蹈動作序列。此外,Li等[21]提出的Bailando框架引入編舞記憶和基于演員-評論員(Actor?Critic)的強化學習機制,生成的舞蹈動作不僅遵循編舞規范,還通過節拍對齊獎勵函數實現了與音樂節奏的同步。Sun等[22]利用VQ?VAE學習低維流形的表示方法,并開發了過去-未來運動動態庫,為未來動作提供明確的先驗信息,保證了生成動作的連續性。Aristidou等[23]從姿態、動機和編舞三個層面入手,生成保持特定流派的有全局結構性的長時舞蹈。Tseng等[14]提出的Editable Dance GEneration(EDGE)方法,能創建真實且符合物理規律的舞蹈,并允許用戶自由指定生成時間。Liu等[15]提出的EMAGE框架則進一步拓展了音頻驅動動作生成的應用范圍,能從音頻生成全身動作,包括面部表情、身體局部動作、手部動作及整體的全身運動。這些方法提升了音頻驅動人體動作生成的質量和多樣性,為未來電影制作中數字人運動的驅動提供了技術支撐。
2.1.3 以場景為控制條件的數字人驅動
數字人的運動應具有目標導向性,以場景為控制條件的數字人驅動任務,旨在生成與場景一致且合理的人體運動。在實際情況中,被控制的個體在受到物理環境限制時,如何移動身體與環境進行合理交互,是數字人驅動任務中需要解決的關鍵問題。
Wang等[16]提出一種兩階段框架,用于根據場景語義和文本描述生成符合物理規律的人體運動。該框架以場景可供性(Scene Affordance)圖作為中間表示,第一階段基于3D場景和文本描述生成明確的場景可供性圖,第二階段則在第一階段基礎上結合該圖和文本描述生成與之匹配的人體動作。該方法能同時滿足以場景和文本為控制條件的動作生成需求,實現了兩者在動作生成中的結合。Jiang等[17]提出一種基于自回歸擴散模型的動作生成框架,通過編碼場景的幾何信息實現長時間、符合物理約束的人-場景交互(HSI)的動作生成。該方法提出的TRUMANS數據集和場景感知技術,能根據任意場景生成多樣化且真實感強的長時動作,有效避免了穿模和失真問題的出現。Li等[24]提出名為ZeroHSI的零樣本方法,用于生成4D的人-場景交互。該方法無需借助配對的運動-場景訓練數據,能直接利用視頻生成模型和神經渲染技術,實現在多種環境中生成與上下文高度相關的人-場景交互運動。
2.1.4 其他控制條件驅動的方法
隨著技術的不斷進步,研究者們逐漸認識到,單一的驅動條件或僅生成單一人體動作的任務,已難以滿足復雜多變的電影制作需求。因此,近年來,研究者們聚焦于生成多樣化的人體運動,為電影制作提供更加簡單高效的工具。
Xu等[25]提出一種用于合成人體“動作-反應”序列的新方法,能夠根據給定的人體動作生成合理且自然的人體反應動作。通過標注多個數據集,該方法明確了交互中的“主動者”和“反應者”角色,并借助基于擴散模型和Transformer解碼器的生成框架,實現了在不同視角和未見過的動作序列下,高效生成逼真且自然的雙人交互場景,滿足在電影制作過程中對對話、沖突、協作等復雜情境的需求。Zhang等[26]的LMM模型支持文本、音樂、語音等多模態輸入,實現“文字指揮手臂動作+音樂控制舞步節奏”的協同生成,為導演提供了從劇本臺詞到舞蹈編排的端到端創作工具。Ji等[27]提出一種基于文本引導的群體動作合成方法,能夠根據自然語言描述生成多樣化且自然的群體運動序列。該方法通過結合文本特征和群體運動模型,實現了對大規模群體行為的精準控制和個性化定制,不僅支持對群體動作的整體生成,還能針對個體行為進行動作微調。這一技術的引入將極大減輕手動設計復雜人群行為的負擔,使大規模動態人群場景的高效生成成為可能。特別是在戰爭場面、城市生活風貌或自然災難等包含大量角色交互的復雜場景中,該方法的應用將顯著提升畫面的真實感與制作效率,為虛擬環境的創作生產開辟了更加靈活多變、充滿創新潛力的新天地。
2.2 基于AIGC的數字人驅動技術在電影制作中的應用
近年來,AIGC技術在電影制作中的應用逐漸深入,顯著提升了制作效率和創意效果。例如,《哪吒之魔童鬧海》[28]借助AIGC技術優化特效制作流程,降低了電影制作成本并提升了視覺效果。電影《我們的終結者2重制版》(
Our T2 Remake)更是全程采用AI輔助制作,展示了AI在長篇電影創作中的可行性。然而,生成式數字人驅動技術在電影中的應用仍較為有限。當前該技術主要應用于動畫和特效領域,如在《阿凡達》系列電影中用于增強面部表情捕捉和角色動作生成質量,但在完整電影制作流程中,此類技術的集成應用仍處于探索階段。
在2025年央視春晚舞臺上,由張藝謀執導的《秧BOT》[29]節目展示了生成式數字人驅動技術的前沿應用。在該節目中,宇樹科技的16臺H1機器人通過視頻驅動的數字人運動生成技術,完成了與16位新疆藝術學院舞蹈演員的動作協同表演。這一創新應用不僅改變了傳統藝術表現形式,也為電影制作開辟了全新的創作路徑。由此可見,生成式數字人驅動技術未來將在電影特效、虛擬角色創作等領域發揮更為重要的作用。
2.3 基于AIGC的數字人驅動技術目前存在的挑戰與瓶頸
基于AIGC的數字人驅動技術在電影制作領域應用前景雖然廣闊,但當前仍面臨諸多復雜的技術挑戰。其中,數據資源的匱乏及生成動作的真實性和多樣性不足是尤為突出的問題。
數據資源的稀缺性是制約數字人驅動技術廣泛應用的關鍵瓶頸之一。高質量的動作捕捉數據和角色設定信息往往難以獲取,導致算法在訓練和優化過程中缺乏足夠的支持。此外,數據不足直接影響了算法對角色真實情感和細膩動作的捕捉能力,影響了電影制作效果,削弱了電影表現力。
動作生成的真實性與多樣性不足也是當前數字人驅動技術面臨的核心挑戰之一。盡管現有算法能夠生成基本的動作序列,但在面對復雜多變的場景或細致入微的角色設定時,生成的動作往往顯得機械、單調、缺乏靈活性。這種局限不僅影響了影片的真實感和觀眾的沉浸體驗,也對電影制作的整體質量和效率提出了更高要求。
為突破這些瓶頸,未來數字人驅動技術的發展可從以下幾方面入手:一是構建大規模、多樣化的多模態數據集,特別是涵蓋復雜動作和微表情的數據;二是通過更先進的生成模型和物理約束機制,提升生成動作的真實性與多樣性。這些方向的探索將有助于推動數字人驅動技術在電影制作中的深入應用,為其開拓更加廣闊的發展空間。
3面向電影制作的數字人驅動生成系統研發
本次研發以系統的實用性為核心出發點,考慮用戶操作的便捷性,圍繞“生成快速、操作簡便、檢索高效”等目標進行系統設計。通過引入最新的生成算法,系統不僅提升了生成式數字人驅動技術的精度與效率,同時簡化了傳統電影制作中數字人驅動操作流程,為電影制作中數字人驅動工作提供便利。
3.1 系統設計:生成快速、操作便捷的數字人驅動系統
該系統采用對用戶友好的簡單設計理念,通過直觀的操作界面實現高效生成。系統包括運動生成和運動檢索兩部分。在生成過程中,通過用戶輸入的文本描述,系統即可基于以文本為控制條件的數字人驅動生成算法,生成與文本描述精準匹配的人體動作序列。同時,系統還配備了一個龐大的動作庫,支持用戶輕松檢索所需動作,從而簡化數字人驅動流程(圖2)。
圖2 數字人驅動系統流程圖
3.1.1 數字人運動生成
在所有條件模態中,基于文本的人體動作生成一直在推動和主導研究前沿,這主要得益于語言描述為人們與計算機提供了方便自然的交互方式。文本輸入不僅允許用戶通過簡單的文本描述生成目標動作,更降低了使用門檻,使非專業用戶也能快速上手操作。基于此,本系統選擇文本作為控制條件,通過整合先進的自然語言處理(NLP)技術和動作生成算法,構建了文本-動作生成框架,確保了從文本到動作轉換的準確性和自然度。
(1)基于擴散模型的生成算法
在動作生成階段,系統首先通過CLIP文本編碼器對用戶輸入的文本描述進行文本編碼,將編碼的文本特征向量輸入到潛在空間中擴散模型的反向過程。模型基于式(2)的噪聲預測機制,通過多步迭代的反向擴散逐步去除初始隨機噪聲中的冗余信息,最終輸出結構完整且與文本語義高度契合的人體運動序列。
(2)實驗與結果
為驗證生成效果,本文采用以下兩種指標進行評估:(a)弗雷歇感知距離(Fréchet Inception Distance, FID),測量生成動作與真實動作的高級特征分布差異,來評估動作的整體質量,FID值越低,表明生成動作越接近真實動作;(b) R?Precision用于衡量輸入文本與生成動作間的語義一致性,值越高,表明生成的動作越符合輸入的文本描述。通過這兩種指標,可全面評估生成動作的質量及與文本的匹配程度。測試用的數據集為HumanML3D?Extend,是目前包含最多文本描述、運動序列最長的文本-動作數據集。本文與目前效果最好的方法MotionDiffuse和MoMask進行比較,實驗結果(表2)表明,本文方法生成動作的FID值達到了最低的2.28,動作質量最佳。在R?Precision指標上,本文方法僅比MotionDiffuse的結果低0.02。值得注意的是,MotionDiffuse在測試過程中消耗了大量時間,測試1000條數據耗時71小時,而本文方法測試5000條數據僅耗時24小時,效率最高。綜合兩項指標,本文方法在效率和質量上均具有顯著優勢。
表2 本文方法與MotionDiffuse、MoMask的定量對比結果
3.1.2 數字人運動檢索
系統還提供了一個大型動作庫,允許用戶根據需求快速檢索、調用和組合預定義的動作模板。該功能在簡化動作制作的同時,還為用戶提供了豐富的動作參考素材。這種設計降低了數字人驅動制作的技術門檻,為電影創作者提供了更便捷的工具。
3.2 系統應用:在電影制作過程中的應用
在電影制作領域,本文提出的系統展現出極高的應用價值,主要體現在以下兩個方面:
3.2.1 便捷控制動作生成
該系統構建了一個對用戶極為友好的動作生成界面。如圖3所示,通過直觀的文本驅動交互方式,只需用戶在對話框中輸入動作描述,系統即可自動生成相應動作。這一設計降低了電影制作中動作生成門檻,使導演等非技術成員也能直接參與動作設計,減少對專業動畫師的依賴。
圖3 文本生成動作序列操作
3.2.2 快速數據檢索功能
本系統內置了豐富的動作資源庫,為電影制作提供了大量預定義動作模板。用戶可通過關鍵詞或語義描述(例如“奔跑”“跳躍”等)快速檢索和調用動作。如圖4所示,系統支持將動作導出為常見的3D動畫格式(如FBX),并與主流電影制作軟件(如Unity、Blender等)無縫集成。導出的動作可直接綁定角色骨骼,或作為關鍵幀動畫的編輯基礎。通過系統的智能檢索與一鍵下載功能,用戶可快速獲取高質量動作數據,避免了基礎動作重復構建的問題。該功能大幅縮短了從動作設計到實際應用的周期,顯著簡化了電影制作中數字人驅動的流程。
圖4 動作檢索操作
4 基于AIGC的數字人驅動技術在電影制作中的發展趨勢
生成式數字人驅動技術與多模態數據的結合,將極大提升電影內容的創作效率,構建出更加強大的多模態融合模型。這種模型能夠同時處理文本、圖像、聲音和環境描述,實現從動作到鏡頭設計、從音效到臺詞的整體輸出,從而推動電影內容創作全流程的自動化。例如,哈爾濱工業大學與清華大學聯合推出的FilmAgent工具[31],通過多智能體協作框架,模擬電影制作中的不同角色,可自動生成劇本、角色動作、鏡頭設置及語音對話。此外,Melies[32]平臺整合了GPT?4、Runway等AI工具,提供從劇本創作到視頻生成的統一解決方案,進一步簡化了電影制作流程,拓展電影制作的邊界與可能性。基于此,本文將從以下3個主要方向探討AIGC下的數字人驅動技術在電影制作中的未來發展趨勢。
4.1 高效化劇本創作
當前,電影技術領域已能在一定程度上依據簡短文字描述生成角色動作,但針對長篇敘事文本的精確動作識別與生成仍面臨諸多挑戰。隨著自然語言理解技術的深化研究,未來有望更深入地解析劇本中的豐富語義,從而實現“劇本直驅動畫”的愿景。這一突破不僅能讓編劇僅憑臺詞與動作描述輕松生成人體動作,更將從劇本到畫面的轉化流程大幅提速,顯著提升創作效率。此外,未來該技術有望支持實時預覽與即時修改功能,使創作者能在構思場景時即時生成角色動作并進行靈活調整。這一實時性特質極大提升了工作效率,尤其在面對較長時間的動作生成時,創作者能更直觀地展現創意構想,并細致優化每一幀動作,確保最終作品的質量。例如, FasterLivePortrait[33]技術基于TensorRT優化,能在英偉達(NVIDIA)GeForce RTXTM 3090顯卡上實現超30 FPS的速度,顯著提升了實時動畫生成的效率,該技術的發展為動畫創作提供了更高效、更靈活的解決方案。
4.2 個性化角色塑造
隨著生成式AI技術的迭代升級,個性化角色生成正逐步成為電影工業化進程中的關鍵突破方向。當前的生成式數字人驅動技術通過調整文本描述或增加特定參數輸入,能生成與角色性格、情感狀態及場景氛圍高度契合的個性化動作。該技術的核心在于對角色細微情感和行為的精準捕捉,從而實現定制化的角色塑造。未來,隨著技術的不斷發展與進步,編劇或導演僅需對文本描述進行微調,即可捕捉到如憂郁的眼神、憤怒的手勢或歡快的步伐等細膩的表演細節。這種精準化的角色控制手段,為角色塑造和敘事表達提供了更加豐富和細膩的工具,使電影中的角色更加鮮活、立體。由快手科技、中國科學技術大學和復旦大學聯合開發的LivePortrait[34]技術通過隱式關鍵點方法和重定向模塊,能精確控制角色的微表情和肢體動作,進一步增強了角色表現的個性化和自然感。此技術的應用不僅提升了角色的表現力,也為創作者提供了更廣闊的藝術創作空間,推動了電影和動畫作品在情感表達和敘事深度上的進一步發展。
4.3 智能化場景交互
在傳統電影制作中,群體場景的拍攝和動作捕捉通常依賴大量演員的實際表演,這一過程不僅耗時且成本高昂。未來,基于生成式AI的數字人驅動技術將有望實現群體角色動作的智能化生成,為電影創作生產開辟全新可能。例如,在大規模戰爭場景中,該技術無需逐個捕捉每位演員的動作,可直接根據戰斗策略、環境條件和角色設定,自動生成大批士兵的戰斗動作及協同行為。
5 結語
盡管近年來在AIGC技術的驅動下,生成式數字人驅動技術取得了顯著進展,但其在電影制作領域的應用仍面臨諸多挑戰,在一定程度上阻礙了該技術在電影制作全流程中的推廣。例如,當前的人體動作數據在數量上難以滿足生成式數字人驅動技術的需求,且生成的人體動作在復雜場景下的適應性還有待提升。為應對這些挑戰,本文提出的基于擴散模型的數字人驅動生成系統通過算法優化與模型架構改進,實現了2.28的FID值和0.35的文本匹配度,在有效提升動作生成質量和效率的同時,也為用戶提供更為豐富的動作數據資源。展望未來,隨著AIGC技術的持續突破與創新,數字人驅動技術將在電影制作領域釋放更大潛能,不僅能顯著提升創作生產效率、優化制作成本,更能為電影藝術創作開辟全新的表達維度和創意空間,推動電影藝術形式的革新與突破。
參考文獻
(向下滑動閱讀)
[1] 晏軼超,程宇豪,陳琢,等.基于神經網絡的生成式三維數字人研究綜述:表示、渲染與學習[J].中國科學:信息科學,2023,53(10):1858?1891.
[2] 王之若,楊云添.AIGC賦能電影虛擬角色的影像生產力——基于計算機圖形技術的考察[J].中國電影市場,2025(01):47?54.
[3] ATHANASIOU N, PETROVICH M, BLACK M J, et al. Teach: Temporal action composition for 3d humans[C]//2022 International Conference on 3D Vision (3DV). IEEE, 2022: 414?423.
[4] ZHANG M, CAI Z, PAN L, et al. MotionDiffuse: Text?driven human motion generation with diffusion model[EB/OL]. [2025?02?22].https://arxiv.org/abs/2208.15001.
[5] CHEN X, JIANG B, LIU W, et al. Executing your commands via motion diffusion in latent space[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023: 18000?18010.
[6] DABRAL R, MUGHAL M H, GOLYANIK V, et al. MoFusion: A framework for denoising?diffusion?based motion synthesis[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2023: 9760?9770.
[7] ZHANG J, ZHANG Y, CUN X, et al. Generating human motion from textual descriptions with discrete representations[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2023: 14730?14740.
[8] JIANG B, CHEN X, LIU W, et al. MotionGPT: Human motion as a foreign language[J]. Advances in Neural Information Processing Systems, 2023, 36: 20067?20079.
[9] SHAFIR Y, TEVET G, KAPON R, et al. Human motion diffusion as a generative prior[EB/OL]. (2023?03?02) [2025?02?22]. https://arxiv.org/abs/2303.01418.
[10] ATHANASIOU N, CSEKE A, DIOMATARIS M, et al. MotionFix: Text?driven 3d human motion editing[C]//SIGGRAPH Asia 2024 Conference Papers, 2024: 1?11.
[11] BARQUERO G, ESCALERA S, PALMERO C. Seamless human motion composition with blended positional encodings[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 457?469.
[12] GUO C, MU Y, JAVED M G, et al. MoMask: Generative masked modeling of 3d human motions[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 1900?1910.
[13] PINYOANUNTAPONG E, WANG P, LEE M, et al. MMM: Generative masked motion model[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 1546?1555.
[14] TSENG J, CASTELLON R, LIU K. EDGE: Editable dance generation from music[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023: 448?458.
[15] LIU H, ZHU Z, BECHERINI G, et al. EMAGE: Towards Unified Holistic Co?Speech Gesture Generation via Expressive Masked Audio Gesture Modeling[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 1144?1154.
[16] WANG Z, CHEN Y, JIA B, et al. Move as You Say Interact as You Can: Language?guided Human Motion Generation with Scene Affordance[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 433?444.
[17] JIANG N, ZHANG Z, LI H, et al. Scaling up dynamic human?scene interaction modeling[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 1737?1747.
[18] AHUJA C,MORENCY L P.Language2pose:Natural language grounded pose forecasting[C]//2019 International Conference on 3D Vision (3DV).IEEE, 2019: 719?728.
[19] Lee H Y, Yang X, Liu M Y, et al. Dancing to music[C]// Advances in Neural Information Processing Systems 32 (NeurIPS 2019) . Vancouver, Canada: NeurIPS, 2020.
[20] Zhang M, Liu C, Chen Y, et al. Music?to?dance generation with multiple conformer[C]//Proceedings of the 2022 International Conference on Multimedia Retrieval, 2022: 34?38.
[21] LI S, YU W, GU T, et al. Bailando: 3d dance generation by actor?critic gpt with choreographic memory[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022: 11050?11059.
[22] SUN J, WANG C, HU H, et al. You never stop dancing: Non?freezing dance generation via bank?constrained manifold projection[J]. Advancesin Neural Information Processing Systems, 2022, 35: 9995?10007.
[23] ARISTIDOU A, YIANNAKIDIS A, ABERMAN K, et al. Rhythm is a dancer: Music?driven motion synthesis with global structure[J]. IEEE Transactions on Visualization and Computer Graphics, 2022, 29(8): 3519?3534.
[24] LI H, YU H X, LI J, et al. ZeroHSI: Zero?Shot 4D Human?Scene Interaction by Video Generation[EB/OL]. [2025?02?22].https://arxiv.org/abs/2412.18600.
[25] XU L, ZHOU Y, YAN Y, et al. ReGenNet: Towards Human Action?Reaction Synthesis[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 1759?1769.
[26] ZHANG M, JIN D, GU C, et al. Large motion model for unified multi?modal motion generation[C]//European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2024: 397?421.
[27] JI X, PAN Z, GAO X, et al. Text?Guided Synthesis of Crowd Animation[C]//ACM SIGGRAPH 2024 Conference Papers, 2024: 1?11.
[28] 賈文婷,崔越. 從《哪吒2》看“中國風”的全球表達[EB/OL].(2025?02?18) [2025?02?22]. http://world.people.com.cn/n1/2025/0218/c1002-40420749.html.
[29] 邢鄭,孫娜. 機器人秧歌“搭子”、“如意變化” 揭秘春晚彩蛋[EB/OL].(2025?01?30) [2025?02?22]. http://kpzg.people.com.cn/n1/2025/0130/c404214-40410871.html.
[30] RAMESH A, DHARIWAL P, NICHOL A, et al. Hierarchical text?conditional image generation with clip latents[EB/OL]. [2025?02?22].https://arxiv.org/abs/2204.06125.
[31] XU Z, WANG L, WANG J, et al. FilmAgent: A Multi?Agent Framework for En d?to?End Film Automation in Virtual 3D Spaces[EB/OL]. [2025?02?22].https://arxiv.org/abs/2501.12909.
[32] Melies[EB/OL].[2025?04?02]. https://www.aitoolnet.com/zh/melies.
[33] FasterLivePortrait-實時讓肖像動起來!支持onnx/tensorrt[EB/OL].[2025?04?02]. https://www.aibase.com/zh/tool/31754.
[34] GUO J, ZHANG D, LIU X, et al. LivePortrait: Efficient portrait animation with stitching and retargeting control[EB/OL]. [2025?02?22]. https://arxiv.org/abs/2407.03168.
【基金項目】國家自然科學基金青年科學基金項目“有限標注下的室內三維場景感知與編輯關鍵方法研究”( 62402306);上海市“科技創新行動計劃”自然科學基金項目“復雜室內三維場景細粒度感知關鍵方法研究”(24ZR1422400)。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.