人工智能驅動的動作編輯,是指利用 AI 技術對已有人物動作數據進行針對性修改,而無需重新捕捉或手工制作完整動作序列。該技術使創作者能夠在保留原始動作語義的基礎上,通過文本指令快速調整特定身體部位的動作、更改動作風格或控制動作幅度,大幅提高了內容創作的效率。然而,當前基于文本的動作編輯方法普遍依賴固定的訓練三元組(原始動作、修改后動作、文本指令),難以泛化到新穎的組合,同時生成的動作往往存在“機器人感”,表現為銜接生硬與肢體不協調。為此,本文提出MotionReFit 框架,利用在線數據增強突破訓練數據限制,并引入動作協調器引導擴散模型生成自然流暢的動作,從而在泛化能力和動作真實感上實現顯著提升,使 AI 動作編輯更貼近實際應用需求。
論文標題: Dynamic Motion Blending for Versatile Motion Editing 論文鏈接: https://arxiv.org/abs/2503.20724 項目主頁: https://awfuact.github.io/motionrefit/

一、概述
人工智能驅動的動作編輯是指通過 AI 技術對已有的人物動作數據進行有針對性的修改和調整,而不必重新捕捉或制作整個動作序列。這項技術允許創作者保留原始動作所具有的含義,同時根據需要做特定身體部位動作的替換、改變整體風格(如將正常走路變為疲憊的走路),和調整動作幅度等。在傳統動畫制作流程中,這類編輯需要專業動畫師手動逐幀調整,耗時且技術要求高。而人工智能驅動的動作編輯則可以通過自然語言指令實現快速、直觀的修改,極大提高了內容創作效率。
目前基于AI的文本引導動作編輯技術雖然取得了一定進展,但仍面臨很多尚未解決的問題。首先,現有方法只能處理訓練中見過的固定模式,需要成對的"原始動作-修改后動作-修改文本指令"三元組用于訓練模型,無法應對訓練中未見過的新的組合,缺乏在更廣泛場景的應用潛力。其次,編輯后的動作也常常出現不自然的"機器人感"——動作之間的銜接生硬,身體各部位之間缺乏協調。
針對這些挑戰,我們設計了 MotionReFit 框架,首先通過 在線數據增強技術合成大量訓練數據,突破了之前的方法對訓練集中有限的三元組的依賴;然后通過專門的動作協調器引導擴散模型生成自然連貫的動作。我們的方法不僅提高了模型對新指令和動作組合的泛化能力,還顯著增強了編輯后動作的協調性和真實感,使 AI 驅動的動作編輯技術更接近實際應用需求。
二、研究方法 2.1 MotionCutMix
為了解決動作編輯模型依賴大量標注數據的限制,我們提出了 MotionCutMix 在線數據增強技術。MotionCutMix 通過身體部位動作組的合方式,利用未標注的大型動作數據和少量的文本-動作數據對合成新的訓練樣本。具體而言,該方法隨機選擇源動作和目標動作,然后使用軟掩碼機制進行動作混合,生成原始動作-編輯動作-指令的合成三元組。軟掩碼機制在硬掩碼的基礎上,增加了過渡關節的平滑插值,有效消除了動作部位之間組合不自然的問題。這種動態數據增強策略顯著擴展了訓練分布,使模型能夠從有限的標注數據中學習更廣泛的編輯模式,在語義編輯(如身體部位替換)和風格編輯(如情緒變化)任務中均顯著提高了方法的表現。實驗證明,即使僅使用10%的標注數據,配合 MotionCutMix 訓練的模型仍能保持接近全數據訓練的性能。
圖2:MotionCutMix通過隨機融合多個部位的動作,實現大規模的數據增強 2.2 MotionReFit
我們提出了 MotionReFit,一個自回歸的條件擴散生成模型。MotionReFit 采用滑動窗口機制,將長序列源動作分解為固定長度的片段逐一處理,每次生成時保留前兩幀作為上下文信息,確保動作編輯的時間連續性。這種自回歸設計的另一優勢為有效簡化了學習空間,同時使模型能夠處理任意長度的動作序列。為應對動作合成可能帶來的身體部位協調性問題,我們引入了動作協調器組件,該組件是一個經過特殊訓練的判別器,能夠識別動作片段是否為人工合成。在擴散采樣的最后階段,動作協調器通過分類器引導機制,自動調整生成的動作以確保肢體間的協調性,避免出現走路順拐等不自然現象。此外,MotionReFit 還整合了多種條件信息,包括文本指令的 CLIP 編碼、擴散時間步和序列進度指示器,使模型能夠精確遵循用戶指令并生成流暢自然的編輯動作。
圖3. MotionReFit基于自回歸的條件擴散生成模型,進行可控動作編輯 2.3 STANCE數據集
為支持多樣化的動作編輯任務,我們開發了 STANCE (Style Transfer, Fine-Grained Adjustment, and Body Part Replacement) 數據集,涵蓋了三類常見的動作編輯需求:
身體部位替換任務關注對特定身體部位動作的精確修改,例如"將右手揮動改為擺動"或"將雙腿動作從走路改為跑步"。為構建這部分數據,我們標注了13,000個動作序列。每個序列標注了精確的身體部位掩碼(如頭部、軀干、四肢等)以及相應的動作描述。
動作風格轉換任務的目標為保留動作含義的同時改變其表現風格,如將"正常走路改為疲憊走路"或"平靜手勢變為憤怒手勢"。為構建訓練數據,我們邀請了經驗豐富的動作捕捉演員演繹同一動作的不同情緒和風格變體,總計收集了約2小時的風格化動作捕捉數據,涵蓋喜悅、悲傷、疲憊等多種動作風格。
細粒度動作調整任務關注更微妙的動作特性修改,如動作的幅度、力度等,例如"走得更快"或"揮手幅度更大"。為此,我們構建了4500個動作對與編輯描述的三元組,并利用大型語言模型輔助生成自然語言描述,隨后由人類專家審核確保質量。
這一綜合數據集通過系統性地覆蓋從局部到整體、從顯式到隱晦的各類動作編輯需求,為動作編輯研究提供了豐富的訓練和評估資源。數據集的多樣性和高質量標注也為模型學習更自然、更符合人類理解能力的動作編輯能力奠定了基礎。
圖4:STANCE動作編輯數據集 三、實驗結果與研究意義
實驗結果表明,MotionReFit 在保持動作自然度的同時,能夠準確執行各類編輯指令。與現有方法相比,該框架在多個評估指標上取得了顯著提升。在身體部位替換任務中,模型展現出更低的 FID(衡量生成質量的指標)和更高的編輯準確性;在風格轉換任務上,系統性能提升更為明顯,無論是動作質量還是編輯精確度都實現了大幅飛躍。值得注意的是,即使在有限數據場景下,MotionReFit 仍然保持了較高性能,這有力證明了 MotionCutMix 訓練技術的有效性和適應性,為低資源環境下的動作編輯技術應用提供了可能。
圖5-7:多種類型的動作編輯結果展示 四、總結
本文提出了一個僅通過原始動作和文本指令實現動作編輯的框架,開發了顯著提高模型泛化能力和數據利用效率的 MotionCutMix 動作數據增強技術,構建了為動作編輯研究提供豐富資源的 STANCE 數據集,實現了空間和時間編輯能力的統一。我們計劃在未來工作中進一步提高模型的時空理解能力,以處理更復雜的動作序列和編輯指令,并引入基于物理的約束確保動作的物理合理性。
作者:蔣楠 來源: 公眾號【北京大學人工智能研究院】
llustration From IconScout By IconScout Store
-The End-
掃碼觀看!
本周上新!
“AI技術流”原創投稿計劃
TechBeat是由將門創投建立的AI學習社區(www.techbeat.net)。社區上線600+期talk視頻,3000+篇技術干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平臺,希望為AI人才打造更專業的服務和體驗,加速并陪伴其成長。
投稿內容
// 最新技術解讀/系統性知識分享 //
// 前沿資訊解說/心得經歷講述 //
投稿須知
稿件需要為原創文章,并標明作者信息。
我們會選擇部分在深度技術解析及科研心得方向,對用戶啟發更大的文章,做原創性內容獎勵
投稿方式
發送郵件到
melodybai@thejiangmen.com
或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關注“將門創投”公眾號,后臺回復“投稿”二字,獲得投稿說明。
關于我“門”
將門是一家以專注于數智核心科技領域的新型創投機構,也是北京市標桿型孵化器。 公司致力于通過連接技術與商業,發掘和培育具有全球影響力的科技創新企業,推動企業創新發展與產業升級。
將門成立于2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。
如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投后服務,歡迎發送或者推薦項目給我“門”:
bp@thejiangmen.com
點擊右上角,把文章分享到朋友圈
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.