要說(shuō)還得是人家大廠,日常持續(xù)性疊buff點(diǎn)技能點(diǎn),還動(dòng)不動(dòng)給你發(fā)個(gè)大招兒,讓你頂禮膜拜一下。
比如… NVIDIA,最近又推出了新模型- GENMO:一個(gè)通用的人體運(yùn)動(dòng)模型,能夠通過(guò)單一模型處理多項(xiàng)任務(wù),支持包括視頻、關(guān)鍵點(diǎn)、文本、音頻和3D關(guān)鍵幀在內(nèi)的多樣化條件輸入。
傳統(tǒng)人類(lèi)動(dòng)作建模,是將動(dòng)作生成與動(dòng)作估計(jì)拆分為兩個(gè)獨(dú)立任務(wù)來(lái)進(jìn)行分別處理。
動(dòng)作生成模型專(zhuān)注于從文本、音頻或關(guān)鍵幀等輸入中生成動(dòng)作,比如輸入“跳舞”就能生成各種舞步,但不知道這些動(dòng)作在現(xiàn)實(shí)中如何被攝像頭捕捉;而動(dòng)作估計(jì)模型,專(zhuān)門(mén)通過(guò)視頻等觀測(cè)數(shù)據(jù)反推人體動(dòng)作,能分析出人物行走軌跡,但無(wú)法主動(dòng)創(chuàng)造新的動(dòng)作;盡管可能在時(shí)間動(dòng)態(tài)和運(yùn)動(dòng)學(xué)方面有著共同的基礎(chǔ)特征,但由于二者之間存在割裂狀況,實(shí)際上阻礙了不同任務(wù)間知識(shí)的有效遷移。
于是NVIDIA團(tuán)隊(duì)推出了新模型GENMO,這是首個(gè)能夠統(tǒng)一處理人類(lèi)動(dòng)作的通用模型。把動(dòng)作估計(jì)和生成這兩個(gè)原本分開(kāi)的任務(wù),整合到了一個(gè)框架中。
GENMO的核心想法,是將動(dòng)作估計(jì),重新看作是一個(gè)受約束的動(dòng)作生成問(wèn)題,再通過(guò)結(jié)合回歸方法和擴(kuò)散模型的優(yōu)勢(shì),實(shí)現(xiàn)精準(zhǔn)全局動(dòng)作估計(jì),這樣一來(lái)既能精準(zhǔn)地還原真實(shí)動(dòng)作,又能生成多種多樣的合理動(dòng)作,不會(huì)顯得呆板或重復(fù)。
此外,模型架構(gòu)還支持處理不同長(zhǎng)度的動(dòng)作序列,接收如文本、音頻、視頻等多種類(lèi)型的輸入;以及在動(dòng)作生成過(guò)程中,允許對(duì)不同的時(shí)間段進(jìn)行控制。
GENMO看得懂視頻、聽(tīng)的懂音樂(lè)節(jié)奏、讀得懂文字描述…簡(jiǎn)單來(lái)說(shuō),它可以根據(jù)不同的輸入條件,一步步生成連貫的人類(lèi)動(dòng)作。到底有多牛掰?這就帶大家來(lái)一起看下,以下所有結(jié)果均由單一統(tǒng)一模型生成。
從一段視頻開(kāi)始,GENMO能夠理解視頻中人物的動(dòng)作,根據(jù)接下來(lái)提供的文字描述繼續(xù)生成新的動(dòng)作,最后還能根據(jù)另一段視頻來(lái)結(jié)束或調(diào)整動(dòng)作,實(shí)現(xiàn)一系列完整動(dòng)作。
在生成動(dòng)作的過(guò)程中,用戶(hù)可以靈活使用不同的方式來(lái)控制和調(diào)整動(dòng)作。不僅可以通過(guò)輸入文字指令,告訴模型接下來(lái)的動(dòng)作,還可以直接給出具體的動(dòng)作姿態(tài)/位置(3D關(guān)鍵幀),GENMO會(huì)基于這些關(guān)鍵幀來(lái)生成連貫的動(dòng)作。
無(wú)論你想從哪種動(dòng)作狀態(tài)開(kāi)始,只需要提供相應(yīng)的視頻作為輸入,GENMO就能基于新的起始點(diǎn)繼續(xù)生成接下來(lái)的動(dòng)作,還可以根據(jù)需要調(diào)整和定制動(dòng)作生成的新起點(diǎn)。
還可以讓GENMO先模仿視頻中人物動(dòng)作、再根據(jù)文本描述自行發(fā)揮、之后跟著音樂(lè)節(jié)奏舞起來(lái),最后再回歸視頻模仿;結(jié)果大家看到了,無(wú)縫銜接,絲滑順暢!
可以在不同時(shí)間段輸入不同的文字描述,模型會(huì)根據(jù)這些文字提示,在對(duì)應(yīng)的時(shí)間段里自動(dòng)生成符合描述的動(dòng)作,并將這些動(dòng)作連貫起來(lái),形成一個(gè)流暢的動(dòng)作視頻。
稍微上難度,同時(shí)輸入多個(gè)文字指令,GENMO完全沒(méi)在怕的,順利依次完成相應(yīng)動(dòng)作。
尤其擅長(zhǎng)處理現(xiàn)實(shí)中各種復(fù)雜場(chǎng)景下的人體動(dòng)作,即便是在復(fù)雜、真實(shí)的自然環(huán)境中,GENMO也能構(gòu)準(zhǔn)確地“看懂”人體是怎么運(yùn)動(dòng)的,且相比其他方法更加準(zhǔn)確。
如果你手頭有兩段視頻,只需要給GENMO提供簡(jiǎn)單的文字提示,它就能自動(dòng)在兩段視頻間生成平滑、自然的過(guò)渡動(dòng)作,將兩段視頻巧妙地連成一段。
GENMO非常靈活,就算是使用相同的文字指令,如果輸入的視頻不同,它也能根據(jù)不同的初始狀態(tài)、結(jié)合文字提示,生成最適合,最自然的動(dòng)作。
現(xiàn)有的方法,大多只能生成固定時(shí)長(zhǎng)的動(dòng)作,如果想要生成更長(zhǎng)的動(dòng)作,則需要多個(gè)片段拼接起來(lái)。GENMO就不需要這么麻煩,你只要給他一個(gè)指令,它就能還你一個(gè)完整動(dòng)作過(guò)程,不限市場(chǎng),自然流暢,不需要額外再做調(diào)整或拼接。
比如下面這個(gè)“一個(gè)人像猴子一樣表演”,GENMO一口氣生成了80秒的視頻,動(dòng)作也是惟妙惟肖。
想象你在做一個(gè)動(dòng)畫(huà)項(xiàng)目,手頭有一些視頻片段、還有一些具體的動(dòng)作描述。原本需要幾個(gè)模型來(lái)同時(shí)處理各項(xiàng)工作,現(xiàn)在有了GENMO,你只需把視頻片段和文字指令交替輸入,它就能根據(jù)這些信息,自動(dòng)將片段和指令編織成一個(gè)完整且流暢的動(dòng)作序列。
無(wú)論是幾秒還是長(zhǎng)達(dá)幾分鐘,它總能滿(mǎn)足你的要求,且所有動(dòng)作之間過(guò)渡自然。
這么看來(lái),這是一言不合就把動(dòng)作捕捉和動(dòng)作生成流程合二為一了啊。
簡(jiǎn)單的介紹就到這里,想要更深入了解的小伙伴們,貼心的編編還給你們扒到了論文,有興趣的寶子們可以繼續(xù)沉浸式閱讀:
相關(guān)工作
人體動(dòng)作生成
近年來(lái),人體動(dòng)作生成技術(shù)取得了顯著進(jìn)展,研究人員利用各種條件信號(hào)來(lái)驅(qū)動(dòng)動(dòng)作生成,一些最新研究開(kāi)始嘗試融合多模態(tài)輸入,但大多方法只專(zhuān)注生成任務(wù),不支持動(dòng)作估計(jì)。
反觀GENMO,同時(shí)支持動(dòng)作生成和動(dòng)作估計(jì)任務(wù),能?chē)?yán)格復(fù)現(xiàn)視頻中的動(dòng)作細(xì)節(jié);創(chuàng)新性采用擴(kuò)散模型架構(gòu),無(wú)需復(fù)雜后處理即可一次性生成任意時(shí)長(zhǎng)的多模態(tài)控制動(dòng)作;同時(shí)另辟蹊徑,直接利用帶2D標(biāo)注的自然場(chǎng)景視頻進(jìn)行訓(xùn)練,既減少對(duì)噪聲數(shù)據(jù)的依賴(lài),又增強(qiáng)了模型的魯棒性和生成多樣性。
人體動(dòng)作估計(jì)
傳統(tǒng)從單張圖像或視頻中估計(jì)人體姿態(tài)的方法,常依賴(lài)生成模型的動(dòng)作先驗(yàn)或SLAM(同步定位與建圖)技術(shù)來(lái)約束人體和相機(jī)的相對(duì)運(yùn)動(dòng)。而GENMO,將動(dòng)作估計(jì)與生成統(tǒng)一到擴(kuò)散模型框架中,通過(guò)共享動(dòng)作表征和生成先驗(yàn),在訓(xùn)練時(shí)就讓模型學(xué)會(huì)輸出更合理的估計(jì)結(jié)果。
人類(lèi)動(dòng)作通用模型
GENMO通過(guò)將動(dòng)作估計(jì)與生成,統(tǒng)一視為"條件約束下的動(dòng)作生成"問(wèn)題,實(shí)現(xiàn)了兩項(xiàng)任務(wù)的統(tǒng)一。能根據(jù)多模態(tài)輸入(視頻、音樂(lè)、文本、2D骨架等),生成任意時(shí)長(zhǎng)的動(dòng)作序列,并通過(guò)條件掩碼靈活控制各模態(tài)的影響范圍,以適應(yīng)各種應(yīng)用場(chǎng)景。
統(tǒng)一的架構(gòu)設(shè)計(jì)
傳統(tǒng)方法采用"自我中心"坐標(biāo)系(類(lèi)似第一人稱(chēng)視角)或相機(jī)坐標(biāo)系,但各有局限。GENMO創(chuàng)新性地融合兩種坐標(biāo)系:重力視角坐標(biāo)系記錄人體全局運(yùn)動(dòng)軌跡、局部運(yùn)動(dòng)參數(shù)采用SMPL人體模型的關(guān)節(jié)角度、身體形態(tài)等細(xì)節(jié)、相機(jī)參數(shù)同步記錄相機(jī)位姿變化;既能保持生成動(dòng)作的自然性,又能精準(zhǔn)對(duì)齊視頻觀測(cè)數(shù)據(jù)。
GENMO模型核心是一個(gè)能處理多模態(tài)條件的擴(kuò)散模型架構(gòu),包括三大創(chuàng)新模塊:
1.融合模塊:將噪聲動(dòng)作與視頻/音樂(lè)特征等各種條件融合為統(tǒng)一表示
2.多文本注入模塊:通過(guò)特殊設(shè)計(jì)的注意力機(jī)制,讓多個(gè)文本提示在指定時(shí)間段生效。且每個(gè)文本對(duì)應(yīng)一個(gè)時(shí)間窗口。避免不同提示相互干擾;使用遮罩控制文本影響范圍,保證動(dòng)作過(guò)渡自然。
3.RoPE變換器:采用相對(duì)位置編碼技術(shù),支持在一次擴(kuò)散前向傳播中直接生成任意長(zhǎng)度的動(dòng)作序列,以及在不同時(shí)間段加入多個(gè)文本提示。
雙模式訓(xùn)練
傳統(tǒng)擴(kuò)散模型在生成(多樣性)和估計(jì)(準(zhǔn)確性)間存在矛盾。而GENMO開(kāi)創(chuàng)性地提出雙模式訓(xùn)練策略:
模式1 估計(jì)模式
輸入:純高斯噪聲 ,并設(shè)定最大的擴(kuò)散步數(shù)
目標(biāo):像傳統(tǒng)回歸模型一樣輸出最準(zhǔn)確動(dòng)作
增強(qiáng)手段:
加入物理約束(如接觸檢測(cè))保證動(dòng)作合理性
使用2D投影損失(Projection Loss),即使只有平面標(biāo)注也能訓(xùn)練
模式2 生成模式
輸入:帶噪聲的動(dòng)作 +,設(shè)定隨機(jī)擴(kuò)散步數(shù)
目標(biāo):學(xué)習(xí)多樣化的動(dòng)作分布
創(chuàng)新策略:
用估計(jì)模式生成的動(dòng)作為基礎(chǔ),添加噪聲后重新去噪
結(jié)合2D標(biāo)注數(shù)據(jù)增強(qiáng)生成多樣性
智能模式切換
當(dāng)輸入確定性信號(hào)(如視頻)時(shí),同時(shí)啟用兩種模式訓(xùn)練
當(dāng)輸入抽象信號(hào)(如文本)時(shí),僅用生成模式
實(shí)驗(yàn)
團(tuán)隊(duì)通過(guò)視頻驅(qū)動(dòng)動(dòng)作估計(jì)、音樂(lè)生成舞蹈、文本生成動(dòng)作以及動(dòng)作補(bǔ)間等四項(xiàng)不同任務(wù),全面驗(yàn)證了GENMO的性能;所有實(shí)驗(yàn)均使用同一個(gè)GENMO模型(除非特別說(shuō)明),展現(xiàn)其"一專(zhuān)多能"的特性。
訓(xùn)練數(shù)據(jù)融合多領(lǐng)域數(shù)據(jù)集:
專(zhuān)業(yè)動(dòng)捕數(shù)據(jù)(AMASS)
動(dòng)作估計(jì)數(shù)據(jù)集(BEDLAM、Human3.6M)
音樂(lè)舞蹈配對(duì)數(shù)據(jù)(AIST++)
文本-動(dòng)作配對(duì)數(shù)據(jù)(HumanML3D)
帶2D標(biāo)注的野生視頻(Motion-X)
評(píng)估指標(biāo):
音樂(lè)舞蹈:動(dòng)作多樣性(Diversity)、音樂(lè)匹配度(BAS)
文本生成:文本相關(guān)性(R-Precision)、動(dòng)作逼真度(FID)
動(dòng)作估計(jì):關(guān)節(jié)誤差(MPJPE)、平滑度(Accel)
長(zhǎng)序列穩(wěn)定性:累計(jì)軌跡誤差(RTE)、足部滑動(dòng)(FS)
全局動(dòng)作估計(jì):
團(tuán)隊(duì)把GENMO和當(dāng)前最先進(jìn)的SOTA方法進(jìn)行了比較,目標(biāo)是同時(shí)估計(jì)人體運(yùn)動(dòng)和攝像機(jī)的運(yùn)動(dòng)。由于不同方法在推理時(shí)使用了不同的SLAM技術(shù),為了公平起見(jiàn),團(tuán)隊(duì)同時(shí)報(bào)告了使用數(shù)據(jù)集中真實(shí)攝像機(jī)參數(shù)的結(jié)果。
可以看到,GENMO采用統(tǒng)一動(dòng)作生成與估計(jì)框架,通過(guò)生成先驗(yàn)知識(shí)提升了動(dòng)作重建的質(zhì)量,在EMDB和RICH兩個(gè)數(shù)據(jù)集上,表現(xiàn)均優(yōu)于其他現(xiàn)有方法。
尤其是在動(dòng)態(tài)攝像機(jī)新場(chǎng)景下表現(xiàn)突出,即使與使用相同底層技術(shù)的方法相比,仍能通過(guò)算法設(shè)計(jì)優(yōu)勢(shì)取得更好的結(jié)果。
動(dòng)作生成任務(wù)表現(xiàn)
音樂(lè)驅(qū)動(dòng)舞蹈
團(tuán)隊(duì)在AIST++數(shù)據(jù)集上評(píng)估音樂(lè)驅(qū)動(dòng)舞蹈生成的效果,將GENMO與當(dāng)前最先進(jìn)的方法進(jìn)行比較,并與一個(gè)專(zhuān)門(mén)訓(xùn)練在AIST++上的模型變體進(jìn)行對(duì)比(該變體只專(zhuān)注于音樂(lè)到舞蹈的人物)。
作為一個(gè)在多個(gè)動(dòng)作估計(jì)和生成任務(wù)上聯(lián)合訓(xùn)練出來(lái)的“通用模型”,GENMO在動(dòng)作多樣性、動(dòng)作合理性以及音樂(lè)節(jié)奏匹配度方面都展現(xiàn)出了顯著優(yōu)勢(shì)。
文本生成動(dòng)作
團(tuán)隊(duì)在HumanML3D數(shù)據(jù)集和Motion-X數(shù)據(jù)集上評(píng)估GENMO的文本驅(qū)動(dòng)生成能力。
結(jié)果顯示,GENMO在這兩個(gè)數(shù)據(jù)集上都生成了更高質(zhì)量、更貼合輸入文本描述的動(dòng)作;為了評(píng)估2D數(shù)據(jù)的訓(xùn)練效果,團(tuán)隊(duì)還測(cè)試了一個(gè)不適用Motion-X中2D數(shù)據(jù)訓(xùn)練的模型,對(duì)比發(fā)現(xiàn)使用2D數(shù)據(jù)訓(xùn)練后,生成的動(dòng)作更加自然、準(zhǔn)確。
由于GENMO使用SMPL人體模型(而其他方法采用特定骨架),在HumanML3D指標(biāo)上存在先天劣勢(shì),若統(tǒng)一評(píng)估標(biāo)準(zhǔn),GENMO的實(shí)際視覺(jué)效果更優(yōu)。
消融實(shí)驗(yàn)(Ablation Study)
估計(jì)模式作用
為了驗(yàn)證“估計(jì)模式”是否有效,團(tuán)隊(duì)訓(xùn)練了一個(gè)只使用生成模式的模型變體“Diffusion-only”,在RICH和EMDB數(shù)據(jù)集上,對(duì)全局人體動(dòng)作估計(jì)進(jìn)行了定量比較(沒(méi)有使用任何后處理來(lái)修正靜態(tài)關(guān)節(jié))。
結(jié)果顯示,去掉估計(jì)目標(biāo)后,模型在全局動(dòng)作估計(jì)任務(wù)上的表現(xiàn)明顯下降。
生成模式作用
將統(tǒng)一模型GENMO與只使用了估計(jì)模式進(jìn)行訓(xùn)練的純回歸模型進(jìn)行對(duì)比,結(jié)果顯示統(tǒng)一模型表現(xiàn)更優(yōu)。這表明,引入生成先驗(yàn)知識(shí)(generative prior)可以顯著提升動(dòng)作估計(jì)的質(zhì)量。
不同推理步數(shù)影響
同時(shí)團(tuán)隊(duì)還使用了標(biāo)準(zhǔn)的DDIM流程,測(cè)試了不同去噪部署對(duì)動(dòng)作生成和估計(jì)性能的影響。
可以看到在不同去噪步數(shù)下,動(dòng)作估計(jì)的性能相對(duì)穩(wěn)定變化不大;相較而言文本到動(dòng)作生成則對(duì)步數(shù)更敏感(FID越小表示生成質(zhì)量越高)。
特別值得注意的是,單步去噪已經(jīng)能生成與視頻一致的動(dòng)作,使用適當(dāng)數(shù)量的推理步數(shù)(如5步),可以在動(dòng)作質(zhì)量和一致性之間取得最好平衡。
總結(jié)
GENMO作為首個(gè)用于人體動(dòng)作建模的通用框架,成功打通了動(dòng)作生成與估計(jì)的壁壘。通過(guò)共享動(dòng)作表征與雙模式訓(xùn)練,實(shí)現(xiàn)了兩大突破:
雙向增益:生成模型的動(dòng)作知識(shí),讓復(fù)雜場(chǎng)景下的動(dòng)作估計(jì)更準(zhǔn)確;多樣化視頻數(shù)據(jù),則讓生成動(dòng)作更豐富自然
靈活控制:支持視頻、音樂(lè)、文本、關(guān)鍵幀等多模態(tài)輸入混合控制,可一鍵生成任意時(shí)長(zhǎng)動(dòng)作。
大量實(shí)驗(yàn)表明,GENMO不僅能在一個(gè)統(tǒng)一框架內(nèi)處理多種人體動(dòng)作任務(wù),而且表現(xiàn)還超越了許多專(zhuān)用模型,降低了對(duì)昂貴動(dòng)捕數(shù)據(jù)的依賴(lài)。
當(dāng)然,作為一個(gè)新鮮出爐的模型,GENMO同樣具有一定的局限性:目前還依賴(lài)于現(xiàn)成的SLAM方法來(lái)獲取視頻中的攝像機(jī)參數(shù),且短時(shí)間內(nèi)只支持全身動(dòng)作建模;未來(lái)團(tuán)隊(duì)考慮將攝像機(jī)估計(jì)集成進(jìn)GENMO中,并計(jì)劃擴(kuò)展模型來(lái)支持面部表情和手部細(xì)節(jié)動(dòng)作。
end
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.