人體姿態分析正如一把鑰匙,正在解鎖人機交互的嶄新境界。從游戲玩家沉浸式體驗到智能安防無死角監控,從運動員精準訓練到零售店鋪智能布局,這項技術正悄然改變我們的生活方式。隨著深度學習技術的飛速發展,姿態捕捉的精準度已達前所未有的高度,使基于姿態的應用從概念走向現實。本文將帶您深入探索這一領域的三大核心任務:姿態估計、姿態跟蹤和動作識別,揭示它們之間的內在聯系,剖析各類方法的優勢與局限,并展望未來發展方向,為您揭開人體姿態分析世界的神秘面紗。
姿態解碼術
姿態估計技術是計算機視覺領域中的一項關鍵任務,目標是從圖像或視頻中識別出人體關鍵點的位置。隨著深度學習的發展,這一技術已經取得了顯著進步。目前,姿態估計方法主要分為二維和三維兩大類,而每一類又可以根據處理對象分為單人和多人姿態估計。
在二維單人姿態估計中,有兩種主流方法:基于回歸和基于熱圖的方法。基于回歸的方法直接從圖像特征預測關鍵點坐標,代表作品DeepPose將姿態估計定義為卷積神經網絡回歸任務,通過級聯回歸器逐步優化姿態估計結果。這種方法具有速度快的優勢,但在精度上常常不如基于熱圖的方法。
基于熱圖的方法則先生成熱圖,再基于熱圖推斷關鍵點位置。Stacked Hourglass Network(SHN)通過一系列的下采樣和上采樣步驟,生成最終的預測結果,顯示出極高的有效性。這類方法可以明確學習空間信息,生成熱圖概率,從而實現更高的精度。不過,它們也面臨著量化誤差問題,這是由將連續坐標值映射到離散下采樣熱圖而導致的。
隨著技術的進步,一些研究者嘗試結合兩種方法的優勢。例如,DistilPose提出通過令牌蒸餾編碼器和模擬熱圖,將基于熱圖的知識從教師模型轉移到基于回歸的學生模型。
當我們將目光轉向多人姿態估計時,問題變得更加復雜。多人姿態估計必須處理全局(人類級別)和局部(關鍵點級別)依賴關系,涉及不同級別的語義粒度。主流解決方案包括自上而下和自下而上兩種框架,以及近年來興起的一階段方法。
自上而下的方法先檢測圖像中的所有人,再對每個檢測到的邊界框應用單人姿態估計技術。這種方法直接利用現有的單人姿態估計技術,但如果人物檢測器失敗,就很難恢復。此外,運行時間與圖像中的人數成正比,人越多,計算成本越高。
相比之下,自下而上的方法先檢測所有身體部位或關鍵點,再將它們與相應的主體關聯。OpenPose通過部位親和力場(PAFs)首次提出自下而上的關聯分數表示,這是一組2D向量場,編碼肢體在圖像域上的位置和方向。這種方法在早期承諾方面更加穩健,并有可能將運行時間復雜度與圖像中的人數解耦。但它們不直接利用來自其他身體部位和個人的全局上下文線索。
一階段方法則旨在開發完全端到端的方法,統一兩個分離的子問題。通過消除自上而下和自下而上方法引入的中間操作(如分組、ROI、邊界框檢測、NMS),一階段方法繞過了兩種方法的主要缺點。GroupPose只使用簡單的transformer解碼器,追求效率,而ED-pose通過實現每個框檢測用一個解碼器并將它們級聯形成端到端框架,使模型收斂更快,更精確且可擴展。
當我們從圖像擴展到視頻序列時,就涉及到視頻中的姿態估計。這比圖像中的姿態估計更具挑戰性,因為人體姿態和前景外觀(如服裝和自遮擋)變化很大。基于處理效率的考慮,視頻中的單人姿態估計方法可分為逐幀方法和基于抽樣幀的方法。
逐幀方法專注于為視頻序列中的每一幀單獨估計姿態,通常通過融合來自連接的連續幀、應用3D時間卷積、使用密集光流和姿態傳播來捕獲時間信息。雖然它們可以從基于圖像的姿態估計中受益,但計算復雜度較高。
基于抽樣幀的方法則旨在根據從選定幀估計的姿態恢復所有姿態。例如,DeciWatch提出了一種新的"采樣-去噪-恢復"管道,統一采樣不到10%的視頻幀進行估計。基于采樣幀估計的姿態通過Transformer架構去噪,其余姿態也通過另一個Transformer網絡恢復。雖然這種方法提高了效率,但也引發了如何獲取樣本幀和恢復姿態的問題。
在三維姿態估計方面,技術路線可分為一階段和兩階段方法。一階段方法直接從圖像推斷3D姿態,不估計2D姿態表示。兩階段方法則先估計2D姿態,再將2D姿態提升到3D姿態。由于2D姿態檢測的可靠性,兩階段方法通常優于一階段方法。
對于圖像中的3D多人姿態估計,同樣存在自上而下、自下而上和一階段三種方法。自上而下的方法依賴可靠的人物檢測和單人方法,但計算成本隨人數增加而增加,且忽略了人際關系度量。自下而上的方法享有線性計算的優勢,但對人類尺度變化敏感。因此,一階段方法在3D圖像/視頻中的多人姿態估計中更受青睞。
軌跡追蹤法
姿態跟蹤旨在從視頻中估計人體姿態并跨幀鏈接這些姿態以獲得多個跟蹤器。它與基于視頻的姿態估計相關,但需要捕獲跨幀估計姿態的關聯,這與基于視頻的姿態估計不同。使用前面介紹過的姿態估計方法,姿態跟蹤的主要任務變成了姿態鏈接。姿態鏈接的基本問題是測量相鄰幀中姿態對之間的相似性,這通常基于時間信息(如光流、時間平滑先驗)和圖像中的外觀信息來測量。
當談到單人姿態跟蹤時,方法可分為后處理方法和集成方法。后處理方法單獨估計每一幀的姿態,然后對不同幀的估計姿態進行相關性分析,以減少不一致并生成平滑結果。趙等人提出了一種迭代方法,結合了馬爾可夫模型,包含兩個子模型分別用于空間解析和時間解析。空間解析用于估計一幀中的候選人體姿態,而時間解析確定隨時間變化最可能的姿態部位位置。
集成方法則在單一框架內統一姿態估計和視覺跟蹤。視覺跟蹤確保姿態的時間一致性,而姿態估計增強了被跟蹤身體部位的準確性。通過結合視覺跟蹤和姿態估計的優勢,集成方法實現了更好的結果。趙等人提出的兩步迭代方法將姿態估計和視覺跟蹤結合到一個統一框架中,相互補償:姿態估計提高視覺跟蹤的準確性,視覺跟蹤結果促進姿態估計。兩個步驟交替進行以獲得最終姿態。
與單人姿態跟蹤不同,多人姿態跟蹤涉及人際互動的測量,這會給跟蹤過程帶來挑戰。跟蹤人數未知,人際互動可能導致遮擋和重疊。與多人姿態估計類似,現有方法可分為自上而下和自下而上兩類。
自上而下的方法首先檢測幀中人體的整體位置和邊界框,然后估計每個人的關鍵點。最后,估計的人體姿態根據不同幀中姿態之間的相似性進行關聯。Girdhar等人提出了一種兩階段方法,用于估計和跟蹤復雜多人視頻中的人體關鍵點。該方法利用Mask R-CNN進行幀級姿態估計,檢測人物管并在預測的管中估計關鍵點,然后執行人物級跟蹤模塊,使用輕量級優化連接隨時間變化的估計關鍵點。
自下而上的方法首先檢測人體關鍵點,然后將關鍵點分組到個體中。Iqbal等人提出了一種方法,在單一公式中聯合建模多人姿態估計和跟蹤。他們用時空圖表示視頻中檢測到的身體關節,通過求解整數線性規劃將圖劃分為子圖,對應于每個人體姿態的可能軌跡。
當前,自上而下的方法在準確性和跟蹤速度上都優于自下而上的方法,因此大多數最先進的方法都遵循自上而下的方法。這主要是因為自上而下的方法通過將復雜任務簡化并改善關鍵點分配的準確性,增強了單幀姿態估計,盡管當人類候選者數量很大時可能會增加計算成本。
在三維姿態跟蹤方面,方法可分為多階段和一階段方法。多階段方法通常涉及2D/3D姿態估計、從2D到3D姿態的提升和3D姿態鏈接等多個步驟。這些任務被視為獨立的子任務。例如,Bridgeman等人進行了獨立的2D姿態檢測,并通過快速貪婪算法關聯不同相機視圖之間的2D姿態檢測。然后使用關聯的姿態生成并跟蹤3D姿態。
一階段方法則旨在訓練單一端到端框架,聯合估計和鏈接3D姿態,這可以將多階段方法中子任務的錯誤傳播回視頻輸入圖像像素。例如,Reddy等人引入了Tessetrack,在單一可學習的端到端框架中聯合推斷空間和時間中的3D姿態重建和關聯。VoxelTrack引入了一種考慮遮擋的多視圖特征融合策略來鏈接姿態,它聯合估計并從多視圖圖像構建的基于3D體素的表示中跟蹤3D姿態。沒有遮擋的情況下,基于來自不同視圖的融合表示,通過二分圖匹配鏈接姿態。
雖然兩種方法在3D多人姿態跟蹤上都取得了良好的性能,但第一種方法獨立解決每個子問題會導致性能下降。2D姿態估計容易受到噪聲的影響,特別是在存在遮擋的情況下;3D估計的準確性取決于2D估計和所有視圖的關聯;遮擋引起的不可靠外觀特征影響3D姿態跟蹤的準確性。因此,近年來第二種方法在3D多人姿態跟蹤中變得更加突出。
總體來看,姿態估計和跟蹤技術通過深度學習取得了顯著進步。自上而下和自下而上的方法各有優缺點,而一階段端到端方法則提供了更加統一的解決方案,避免了中間步驟帶來的誤差傳播。隨著視頻序列中三維多人姿態估計技術的發展,我們能夠更加準確地捕捉人體動作,為各種應用場景提供可靠的技術支持。
動作解讀術
基于姿態的動作識別是計算機視覺領域的重要研究方向,它致力于從人體姿態信息中識別出人的行為動作類型。這項技術可以分為兩大類:基于估計姿態的動作識別和基于骨架的動作識別。前者使用RGB視頻作為輸入,利用從中估計出的姿態進行動作分類;后者則直接使用骨架數據作為輸入,這些骨架數據通常由動作捕捉設備、飛行時間相機或結構光相機等傳感器獲取。
在基于估計姿態的動作識別中,有些方法采用兩階段策略,即先使用現有的姿態估計方法從視頻中生成姿態,再利用姿態特征進行動作識別。P-CNN就是一個典型案例,它提取受人體姿態調節的外觀和光流特征用于動作識別。Mohammadreza團隊則設計了一個身體部位分割網絡來生成姿態,然后將其應用到多流3D-CNN中,整合姿態、光流和RGB視覺信息進行動作識別。
為了避免依賴姿態估計圖中不準確的姿態,劉團隊將姿態估計圖聚合成姿態和熱圖,然后對它們進行演化以實現動作識別。Moon團隊提出了一種算法,整合外觀和預估計的姿態信息進行動作識別。Shah團隊設計了關節運動推理網絡(JMRN),通過在每個視頻幀上運行姿態檢測器后生成的姿態,更好地捕捉關節間的依賴關系。
這類方法將姿態估計和動作識別視為兩個獨立的任務,因此動作識別性能可能受到不準確姿態估計的影響。Duan團隊提出了PoseConv3D,通過現有姿態估計器估計2D姿態并沿時間維度堆疊2D熱圖形成3D熱圖體積,然后通過3D CNN對這些熱圖進行分類識別動作。Sato團隊則提出了一種用戶提示引導的零樣本學習方法,基于目標域無關的關節特征,這些關節特征由現有的多人姿態估計技術預先提取。
另一種思路是聯合解決姿態估計和動作識別任務。Luvizon團隊提出了一個多任務CNN,基于外觀和姿態特征聯合進行靜態圖像的姿態估計和視頻序列的動作識別。考慮到姿態估計和動作識別任務的不同輸出格式,Foo團隊設計了統一姿態序列(UPS)多任務模型,將基于文本的動作標簽和基于坐標的姿態構建成異構輸出格式,以同時處理這兩個任務。
相比之下,基于骨架的動作識別直接利用骨架數據作為輸入,這種數據對光照變化具有魯棒性,且不受相機位置和主體外觀的影響。隨著深度學習技術的發展,基于骨架的動作識別已經從手工特征轉向了基于深度學習的特征。基于不同的深度學習網絡,這類方法可以分為基于CNN、基于RNN、基于GCN和基于Transformer的方法。
基于CNN的方法在骨架序列中更好地捕捉空間信息。它們通常先將骨架序列轉換為偽圖像,其中骨架序列的時空信息被嵌入到顏色和紋理中。Du團隊將關節點的笛卡爾坐標映射到RGB坐標,然后將骨架序列量化為圖像用于特征提取和動作識別。為了減少透視變換導致的關節間遮擋,一些研究者提出將骨架序列的時空信息編碼成三個正交的彩色紋理圖像。
基于RNN的網絡通常用于處理時間序列數據,有效捕捉骨架序列中的時間信息。除了時間信息,空間信息是動作識別的另一個重要線索,但可能被RNN相關網絡忽略。一些方法通過人體的空間劃分解決這個問題。Du團隊提出了層次化RNN,處理五個身體部位的骨架序列進行動作識別。Shahroudy團隊提出了部分感知LSTM(P-LSTM),分別建模身體部位的骨架序列,并基于記憶單元的串聯進行動作分類。
為了更好地關注骨架數據中的關鍵空間信息,一些方法傾向于引入注意力機制。Song團隊提出了使用LSTM的時空注意模型,包括自適應選擇每幀中關鍵關節的空間注意模塊和選擇骨架序列中關鍵幀的時間注意模塊。類似地,Liu團隊提出了循環注意機制,迭代增強注意力的表現,以關注關鍵關節。
基于GCN的方法在骨架動作識別中越來越受歡迎,因為人體骨架天然就是一種圖結構。與基于CNN和RNN的方法相比,基于GCN的方法能更好地捕捉骨架序列中關節之間的關系。根據拓撲(即頂點連接關系)是否在推理過程中動態調整,基于GCN的方法可以分為靜態方法和動態方法。
靜態方法中,GCN的拓撲在推理過程中保持固定。例如,早期應用圖卷積的空間時間GCN(ST-GCN)基于人體結構預定義并固定拓撲。Liu團隊則提出了多尺度圖拓撲應用于GCN,用于建模多范圍關節關系。
動態方法中,GCN的拓撲在推理過程中動態推斷。動作結構圖卷積網絡(AS-GCN)應用A鏈接推斷模塊捕捉特定動作的相關性。雙流自適應GCN(2s-AGCN)和語義引導網絡(SGN)通過自注意機制增強拓撲學習,建模兩個關節之間的相關性。雖然拓撲動態建模有利于推斷關節的內在關系,但可能難以編碼動作的上下文,因為捕獲的拓撲獨立于姿態。因此,一些方法專注于上下文相關的內在拓撲建模。在動態GCN中,所有關節的上下文特征被整合以學習關節之間的關系。通道拓撲優化GCN(CTR-GCN)專注于在不同通道中嵌入關節拓撲,而InfoGCN通過信息瓶頸引入基于注意力的圖卷積,基于學習到的潛在表示捕捉上下文相關的拓撲。
與GCN方法相比,基于Transformer的方法能夠快速獲取全局拓撲信息,增強非物理關節之間的相關性。主要有三類方法:純Transformer、混合Transformer和無監督Transformer。
純Transformer方法使用標準Transformer學習空間和時間特征。空間Transformer和時間Transformer通常基于單流或雙流網絡交替或一起應用。DSTA-Net提出將數據解耦為空間和時間維度,其中空間和時間流分別包含與運動無關和與運動相關的特征。該網絡提出了解耦的時空注意網絡,基于注意力模塊順序編碼兩個流。這允許在不了解關節位置或相互連接的情況下建模關節之間的時空依賴關系。
混合Transformer方法將Transformer與GCN和CNN集成,以獲得更好的特征提取,這有利于利用不同網絡的優勢。ST-TR通過集成空間和時間Transformer與時間卷積網絡和GCN,提出了雙流時空Transformer網絡。STTFormer包括時空元組自注意模塊,用于捕捉連續幀中的關節關系,以及幀間特征聚合模塊,用于增強區分相似動作的能力。類似于ST-TR,幀間特征聚合模塊應用TCN聚合子動作的特征。3Mformer通過應用高階Transformer處理骨架數據的超圖,以更好地捕捉身體關節之間的高階運動模式。
要提高特征的泛化能力,一些方法專注于基于Transformer的無監督或自監督動作識別,這在捕捉全局上下文和局部關節動態方面表現出色。這些方法通常應用對比學習或編碼器-解碼器架構學習更好的動作表示。GL-Transformer設計了全局和局部注意機制,學習骨架序列的局部關節運動變化和全局上下文信息。使用運動序列表示,根據時間軸上的平均池化對動作進行分類。HaLP模塊通過生成幻覺潛在正樣本進行自監督學習,基于對比學習。
挑戰與未來
盡管在姿態估計、跟蹤和動作識別領域取得了顯著成功,但仍存在一些挑戰和相應的研究方向,以推動這三個任務的進一步發展。
對于姿態估計任務,主要面臨五大挑戰。首先是遮擋問題,當前方法在公共數據集上表現出色,但在遮擋場景中性能顯著下降。人物檢測器在自上而下的方法中可能難以識別重疊人體的邊界,而在自下而下的方法中,遮擋場景的身體部位關聯可能失敗。在擁擠場景中的相互遮擋導致當前3D人體姿態估計方法性能大幅下降。解決遮擋問題的一種方法是基于多視圖學習,因為在一個視角中被遮擋的部分可能在其他視角中可見。不過,這些方法通常需要大量內存和昂貴的計算成本,特別是對于多視圖下的3D多人姿態估計。
低分辨率也是一個挑戰。在實際應用中,由于廣角相機、遠距離拍攝設備等原因,往往會捕獲到低分辨率的圖像或視頻。環境陰影也會導致人物模糊。當前方法通常在高分辨率輸入上訓練,應用于低分辨率輸入時可能導致準確率低。解決低分辨率輸入姿態估計的一種方法是通過應用超分辨率方法作為圖像預處理來恢復圖像分辨率。但超分辨率的優化并不一定有利于高級人體姿態分析。
計算復雜性是另一個重要挑戰。許多方法已經被提出來解決計算復雜性問題。例如,用于圖像中多人姿態估計的一階段方法可以節省中間步驟引起的時間增加。基于樣本幀的方法可以減少處理每一幀的復雜性。但這類一階段方法可能在提高效率的同時犧牲準確性。基于樣本幀的方法需要三個步驟來估計姿態,這仍然會導致更多的時間消耗。因此,結合基于樣本幀方法的端到端網絡對于基于視頻的姿態估計更為可取。
基于Transformer的架構在基于視頻的3D姿態估計中不可避免地會帶來高計算成本。這是因為它們通常將每個視頻幀視為一個姿態標記,并應用極長的視頻幀來實現高級性能。例如,Strided和Mhformer需要351幀,而MixSTE和DSTformer需要243幀。自注意力復雜度隨標記數量的平方增加。盡管直接減少幀數可以降低成本,但由于時間感受野較小,可能導致性能下降。因此,在保持大型時間感受野的同時設計高效架構更為可取。考慮到在深層Transformer塊中可能存在相似的標記,一種潛在的解決方案是裁剪姿態標記以提高效率。
此外,當前公共數據集對非常規姿態(如跌倒)的訓練數據有限,這導致模型偏差和對此類姿態的準確性降低。對非常規姿態的數據增強是生成具有更多多樣性的新樣本的常用方法。基于優化的方法可以通過逐案估計姿態而不是學習來減輕域間差距的影響。因此,將優化技術與深度學習方法相結合可能有助于非常規姿態估計。
最后,從2D姿態預測3D姿態需要處理由深度歧義和潛在遮擋引起的不確定性和不確定性。然而,大多數現有方法屬于確定性方法,旨在從圖像構建單一且明確的3D姿態。因此,如何處理姿態的不確定性和不確定性仍然是一個開放性問題。借鑒擴散模型在生成具有高不確定性的樣本方面的強大能力,應用擴散模型是姿態估計的一個有前景的方向。
在姿態跟蹤方面,大多數方法遵循姿態估計和鏈接策略,姿態跟蹤性能高度依賴于姿態估計的結果。因此,姿態估計中的一些挑戰也存在于姿態跟蹤中,如遮擋。多視圖特征融合是消除由遮擋引起的不可靠外觀以改善姿態鏈接結果的一種方法。鏈接每個檢測框而不是僅鏈接高分數檢測框是另一種通過遮擋補償不可忽視的真實姿態的方法。
多相機環境下的多人姿態跟蹤是一個獨特的挑戰,主要問題是如何融合不同視角的場景。雖然Voxteltrack傾向于融合多視圖特征,但這方面的研究還需要深入。如果來自非重疊相機的場景被融合并投影到虛擬世界中,則可以在長區域內連續跟蹤姿態。
相似外觀和多樣化動作也是一個難題。為了跨幀鏈接姿態,通常的解決方案是基于外觀和動作測量相鄰幀中每對姿態之間的相似性。有時人們具有統一的外觀和多樣化的動作,如群體舞者和運動員。它們在外觀上高度相似,幾乎無法通過制服衣物區分,并且在復雜的動作和互動模式中難以識別。在這種情況下,測量相似性是具有挑戰性的。但這類具有相似外觀的姿態可以通過文本語義輕松區分。一種可能的解決方案是結合一些多模態預訓練模型,如對比語言-圖像預訓練(CLIP),基于它們的語義表示測量相似性。
現有方法主要通過假設緩慢的相機運動來解決姿態跟蹤問題。但在實際應用中,具有自我相機捕捉的快速相機運動非常常見。如何在快速相機運動下解決以自我為中心的姿態跟蹤是一個具有挑戰性的問題。Khirodkar團隊提出了一個新的基準(EgoHumans)用于以自我為中心的姿態估計和跟蹤,并設計了一個多流Transformer來跟蹤多個人。實驗表明,由于相機同步和校準,靜態和動態捕獲系統的性能之間仍然存在差距。
對于動作識別,隨著深度學習技術的快速發展,在大規模動作數據集上已經取得了有希望的結果。但仍有一些開放性問題。計算復雜性是主要挑戰之一。根據不同方法的性能比較,集成Transformer和GCN的方法實現了最佳精度。然而,Transformer所需的計算和所需的內存量隨著標記數量的增加而呈二次方增長。因此,如何從視頻幀或骨架中選擇重要標記是高效基于Transformer的動作識別的一個開放性問題。與基于Transformer的姿態估計類似,裁剪標記或丟棄輸入匹配傾向于降低成本。此外,集成輕量級GCN可以進一步提高效率。
骨架上的零樣本學習也是一個挑戰。注釋和標記大量數據是昂貴的,在實際應用中需要零樣本學習。現有的零樣本動作識別方法主要使用RGB數據作為輸入。然而,由于其對外觀和背景變化的魯棒性,骨架數據已成為RGB數據的有希望的替代品。因此,零樣本基于骨架的動作識別更加可取。少數方法被提出來學習骨架和類標簽詞嵌入之間的映射。類標簽可能比文本描述擁有更少的語義,文本描述是描述動作如何執行的自然語言。未來,可以基于文本描述追求新方法,實現零樣本基于骨架的動作識別。
多模態融合是另一個重要方向。基于估計姿態的方法將RGB數據作為輸入,并基于RGB和估計的骨架識別動作。此外,文本數據可以指導改善視覺上相似動作和零樣本學習的性能,這是動作識別的另一種模態。由于不同模態的異質性,如何充分利用它們值得研究者進一步探索。雖然一些方法傾向于提出特定模型來融合不同模態,但這種模型缺乏泛化性。未來,不考慮模型的通用融合方法是更好的選擇。
最后,一個統一的模型對于解決姿態估計、姿態跟蹤和動作識別三個任務非常有前景。一些方法傾向于基于姿態估計或跟蹤的結果進行動作識別。數據進一步證明姿態估計和跟蹤可以提高動作識別性能。這些觀察強調了這三個任務緊密相關,為設計統一模型解決三個任務提供了方向。最近,一個統一模型(UPS)已經被提出用于3D基于視頻的姿態估計和基于估計姿態的動作識別,但它們的性能遠低于獨立模型的性能。因此,更多的統一模型適合聯合解決這三個任務。
參考資料
Zhou, L., Meng, X., Liu, Z., Wu, M., Gao, Z., &; Wang, P. (2023). Human Pose-based Estimation, Tracking and Action Recognition with Deep Learning: A Survey.
Xu, B., et al. (2022). ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation.
Rajasegaran, J., et al. (2023). Lagrangian Action Recognition with Tracking.
Foo, C., et al. (2023). Unified Pose Sequence Multi-task Model for Joint Pose Estimation and Action Recognition.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.