在虛擬現實世界中,手勢是用戶與虛擬環境交流的無聲語言。當用戶希望自定義新手勢時,一個隱秘而棘手的技術難題隨之而來:如何讓設備"記住"新手勢,同時不"忘記"已學會的手勢?這被稱為"災難性遺忘"問題。傳統解決方案需要訪問舊數據,但出于隱私保護,這些數據往往無法獲取。邊界感知原型反演(BOAT-MI)技術打開了一扇新門——它巧妙借鑒最大邊界分類理論,找出決策邊界附近的關鍵樣本進行模型反演,使設備能在不接觸原始訓練數據的情況下,持續學習新手勢而不遺忘舊知識。這項技術不僅提升了虛擬現實的用戶體驗,也為人工智能與隱私保護的平衡提供了新思路。
手勢交互新挑戰
看過科幻電影的人都知道,未來世界里人們可能不再需要鍵盤鼠標,只需揮揮手就能與電腦交流。這個未來已經部分實現了,Meta Quest、VUZIX等最新的VR頭顯已經能夠精確追蹤用戶的手部動作,讓人們直接用手勢在虛擬世界中互動。
想象你戴上VR頭盔,伸出手指在空中畫了個圓圈,虛擬世界就開始旋轉;雙手合十,菜單打開;做個"剪刀手",截圖完成。這些預設的手勢讓我們能夠自然地控制虛擬環境,就像在現實世界中使用雙手一樣直觀。
但問題很快就出現了。VR設備出廠時預設的這些手勢并不能滿足所有人的需求。卡內基梅隆大學和Meta Reality Labs的研究表明,不同文化和地區的人們習慣使用不同的手勢表達相同的意思。研究者在2023年發現,多語言使用者往往傾向于使用與母語相關的特定手勢,這一點在VR系統中尤為重要,因為手勢是用戶與虛擬環境自然交互的主要媒介。
不僅如此,為了讓VR體驗更加個性化,用戶可能希望注冊自己的自定義手勢。比如在游戲中,想用一個特殊的手勢來施放魔法;或者在教育應用中,醫學院學生可能需要用手勢來控制虛擬解剖模型。這些個性化需求在2025年的VR市場中變得越來越普遍。
這就帶來了一個技術難題:如何讓VR設備學習這些新手勢,同時不忘記已經學會的手勢?更具挑戰性的是,出于隱私保護考慮,VR設備制造商無法訪問用戶設備上的原始訓練數據。同樣,用戶添加的新手勢數據也屬于個人隱私,使用后需要丟棄。
舉個例子,Meta Quest頭顯可能預設了"捏合"和"右滑"等基礎手勢。當用戶想要添加一個新的"旋轉"手勢時,如果簡單地用這個新手勢重新訓練模型,模型就會"忘記"之前學過的手勢,這就是著名的"災難性遺忘"問題。解決這個問題的傳統方法是存儲一小部分舊手勢的樣本,但這樣做會侵犯用戶隱私。
虛擬現實研究者面臨的挑戰就是:如何在不訪問原始數據的情況下,讓手勢識別模型能夠持續學習新手勢,同時保留對已學習手勢的記憶?這個問題在VR/AR領域尤為突出,因為這些設備直接與用戶的身體互動,收集的數據往往更加敏感。
邊界記憶守護者
面對這一挑戰,研究人員提出了一種巧妙的解決方案:邊界感知原型反演(BOAT-MI)。這個方法聽起來很復雜,實際上背后的思路非常直觀。
想象一下,我們的大腦是如何區分不同的概念的?比如,當我們看到一只動物,怎么判斷它是貓還是狗?我們會關注一些關鍵特征:耳朵形狀、尾巴長度、叫聲等。這些特征構成了我們區分貓和狗的"決策邊界"。對于手勢識別也是一樣,模型通過學習不同手勢的特征來區分它們。
災難性遺忘的本質是什么?當模型學習新手勢時,之前建立的決策邊界被破壞了。就像你學了新知識后,把舊知識混淆了一樣。解決這個問題的關鍵在于保護這些決策邊界。
BOAT-MI的核心思想就來自統計學習理論中的最大邊界分類原理。簡單來說,在所有樣本中,那些靠近決策邊界的樣本(如支持向量機中的支持向量)是最關鍵的,它們決定了不同類別之間的邊界。如果能保住這些邊界樣本,就能在很大程度上防止災難性遺忘。
那么,如何在不訪問原始數據的情況下找到這些邊界樣本呢?這就是BOAT-MI的獨特之處。它首先從模型中提取每個類別的"原型"特征(即該類別的平均特征)和"協方差"(反映特征的分布情況)。然后,它利用這些信息,在特征空間中沿著不同方向從原型中心向外"投射射線",直到接近決策邊界。這樣就能找到近似于決策邊界的樣本點。
為了避免決策邊界估計中的噪聲,BOAT-MI還引入了"邊界"概念,即在實際邊界內部留出一個小的安全距離。通過實驗發現,這種方法比直接使用邊界上的樣本或隨機選擇的樣本效果要好得多。
在技術實現上,BOAT-MI結合了兩種類型的邊界樣本:一是從支持向量機中獲取的標準支持向量,二是通過原型投射獲得的原型支持向量。這兩種樣本的結合提供了最佳性能。
BOAT-MI的工作流程可以分為幾個步驟:首先,它獲取舊類別的原型(平均值和協方差);然后,從SVM分類器中獲取支持向量;接著,生成原型協方差的主要方向;沿著這些方向從原型平均值投射射線,直到達到邊界,生成原型支持向量;最后,對這些支持向量和原型支持向量進行模型反演,生成合成輸入樣本。有了這些合成樣本,模型就能在學習新手勢的同時,保持對舊手勢的"記憶"。
在實際測試中,研究人員在兩個3D骨架手勢數據集上評估了BOAT-MI:公開可用的SHREC 2017和從公開可用的RGBD數據集中提取的EgoGesture3D。實驗結果表明,BOAT-MI比現有技術有顯著改進,尤其是在最困難的階段(SHREC-2017上提高13%,EgoGesture3D上提高6.8%)。
更重要的是,這種改進伴隨著顯著降低的即時遺忘——SHREC-2017上比第二好的方法低12.1%,EgoGesture3D上低4.1%。這表明BOAT-MI在保持模型平衡方面表現出色,既能學習新手勢,又不會過度遺忘舊手勢。
這個方法的獨特之處在于,它不像其他方法那樣依賴于知識蒸餾策略,而是著重于為模型反演選擇最佳樣本。通過借鑒最大邊界分類理論,BOAT-MI找到了一種在不訪問原始數據的情況下保護決策邊界的有效方法。
實踐證明成效
在實驗驗證BOAT-MI這一方法時,研究團隊做了很多精心的準備。他們選擇了兩個手勢數據集:一個是公開的SHREC 2017,另一個是他們自己從公開數據集中提取出來的EgoGesture3D。這兩個數據集包含了不同視角的手勢——SHREC提供了第三人稱視角的手勢,而EgoGesture3D則提供了第一人稱視角的手勢,就像VR設備實際使用時那樣。
SHREC數據集包含14種粗細粒度的手勢,由22個關鍵點組成,包括1個手腕點、1個手掌點和每個手指的4個關鍵點(5個手指共20個點)。這些手勢是由英特爾實感深度相機捕捉的,既有單指(食指和拇指)完成的手勢,也有所有手指參與的復雜手勢。
而EgoGesture3D則是一個更大規模的數據集,包含83個手勢類別,比SHREC多了很多。這些手勢來自50名受試者(18名女性和32名男性),在4個室內和2個室外場景中收集。與其他數據集不同,EgoGesture還包括了背景變化、光照變化、雜亂環境中的手勢,甚至還有人在行走時做出的手勢,這使得它更接近真實使用場景。
為了測試方法的持續學習能力,研究團隊設計了一個類增量學習方案:對于SHREC數據集,他們把8個類別作為基礎任務,然后每次增加1個類別,連續增加6次;對于EgoGesture3D,他們設置了59個基礎類別,每次增加4個,也是連續增加6次。這樣設計是為了模擬用戶逐漸添加自定義手勢的真實場景。
在技術實現上,BOAT-MI方法使用了DG-STA(一種專門處理3D骨架數據的神經網絡架構)作為骨干網絡。這個網絡之所以被選中,是因為它結構簡單,容易進行模型反演,且有公開代碼可用。為了確保特征空間中的類別形成緊湊的簇,他們還采用了監督對比學習損失SupCon,而不是標準的交叉熵損失。
實驗結果令人印象深刻。在SHREC數據集上,經過6個增量任務后,BOAT-MI的全局準確率達到了58.1%,比第二好的方法高出13%。在EgoGesture3D上,BOAT-MI的全局準確率為45.8%,比第二好的方法高出6.8%。更重要的是,BOAT-MI的即時遺忘度(一個衡量新舊類別學習平衡性的指標)大幅低于其他方法,在SHREC上比第二好的方法低12.1%,在EgoGesture3D上低4.1%。
這些數字說明什么?它們表明BOAT-MI能夠更好地平衡新舊知識,既能學好新手勢,又不嚴重遺忘舊手勢。研究團隊還做了一系列消融實驗,驗證了不同組件的有效性。結果表明,適當的邊界距離(邊界內0.1-0.2的歸一化距離)比邊界上的點或遠離邊界的點效果更好,驗證了他們的理論假設。
有趣的是,研究人員還發現,簡單的特征提取方法在他們的手勢識別持續學習基準上表現出色,有時甚至超過了一些最先進的方法。這可能是因為這些最先進的方法主要是為圖像分類問題設計的,當應用到3D手勢識別領域時,可能不那么有效。這一發現對未來的研究方向提供了重要啟示。
總的來說,BOAT-MI方法通過智能地選擇邊界感知樣本進行模型反演,有效解決了數據缺失環境下的類增量手勢識別問題,在實驗結果上大幅超越了現有技術。
技術未來可期
BOAT-MI技術的出現不只是解決了一個技術難題,它開啟了一個新時代,一個能夠在保護隱私的同時持續學習的人工智能時代。這個技術的應用前景非常廣闊,尤其是在VR/AR領域。
想象一下,在不久的將來,VR設備不再只是預設一堆通用手勢,而是能夠根據用戶的文化背景、個人偏好和使用場景不斷調整、擴展自己的手勢庫。一個在中國銷售的VR設備可以理解中國特有的手勢文化;一個主要用于醫療培訓的VR設備可以專門學習醫生常用的手勢;甚至對于有特殊需求的用戶,比如有身體障礙的人,VR設備也能學習適合他們的特定手勢。
BOAT-MI技術使這一切成為可能,因為它解決了持續學習與隱私保護之間的矛盾。用戶不必擔心自己的手勢數據會被上傳到云端或被設備制造商收集,所有的學習都可以在本地設備上完成,學習完成后數據就被丟棄。這大大提高了用戶對這類技術的接受度。
在醫療領域,BOAT-MI技術也有重要應用。醫生可以使用帶有手勢識別功能的AR眼鏡來輔助手術,隨著醫療技術的發展和新手術方式的出現,AR系統可以持續學習新的手勢命令,而不需要從頭開始重新訓練整個系統。同時,由于醫療數據的高度敏感性,BOAT-MI的數據隱私保護特性變得尤為重要。
除了VR/AR領域,BOAT-MI技術也可以推廣到其他需要持續學習且注重隱私保護的領域。比如智能家居設備,可以學習家庭成員特有的手勢來控制燈光、音樂或電視;自動駕駛汽車可以識別交警的手勢信號;智能安防系統可以識別異常行為等。
當然,BOAT-MI技術也有其局限性。邊界樣本的選擇依賴于當前模型的決策邊界,如果初始模型的邊界就不好,那么通過這種方法生成的樣本可能也不夠理想。此外,當類別數量非常多時,邊界的復雜性會大大增加,這可能會影響方法的效果。
研究人員也在考慮一些可能的改進方向。例如,結合其他模型反演技術,可能會產生更高質量的合成樣本;探索更多樣化的邊界樣本選擇策略,可能會進一步提高方法在復雜場景下的表現;開發更輕量級的實現方案,使方法更適合在資源受限的邊緣設備上運行。
BOAT-MI的研究人員也在積極探索將這一技術應用到圖像分類以外的領域。他們認為,雖然當前的實驗專注于3D手勢識別,但BOAT-MI中提出的邊界感知選擇機制是領域無關的,可能對未來各種無數據類增量學習框架的發展產生影響。
在持續學習研究社區中,BOAT-MI的出現也引發了一些新的思考。傳統上,大多數持續學習方法都假設可以存儲一些舊類別的樣本,而BOAT-MI證明即使在完全沒有舊數據的情況下,也能取得令人滿意的結果。這挑戰了一些既有認知,也為未來的研究指明了新方向。
展望未來,隨著VR/AR技術的普及和計算能力的提升,像BOAT-MI這樣的技術將變得越來越重要。在一個越來越重視隱私保護的時代,能夠在不犧牲性能的前提下保護用戶數據的技術將具有巨大的競爭優勢。BOAT-MI的成功證明,在技術發展與隱私保護之間,我們不必做出非此即彼的選擇,兩者是可以共存的。
參考資料:
Aich, S., et al. (2023). Data-Free Class-Incremental Hand Gesture Recognition.
De la Torre, F., et al. (2023). BOAT-MI: BOundary Aware ProTotypical Model Inversion.
Lu, Z., et al. (2023). 3D Skeleton-based Hand Gesture Recognition Dataset.
Cihan Camgoz, N., et al. (2023). Continual Learning for Hand Tracking in VR.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.