北大盧宗青團隊 投稿
量子位 | 公眾號 QbitAI
北大和人大團隊在通用人形機器人動作生成領(lǐng)域取得重大突破!
首創(chuàng)性地提出了具備數(shù)據(jù)-模型協(xié)同放量(Scaling Law)特性的通用動作生成框架Being-M0。
通過大規(guī)?;ヂ?lián)網(wǎng)視頻,構(gòu)建了業(yè)界首個百萬規(guī)模的動作生成數(shù)據(jù)集MotionLib。
又基于此數(shù)據(jù)集,研發(fā)了端到端的文本驅(qū)動動作生成模型,實現(xiàn)了具備規(guī)模效應(yīng)的復(fù)雜、多樣的人類動作生成,做到了人體動作向多類型人形機器人的動作遷移。
文章將發(fā)表于ICML2025。
創(chuàng)新點
百萬級動作數(shù)據(jù)集MotionLib
- Being-M0團隊構(gòu)建了業(yè)界首個突破百萬規(guī)模的動作生成數(shù)據(jù)集,并建立了從原始視頻到高質(zhì)量動作數(shù)據(jù)的全自動化處理流程,大幅提升了數(shù)據(jù)獲取效率。
大規(guī)模動作生成模型
- 同團隊提出的動作生成大模型展現(xiàn)出顯著的規(guī)模效應(yīng),成功驗證了“大數(shù)據(jù)+大模型”在人體運動生成領(lǐng)域的技術(shù)可行性,為通用動作智能奠定基礎(chǔ)。
多平臺動作重定向
- Being-M0團隊創(chuàng)新融合優(yōu)化與學(xué)習(xí)方法,實現(xiàn)了動作數(shù)據(jù)向宇樹H1、H1-2、G1等多款人形機器人的高效遷移,顯著提升了跨平臺運動適配能力。
MotionLib: 突破數(shù)據(jù)規(guī)模瓶頸
在人工智能領(lǐng)域,數(shù)據(jù)規(guī)模的突破往往能帶來模型性能質(zhì)的飛躍。
為構(gòu)建大規(guī)模動作數(shù)據(jù)集,Being-M0團隊從公開數(shù)據(jù)集和在線平臺系統(tǒng)性地收集了超過2000萬段人體動作視頻。面對海量的互聯(lián)網(wǎng)視頻數(shù)據(jù),如何實現(xiàn)高質(zhì)量動作數(shù)據(jù)的自動化提取成為了關(guān)鍵挑戰(zhàn)。
為此,Being-M0團隊開發(fā)了一套創(chuàng)新的數(shù)據(jù)處理流水線:
首先,基于預(yù)訓(xùn)練模型進(jìn)行2D人體關(guān)鍵點估計,并通過置信度閾值實現(xiàn)初步篩選;隨后,采用經(jīng)過大規(guī)模3D數(shù)據(jù)集訓(xùn)練的先進(jìn)模型,生成高精度的3D關(guān)鍵點數(shù)據(jù)。
在動作標(biāo)注方面,針對現(xiàn)有數(shù)據(jù)集普遍存在的描述粒度粗糙問題(通常僅用單句話概括整個動作),團隊創(chuàng)新性地提出了分層標(biāo)注方案:
該方案利用Gemini-1.5-pro為每個視頻生成了結(jié)構(gòu)化描述,不僅包含動作的整體語義,還詳細(xì)記錄了手臂、腿部等身體部位的運動特征。這種細(xì)粒度的標(biāo)注體系為高精度動作生成提供了關(guān)鍵支持。
MotionLib的獨特優(yōu)勢還體現(xiàn)在其多模態(tài)特性上:每個動作序列不僅包含標(biāo)準(zhǔn)RGB視頻,還提供了深度信息等輔助數(shù)據(jù),并支持多人交互場景的分析。這些豐富的多模態(tài)信息顯著拓展了數(shù)據(jù)集的應(yīng)用場景。
經(jīng)過嚴(yán)格的質(zhì)量篩選流程,Being-M0團隊最終構(gòu)建了包含超過100萬條高質(zhì)量動作序列的數(shù)據(jù)集,其規(guī)模達(dá)到現(xiàn)有最大公開數(shù)據(jù)集的15倍,為突破動作生成領(lǐng)域的規(guī)模瓶頸奠定了堅實基礎(chǔ)。
大規(guī)模動作生成:從語言到動作
隨著MotionLib數(shù)據(jù)規(guī)模實現(xiàn)數(shù)量級突破,如何充分釋放大規(guī)模數(shù)據(jù)的性能紅利成為了關(guān)鍵問題。
通過系統(tǒng)性實驗,Being-M0團隊首次在動作生成領(lǐng)域驗證了模型規(guī)模與數(shù)據(jù)規(guī)模之間的協(xié)同放大效應(yīng)(Scaling Law)。研究表明:
1)在同等數(shù)據(jù)條件下,模型容量與生成質(zhì)量呈顯著正相關(guān),13B參數(shù)的LLaMA-2模型相較700M參數(shù)的GPT2,在動作多樣性和語義對齊精度等核心指標(biāo)上均實現(xiàn)突破;2)大模型展現(xiàn)出更優(yōu)的數(shù)據(jù)利用率,在數(shù)據(jù)規(guī)模擴展時保持穩(wěn)定的性能增長曲線。
這些發(fā)現(xiàn)不僅驗證了“大數(shù)據(jù)+大模型”技術(shù)路線的普適性,更為構(gòu)建通用動作生成模型提供了關(guān)鍵設(shè)計準(zhǔn)則。
傳統(tǒng)方法在將大語言模型應(yīng)用于動作生成時面臨根本性挑戰(zhàn):主流向量量化(VQ)技術(shù)將高維動作數(shù)據(jù)壓縮為一維離散token,導(dǎo)致時序動態(tài)和關(guān)節(jié)協(xié)同等關(guān)鍵結(jié)構(gòu)化信息嚴(yán)重?fù)p失。這種單維表征方式不僅受限于有限codebook容量,更難以刻畫人體運動的連續(xù)細(xì)微變化。
針對這一瓶頸,Being-M0團隊提出MotionBook——業(yè)界首個二維無查找量化框架。該技術(shù)突破性創(chuàng)新包括:
- 空間-時序解耦編碼
將動作序列建模為單通道二維”動作圖像”,分別在時間軸和關(guān)節(jié)軸構(gòu)建獨立編碼空間,完整保留運動的多維結(jié)構(gòu)特征;
- 動態(tài)擴展詞表
通過降維投影消除傳統(tǒng)codebook查找環(huán)節(jié),使動作詞表容量提升兩個數(shù)量級;
- 坍塌免疫機制
創(chuàng)新性的參數(shù)化離散策略從根本上避免了傳統(tǒng)VQ的codebook坍塌問題。
實驗表明,這種表示方法能更好地發(fā)揮大模型的潛力,特別是在生成精細(xì)動作方面具有明顯優(yōu)勢,為構(gòu)建下一代動作生成模型奠定了新的技術(shù)基礎(chǔ)。
高效動作重定向:從人體到人形機器人
將生成的人體動作遷移到實體機器人是實現(xiàn)文本驅(qū)動人形機器人動作生成的最后一環(huán)。
實現(xiàn)文本到機器人動作的閉環(huán)需要解決跨形態(tài)動作遷移這一核心挑戰(zhàn)。
由于不同人形機器人在自由度配置、連桿尺寸等方面存在顯著差異,將人體動作重定向到機器人時,傳統(tǒng)基于運動學(xué)逆解或關(guān)節(jié)角度直接映射的方法往往導(dǎo)致動作失真甚至動力學(xué)不可行。
為解決這一問題,Being-M0團隊提出了”優(yōu)化+學(xué)習(xí)”的兩階段解決方案:
在訓(xùn)練數(shù)據(jù)構(gòu)建階段,通過多目標(biāo)優(yōu)化方法生成滿足機器人運動學(xué)約束的動作序列——優(yōu)化過程不僅考慮了關(guān)節(jié)限位等基本約束,還考慮了動作軌跡的平滑性和穩(wěn)定性。這種基于多目標(biāo)優(yōu)化的方法雖然計算開銷較大,但能保證生成數(shù)據(jù)的高質(zhì)量,為后續(xù)的學(xué)習(xí)階段打下良好基礎(chǔ)。
在動作映射階段,采用輕量級的MLP網(wǎng)絡(luò)學(xué)習(xí)從人體動作到人形機器人動作的映射關(guān)系。通過精心設(shè)計的網(wǎng)絡(luò)結(jié)構(gòu),該方法實現(xiàn)了對H1、H1-2、G1等多個機器人平臺的高效支持。
與直接優(yōu)化相比,基于神經(jīng)網(wǎng)絡(luò)的方法顯著提升了系統(tǒng)的實時性能,同時保持了動作遷移的準(zhǔn)確性。
BeingBeyond:打造通用具身智能,推動機器人走進(jìn)千家萬戶
Being-M0由來自智在無界、北京大學(xué)、人民大學(xué)和智源研究院的研究團隊共同打造。
MotionLib是業(yè)界首個百萬規(guī)模動作生成數(shù)據(jù)集;Being-M0驗證了“大數(shù)據(jù)+大模型”在動作生成領(lǐng)域的技術(shù)可行性,為面向人形機器人的通用動作生成模型奠定了基礎(chǔ)。
研究團隊表示,BeingBeyond將持續(xù)迭代人形機器人的具身大模型、靈巧操作、全身運動控制等,在未來讓機器人涌現(xiàn)更強的通用能力和自主性。
項目地址:https://beingbeyond.github.io/Being-M0/
論文鏈接:https://arxiv.org/abs/2410.03311
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.