網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

百萬規(guī)模數(shù)據(jù)打造人形機器人通用大模型，實現(xiàn)精細(xì)動作跨平臺遷移

2025-05-16 12:02:40　來源: 量子位

北京舉報

分享至

北大盧宗青團隊投稿
量子位 | 公眾號 QbitAI

北大和人大團隊在通用人形機器人動作生成領(lǐng)域取得重大突破！

首創(chuàng)性地提出了具備數(shù)據(jù)-模型協(xié)同放量（Scaling Law）特性的通用動作生成框架Being-M0。

通過大規(guī)?；ヂ?lián)網(wǎng)視頻，構(gòu)建了業(yè)界首個百萬規(guī)模的動作生成數(shù)據(jù)集MotionLib。

又基于此數(shù)據(jù)集，研發(fā)了端到端的文本驅(qū)動動作生成模型，實現(xiàn)了具備規(guī)模效應(yīng)的復(fù)雜、多樣的人類動作生成，做到了人體動作向多類型人形機器人的動作遷移。

文章將發(fā)表于ICML2025。

創(chuàng)新點

百萬級動作數(shù)據(jù)集MotionLib

Being-M0團隊構(gòu)建了業(yè)界首個突破百萬規(guī)模的動作生成數(shù)據(jù)集，并建立了從原始視頻到高質(zhì)量動作數(shù)據(jù)的全自動化處理流程，大幅提升了數(shù)據(jù)獲取效率。

大規(guī)模動作生成模型

同團隊提出的動作生成大模型展現(xiàn)出顯著的規(guī)模效應(yīng)，成功驗證了“大數(shù)據(jù)+大模型”在人體運動生成領(lǐng)域的技術(shù)可行性，為通用動作智能奠定基礎(chǔ)。

多平臺動作重定向

Being-M0團隊創(chuàng)新融合優(yōu)化與學(xué)習(xí)方法，實現(xiàn)了動作數(shù)據(jù)向宇樹H1、H1-2、G1等多款人形機器人的高效遷移，顯著提升了跨平臺運動適配能力。

MotionLib: 突破數(shù)據(jù)規(guī)模瓶頸

在人工智能領(lǐng)域，數(shù)據(jù)規(guī)模的突破往往能帶來模型性能質(zhì)的飛躍。

為構(gòu)建大規(guī)模動作數(shù)據(jù)集，Being-M0團隊從公開數(shù)據(jù)集和在線平臺系統(tǒng)性地收集了超過2000萬段人體動作視頻。面對海量的互聯(lián)網(wǎng)視頻數(shù)據(jù)，如何實現(xiàn)高質(zhì)量動作數(shù)據(jù)的自動化提取成為了關(guān)鍵挑戰(zhàn)。

為此，Being-M0團隊開發(fā)了一套創(chuàng)新的數(shù)據(jù)處理流水線：

首先，基于預(yù)訓(xùn)練模型進(jìn)行2D人體關(guān)鍵點估計，并通過置信度閾值實現(xiàn)初步篩選；隨后，采用經(jīng)過大規(guī)模3D數(shù)據(jù)集訓(xùn)練的先進(jìn)模型，生成高精度的3D關(guān)鍵點數(shù)據(jù)。

在動作標(biāo)注方面，針對現(xiàn)有數(shù)據(jù)集普遍存在的描述粒度粗糙問題（通常僅用單句話概括整個動作），團隊創(chuàng)新性地提出了分層標(biāo)注方案：

該方案利用Gemini-1.5-pro為每個視頻生成了結(jié)構(gòu)化描述，不僅包含動作的整體語義，還詳細(xì)記錄了手臂、腿部等身體部位的運動特征。這種細(xì)粒度的標(biāo)注體系為高精度動作生成提供了關(guān)鍵支持。

MotionLib的獨特優(yōu)勢還體現(xiàn)在其多模態(tài)特性上：每個動作序列不僅包含標(biāo)準(zhǔn)RGB視頻，還提供了深度信息等輔助數(shù)據(jù)，并支持多人交互場景的分析。這些豐富的多模態(tài)信息顯著拓展了數(shù)據(jù)集的應(yīng)用場景。

經(jīng)過嚴(yán)格的質(zhì)量篩選流程，Being-M0團隊最終構(gòu)建了包含超過100萬條高質(zhì)量動作序列的數(shù)據(jù)集，其規(guī)模達(dá)到現(xiàn)有最大公開數(shù)據(jù)集的15倍，為突破動作生成領(lǐng)域的規(guī)模瓶頸奠定了堅實基礎(chǔ)。

大規(guī)模動作生成：從語言到動作

隨著MotionLib數(shù)據(jù)規(guī)模實現(xiàn)數(shù)量級突破，如何充分釋放大規(guī)模數(shù)據(jù)的性能紅利成為了關(guān)鍵問題。

通過系統(tǒng)性實驗，Being-M0團隊首次在動作生成領(lǐng)域驗證了模型規(guī)模與數(shù)據(jù)規(guī)模之間的協(xié)同放大效應(yīng)（Scaling Law）。研究表明：
1）在同等數(shù)據(jù)條件下，模型容量與生成質(zhì)量呈顯著正相關(guān)，13B參數(shù)的LLaMA-2模型相較700M參數(shù)的GPT2，在動作多樣性和語義對齊精度等核心指標(biāo)上均實現(xiàn)突破；2）大模型展現(xiàn)出更優(yōu)的數(shù)據(jù)利用率，在數(shù)據(jù)規(guī)模擴展時保持穩(wěn)定的性能增長曲線。

這些發(fā)現(xiàn)不僅驗證了“大數(shù)據(jù)+大模型”技術(shù)路線的普適性，更為構(gòu)建通用動作生成模型提供了關(guān)鍵設(shè)計準(zhǔn)則。

傳統(tǒng)方法在將大語言模型應(yīng)用于動作生成時面臨根本性挑戰(zhàn)：主流向量量化（VQ）技術(shù)將高維動作數(shù)據(jù)壓縮為一維離散token，導(dǎo)致時序動態(tài)和關(guān)節(jié)協(xié)同等關(guān)鍵結(jié)構(gòu)化信息嚴(yán)重?fù)p失。這種單維表征方式不僅受限于有限codebook容量，更難以刻畫人體運動的連續(xù)細(xì)微變化。

針對這一瓶頸，Being-M0團隊提出MotionBook——業(yè)界首個二維無查找量化框架。該技術(shù)突破性創(chuàng)新包括：

空間-時序解耦編碼

將動作序列建模為單通道二維”動作圖像”，分別在時間軸和關(guān)節(jié)軸構(gòu)建獨立編碼空間，完整保留運動的多維結(jié)構(gòu)特征；

動態(tài)擴展詞表

通過降維投影消除傳統(tǒng)codebook查找環(huán)節(jié)，使動作詞表容量提升兩個數(shù)量級；

坍塌免疫機制

創(chuàng)新性的參數(shù)化離散策略從根本上避免了傳統(tǒng)VQ的codebook坍塌問題。

實驗表明，這種表示方法能更好地發(fā)揮大模型的潛力，特別是在生成精細(xì)動作方面具有明顯優(yōu)勢，為構(gòu)建下一代動作生成模型奠定了新的技術(shù)基礎(chǔ)。

高效動作重定向：從人體到人形機器人

將生成的人體動作遷移到實體機器人是實現(xiàn)文本驅(qū)動人形機器人動作生成的最后一環(huán)。

實現(xiàn)文本到機器人動作的閉環(huán)需要解決跨形態(tài)動作遷移這一核心挑戰(zhàn)。

由于不同人形機器人在自由度配置、連桿尺寸等方面存在顯著差異，將人體動作重定向到機器人時，傳統(tǒng)基于運動學(xué)逆解或關(guān)節(jié)角度直接映射的方法往往導(dǎo)致動作失真甚至動力學(xué)不可行。

為解決這一問題，Being-M0團隊提出了”優(yōu)化+學(xué)習(xí)”的兩階段解決方案:

在訓(xùn)練數(shù)據(jù)構(gòu)建階段，通過多目標(biāo)優(yōu)化方法生成滿足機器人運動學(xué)約束的動作序列——優(yōu)化過程不僅考慮了關(guān)節(jié)限位等基本約束，還考慮了動作軌跡的平滑性和穩(wěn)定性。這種基于多目標(biāo)優(yōu)化的方法雖然計算開銷較大，但能保證生成數(shù)據(jù)的高質(zhì)量，為后續(xù)的學(xué)習(xí)階段打下良好基礎(chǔ)。

在動作映射階段，采用輕量級的MLP網(wǎng)絡(luò)學(xué)習(xí)從人體動作到人形機器人動作的映射關(guān)系。通過精心設(shè)計的網(wǎng)絡(luò)結(jié)構(gòu)，該方法實現(xiàn)了對H1、H1-2、G1等多個機器人平臺的高效支持。

與直接優(yōu)化相比，基于神經(jīng)網(wǎng)絡(luò)的方法顯著提升了系統(tǒng)的實時性能，同時保持了動作遷移的準(zhǔn)確性。

BeingBeyond：打造通用具身智能，推動機器人走進(jìn)千家萬戶

Being-M0由來自智在無界、北京大學(xué)、人民大學(xué)和智源研究院的研究團隊共同打造。

MotionLib是業(yè)界首個百萬規(guī)模動作生成數(shù)據(jù)集；Being-M0驗證了“大數(shù)據(jù)+大模型”在動作生成領(lǐng)域的技術(shù)可行性，為面向人形機器人的通用動作生成模型奠定了基礎(chǔ)。

研究團隊表示，BeingBeyond將持續(xù)迭代人形機器人的具身大模型、靈巧操作、全身運動控制等，在未來讓機器人涌現(xiàn)更強的通用能力和自主性。

項目地址：https://beingbeyond.github.io/Being-M0/
論文鏈接：https://arxiv.org/abs/2410.03311

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.