網易首頁 > 網易號 > 正文申請入駐

行業新突破：行為基礎模型可實現高效的人形機器人全身控制

2025-07-22 15:12:26　來源: 機器之心Pro

河北舉報

分享至

人形機器人作為用于復雜運動控制、人機交互和通用物理智能的多功能平臺，正受到前所未有的關注。然而，由于其復雜的動力學、欠驅動和多樣化的任務需求，實現高效的人形機器人全身控制 (Whole-Body Control，WBC) 仍然是一項根本性的挑戰。

雖然基于強化學習等方法的控制器在特定任務中展現出優越的性能，但它們往往只具有有限的泛化性能，在面向新場景時需要進行復雜且成本高昂的再訓練。為了突破這些限制，行為基礎模型（Behavior Foundation Model，BFM）應運而生，它利用大規模預訓練來學習可重用的原始技能和廣泛的行為先驗，從而能夠零樣本或快速適應各種下游任務。

來自香港理工大學、逐際動力、東方理工大學、香港大學和 EPFL 等知名機構的研究者合作完成題為《A Survey of Behavior Foundation Model: Next-Generation Whole-Body Control System of Humanoid Robots》的長文綜述，首次聚焦行為基礎模型在人形機器人全身控制中的應用。

該綜述系統性地梳理了當前 BFM 的最新進展，從預訓練（Pre-training）和任務適配（Adaptation）兩個角度對當前各類 BFM 算法提供了全面的分類體系，并且結合其他基礎模型（例如大語言模型、大規模視覺模型）的發展動向對 BFM 的未來趨勢和研究機遇進行了展望，有望對該領域的研究者和從業者產生引導作用。

論文標題：

《A Survey of Behavior Foundation Model: Next-Generation Whole-Body Control System of Humanoid Robots》

論文鏈接：https://arxiv.org/pdf/2506.20487

項目主頁：

https://github.com/yuanmingqi/awesome-bfm-papers

人型全身控制：從「定制化」到「通用化」

文章將人形全身控制算法的演化總結為下圖中的三個階段：

基于模型的控制器（Model-based Controller）：

以 MPC、WBOSC 等算法為代表，面向基礎的人形全身控制任務，極度依賴物理模型并且需要復雜的人工設計與調校，且魯棒性較低。

基于學習的，面向特定任務的控制器（Learning-based and Task-specific Controller）：

以強化學習、模仿學習等方法為代表，面向特定的、復雜的人形全身控制任務，支持靈活的任務設計，但跨任務的泛化性較差。

行為基礎模型（Behavior Foundation Model）：

在大規模人類行為數據集上進行預訓練得到的模型，習得大量可復用的基礎技能以及廣泛的行為先驗，具備快速適應不同任務的能力。

什么是行為基礎模型？

「行為基礎模型」這一術語首次出現在《Fast Imitation via Behavior Foundation Models》一文中，作者基于無監督強化學習 + 前后向表征學習（Forward-backward Representation Learning）方法構建 BFM，實現了對多種模仿學習規則的支持，包括行為克隆（Behavioral Cloning）、特征匹配（feature matching）、基于獎勵 / 目標的歸納（reward/goal-based reductions）。

該工作也被 ICLR2024 接收為 Spotlight 文章。后續的其他工作則將 BFM 定義為：「對于一個給定的馬爾科夫過程，行為基礎模型是一類以無監督強化學習方法訓練得到的智能體。在測試時，可以為指定的大量獎勵函數生成近似最優的策略，而無需額外的學習或規劃」。

該綜述將 BFM 的定義拓展為：「一類特殊的基礎模型，旨在控制智能體在動態環境中的行為。BFM 植根于通用基礎模型（例如 GPT-4、CLIP 和 SAM）的原理，使用大規模行為數據（例如軌跡、人類演示或智能體與環境的交互）進行預訓練，從而對廣泛的行為模式進行編碼，而非局限于單任務場景。這一特性確保了模型能夠輕松地對不同任務、情境或環境進行泛化，展現出靈活且自適應的行為生成能力。」

主要算法分類

文章將當前構建 BFM 的方法分為三類：目標導向的學習方法（Goal-conditioned Learning）、內在獎勵驅動的學習方法（Intrinsic Reward-driven Learning），以及前后向表征學習方法（Forward-backward Representation learning）。

如下圖所示，目標導向的學習方法會對智能體給予明確的任務指導，通常直接將目標輸入到智能體的策略中。目標可以以多種形式指定，例如目標狀態、目標函數或外部任務描述。

在目標學習的各類方法中，以 DeepMimic 為代表的基于動作追蹤（Motion Tracking）的學習方法目前被廣泛地應用于各類人型機器人任務中。在每個時間步，智能體通常被訓練來跟蹤給定參考運動的關節角度或下一時間步的運動學姿態。相較于直接模仿整個運動（尤其是復雜運動），學習跟蹤單個姿態更容易實現且更具通用性，這也是基于跟蹤的學習的主要動機。

MaskedMimic 是典型的基于目標學習方法構建的行為基礎模型，其包含兩個階段的訓練過程。首先，MaskedMimic 基于動作追蹤方法對大量的行為數據進行模仿，學習各類基礎運動技能。然后，將得到的底層控制器固定，并訓練一個帶掩碼的變分自編碼器對底層控制器包含的知識進行蒸餾得到高階策略。MaskedMimic 支持多種控制模態，并能在不同任務之間實現無縫切換。

在基于追蹤的學習中，智能體始終被賦予了明確的目標，并通過顯示指定的獎勵函數進行訓練，以實現定向的技能學習。相比之下，內在獎勵驅動的學習則使用完全不同的方法，即激勵智能體對環境進行探索，而不依賴于明確的特定任務獎勵。智能體受內在獎勵的引導，這些內在獎勵是自我生成的信號，用于鼓勵探索、技能習得或者發現新奇的事物。

但是，只通過內在獎勵訓練 BFM 存在顯著的限制，智能體通常需要進行巨量的訓練才能實現廣泛的行為覆蓋，同時有概率產生不可靠的行為先驗（例如，不安全或不切實際的運動），特別是對于具有極其復雜動力學的人形機器人而言。

因此，在實際應用時，內在獎勵往往要結合其他方法使用，例如目標導向學習，以確保學得模型的有效性。

近期 BFM 的主要進步受益于一種新的學習框架 —— 前后向表征學習，其主要思想是將策略學習與特定任務目標進行解耦。前后向表征學習的核心是對后繼測度（Successor Measure）進行學習，對于一個策略 π，其后繼測度定義為：

其代表了對未來訪問狀態分布的建模。基于后繼測度，動作價值函數可以表示為：

以上公式將動作價值函數分解為兩部分：后繼測度和獎勵函數。因此，只要學習到了策略 π 的后繼測度，即可對任意獎勵函數對應的動作價值函數進行零樣本估計，而無需進一步的訓練。在具體學習時，后繼測度又被分解為：

如下圖所示，我們分別使用一個前向嵌入網絡和一個后向嵌入網絡進行訓練。

最終，我們可以將策略表示為：

Meta 基于前后向表征學習方法開發了 Motivo 模型。如下圖所示，Motivo 學習了廣泛的行為先驗，并展現出卓越的零樣本自適應能力，可應對各種下游任務，包括復雜的運動模仿、姿勢達成和復合獎勵優化。并且，Motivo 能夠在確保運動自然性的同時實現實時運動控制。

潛在應用與現實限制

文章進一步對 BFM 的潛在應用和現實限制進行了分析，如下圖所示：

應用方面：

人形機器人的通用加速器：BFM 包含了大量可復用的基礎技能和廣泛的行為先驗，可以消除白板訓練，實現對下游任務的快速適應。諸如 Motivo 等高級 BFM 能直接將高級任務映射為控制動作，大幅縮短開發周期。
虛擬智能體與游戲開發：BFM 能生成逼真、情境感知的 NPC 行為，結合 LLMs 實現復雜指令解析，為游戲提供前所未有的交互真實感。
工業 5.0：BFMs 使人形機器人融合預訓練技能與實時適應性，支持多任務切換和直觀人機協作，推動以人為中心的彈性制造。
醫療與輔助機器人：BFMs 幫助機器人在非結構化環境中適應多樣化需求，如個性化康復訓練和日常輔助任務，應對人口老齡化挑戰。

限制方面：

Sim2Real 困難：BFM 在學習豐富行為技能的同時，也加劇了仿真與現實的差異，如動力學不匹配和感知域偏移，目前的實際應用仍主要局限于仿真環境，真實部署面臨行為泛化不穩定等挑戰。
數據瓶頸：BFMs 訓練數據規模遠小于 LLMs 或視覺模型，且機器人真實數據稀缺，多模態數據（如視覺 - 本體感知 - 觸覺對齊）尤其缺乏，亟需更大規模、高質量數據集支撐發展。
具身泛化：當前 BFMs 僅針對特定機器人形態訓練，難以適應不同構型（如關節類型、驅動方式或傳感器配置），需開發更具通用性的架構以實現跨平臺技能遷移。

未來研究機會與伴隨風險

最后，文章探索了未來的研究機會和伴隨的風險：

研究機會方面：

多模態 BFM：未來 BFM 需整合視覺、觸覺等多模態感知輸入，以增強非結構化環境中的適應能力，但面臨數據集和訓練范式的挑戰。
高級機器學習系統：BFM 可與 LLM 等結合，形成認知 - 運動一體化架構，由 LLM 負責任務規劃，BFM 執行實時控制，實現復雜任務的靈活處理。
縮放定律：BFM 的性能可能隨模型規模、數據量和計算資源提升而增強，但需平衡行為多樣性與控制效率，其中數據質量對行為先驗的學習尤為關鍵。
后訓練優化：借鑒 LLM 中的的微調、RL 對齊和測試時優化技術，可提升 BFM 的行為對齊性和實時計算效率，需開發針對機器人控制的專用方法。
多智能體系統：BFM 能免除單機器人基礎技能訓練，直接支持多機協作研究，但需開發基于群體交互數據的新型模型以解決物理協調難題。
評估機制：當前缺乏 BFM 的標準化評估體系，未來需構建涵蓋任務泛化性、魯棒性和人機安全的多維度基準，推動通用物理控制器發展。

風險方面：

倫理問題

訓練數據的局限性可能導致機器人行為編碼人口偏見或泄露用戶健康隱私，而其實體化部署可能放大有害動作的社會風險，亟需建立覆蓋數據規范和實時行為治理的新框架。

安全機制：

BFM 面臨傳感器干擾引發的控制失效和多模態攻擊漏洞等風險，需通過對抗訓練和跨模態校驗等機制確保其在開放環境中的可靠性和安全性。這些挑戰要求研究者在技術創新的同時，同步推進倫理規范和安全防護體系的建設。

結語

該綜述首次系統性地梳理了行為基礎模型在人形機器人全身控制領域的引用，全面地介紹了相關技術演化歷史、方法分類、實際應用、技術瓶頸以及未來研究機會與伴隨的風險。

盡管行為基礎模型展現出前所未有的強大能力，其也面臨著重大挑戰，包括 Sim2Real 差距、實體依賴和數據稀缺等問題。在未來的工作中解決這些局限性將有助于開發更可靠、更通用的行為基礎模型。

希望我們的工作能啟發更多相關的后續研究！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.