99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

北大提出機器人學習新范式MP1,實現速度與成功率雙SOTA

0
分享至



作者介紹:盛舉義,北京大學在讀博士研究生,研究方向為機器人操作技能學習方法研究;王梓懿、李培銘,北京大學在讀碩士研究生,研究方向為視頻理解分析;劉勇,浙江大學控制科學與工程學院教授,研究領域為自主機器人與智能系統;劉夢源,北京大學深圳研究生院助理教授,研究領域為人類行為理解與機器人技能學習。

在目前的 VLA 模型中,「A」— 動作生成模型決定了動作生成的質量以及速度。具體而言,生成式模型在推理速度與任務成功率之間存在 「根本性權衡」。

其中,Diffusion Models(如 Diffusion Policy 和 DP3)通過多步迭代生成高質量動作序列,但推理速度較慢,難以滿足實時控制要求;而 Flow-based 模型(如 FlowPolicy)盡管能提供快速推理,但需要額外的架構約束或一致性損失(consistency loss)來保證軌跡的有效性,這增加了設計復雜性并可能限制性能和泛化能力。

此外,機器人操作面臨另一個挑戰,即數據高效的少樣本泛化。標準模仿學習策略容易出現 「特征坍塌(feature collapse)」,即將需要不同動作的關鍵狀態錯誤地映射到相似的潛在表征 latent representation)上,導致模型在新情境下無法做出準確反應。因此,提升模型對不同狀態的區分能力是提高策略泛化性的關鍵。

為應對上述挑戰,來自北大的研究團隊提出名為 MP1 的全新機器人學習框架。該框架首次將近期在圖像生成領域取得突破的 MeanFlow 范式引入機器人學習,實現毫秒級推理速度,為 VLA 動作生成模型打下基礎。



  • 論文標題:MP1: Mean Flow Tames Policy Learning in 1-step for Robotic Manipulation
  • 論文鏈接:https://arxiv.org/abs/2507.10543
  • 代碼鏈接: https://github.com/LogSSim/MP1

MP1 的核心引擎 ——Mean Flow 范式



MP1 的核心創新在于其生成范式的根本轉變。傳統 Flow Matching 學習的是一個瞬時速度場(instantaneous velocity field),在推理時需要通過迭代式求解常微分方程(ODE)來積分生成軌跡,這一過程不僅耗時,且會引入并累積數值誤差。與之相反,MP1 直接學習從初始噪聲到目標動作的區間平均速度場(interval-averaged velocity field)。

技術上,MP1 利用了 「MeanFlow Identity」,使模型能夠直接對平均速度場進行建模,而無需在推理時進行任何積分求解。這一設計帶來了兩大核心優勢:

  • 真正的單步生成(1-NFE):模型僅需一次網絡前向傳播,即可從隨機噪聲直接生成完整動作軌跡,徹底擺脫了對迭代式 ODE 求解器的依賴。
  • 無約束的簡潔性:得益于其數學形式的完備性,MP1 天然保證了軌跡質量,無需引入 FlowPolicy 等方法所依賴的外部一致性約束,使模型設計更為簡潔、優雅。

這種從數學原理上解決問題的方式,而非依賴工程技巧進行修補,使得 MP1 不僅實現了速度的飛躍,更重要的是,其單次、確定性的前向傳播過程保證了推理時間的高度穩定,這能夠保證機器人操作任務中的實時性。

分散損失提升少樣本泛化能力

在解決軌跡生成的動態問題后,MP1 針對機器人學習中的 「表征坍塌」 問題進行了改進。該問題指的是策略網絡將需要不同動作的關鍵狀態錯誤地映射到相近的潛在空間位置,從而導致模型在少樣本學習中泛化能力下降。

MP1 引入了來自表征學習領域的最新方法 ——分散損失(Dispersive Loss)。這是一種輕量級、僅在訓練階段生效的正則化項,旨在直接優化策略網絡的內部表征空間。其核心思想是在訓練的每個 mini-batch 中,對不同輸入樣本的潛在表征施加一種 「排斥力」,強制它們在特征空間中相互分散。該損失可以被理解為一種 「無正樣本的對比損失」:策略網絡主要的回歸目標負責將每個狀態 「拉向」 其對應的專家動作,而分散損失則負責將不同狀態的表征相互 「推開」,從而塑造出一個更具辨識度的特征空間。

分散損失的關鍵優勢在于它是一個僅在訓練時生效的正則化器,在不增加任何推理開銷的前提下,顯著提升了模型區分細微場景差異的能力,完美保留了 MP1 標志性的毫秒級響應速度。在數據采集成本高昂的機器人領域,這種能從極少量(如 5-10 個)示教中高效學習的能力至關重要。

MP1 的仿真測試表現

MP1 的性能優勢在涵蓋 37 個復雜操作任務的 Adroit 與 Meta-World 基準測試中得到了驗證。

出色的任務成功率與穩定性



在任務成功率方面,MP1 平均成功率達到 78.9%,相較于當前先進的流模型 FlowPolicy (71.6%) 和擴散模型 DP3 (68.7%),分別實現了 7.3% 和 10.2% 的顯著提升。

尤為關鍵的是,MP1 的優勢在更高難度的任務中愈發凸顯。在 Meta-World 的 「中等」、「困難」 及 「非常困難」 任務集上,MP1 相較于 FlowPolicy 的成功率增幅分別高達 9.8%、17.9% 和 15.0% 。此外,MP1 展現出極高的性能穩定性。在多次隨機種子實驗中,其成功率的平均標準差僅為 ±2.1%,遠低于其他基線方法,證明了其結果的高度可靠性與可復現性。

卓越的推理效率與實時控制能力

在實現更高成功率的同時,MP1 的推理速度同樣刷新了紀錄。在 NVIDIA RTX 4090 GPU 上,其平均推理耗時僅為 6.8ms



這一速度比當前最快的流模型 FlowPolicy (12.6 ms) 快了近 2 倍,更比強大的擴散模型 DP3 (132.2 ms) 快了 19 倍。如此低的延遲意味著 MP1 的決策環路完全滿足機器人領域典型的實時控制頻率(通常為 20-50 毫秒)。

少樣本學習能力驗證

為了進一步驗證分散損失在提升模型數據效率上的作用,研究團隊還進行了少樣本學習的消融實驗。



實驗結果表明,MP1 在所有數據量級上均一致地優于FlowPolicy,尤其是在示教數據極為稀少(如 2-5 個)的極端少樣本場景下。這有力地證明了分散損失通過優化內部表征空間,能夠有效提升策略少樣本學習的泛化能力,這可以降低真機部署時大量數據的需求。

MP1 的真機驗證



研究團隊將 MP1 部署于一臺 ARX R5 雙臂機器人上,并在五個真實的桌面操作任務中進行了測試。

實驗結果進一步印證了 MP1 的性能。在所有五項任務中,MP1 均取得了最高的成功率和最短的任務完成時間。以 「Hummer」 任務為例,MP1 的成功率高達 90%,遠超 FlowPolicy 和 DP3 的 70%;同時,其平均任務耗時僅 18.6 秒,顯著快于 FlowPolicy(22.3 秒)和 DP3(31.1 秒)。



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
楊瀚森夏聯表現排名第123!開拓者隊內位居第5 名嘴透露賣隊進展

楊瀚森夏聯表現排名第123!開拓者隊內位居第5 名嘴透露賣隊進展

羅說NBA
2025-07-25 20:45:44
宗馥莉開會現場曝光:素面朝天,頭發隨手一扎,身邊清一色女將

宗馥莉開會現場曝光:素面朝天,頭發隨手一扎,身邊清一色女將

興史興談
2025-07-23 09:45:37
孕檢發現孩子沒手沒腳,寶媽不顧勸阻堅持生下,如今過得怎么樣?

孕檢發現孩子沒手沒腳,寶媽不顧勸阻堅持生下,如今過得怎么樣?

大果小果媽媽
2025-07-02 20:46:20
伊能靜兒子恩利西班牙被偶遇,穿一個肚兜出門,頻繁女裝引發熱議

伊能靜兒子恩利西班牙被偶遇,穿一個肚兜出門,頻繁女裝引發熱議

懂體育的小吖頭
2025-06-06 09:04:55
桑切斯貝佐斯在法國度蜜月,她眼角皺紋很深,她頭靠著貝佐斯很甜

桑切斯貝佐斯在法國度蜜月,她眼角皺紋很深,她頭靠著貝佐斯很甜

趣文說娛
2025-07-25 10:04:19
國足新帥人選評測:矮子里拔將軍,僅1人條件合適!卡帥難獲青睞

國足新帥人選評測:矮子里拔將軍,僅1人條件合適!卡帥難獲青睞

國足風云
2025-07-25 15:43:24
奧迪Q5L打響油車反擊第一槍!第5代EA888+華為智駕,內外全上狠活

奧迪Q5L打響油車反擊第一槍!第5代EA888+華為智駕,內外全上狠活

三農老歷
2025-07-23 07:35:46
要不要接著造電車,車企站在十字路口

要不要接著造電車,車企站在十字路口

腦洞汽車
2025-07-23 17:03:55
井柏然劉雯領證,毫不意外

井柏然劉雯領證,毫不意外

熱鬧吃瓜大姐
2025-07-23 20:26:35
金庸武俠13位男主排名,楊過才第七,第一名打沉了一座島

金庸武俠13位男主排名,楊過才第七,第一名打沉了一座島

小李大俠
2025-07-16 11:06:33
又贏麻了?西藏大壩剛動工,印度人口嗨:占領西藏,為我所用?

又贏麻了?西藏大壩剛動工,印度人口嗨:占領西藏,為我所用?

瞻史
2025-07-25 10:26:02
好消息!廣西這條高速年底通車,未來出行更方便

好消息!廣西這條高速年底通車,未來出行更方便

特特農村生活
2025-07-26 00:02:15
警方在詢問嫌疑人時遇過什么腦洞大開的回復 看網友評論簡直笑死

警方在詢問嫌疑人時遇過什么腦洞大開的回復 看網友評論簡直笑死

侃神評故事
2025-07-19 18:50:03
韓國教授警告:全世界只有韓國看不起中國,但中國眼里卻沒有韓國

韓國教授警告:全世界只有韓國看不起中國,但中國眼里卻沒有韓國

行走的知識庫
2025-07-26 00:52:52
免費領雞蛋,騙244億養老錢!中國老年人“第一大忽悠”終于倒了

免費領雞蛋,騙244億養老錢!中國老年人“第一大忽悠”終于倒了

新語愛八卦
2025-07-22 17:59:09
張碧晨方再回應:享有《年輪》永久演唱權,將不再演唱該作品

張碧晨方再回應:享有《年輪》永久演唱權,將不再演唱該作品

南方都市報
2025-07-25 20:49:15
長相平平卻資源不斷,丑而不自知的4位短劇女演員,誰給的自信

長相平平卻資源不斷,丑而不自知的4位短劇女演員,誰給的自信

喵喵娛樂團
2025-07-25 16:08:45
曾經風靡的烏蘇啤酒,為啥現在不火了?飯店老板:4個原因很現實

曾經風靡的烏蘇啤酒,為啥現在不火了?飯店老板:4個原因很現實

小正說娛樂
2025-03-19 14:50:37
王菲近況引擔憂,兩個細節真相大白,疑似謝霆鋒再陷“老本行”

王菲近況引擔憂,兩個細節真相大白,疑似謝霆鋒再陷“老本行”

草莓解說體育
2025-07-24 09:39:22
年入300億,董明珠的勁敵要IPO了

年入300億,董明珠的勁敵要IPO了

邱處機
2025-07-25 19:06:08
2025-07-26 03:40:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10945文章數 142393關注度
往期回顧 全部

科技要聞

36款熱門車高危智駕場景測試,“團滅”!

頭條要聞

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

頭條要聞

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

體育要聞

3年過去了,她還是歐洲杯上最酷的姐

娛樂要聞

汪蘇瀧不忍了 !張碧晨痛失《年輪》演唱權

財經要聞

劉煜輝:當下重要不是找確定性而是轉折點

汽車要聞

李斌一口氣講了近3個小時樂道L90 原因是為啥?

態度原創

游戲
時尚
家居
教育
數碼

《無主之地4》已開發完畢進廠壓盤

今年夏天一定要有這件衣服,好看又復古!

家居要聞

環繞設計 空間動線合理

教育要聞

再獲國際物理奧賽金牌,南師附中學子勇登世界之巔!

數碼要聞

谷歌Pixel Watch 4智能手表曝光:充電口更改,配色更多

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 北流市| 兴仁县| 长泰县| 武义县| 靖宇县| 潜山县| 桑日县| 耿马| 绍兴县| 郁南县| 松桃| 阿拉善左旗| 岳阳县| 大新县| 新化县| 商丘市| 什邡市| 平江县| 阳新县| 罗山县| 绍兴县| 枣强县| 安国市| 涿州市| 正宁县| 蓝田县| 花垣县| 肥西县| 伊金霍洛旗| 阿巴嘎旗| 台中县| 苍溪县| 龙南县| 池州市| 永和县| 六盘水市| 始兴县| 克什克腾旗| 晴隆县| 无锡市| 澄城县|