網易首頁 > 網易號 > 正文申請入駐

CVPR 2025｜北大聯(lián)手智元發(fā)布首個基于說明書的家電操作評測基準

2025-06-13 11:22:10　來源: 機器之心Pro

北京舉報

分享至

本工作于 2024 年 11 月完成，目前已經被 CVPR 2025 接收并評選為 Highlight，第一作者為龍宇星，導師為北京大學董豪老師。課題組致力于研究統(tǒng)一的物體表征操作研究，以實現(xiàn)具有可解釋性和泛化能力的物體操作策略。

自 19 世紀末愛迪生發(fā)明電燈以來，電器的發(fā)展和革新不斷提升人類的生活水平。如今，電器已經走進千家萬戶，成為我們的得力助手，與我們的生活密不可分。賦予機器人使用家電的能力具有重要的學術價值和廣闊的應用前景。

目前在機器人操作領域，一般物體（如剛體和鉸接物體）的操作研究已經取得一定進展，但是現(xiàn)有操作策略主要執(zhí)行單步原子操作。對于設備（如家電）而言，必須按照正確順序和方式進行多步操作，才能正確完成高層次任務。因此，參照說明書進行長程操作規(guī)劃對于家電操作而言十分必要。

然而，受限于以下三大挑戰(zhàn)，基于說明書的長程家電操作探索幾乎處于空白狀態(tài)：

缺乏研究可用的家電說明書和配套數字資產：互聯(lián)網上的家用電器說明書受到公司的版權保護，難以用于學術研究。此外，這些真實說明書沒有對應的家電資產模型，無法滿足仿真評測需求。
缺乏洞察家電操作問題的評測任務：現(xiàn)有的家電操作評測任務仍然主要集中在對于原子動作能力的評估，未充分考慮基于說明書的長程家電操作中存在的識別，規(guī)劃和執(zhí)行等復雜問題。
缺乏基于說明書的操作規(guī)劃模型：當前的機器人家電操作模型主要實現(xiàn)單一的原子動作，尚未具備結合說明書內容和高層任務指令進行長程操作規(guī)劃的能力。

為應對上述挑戰(zhàn)，北京大學聯(lián)合智元機器人團隊提出了全新的家用電器操作評測基準 CheckManual，這是首個專為研究基于說明書的家電操作而設計的評測框架

論文標題：CheckManual: A New Challenge and Benchmark for Manual-based Appliance Manipulation
論文鏈接：http://arxiv.org/abs/2506.09343
項目主頁：https://sites.google.com/view/checkmanual
GitHub 鏈接：https://github.com/LYX0501/CheckManual

CheckManual 具有以下三個創(chuàng)新性優(yōu)勢：

（1）圖片和文字內容擬真的家電說明書和多樣的數字資產

通過廣泛調研真實說明書圖文內容和格式，構造超過 1100 份擬真的家用電器說明書。說明書中含有部位介紹圖，操作說明圖，任務表格等豐富內容，涵蓋 11 類共計 182 種生活中常見家電的數字資產。

（2）契合實際要求的一系列全新評測任務

針對基于說明書的家電操作任務需求，設計三種不同導向的評測任務，全方位評測模型在說明書理解，操作規(guī)劃，以及動作執(zhí)行上的能力。

（3）首個基于說明書的操作規(guī)劃模型 ManualPlan

提出第一個基于說明書的操作規(guī)劃模型，能夠理解任務指令中關鍵信息，解析說明書內容，并規(guī)劃部件層次的具體操作。

CheckManual 介紹

（一）家電說明書自動化生成和人工校驗

Figure 1. CheckManual 說明書生成管線

（1）準備階段（Figure 1 左）：首先從互聯(lián)網收集 110 份來自不同國家和地區(qū)的電器說明書，分析發(fā)現(xiàn)說明書中功能性部件通常通過點 - 線格式標注，操作方法導則通過純文本、多模態(tài)圖示（包括部件放大圖和部位移動示意圖）等多種方式進行介紹。此外，從 PartNet-Mobility 數據集篩選總共包括 11 類共計 182 個家電 CAD 模型，包括洗衣機，冰箱，微波爐等常見家用電器，用于說明書生成。

（2）說明書素材創(chuàng)造階段（Figure 1 中）：根據規(guī)則自動生成關于家用電器的部位點 - 線注釋圖，并通過多模態(tài)大模型根據家電的類別和外觀特點編寫每個部位的功能和狀態(tài)類型。在此基礎上，進一步采用大語言模型編寫家用電器支持的操作任務和詳細的引導步驟。為了保證大模型生成內容正確合理，對所有生成結果都進行仔細的人工檢驗，并對不合理的部分進行重編寫。此外，自動化生成說明書封面，操作方法說明，警告標識等內容作為說明書的圖片內容。

（3）說明書生成階段（Figure 1 右）：所有先前階段生成的文字內容和圖片鏈接都通過大語言模型整合成格式多樣的 LaTex 代碼，這些代碼進一步被編譯成 PDF 格式的家電說明書。在 Figure 2 中展示來自 CheckManual 數據集的家電說明書示例。

根據統(tǒng)計分析，CheckManual 數據集中共包含 1107 份不同內容的說明書，涵蓋 2211 個不同的可操作部位，1464 個關于家用電器的操作任務。該數據規(guī)模和多樣性可以有效支撐基于說明書的家用電器操作任務評測需求。

Figure 2. 來自 CheckManual 數據集的家電說明書示例

（二）CheckManual 仿真環(huán)境評測任務

基于 CheckManual 數據集，團隊提出一系列針對基于說明書的家用電器操作規(guī)劃和執(zhí)行的評測任務，它們分別是說明書 - CAD 模型 - 家電對齊的操作規(guī)劃任務，基于說明書和 CAD 模型的操作執(zhí)行任務以及完全基于說明書的操作執(zhí)行任務。這些任務的可用輸入和預測目標如 Table 1 所示。關于任務詳細定義和評測指標介紹請參考論文。

Table 1. CheckManual 數據集評測任務的可用輸入和預測目標

（三）基于說明書的家電操作規(guī)劃模型 ManualPlan 和動作執(zhí)行

Figure 3. ManualPlan 家電操作規(guī)劃模型

針對基于說明書的家用電器操作任務，團隊設計 ManualPlan 模型。該模型首先采用 OCR 和多模態(tài)大模型對說明書文字內容和視覺內容進行提取和解析，然后 ManualPlan 根據任務指令規(guī)劃出詳細的操作步驟。為了便于后續(xù)操作執(zhí)行，模型進一步根據說明書示意圖，將電器部件名稱和相機觀測視野中的部件對齊。由此模型可以預測每個部件的操作順序和操作方式。

ManualPlan 的預測結果既可以控制基于家電 CAD 模型的操作原子動作，也可以控制如 VoxPoser 這樣的開放詞匯操作模型來實現(xiàn)與家用電器的真實交互，從而完成家用電器操作任務。

Table 2. CheckManual 數據集評測結果

團隊分別在 CheckManual 數據集上評測 ManualPlan 的操作規(guī)劃能力，以及基于原子技能和開放詞匯操作模型 VoxPoser 的家用電器操作執(zhí)行能力。Tabel 2 中 Track 1 的評測結果按照「對齊成功率 / 任務規(guī)劃成功率」呈現(xiàn)，Track 2 和 3 的結果按照「完成率 / 成功率」呈現(xiàn)。

從實驗結果中可以觀察到，說明書有效提升操作規(guī)劃的成功率，但長程家電操作對現(xiàn)有 - 原子動作和開放詞匯操作模型而言仍然十分有挑戰(zhàn)性。長程操作中的錯誤累積使得家用電器操作成功率仍然有巨大的提升空間，值得未來更加深入的研究。

以下展示 ManualPlan 在真實世界中操控家電完成長程任務的效果。

Figure 4. ManualPlan 操作電飯煲「煮小米粥」

Figure 5. ManualPlan 控制微波爐「加熱牛排」

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.