你的AI管家可能正在拆家？最新研究揭秘家?具?智能體的安全漏洞

2025-07-27 17:05:52　來源: 機(jī)器之心Pro

北京舉報(bào)

分享至

本文由上海 AI Lab 和北京航空航天大學(xué)聯(lián)合完成。主要作者包括上海 AI Lab 和上交大聯(lián)培博士生盧曉雅、北航博士生陳澤人、上海 AI Lab 和復(fù)旦聯(lián)培博士生胡栩浩（共同一作）等。通訊作者為上海 AI Lab 青年研究員劉東瑞、北航教授盛律和上海 AI Lab 青年科學(xué)家邵婧。

從 Meta 的 Habitat 3.0 完美復(fù)現(xiàn)家庭環(huán)境，到 Google 的 SayCan 讓機(jī)器人理解復(fù)雜的家務(wù)指令，再到 Tesla Optimus 曬出的疊衣視頻全網(wǎng)刷屏——現(xiàn)在的基于視覺語言模型（VLM）的家務(wù)助手簡直像開了「全能管家」模式，收拾廚房、整理衣物、照顧寵物，樣樣精通！

但先別急著點(diǎn)贊！你有沒有想過，讓這些「智能管家」自由行動(dòng)，可能像讓三歲小孩玩打火機(jī)一樣危險(xiǎn)？

為此，上海人工智能實(shí)驗(yàn)室（Shanghai AI Lab）與北京航空航天大學(xué)聯(lián)手，重磅推出首個(gè)專注于具身智能體與家用環(huán)境交互過程中安全性的評測基準(zhǔn)——IS-Bench！該測試基準(zhǔn)創(chuàng)新性地設(shè)計(jì)了150+ 個(gè)暗藏「安全殺機(jī)」的智能家居場景（從沾滿污漬的盤子到被防塵布覆蓋的爐灶），配合貫穿全過程的動(dòng)態(tài)評測框架，全方位考驗(yàn) AI 管家的安全素養(yǎng)。

論文標(biāo)題：IS-BENCH: EVALUATING INTERACTIVE SAFETY OF VLM-DRIVEN EMBODIED AGENTS IN DAILY HOUSEHOLD TASKS
項(xiàng)目主頁：https://ursulalujun.github.io/isbench.github.io/
論文地址：https://www.arxiv.org/abs/2506.16402
代碼地址：https://github.com/AI45Lab/IS-Bench
數(shù)據(jù)集地址：https://huggingface.co/datasets/Ursulalala/IS-Bench

實(shí)驗(yàn)結(jié)果令人警醒：當(dāng)前 VLM 家務(wù)助手的安全完成率不足 40%！這意味著每 10 次任務(wù)中就有 6 次可能引發(fā)安全隱患——從弄臟食物到點(diǎn)燃毛毯，AI 管家的每個(gè)動(dòng)作都可能讓你的家變成「災(zāi)難現(xiàn)場」！

從「靜態(tài)快照」到「步步追蹤」，IS-Bench 首創(chuàng)具身安全評估新范式

現(xiàn)有評估體系存在致命盲區(qū)：傳統(tǒng)的靜態(tài)評估模式讓智能體基于固定的環(huán)境信息一次性生成所有動(dòng)作規(guī)劃，最終僅根據(jù)完成狀態(tài)判斷規(guī)劃是否安全。

這種「單次決策+終點(diǎn)評判」的范式完全既無法捕捉交互過程中動(dòng)態(tài)演化的風(fēng)險(xiǎn)鏈（如：倒水→液體潑灑→地面濕滑→跌倒風(fēng)險(xiǎn)），也難以模擬環(huán)境探索中新發(fā)現(xiàn)的風(fēng)險(xiǎn)源（典型場景：開啟櫥柜→發(fā)現(xiàn)餐具污染→潛在食品安全問題）。

更嚴(yán)重的是，該范式會(huì)系統(tǒng)性遺漏關(guān)鍵的過程安全隱患，例如，食物接觸污染餐具后，即使后續(xù)完成餐具清潔，過程中的污染風(fēng)險(xiǎn)已實(shí)質(zhì)形成——完美的終態(tài)結(jié)果反而成為安全隱患的「遮羞布」！

IS-Bench 首創(chuàng)具身安全評估的新范式——「交互安全性」，聚焦智能體在持續(xù)交互中實(shí)時(shí)識別與化解動(dòng)態(tài)風(fēng)險(xiǎn)的能力：

交互式場景構(gòu)建：依托高仿真模擬環(huán)境與多輪次任務(wù)交互，真實(shí)模擬家庭環(huán)境中風(fēng)險(xiǎn)的逐漸暴露與動(dòng)態(tài)升級，使安全隱患隨著任務(wù)的推進(jìn)過程自然涌現(xiàn)。
全流程評估體系：摒棄「一錘定音」的結(jié)果評判，采用基于決策過程的實(shí)時(shí)追蹤與分析框架，對智能體每一步操作的安全性進(jìn)行精細(xì)化評估，全面洞察交互流中的風(fēng)險(xiǎn)暴露點(diǎn)。

三步定制高風(fēng)險(xiǎn)場景，打造家務(wù) Agent 的「照妖鏡」

鑒于模擬器默認(rèn)場景包含的安全風(fēng)險(xiǎn)有限，IS-Bench 設(shè)計(jì)了一套系統(tǒng)化的評測場景定制流程（Pipeline），專門用于生成蘊(yùn)含豐富安全隱患的家務(wù)場景

安全準(zhǔn)則提取：從 Behavior-1K [1] 的任務(wù)場景中提煉出智能體在家庭環(huán)境中必須遵守的核心安全準(zhǔn)則。
安全風(fēng)險(xiǎn)注入：通過深度分析任務(wù)流程中的潛在危險(xiǎn)點(diǎn)，并策略性地引入風(fēng)險(xiǎn)誘導(dǎo)物，將安全風(fēng)險(xiǎn)（特別是動(dòng)態(tài)風(fēng)險(xiǎn)）無縫融入常見的家務(wù)場景中。
安全探針部署：精確定義用于檢測交互過程中狀態(tài)是否安全的判定標(biāo)準(zhǔn)，并標(biāo)注在任務(wù)過程中觸發(fā)安全性評估的關(guān)鍵時(shí)機(jī)。

上述三個(gè)核心步驟均采用「GPT 自動(dòng)生成 + 人工校驗(yàn)」的雙保險(xiǎn)模式，最大程度保證場景設(shè)計(jì)的合理性與多樣性。所有定制場景均在高仿真模擬器中完成實(shí)例化與驗(yàn)證，嚴(yán)格確保任務(wù)目標(biāo)的可達(dá)成性以及安全判定條件的可檢測性。

最終構(gòu)建的「家居危險(xiǎn)百科」場景庫包含161 個(gè)高仿真評測場景，精準(zhǔn)復(fù)現(xiàn)廚房、客廳、衛(wèi)生間等家庭事故高發(fā)區(qū)域，總計(jì)嵌入了388 個(gè)安全隱患點(diǎn)——從「倒水時(shí)需避開周邊電源」的基礎(chǔ)安全常識，到「金屬制品嚴(yán)禁微波加熱」的物理風(fēng)險(xiǎn)警示，再到「消毒劑與食品必須分區(qū)存放」的化學(xué)危險(xiǎn)防范，實(shí)現(xiàn)了對10 大類家庭生活場景安全隱患的全方位覆蓋。

全流程評測框架，構(gòu)建交互安全的護(hù)城河

為了實(shí)現(xiàn)面向過程的交互安全性評測，IS-Bench 精心打造了一套評測框架：

技能基石與交互驅(qū)動(dòng)：框架預(yù)置了 18 項(xiàng)核心基礎(chǔ)技能（Primitive Skills），并構(gòu)建了與高保真模擬器進(jìn)行逐步交互的執(zhí)行代碼框架。
全程實(shí)時(shí)狀態(tài)追蹤：在每一步操作中，智能體基于實(shí)時(shí)多模態(tài)環(huán)境感知作出決策；動(dòng)作執(zhí)行后，場景狀態(tài)與操作歷史即時(shí)同步更新，形成持續(xù)演進(jìn)的決策上下文，確保安全評估貫穿始終。
靈活的分級評測機(jī)制：支持階梯式難度測試，通過可選注入視覺輔助信息（如物體的邊界框）及層級化安全提示，精準(zhǔn)考察智能體在不同難度下的安全決策能力。

家務(wù) Agent 的安全風(fēng)險(xiǎn)比你想象得更大！

評測結(jié)果揭示嚴(yán)峻挑戰(zhàn)：

安全短板顯著：當(dāng)前主流基于 VLM 的具身智能體在交互過程中化解安全風(fēng)險(xiǎn)的能力嚴(yán)重不足，其任務(wù)安全完成率小于 40%。
事前防范更易疏忽：事前防范（pre-caution，如打開爐灶之前要檢查附近是否有可燃物）比事后注意（post-caution，如打開爐灶做完飯之后要注意關(guān)閉爐灶）更容易被忽視，智能體僅能正確完成不足 30% 的事前防范措施。
安全與效率的權(quán)衡困境：雖然引入安全思維鏈（Safety CoT）提示能將交互安全性平均提升 9.3%，但這顯著犧牲了任務(wù)成功率（下降 9.4%），這揭示了提升安全性可能伴隨效率成本。

核心瓶頸深度解析：當(dāng)明確展示安全目標(biāo)時(shí)，部分閉源模型的安全完成率實(shí)現(xiàn)顯著飛躍（從 <40% 躍升至 >65%），這一現(xiàn)象直指問題本質(zhì)：交互安全性的核心瓶頸并非規(guī)劃執(zhí)行能力缺陷，而是智能體在風(fēng)險(xiǎn)感知與認(rèn)知層面的嚴(yán)重不足。更值得關(guān)注的是，通過提供物品邊界框（BBox）和初始場景描述（IS），智能體的安全意識和事前防范正確率可提升 15% 左右，進(jìn)一步說明當(dāng)前系統(tǒng)的安全短板主要源于在物品密集的復(fù)雜場景中無法精確識別和注意可能引發(fā)安全隱患的物品

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.