Windown10和Windown11的自动更新确实很烦人,相信很多人想关闭它,但又找不到方法,这里介绍一个方法,可以彻底关闭它们的自动更新。在网上搜...
2025-07-28 0
本文由上海 AI Lab 和北京航空航天大学联合完成。 主要作者包括上海 AI Lab 和上交大联培博士生卢晓雅、北航博士生陈泽人、上海 AI Lab 和复旦联培博士生胡栩浩(共同一作)等。 通讯作者为上海 AI Lab 青年研究员刘东瑞、北航教授盛律和上海 AI Lab 青年科学家邵婧。
从 Meta 的 Habitat 3.0 完美复现家庭环境,到 Google 的 SayCan 让机器人理解复杂的家务指令,再到 Tesla Optimus 晒出的叠衣视频全网刷屏——现在的基于视觉语言模型(VLM)的家务助手简直像开了「全能管家」模式,收拾厨房、整理衣物、照顾宠物,样样精通!
但先别急着点赞!你有没有想过,让这些「智能管家」自由行动,可能像让三岁小孩玩打火机一样危险?
为此,上海人工智能实验室(Shanghai AI Lab)与北京航空航天大学联手,重磅推出首个专注于具身智能体与家用环境交互过程中安全性的评测基准——IS-Bench!该测试基准创新性地设计了 150+ 个暗藏「安全杀机」的智能家居场景(从沾满污渍的盘子到被防尘布覆盖的炉灶),配合贯穿全过程的动态评测框架,全方位考验 AI 管家的安全素养。
实验结果令人警醒:当前 VLM 家务助手的安全完成率不足 40%!这意味着每 10 次任务中就有 6 次可能引发安全隐患——从弄脏食物到点燃毛毯,AI 管家的每个动作都可能让你的家变成「灾难现场」!
从「静态快照」到「步步追踪」,IS-Bench 首创具身安全评估新范式
现有评估体系存在致命盲区:传统的静态评估模式让智能体基于固定的环境信息一次性生成所有动作规划,最终仅根据完成状态判断规划是否安全。
这种「单次决策+终点评判」的范式完全既无法捕捉交互过程中动态演化的风险链(如:倒水→液体泼洒→地面湿滑→跌倒风险),也难以模拟环境探索中新发现的风险源(典型场景:开启橱柜→发现餐具污染→潜在食品安全问题)。
更严重的是,该范式会系统性遗漏关键的过程安全隐患,例如,食物接触污染餐具后,即使后续完成餐具清洁,过程中的污染风险已实质形成——完美的终态结果反而成为安全隐患的「遮羞布」!
IS-Bench 首创具身安全评估的新范式——「交互安全性」,聚焦智能体在持续交互中实时识别与化解动态风险的能力:
三步定制高风险场景,打造家务 Agent 的「照妖镜」
鉴于模拟器默认场景包含的安全风险有限,IS-Bench 设计了一套系统化的评测场景定制流程(Pipeline),专门用于生成蕴含丰富安全隐患的家务场景:
上述三个核心步骤均采用「GPT 自动生成 + 人工校验」的双保险模式,最大程度保证场景设计的合理性与多样性。所有定制场景均在高仿真模拟器中完成实例化与验证,严格确保任务目标的可达成性以及安全判定条件的可检测性。
最终构建的「家居危险百科」场景库包含 161 个高仿真评测场景,精准复现厨房、客厅、卫生间等家庭事故高发区域,总计嵌入了 388 个安全隐患点——从「倒水时需避开周边电源」的基础安全常识,到「金属制品严禁微波加热」的物理风险警示,再到「消毒剂与食品必须分区存放」的化学危险防范,实现了对 10 大类家庭生活场景安全隐患的全方位覆盖。
全流程评测框架,构建交互安全的护城河
为了实现面向过程的交互安全性评测,IS-Bench 精心打造了一套评测框架:
家务 Agent 的安全风险比你想象得更大!
评测结果揭示严峻挑战:
核心瓶颈深度解析:当明确展示安全目标时,部分闭源模型的安全完成率实现显著飞跃(从 <40% 跃升至 >65%),这一现象直指问题本质:交互安全性的核心瓶颈并非规划执行能力缺陷,而是智能体在风险感知与认知层面的严重不足。更值得关注的是,通过提供物品边界框(BBox)和初始场景描述(IS),智能体的安全意识和事前防范正确率可提升 15% 左右,进一步说明当前系统的安全短板主要源于在物品密集的复杂场景中无法精确识别和注意可能引发安全隐患的物品。
相关文章
Windown10和Windown11的自动更新确实很烦人,相信很多人想关闭它,但又找不到方法,这里介绍一个方法,可以彻底关闭它们的自动更新。在网上搜...
2025-07-28 0
从“移动多媒体”到“掌中端游” 2007 年,初代 Snapdragon S1以现在的眼光看,还只是一颗主频 528 MHz 的“多媒体加速器”,彼时...
2025-07-28 0
外卖商战刚刚开始的时候,我没参与,因为我不是一个点外卖的人。作为一个每天回家吃妈妈做饭的人,我的人生是很幸福的。但是,我妈跟我爸去旅游了,我做了几天饭...
2025-07-28 0
模拟芯片和数字芯片的区别当你用手机录制雨声时,麦克风芯片将声波转化为电流(模拟世界),处理器瞬间将其变为0和1的数字代码(数字世界)——这背后的‘芯片...
2025-07-28 0
广袤沙漠,一望无垠。一排排整齐闪光的光伏板正努力吸收阳光发电。但它们看似“可靠”,其实有“站不住脚”的风险……众所周知,沙漠、戈壁、荒原地区阳光足、土...
2025-07-28 0
你家还在用这5款家电吗?看谁还在乱跟风?那些年这些家电被吹得天花乱坠,看了就让人心动不已,可真买回家才发现,多数功能只是噱头,实用性根本跟不上。尤其是...
2025-07-28 0
在深圳南山科技园的咖啡厅里,我亲眼见证了影石创新上市首日的疯狂:穿着格子衫的程序员们举着 Insta360 相机互相拍照,连咖啡师都在刷着影石股价飙升...
2025-07-28 0
人生有几个 24 年呢?足以让一个人从出生到步入社会,也能让一个人从意气风发的小飞侠,到被永远纪念、缅怀的篮球传奇。24 年前,adidas 为湖人...
2025-07-28 0
发表评论