首页 抖音快讯文章正文

通过解释机器人行为来增强人类信任

抖音快讯 2025年08月04日 23:23 1 admin

一个关于两种解释的故事:通过解释机器人行为来增强人类信任

对所选行为提供全面解释的能力是智能的标志性特征。缺乏这种能力会阻碍人工智能和机器人系统在关键任务中获得普遍接受。本文研究了何种解释形式最能促进人类对机器的信任,并提出一个从功能机制和运行机理双重视角生成解释的框架。该机器人系统通过人类示范学习开启药瓶,运用:(i)具身触觉预测模型从感官反馈中提取知识;(ii)诱导式随机语法模型捕捉多步骤任务的组合结构;(iii)改进型Earley解析算法协同利用触觉与语法模型。该系统不仅展现向人类示范者学习的能力,还能成功开启未见过的药瓶。通过机器人系统生成的不同解释形式,我们开展心理学实验探究最能建立人机信任的解释方式。研究发现,对机器人内部决策进行全面实时可视化呈现,比基于文本摘要的解释更能有效提升人类信任度。此外,最适合建立信任的解释形式,与最能提升任务性能的模型组件并不完全对应。这种差异性表明机器人学界需要整合模型组件,以同时提升任务执行力和人类对机器的信任度。

通过解释机器人行为来增强人类信任

这篇文章核心创新点如下:

聚焦解释形式人机信任的作用:指出对行为的全面解释能力是智能标志,直接研究不同解释形式对人类信任机器的影响,将研究重心落在何种解释最能建立信任上。

提出功能 - 机理双重视角解释框架:从功能机制(what)和运行机理(how)两个互补视角生成解释,既描述机器人做了什么,又阐明其决策执行过程,提供更深入透明的理解。

融合多模态学习模型构建核心能力:整合三种核心技术实现学习和任务执行(开启药瓶):具身触觉预测模型从触觉反馈提取知识;诱导式随机语法模型捕捉多步骤任务组合结构;改进型 Earley 解析算法协同利用前两者实时决策,三者协同使系统能通过人类示范学习并泛化到新药瓶。

通过实验揭示解释形式信任建立的关系:通过心理学实验得出关键实证发现,一是可视化呈现机器人内部决策过程比文本摘要更能提升人类信任度;二是最能建立信任的解释形式与最能提升任务性能的模型组件不对应,优化任务性能的模型设计不一定能产生最能建立信任的解释。

提出信任 - 性能协同设计新范式:基于上述发现,提出机器人学界需整合模型组件,在设计阶段统筹考虑模型执行任务和生成有效解释建立信任,以同时优化任务执行力和人类信任度。

总结来说,文章创新在于精准锚定解释形式如何影响人机信任问题;提出双重视角解释生成框架;开发整合多模型实现示范学习与泛化;验证可视化是最佳信任建立解释形式,揭示信任与性能最佳组件不匹配现象;倡导信任建立性能优化协同设计新范式。这些创新对可解释 AI 和机器人学领域意义重大,为设计可信赖人机协作系统指明新方向。

研究背景

几个世纪前,亚里士多德称,除非理解事物的为什么即原因,否则不算真正了解它(1)。人类作为社会性动物,能通过解释自身及他人行为来回答为什么。寻求解释的驱动力深植于人类认知中,学龄前儿童会给物体赋予功能以解释其活动(2, 3)。人类对解释有强烈偏好和内在动机,这源于解释能促进相互理解、培养信任并促成复杂协作(4, 5)。

然而,现代AI系统大多聚焦任务性能(6),未充分重视人类对解释的需求。机器人系统解释自身行为的能力尚处初级,基于规划器的机器人系统虽能为行为提供可解释说明(如通过马尔可夫决策过程(7, 8)、层次任务网络(HTN)(9)或斯坦福研究所问题求解系统(STRIPS)(10)),但难以解释符号级知识如何从低级感官输入推导。配备深度神经网络(DNNs)(11)的机器人处理低级嘈杂感官输入能力强,在特定任务中性能出色(12, 13),但存在知识表示缺乏可解释性等局限(14–16)。近期一些研究通过显著图(17, 18)或模块化组件(19, 20)解决此问题,但在融合经典符号AI与深度神经网络以赋予机器全面解释能力方面研究较少。

为填补空白,本项目旨在区分可解释性与任务性能并分别衡量,评估符号表示和数据驱动表示在任务性能和培养人类信任方面的优劣。研究目标包括:(i)复杂机器人操作任务中的优秀执行者构成;(ii)如何构建有效解释器解释机器人行为并培养人类信任。

本文开发集成框架,包含使用随机语法的符号动作规划器和基于神经网络的触觉预测模型。在操作带安全锁药瓶的机器人系统中测试该框架,此任务对执行和解释都具挑战性,接触力是解锁关键却无法从视觉输入直接观察。优秀执行者通过协同结合多种信息源实现高性能,从人类演示中学习随机语法模型捕捉任务特性,利用感官信息训练触觉预测模型获取知识,通过改进的广义厄尔利解析器(GEP)(22)规范结合符号规划器和触觉模型。计算实验表明,整合方法性能显著优于单独使用符号规划器或触觉模型。

构建有效解释器时,借鉴人类主要解释类型。触觉预测模型提供功能解释,符号动作规划器提供机制解释,机器人系统分别利用二者提供相应解释。

为探究机器人解释培养人类信任的程度,开展人体实验评估解释能否增进信任及哪种形式最有效。实验聚焦信任的认知成分(25),基于合理性,这对人机关系中信任形成尤为重要(26, 27)。参与者观察机器人动作序列和不同解释形式后报告信任评分,再观察新执行过程预测机器人行为。

实证发现揭示学习以人为中心模型的重要性,最适合培养信任的解释形式未必对应最佳任务性能组件,机器人学界需采用更可能培养人类信任的模型组件并与其他高任务性能组件结合。

研究流程

具身触觉模型细节

具身触觉模型利用机器人操纵器的低级触觉信号,结合触觉手套收集的人类姿态和力进行动作预测,使机器人能理解自身触觉反馈并推测人类行动。关键挑战是学习机器人与人类状态的等效映射,手动设计具身映射不可取,为此提出通用模型,适用于任意机器人具身性与人类演示者。

该模型含三个组件:一是自编码器,将人类演示编码到低维子空间(人类嵌入);二是具身映射,把机器人状态映射到对应人类嵌入;三是动作预测器,以人类嵌入和当前动作预测下一步动作。网络架构使机器人基于推断的人类状态推测动作,选择公式为at+1 ∼ p(⋅∣ft, at)

自编码器接收人类演示80维向量,用后条件向量(N=2)作输入,缩减为8维人类嵌入。具身映射将机器人4维后条件向量(N=10)映射到想象的人类嵌入,使用256维潜在表示,再映射到8维人类嵌入。训练时,机器人先执行有监督动作,保存后条件向量,将等效动作的人类演示输入自编码器生成人类嵌入,作为具身映射网络的目标输出,通过优化减小损失。动作预测器将8维人类嵌入和10维当前动作映射到128维潜在表示,再映射到10维动作概率向量,用人类演示数据训练。

网络通过两步过程端到端训练,涉及三种损失函数:一是自编码器更新人类嵌入,计算重建误差Lreconstruct后优化;二是具身映射和动作预测网络前向传播,具身映射最小化具身机器人嵌入与目标人类嵌入差异Lmapping,动作预测计算预测动作标签与真实标签的交叉熵损失Lprediction,优化公式为Lplanning(a′, a) = Lmapping + β⋅Lprediction ;三是(23)中模型用两个独立损失函数,训练难度大,且触觉模型缺乏长期动作规划,后续将探讨与符号规划器集成。

符号规划器细节

为编码任务长期时间结构,设计符号动作规划器,用随机上下文无关文法表示任务,终端节点为动作,句子为动作序列。动作文法通过带标签的人类演示归纳得出,假设机器人对每个人类动作有等效动作。每个演示形成句子,语料库中的句子集合为xi ∈ X,用(21)中方法归纳文法,目标函数是给定训练数据X的文法后验概率p(G∣X)∝p(G)p(X∣G) = 1/Z e^(-α‖G‖) ∏xi∈X p(xi∣G)

符号规划过程中,文法用于计算最可能打开瓶子的动作。纯符号规划器基于文法先验选择最优动作,公式为at+1* = arg max at+1 p(at+1∣a0:t,G) ,文法先验通过两个文法前缀概率的比值获得,用Earley-Stolcke解析算法计算文法前缀概率。但纯符号规划器缺乏灵活性,另一种通过从文法先验采样选择动作,公式为at+1 ∼ p(⋅∣a0:t,G) ,实验中选择此方式。与触觉模型相比,符号规划器缺乏对实时传感器数据的适应性,但编码了长期时间约束。

广义厄尔利解析器(GEP)细节

机器人结合符号规划器和触觉模型模仿人类演示者,集成模型在考虑动作文法G和触觉输入ft的情况下找到下一步最优动作,公式为at+1* = arg max at+1 p(at+1∣a0:t,ft,G) ,通过改进的GEP计算,GEP是经典Earley解析器的扩展,本研究进一步扩展使其适用于多传感器输入并实时解释。

GEP根据文法和每个时间步标签的分类器输出概率找到最优标签句子,标签为动作,分类器输出由触觉模型提供。算法核心思想是在文法定义的语言中搜索最优标签句子,文法约束搜索空间。搜索在前缀树上进行,从前缀树根节点开始,根节点为空终端符号,搜索在到达叶节点时终止,叶节点为解析终端e,非叶节点为终端符号(动作),扩展非叶节点的概率为前缀概率,到达叶节点的概率为解析概率。GEP能结合符号规划器与低级感官输入,前缀概率基于文法先验和触觉预测共同计算。

原始GEP用于离线视频处理,本研究修改用于机器人任务在线规划。解析与规划的区别在于对过去动作的不确定性,规划过程中已执行动作无不确定性,执行每个动作后需修剪不可能的解析结果,将动作概率向量改为独热向量。

触觉手套

对于需推理潜在力的操纵任务,仅视觉信息演示不足以学习。传统用惯性测量单元(IMUs)网络测量手指姿态,捕捉触觉信号有挑战。本研究用(28)中开发的触觉手套,用IMUs获取手指指骨相对手腕的相对姿态,用软压阻材料(Velostat)开发定制力传感器,电阻随压力变化。

机器人平台

在安装于DataSpeed移动基座上的七自由度双臂Baxter机器人上评估模型,右手腕配备ReFlex TakkTile gripper,左手配备Robotiq S85平行grippergripper触觉感知能力有限,进一步力数据来自Baxter手腕处的6自由度力扭矩传感器,用Kinect One传感器进行物体姿态估计和跟踪,系统在机器人操作系统(ROS)上运行,手臂运动由MoveIt!规划。

人类实验细节和人口统计

从加州大学洛杉矶分校(UCLA)心理学系被试库招募163名学生,13名因未通过识别任务被排除,分析包括150名(平均年龄20.7岁)。符号和触觉解释面板按解释生成部分生成,文本解释由作者生成。

实验分熟悉和预测两个阶段。熟悉阶段,参与者观看两段机器人与药瓶交互视频,不同组观看不同解释面板,结束后评估对机器人打开药瓶能力的信任程度。预测阶段,所有组仅观看机器人成功执行的RGB视频,无解释面板,参与者按机器人动作分段视频预测下一步动作。

所有组RGB视频相同,仅解释面板不同,实验设计隔离机器人执行模型变化影响,评估解释面板在培养质性信任、提高预测准确性方面的效果。对于质性信任和预测准确性,零假设是不同组解释面板培养的信任水平和预测准确性相同,采用被试间设计,用双尾独立样本t检验比较两组参与者表现,显著性水平α = 0.05,拒绝域为P < 0.05

结果解析

通过解释机器人行为来增强人类信任

演示、学习、评估与可解释性概述

通过解释机器人行为来增强人类信任

学习具身触觉表征与动作预测模型的示意图

通过解释机器人行为来增强人类信任

从人类示范中归纳出的动作语法示例

通过解释机器人行为来增强人类信任

机器人使用符号规划器、触觉模型及整合二者的基因表达式编程(GEP)技术,在不同锁闭机制瓶体上的任务执行表现

通过解释机器人行为来增强人类信任

符号规划器和触觉模型生成的解释

通过解释机器人行为来增强人类信任

人类实验中使用的视觉刺激示意图

通过解释机器人行为来增强人类信任

人类在信任评级和预测准确性方面的表现结果

研究结论

性能方面,研究显示机器人系统能通过少量人类打开三个药瓶的演示,学习解决挑战性任务,这得益于学习多个模型联合推断任务结构和感官预测。集成模型效果优于纯符号规划或单一触觉模型。模型结果表明,各模块相对贡献受任务复杂性影响,如打开无安全锁的1号瓶,符号规划器表现略优;打开有复杂锁的3号瓶,触觉模型更优。面对新药瓶泛化场景,符号规划器性能与测试场景类似瓶子相当,触觉模型显著下降,且随复杂性增加,符号规划器性能下降更快,整合符号规划器和触觉信号的模型优势更明显,表明复杂任务需多模型优化组合。

可解释性方面,机器人系统生成的合理解释对培养人类信任至关重要,人类更信任能用符号规划解释的机器人。以总结性文本描述解释效果不佳,符号解释面板和文本总结面板都在抽象层面描述机器人行为,但细节和时间呈现有差异,文本解释在动作后大致描述,广义厄尔利解析器(GEP)面板的符号解释能实时可视化内部规划过程,让人感觉机器人在主动决策。不过,详细解释并非总是最佳,实时触觉信号功能性解释在获取信任上效果不佳,触觉信息繁琐,难以让机器人获得理性代理感。有效解释应提供符号化解读,并与即时行为紧密耦合。

综合来看,不同模型组件在生成解释和最大化性能方面的贡献可能不同。触觉模型对打开高复杂性药瓶重要,但获得人类信任主要靠符号规划器的实时机制性解释,最能培养信任的组件未必与有助于最佳性能的组件对应,因其优化目标不同。机器人学界应采用能获人类信任的模型组件,并与高性能组件结合,以提高信任度和任务成功率,具备可解释模型的机器人是融入日常生活和工作的重要一步。

技术来源:10.1126/scirobotics.aay4663


发表评论

泰日号Copyright Your WebSite.Some Rights Reserved. 网站地图 备案号:川ICP备66666666号 Z-BlogPHP强力驱动