最大熵逆强化学习：理论基础、数学推导与工程实现

抖音推荐 2025年07月25日 10:31 1 admin

模仿学习（Imitation Learning, IL）旨在从给定的专家演示数据中提取决策策略。该方法适用于各类自动化任务，尤其在控制领域应用广泛。本文重点讨论逆强化学习（Inverse Reinforcement Learning, IRL），这是模仿学习的重要分支，其核心目标是基于演示数据学习能够最大化期望奖励的最优策略。

并非所有自动化任务都适合采用IL和IRL方法。以机械臂在传送带间转移物体的任务为例，如下图所示，该问题的解决方案相对明确，可通过硬编码实现直接执行。

图1：受控环境下的全自动化任务，采用IL方法存在过度设计问题

面对更复杂的任务场景，特别是在开放且不可控的环境中（如Waymo的自动驾驶系统或机器人烹饪任务），手工设计解决方案将面临巨大挑战。

图2-1：模仿学习在实际工程项目中的应用案例

图2-2：烹饪机器人系统

因此，我们通常依赖IL方法，该方法基于从人类专家演示者获取的真实且无误的样本数据。其目标是学习能够使机器行为与专家演示行为相匹配的决策策略。这种问题建模方式正是IL的核心定义，可通过系统化的优化方法求解。

根据现有文献，模仿学习问题主要通过两种途径解决：一是采用监督学习方法，类似于预测任务，称为行为克隆（Behavior Cloning）；二是首先学习未知奖励函数再应用强化学习，称为逆强化学习（Inverse Reinforcement Learning, IRL）。

本文专注于第二种方法，特别是基于最大熵原理的MaxEnt IRL算法。该方法是一种流行且有效的IRL实现方案。后续研究将涵盖其他IRL方法，如在多种环境中表现更优的生成对抗模仿学习（Generative Adversarial Imitation Learning, GAIL）。下图展示了所有IL方法的分类结构。

图3：模仿学习子方法与机器学习领域的关系概览

从输入输出角度来看，IRL本质上是RL问题的逆向求解过程，如下图所示。两种方法均基于马尔可夫决策过程（Markov Decision Process, MDP）框架，这在我们之前的RL研究中已有详细阐述。

图4：强化学习与逆强化学习的关系

为深入理解最大熵IRL，我们首先阐述最大熵的统计学原理。

最大熵原理

MaxEnt IRL于2008年提出，是处理从演示中学习问题的早期方法之一，与其前身特征匹配和边际最大化方法并列。然而，其所依赖的基础原理由E.T. Jaynes在更早期提出。

假设月收入为3000美元，需要合理分配月度支出以覆盖整月开销。初始方案是均匀分配，即3000美元除以30天，每天100美元，形成规律分布（如图5右侧所示）。经过一段时间观察，发现前10天的支出占月收入的一半，这是一个无法控制的客观约束，本质上对原始分布施加了额外限制。

问题：获得此信息后，如何调整月度各天的原始资金分配方案？

该问题的正确解答必须基于最大熵原理，如下图所示。

图5：最大熵原理的直观理解：在缺乏信息的情况下，最不确定的模式是最安全的选择

为推导前10天消费一半工资情况下的月度支出分布，应以最小变化调整初始分布。换言之，除给定约束外，不应对原始分布施加任何额外约束。这一表述代表了最大熵原理的核心思想：满足特定给定条件的系统变量概率分布的最优估计是产生最大不确定性的估计。这里的不确定性通过香农熵H衡量（由香农在信息通信理论中首次提出），定义如下：

其中P(xi)是变量xi的连续概率分布，X是变量x的值域（对于离散情况，积分替换为求和）。

熵的最大值为零，当分布完全由单一值确定（确定性分布）时出现。当分布在样本空间X上完全均匀时（所有值等概率），出现熵的最小值。这一性质对连续和离散分布均适用。

基于此原理，前10天花费1500美元的约束应通过这10天的最大熵表示，即1500美元除以10天，每天150美元。对剩余20天采用相同处理，即1500美元除以20天，每天75美元。相比任何其他随机解决方案，这种最大熵解决方案在平均意义下误差最小。

将此原理应用于逆强化学习问题，需要明确所施加约束的关系性质。这需要解释一种先于最大熵IRL的方法——基于边际最大化的特征期望匹配方法。该方法由于可能存在多个满足约束的候选奖励函数假设，为IRL提供了不适定（ill-posed）解决方案。这一问题推动了最大熵IRL的提出。下文将首先回顾特征期望匹配方法，详细分析其假设和算法实现。

基于边际最大化的特征期望匹配

该方法基于如下假设：生成专家轨迹的专家行为试图最大化线性奖励函数R=ω⋅ϕ(st)，该函数由当前智能体状态ϕ(st)通过特征函数ϕ()推断得出。因此，需要最大化的回报为：

该量μ(π)定义为策略π的函数，表示该策略下所有轨迹Φ(τ)的期望值，称为轨迹特征期望。对于专家策略，有：

其中M是演示轨迹数量D=τ1,⋯ ,τM。

随后通过迭代训练策略模型，在未知奖励参数ω下匹配训练策略πi的μ(πi)与专家策略。由于奖励函数的线性性质，有：

算法实现

FM方法提出以下算法提取最优参数ω'：

首先进行初始化，从随机策略πi=0开始，计算其特征期望μ(πi=0)，设置i=1，并将策略参数存储在策略池π0,⋯ ,πi−1中。接着通过求解优化问题计算奖励参数ωi：

该优化约束可建模为二次规划问题（Quadratic Programming, QP），通过支持向量机（Support Vector Machine, SVM）等方法求解。问题被构建为分类任务，为μπE分配标签1，为其他策略期望μ(πi)分配标签-1。此时，向量ωi表示分离两类的超平面单位法向量，其值通过适当的QP求解器训练SVM获得。

收敛性检查阶段，若误差t≤ϵ（其中ϵ为允许误差阈值），则停止训练；否则继续执行策略更新。策略更新过程中，根据新奖励R(st)=ωi⋅ϕ(st)训练新策略πi，计算对应特征期望μ(πi)，并将新策略加入策略池。最后增加计数器i=i+1并重复上述过程。

这里的t表示边际，为获得最适合的奖励参数ω值，需要最小化所有训练策略与专家策略间的期望回报差异。

FM方法还建议从策略池π0,⋯ ,πi−1中寻找多个策略模型的线性组合，以找到与专家最接近的特征期望μ。这可构建为额外的QP问题，新组合策略具有如下特征期望：

相应的最终策略将根据因子λ1,λ2按比例选择动作，类似于DQN中的epsilon-greedy算法。

总体而言，该方法无法保证恢复奖励函数的真实值，因为它依赖于匹配近似度量（特征期望）。然而，当真实奖励R∗(st)是特征向量ϕ(st)的线性函数时，它确实能保证匹配专家行为。

FM投影实现

图6：FM投影实现的三次迭代过程

特征期望匹配存在另一种更直接的表述形式。该形式避免了QP优化过程，简化了计算复杂度。它通过计算与连接策略池中最后两个特征期望值（πi−2,πi−1）的线方向垂直的法向量参数来替代QP过程。所得的单位法向量将表示ω，因为它最大化了这些训练特征期望与专家特征期望（通过给定轨迹集D近似获得）之间的边际。在初始化阶段，该向量值直接设为初始化策略与演示特征期望的差值。

研究表明，即使真实奖励函数非线性，算法仍可正常工作，但会产生与近似线性奖励相对于原始奖励的噪声大小成正比的误差。

接下来转入本文核心内容：MaxEnt IRL的理论与实现。

MaxEnt IRL数学推导

尽管匹配专家策略与训练策略间特征期望的约束能够学习目标策略，但仍存在以下问题：

第一，所施加的约束不足以唯一确定与专家匹配的策略，这构成了"不适定"问题，意味着可能存在大量具有相同特征期望但行为差异显著的策略。第二，考虑奖励函数为常数且不依赖状态的平凡情况，所有策略和行为将具有相同期望。第三，专家行为必须相对于实际奖励函数真正最优，因为我们假设其与任何其他策略间存在最大边际，但现实中被模仿的策略通常次优，增加了收敛难度。

为解决第一个问题，MaxEnt IRL基于之前阐述的最大熵原理提出解决方案。在满足特征匹配约束的所有策略中，选择最大熵策略：

其中A和S分别表示动作空间和状态空间。

为解决第二个问题，最大熵IRL方法在环境中所有可能轨迹上定义概率分布P(τ)，使解决方案具有概率性质并考虑次优行为。该概率在所有可能轨迹上的积分恒等于1：

其中πL是训练中的策略。因此，所有轨迹Φ(τ)的期望值为：

为了相对于前述分布最大化熵，除特征期望匹配约束外，还需形成第二个约束：

将具有这些约束的完整问题表述为约束优化问题：

该问题可通过拉格朗日乘数法求解，构建拉格朗日函数L(ω,λ)。该函数关于ω的导数有助于找到满足约束的分布P(τ)的局部最小值。由于问题的凸性，局部最小值等价于全局最小值：

其中λ1和λ2为拉格朗日乘数。该集合表示约束条件，为找到满足约束的P(τ)最小值，对其求导：

由于第二个约束要求分布为概率分布且积分为1，逻辑上将最终公式中的常数Z定义为归一化常数，即所有指数项的和Z=∑exp(ωΦ(τ))。这导出新的分布表达式：

常数Z作为向量ω的函数，称为配分函数。因此，分布P(τ)类似于通过指数函数定义的吉布斯分布。

定义该形式作为约束解决方案后，剩余问题是相对于给定专家演示数据库D最大化该分布值。这里最大化函数的对数似然，因为其在数值优化中表现更佳：

最终表达式中的第二项表示与奖励值相关分布的特征期望的期望值（给定奖励参数ω）。然而，它也可表示为状态分布（非轨迹分布）。定义状态D(si)上的另一分布，作为状态空间S中每个状态si的函数，使其在整个状态空间上的值之和等于该环境中单一路径长度len(τ)。该值称为状态访问频率，与每个状态si相关的特征以及状态空间中所有状态相乘，产生特征期望。因此得到最终表达式：

剩余工作是实现该公式，可分两步完成。第一步从当前策略计算D(si)，用随机初始化的ω参数表示首次迭代，称为反向传递。第二步基于优化表达式更新ω值，称为前向传递。这两个步骤在实际测试中已证明有效。下文详细阐述这些步骤。

反向传递

反向传递实际上是根据给定ω值训练策略模型的步骤。该步骤类似于基于值的方法（如DQN），依赖值函数估计。状态值基于P(τ)分布，但在（状态，动作）对层级而非完整轨迹层级。原始论文将该量记为Z(s,a)，可视为状态值的指数版本。策略定义为：

Zsi的计算从终端状态递归进行（因此得名），值初始化为1。实际上，这是前向强化学习步骤，其他基于值的方法如深度Q网络（DQN）同样适用。

前向传递

该步骤计算所有状态的Dsi（状态访问频率），从初始状态开始，MDP表述中的初始概率分布定义Ds0的值。根据训练策略遍历状态，更新每个状态的相关Dsi值。该过程重复多次，覆盖环境中所有可能状态。每步的Dsi最终值通过以下方式更新：

其中sk是在状态si中执行动作ai时转移到的状态。多次迭代Dsi计算以求和所有值，获得状态访问频率的最终值：

重要技术注记

当环境为随机性而非确定性时，即在状态si中执行相同动作ai存在不同转移概率，则先前定义路径的概率必须乘以该路径内的转移概率。这促使了MaxEnt IRL新变体的提出以适应该情况，如最大因果熵方法。

评估指标用于评估训练模型，计算为基于训练奖励和真实奖励的训练值函数间的差异。另一个重要观察是，由于其概率性方法，最大熵方法无需专家路径最优性假设。这与特征期望匹配方法形成对比，后者在行为非最优或路径未覆盖环境内所需状态时可能遇到问题。

此外，P(τ)的基本公式确保了熵的最大化，据此可导出策略函数的概率：

实际工程实现

为促进算法的实际应用，可采用以下简化步骤：

奖励参数随机初始化后，在环境中生成随机轨迹（使用随机策略模型）。通过足够大的轨迹样本集，为每个轨迹计算指数分布P(τ)并基于配分函数进行归一化。从FM约束计算损失值，即匹配专家轨迹与计算P(τ)下随机生成轨迹间的特征期望。最后，利用该损失进行反向传播以更新奖励函数系数ω。

重复上述步骤直至达到足够低的损失值，此时停止训练，将最终奖励函数参数作为训练过程的输出。

线性假设的局限性

前述两种方法的共同问题是对特征函数的奖励线性假设要求。学习非线性奖励的可能解决方案是以线性效应占主导地位的方式定义特征。例如，若已知专家行为受地球引力正面影响，仅包含高度h作为特征表示是不合适的。重力关系与高度平方成反比（即与1/h²成正比）。因此，适当的特征应为1/h²，使其与适当系数相乘时产生线性效应。

MaxEnt深度IRL

为解决FM和MaxEnt IRL方法的奖励线性基本限制，并实现任意复杂度奖励函数的学习，最大熵深度IRL通过定义奖励的深度学习模型Ri=rψ(ϕ(si))训练奖励信号，其中ψ_是模型参数集。

该深度模型支持在大规模状态和动作空间上学习非线性奖励函数。此外，可假设特征函数也是新模型的组成部分，动作同样作为完整模型的输入：

例如，它能够通过卷积神经网络（CNN）层处理高维输入（如环境图像）作为输入特征。先前定义的MaxEnt IRL在所有轨迹T上的分布可表示为：

基于此，我们希望在专家演示下最大化对数似然：

为推导优化关系，对新的训练参数ψ进行微分：

第二项∂log⁡(P(ψ))作为正则化项，例如以参数集ψ的L1（绝对值）或L2（平方）和值约束形式，作为损失函数的组成部分。第一项类似于线性最大熵情况的推导：专家轨迹与奖励rψ下学习者轨迹间状态访问频率的差异。然而，该差异必须乘以奖励函数相对于参数ψ的导数，这不会产生之前的特征向量ϕ(si)，而可表示为：