首页 抖音推荐文章正文

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

抖音推荐 2025年08月02日 17:11 2 admin

混元基础模型团队 投稿

量子位 | 公众号 QbitAI

图像生成不光要好看,更要高效。

混元基础模型团队提出全新框架MixGRPO,该框架通过结合随机微分方程(SDE)和常微分方程(ODE),利用混合采样策略的灵活性,简化了MDP中的优化流程,从而提升了效率的同时还增强了性能。

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

基于MixGRPO,研究人员提出了一个更快的变体MixGRPO-Flash,在保持相近性能的同时进一步提升了训练效率。

MixGRPO在人类偏好对齐的多个维度上均表现出显著提升,效果和效率均优于DanceGRPO,训练时间降低近50%。值得注意的是,MixGRPO-Flash可将训练时间进一步降低71%

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

开源代码请参考文末链接。

MixGRPO模型解析

GRPO中的ODE-SDE混合采样

近年来,文本到图像(Text-to-Image,T2I)任务的最新进展表明,通过在后训练阶段引入基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)策略以最大化奖励,流匹配模型的性能得到了显著提升。

具体而言,基于组相对策略优化(Group Relative Policy Optimization,GRPO)的方法近期被提出,能够实现与人类偏好的最佳对齐。

当前概率流模型中的GRPO方法,如Flow-GRPO和DanceGRPO,在每个去噪步骤中利用随机微分方程(Stochastic Differential Equations,SDE)采样引入图像生成的随机性,以解决RLHF中对随机探索的依赖。

它们将去噪过程建模为随机环境下的马尔可夫决策过程(MDP),并使用GRPO优化整个状态-动作序列。

然而,由于去噪迭代过程带来的巨大开销,这显著降低了训练速度。

具体来说,为了计算后验概率的比值,必须分别使用旧策略模型

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

和新策略模型

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

独立完成全步骤采样。

虽然DanceGRPO提出了随机选择部分去噪步骤进行优化的方法,但研究团队在图1中的实证分析表明,随着所选子集规模的缩小,性能会出现显著下降。

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

图1.不同优化去噪步骤数量下的性能对比

根据Flow-GRPO,流匹配中的SDE采样可以被构建为一个随机环境下的马尔可夫决策过程(MDP)

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

在采样过程中,智能体生成一条轨迹,定义为

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

,并获得奖励

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

在MixGRPO中,研究团队提出了一种结合SDE与ODE的混合采样方法。MixGRPO定义了一个区间

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

,它是去噪时间范围

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

的子区间,满足

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

在去噪过程中,他们在区间

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

内采用SDE采样,区间外采用ODE采样,且区间

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

会随着训练过程从

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

逐步移动到0(见图2)。

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

图2.不同采样策略下采样图像的t-SNE可视化

MixGRPO将智能体的随机探索空间限制在区间

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

内,将MDP的序列长度缩短为子集

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

,并仅对该子集进行强化学习(RL)优化:

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

MDP中的其他设置保持不变。MixGRPO不仅降低了计算开销,同时也减轻了优化难度。接下来,研究团队推导MixGRPO的具体采样形式和优化目标。

对于确定性的概率流ODE,其形式如下:

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

其中,

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

是称为漂移系数的向量值函数,

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

是称为扩散系数的标量函数。

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

是时刻

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

的得分函数。

根据Fokker-Planck方程(risken1996fokker),song2020score证明了式(2)具有以下等价的概率流SDE,该SDE在每个时间点

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

保持相同的边际分布:

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

在MixGRPO中,研究团队将ODE和SDE混合用于采样,具体形式如下:

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

具体来说,对于Flow Matching(FM),尤其是Rectified Flow(RF),采样过程可以看作是一个确定性的ODE:

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

式(5)实际上是式(2)的一个特例,其中速度场

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

。因此,他们可以推导出RF的ODE-SDE混合采样形式如下:

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

在RF框架中,模型用于预测确定性ODE的速度场,表示为

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

。根据liu2025flow,score函数表示为

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

。噪声的标准差表示为

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

根据标准维纳过程的定义,他们使用

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

对SDE采用Euler-Maruyama离散化,对ODE采用Euler离散化,设

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

为包含从

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

之间所有时间步的集合,他们构建了MixGRPO中的最终去噪过程如下:

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

MixGRPO中的训练过程与Flow-GRPO和DanceGRPO类似,但他们仅需对区间

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

内采样的时间步进行优化。最终的训练目标表示为:

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

其中,

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

称为策略比率(policy ratio),

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

为优势函数(advantage score)。研究团队设定

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

其中,

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

由奖励模型提供。

需要注意的是,研究团队省略了KL Loss。

尽管KL Loss在一定程度上可以缓解reward hacking问题,但受flow_grpo_issue7的启发,他们在测试阶段采用混合模型采样(mixed model sampling),这能够显著解决奖励劫持问题(详见附录A)。

与对所有时间步进行优化相比,MixGRPO降低了策略

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

的函数评估次数(NFE,Number of Function Evaluations)。

然而,策略

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

的NFE并未减少,因为需要完整推理以获得用于奖励计算的最终图像。

对于旧策略模型的采样加速,研究团队将在后面通过引入高阶求解器进行优化。

综上所述,混合ODE-SDE采样在显著降低计算开销的同时,保证了采样过程不会偏离单独ODE或SDE采样在每个时间步的边际分布,这得益于概率流(probability flow)的等价性。

作为优化调度器的滑动窗口

实际上,区间

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

在训练过程中可以是非固定的。沿着离散的去噪时间步序列

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

,MixGRPO 定义了一个滑动窗口

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

,并且仅在该窗口内的时间步上进行优化。

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

其中,

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

是滑动窗口的左边界,

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

是表示窗口大小的超参数。滑动窗口的左边界

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

会随着训练的进行而移动。

在实验中,研究团队发现窗口大小

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

、移动间隔

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

以及窗口步长

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

都是关键的超参数。

通过消融研究(详见实验4.4.1),他们确定了最优的参数设置。当总采样步数

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

时,最佳性能对应的参数为

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

。详细的滑动窗口策略及MixGRPO算法可参见算法1。

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

算法1.MixGRPO的训练过程

限制在滑动窗口内使用SDE采样,不仅保证了生成图像的多样性,还使模型能够集中精力优化该窗口内的流动。沿着去噪方向的移动反映了概率流从强到弱的随机性,如图2所示。

这本质上是一种贪心策略,类似于强化学习中为处理奖励而分配折扣因子的做法,即在早期过程给予来自更大搜索空间的奖励更高的权重。

研究团队发现,即使滑动窗口保持不动(Frozen),仅优化较早的时间步,MixGRPO依然能够取得良好效果,尤其是在ImageReward和UnifiedReward指标上表现突出。

基于此直觉,他们还提出了如下的指数衰减策略,使得

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

随去噪步数的增加而减小,从而使模型能够更专注于在更大搜索空间内进行优化。

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

其中,

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

是初始移动间隔,

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

是衰减因子,

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

是控制衰减开始时机的阈值。指数函数

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

计算的是

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

,而修正线性单元

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

定义为

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

开销与性能之间的权衡

MixGRPO在滑动窗口内采用SDE采样,窗口外则采用ODE采样,从而允许使用高阶ODE求解器加速GRPO训练时的采样过程。

利用ODE采样的时间步被划分为滑动窗口之前和之后两部分。

滑动窗口之后的时间步仅影响奖励计算,而窗口之前的时间步既影响奖励,也会对策略比率计算中的累积误差产生贡献。

因此,研究团队重点关注滑动窗口之后时间步的加速。

gao2025diffusionmeetsflow已证明流匹配模型(FM)的ODE采样与DDIM等价,且上述过程也表明扩散概率模型(DPM)与FM在去噪过程中共享相同的ODE形式。

因此,专为DPM采样加速设计的高阶ODE求解器,如DPM-Solver系列、UniPC,同样适用于FM。

研究团队已将DPM-Solver++重新形式化,以便在FM框架中应用于 ODE 采样加速,详细推导见附录B。

通过应用高阶求解器,他们实现了GRPO训练过程中对

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

采样的加速,这本质上是在计算开销与性能之间的权衡。

过度加速会导致时间步数减少,必然引起图像生成质量下降,进而在奖励计算中积累误差。

实践中研究团队发现,二阶DPM-Solver++足以显著加速,同时保证生成图像与人类偏好高度一致。

最终,他们采用了渐进式和冻结式滑动窗口策略,提出了MixGRPO-Flash和MixGRPO-Flash*。算法的详细描述见附录C。这些方法相比MixGRPO实现了更大程度的加速,同时在性能上也优于DanceGRPO。

MixGRPO多方面表现最佳

实验设置

数据集

研究团队使用HPDv2 数据集中提供的提示词进行实验,该数据集是 HPS-v2 基准的官方数据集。

训练集包含103,700条提示词;实际上,MixGRPO 在仅使用9,600条提示词训练一个epoch后,就已取得良好的人类偏好对齐效果。

测试集包含400条提示词。提示词风格多样,涵盖四种类型:“动画”(Animation)、“概念艺术”(Concept Art)、“绘画”(Painting)和“照片”(Photo)。

模型

继承自DanceGRPO,研究团队采用基于流匹配的先进文本生成图像模型 FLUX.1 Dev作为基础模型。

开销评估

在评估计算开销时,研究团队采用了两个指标:函数调用次数(NFE)和训练过程中每次迭代的时间消耗。

NFE分为

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

两部分。

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

表示用于计算策略比率和生成图像的参考模型的前向传播次数;

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

则是仅用于计算策略比率的策略模型的前向传播次数。

此外,GRPO每次迭代的平均训练时间能够更准确地反映加速效果。

表现评估

研究团队使用四个奖励模型作为训练中的奖励指导及性能评估指标,分别是HPS-v2.1、Pick Score、ImageReward和Unified Reward。

这些指标均基于人类偏好,但侧重点不同,例如ImageReward强调图文对齐和图像保真度,而Unified Reward更关注语义层面。

DanceGRPO也证明了多奖励模型的使用能带来更优效果。为验证MixGRPO的鲁棒性,研究团队同样遵循DanceGRPO,进行了仅使用HPS-v2.1单一奖励以及结合HPS-v2.1与CLIP Score的多奖励对比实验。

在训练时采样方面,首先对均匀分布的时间步

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

进行变换,计算

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

,然后定义

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

其中,

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

作为缩放参数,采样总步数设为

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

在GRPO训练中,模型针对每个提示词生成12张图像,并将优势函数裁剪到区间

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

内。需要特别说明的是,研究团队采用了3步梯度累积,这意味着在一次训练迭代中实际进行了

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

次梯度更新。

对于滑动窗口的指数衰减策略(见公式11),他们经验性地设置参数为

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

。此外,当多个奖励模型联合训练时,各奖励模型的权重均等分配。

在训练设置上,所有实验均在32块Nvidia GPU上进行,批量大小为1,最大训练迭代次数为300次。

优化器采用AdamW(loshchilov2017decoupled),学习率设为1e-5,权重衰减系数为0.0001。训练过程中使用混合精度,采用bfloat16(bf16)格式,而主权重参数保持全精度(fp32)。

主实验

在主实验中,四个基于人类偏好的奖励模型按照优势函数(advantages)进行了加权聚合,具体算法见算法1。

研究啊团队对MixGRPO与DanceGRPO的开销和性能进行了对比评估,结果汇总于表1。

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

表1.计算开销与性能的对比结果显示

官方DanceGRPO采用的函数调用次数为

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

,为保证公平性,他们同时测试了

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

的DanceGRPO。

对于MixGRPO-Flash,他们评估了渐进式(progressive)和冻结式(frozen)两种策略,并且为了公平起见,也对DanceGRPO采用了冻结式策略。

研究团队选取了多个场景提示语,对FLUX.1 Dev、官方配置的DanceGRPO以及MixGRPO的生成结果进行了可视化展示,见图3。

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

图3.定性比较

结果表明,MixGRPO在语义表达、美学效果及文本-图像对齐度方面均取得了最佳表现。

图4展示了在

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

条件下,DanceGRPO、MixGRPO及MixGRPO-Flash的对比结果。

可以观察到,在相同开销下,MixGRPO的表现优于DanceGRPO;同时MixGRPO-Flash通过加速采样

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

,在降低开销的同时,生成图像的质量依然与人类偏好保持高度一致。

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

图4.不同训练时采样步数的定性比较

沿用DanceGRPO的实验设计,研究团队还在HPDv2数据集上,分别使用单一奖励模型和双奖励模型进行了训练与评估。

结果(见表2)显示,无论是单奖励还是多奖励,MixGRPO 在域内和域外奖励指标上均取得了最佳性能。更多可视化结果详见附录D。

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

表2.域内与域外奖励指标的比较结果

消融实验

滑动窗口超参数

如上述所讲,滑动窗口的重要参数包括移动策略、移动间隔

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

、窗口大小

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

以及窗口步长

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

研究团队对这些参数分别进行了消融实验。针对移动策略,他们比较了三种方法:frozen(窗口保持静止)、random(每次迭代随机选择窗口位置)以及progressive(滑动窗口随去噪步骤逐步移动)。

对于progressive策略,他们测试了不同的调度方式,其中间隔

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

初始设为25,随后随训练迭代发生变化。

正如表3所示,结果表明在progressive策略下,指数衰减和恒定调度均为最优选择。

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

表3.移动策略的对比

对于移动间隔

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

,25是最佳设置(详见表4)。

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

表4.移动间隔的对比

随着窗口大小

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

的增大,

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

的推理次数也随之增加,导致时间开销加大。

研究团队比较了不同的

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

设置,结果如表5所示。

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

表5.窗口大小对比

最终,研究团队选择

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

作为开销与性能之间的平衡点。对于窗口步长

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

,实验结果表明

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

是最优选择,详见表6。

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

表6.窗口步长对比

高阶ODE求解器

MixGRPO通过结合随机微分方程(SDE)和常微分方程(ODE)的采样方法,实现了利用高阶ODE求解器加速ODE采样的可能性。

研究团队首先针对求解器的阶数进行了消融实验,使用DPM-Solver++作为高阶求解器,并采用progressive策略。结果如表7所示,表明二阶中点法是最优设置。

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

表7.不同阶数求解器的性能比较

随后,研究团队比较了两种加速方案:一种是采用progressive窗口移动策略的MixGRPO-Flash,另一种是采用frozen移动策略的MixGRPO-Flash*。

两者均通过减少窗口后端的ODE采样步数,在开销与性能之间取得了平衡。

然而,实际应用中,MixGRPO-Flash需要窗口在整个训练过程中持续移动,导致被加速的ODE部分较短。

因此,平均来看,MixGRPO-Flash的加速效果不及MixGRPO-Flash*明显。

训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案

表8.MixGRPO-Flash中progressive和frozen策略的比较

总结与展望

由于现有基于流匹配的GRPO面临采样效率低和训练缓慢等挑战,研究团队提出了MixGRPO,一种结合了SDE和ODE采样的新型训练框架。

该混合方法使得优化能够聚焦于SDE采样流部分,降低了复杂度的同时保证了奖励计算的准确性。

受强化学习中衰减因子的启发,研究团队引入了滑动窗口策略来调度优化的去噪步骤。实验结果验证了所提方法在单奖励和多奖励设置下的有效性。

此外,MixGRPO解耦了去噪阶段的优化与奖励计算,使得后者能够通过高阶求解器实现加速。

基于MixGRPO,研究团队进一步提出了MixGRPO-Flash,在开销与性能之间实现了平衡。

最后,他们希望MixGRPO能够激发图像生成后训练领域的深入研究,进一步推动通用人工智能的发展。

项目主页:https://tulvgengenr.github.io/MixGRPO-Project-Page/
论文链接:https://arxiv.org/abs/2507.21802
代码链接:https://github.com/Tencent-Hunyuan/MixGRPO

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

发表评论

泰日号Copyright Your WebSite.Some Rights Reserved. 网站地图 备案号:川ICP备66666666号 Z-BlogPHP强力驱动