首页 抖音热门文章正文

GLM-4.5V 是怎么炼成的

抖音热门 2025年08月15日 10:49 1 admin

GLM-4.5V 的发布,无疑是这一赛道上的又一里程碑。它不仅在多模态理解和推理上实现了显著提升,更通过其独特的架构设计、精细化的数据构建以及强化学习的应用,展示了强大的性能和广泛的应用潜力。

GLM-4.5V 是怎么炼成的

昨晚,GLM-4.5V 发布在开源多模态这一赛道,把桌子掀了

「多模态」智谱再次上桌,glm-4.5V 开源

实际用起来,也很不错

比如我问问它:这是哪

GLM-4.5V 是怎么炼成的

完全正确!这张就是我在柔佛的上空拍的

GLM-4.5V 是怎么炼成的

ahhhhhhhhhh 他找到了!

原图是这个,反正我一眼没看出来

下面,我们一起来看看 GLM-4.5V,是如何训练的

划重点:以推理为中心

本文将从性能、架构、预训练和后训练(监督微调+强化学习)四个纬度来拆解,所用图表、数据源于技术报告:《GLM-4.1V-Thinking and GLM-4.5V Technical Report》

GLM-4.5V 是怎么炼成的

GLM-4.5V 的技术报告

性能

在多模态理解和推理上,GLM-4.5V 比起之前模型,大幅提升

GLM-4.5V 是怎么炼成的

GLM-4.5 对比 之前的模型

在上图中,GLM-4.5V 于STEM、空间推理、GUI Agent、OCR与文档、代码、视频理解、视觉定位和通用VQA等领域,全面超越了前代模型

GLM-4.5V 的背后,是强化学习(RL)框架

GLM-4.5V 是怎么炼成的

经过强化学习,模型提升不少

在RL后,编码(Coding)任务上增益高达 +10.6%,在 STEM 问题上也获得了 +6.7% 的提升

下面这个图,则是更全面的对比

GLM-4.5V 是怎么炼成的

GLM-4.5 vs Step-3、Qwen2.5-VL、Kimi-VL..

GLM-4.5V 在 MMStar (75.3)、MMMU Pro(65.2)、MathVista (84.6)、ChartQAPro (64.0) 和 **WebVoyager **(84.4) 等几乎所有高难度任务上,均取得了最佳成绩

架构

GLM-4.5V 的架构设计,围绕“原生多模态、高分辨率、强时序理解”三个目标

这背后,是 视觉编码器 (ViT Encoder)、MLP 投影层 (MLP Projector) 和 语言解码器 (LLM Decoder) 三个组件

GLM-4.5V 是怎么炼成的

GLM-4.5V 的架构

视觉编码器

基于 AIMv2-Huge 初始化,通过引入 2D-ROPE 和 3D 卷积,使其能够原生处理任意分辨率的图像和视频,并有效捕捉时序信息

语言解码器

基于 GLM-4.5-Air,通过扩展 3D-RoPE,增强了对多模态输入中空间位置的理解能力

原生时序理解

在处理视频时,模型会在每一帧的视觉特征后插入一个时间戳 Token,让模型明确感知到帧与帧之间的真实时间间隔,极大地提升了视频理解和定位的准确性

预训练

GLM-4.5V 的预训练,分为数据构建和训练范式两部分

数据构建

GLM-4.5V 的预训练语料,涵盖了多维度数据,包括:

图像-文本对数据

通过一个包含启发式过滤、CLIP-Score 筛选、概念平衡重采样和事实中心化重述 (Factual-centered recaptioning) 的精细化流程,构建了超过 100 亿对的高质量图文数据

每个图像都有更好的重述

如上图,重述模型能将“一个北方红雀在唱歌”这种简单描述,丰富为“一只北方红雀栖息在树枝上,背景是晴朗的蓝天”,在保留事实的同时,极大地提升了描述的细节和信息密度。

交错图文数据

从网页、学术书籍中提取高质量的图文混排内容,让模型学习复杂的逻辑关系和领域知识

OCR 数据

构建了包含 2.2 亿张图像的 OCR 数据集,涵盖合成文档、自然场景文字和学术文档,全面提升文字识别能力

定位数据 (Grounding Data)

构建了包含 4000 万自然图像标注和超过 1.4 亿 GUI 界面问答对的混合定位数据集,赋予模型精确的像素级理解能力

视频数据

通过精细的人工标注,构建了能够捕捉复杂动作、场景文字和电影元素的高质量视频数据集。

训练范式:两阶段,长上下文

GLM-4.5V 的训练采用两阶段策略:

多模态预训练

在 8192 的序列长度下,使用除视频外的所有数据进行 12 万步训练

长上下文持续训练:将序列长度扩展至 32,768,并加入视频数据,进行额外的 1 万步训练,使模型具备处理高分辨率图像、长视频和长文档的能力

后训练:SFT 与 RL

后训练阶段是 GLM-4.5V 提升推理能力的关键,包含有监督微调 (SFT) 和强化学习 (RL) 两个步骤

有监督微调 (SFT):对齐思维范式

SFT 的目的是对齐模型的思维和表达方式,使其学会以“思考链 (Chain-of-Thought)”的形式进行推理

标准格式

所有训练数据都遵循 <think>{思考过程}</think><answer>{最终答案}</answer> 的标准格式

答案提取:对于需要精确答案的任务,最终答案用特殊的 <|begin_of_box|> 和 <|end_of_box|> 包裹,便于后续 RL 阶段的奖励模型进行准确判断

双模态支持:GLM-4.5V 通过在 SFT 阶段混合“思考”与“非思考”数据,并引入特殊 token /nothink,实现了可灵活切换的两种推理模式,兼顾性能与效率

强化学习 (RL):释放模型潜能

GLM-4.5V 通过大规模、跨领域的强化学习,来提升推理能力

RLCS 课程学习采样

为了提升训练效率,团队提出了 Reinforcement Learning with Curriculum Sampling (RLCS)该策略能根据模型的当前能力,动态地选择“难度适中”的训练样本,避免在过易或过难的问题上浪费算力,从而最大化每一步训练的收益。

健壮的奖励系统

RL 的成败很大程度上取决于奖励信号的质量。GLM-4.5V 建立了一个领域特定的奖励系统,为数学、OCR、GUI 等不同任务设计了专门的验证逻辑,避免了“奖励黑客 (Reward Hacking)”现象

GLM-4.5V 是怎么炼成的

奖励信号对模型训练的影响

如上图所示,即使在 STEM 领域有高质量的奖励信号,但只要在多图 VQA 任务中存在一个有缺陷的奖励模型,就会导致整个训练过程在 150 步后全面崩溃

这说明,任何一个短板,都可能成为溃堤蚁穴,对于 RL 训练来说

跨域泛化与协同RL 不仅提升了模型在特定领域的能力,还带来了显著的跨域泛化效果

GLM-4.5V 是怎么炼成的

RL 的训练,带来的不同领域的影响

如上图:在单一领域进行 RL 训练,能提升其他领域的能力

例如,仅在 GUI Agent 数据上训练,就能带动 STEM、OCR、视觉定位和通用 VQA 的性能提升

这说明不同多模态能力之间存在共享的底层逻辑而将所有领域数据混合训练(Mix All),则能在大多数领域取得比单领域训练更强的效果,实现了“1+1 > 2”的协同增效

以上

GLM-4.5V 的训练,包含以下

  • 架构:原生支持高分辨率、长视频和时序理解
  • 预训练:精细化的数据构建和两阶段训练
  • SFT:将模型与“思考链”的推理范式对齐,为 RL 阶段做好了准备
  • RL:通过 RLCS、健壮的奖励系统和跨域训练

以及…蹲后续:GLM-4.5V-355B

本文由人人都是产品经理作者【赛博禅心】,微信公众号:【赛博禅心】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于 CC0 协议。

发表评论

泰日号Copyright Your WebSite.Some Rights Reserved. 网站地图 备案号:川ICP备66666666号 Z-BlogPHP强力驱动