还记得小时候对着电风扇说话,声音会变得很奇怪吗?其实,全世界的科学家都在玩一个更高级的"吹风游戏",这就是风洞实验。2023年,当中国公开展示JF-2...
2025-08-15 0
GLM-4.5V 的发布,无疑是这一赛道上的又一里程碑。它不仅在多模态理解和推理上实现了显著提升,更通过其独特的架构设计、精细化的数据构建以及强化学习的应用,展示了强大的性能和广泛的应用潜力。
昨晚,GLM-4.5V 发布在开源多模态这一赛道,把桌子掀了
「多模态」智谱再次上桌,glm-4.5V 开源
实际用起来,也很不错
比如我问问它:这是哪
完全正确!这张就是我在柔佛的上空拍的
ahhhhhhhhhh 他找到了!
原图是这个,反正我一眼没看出来
下面,我们一起来看看 GLM-4.5V,是如何训练的
划重点:以推理为中心
本文将从性能、架构、预训练和后训练(监督微调+强化学习)四个纬度来拆解,所用图表、数据源于技术报告:《GLM-4.1V-Thinking and GLM-4.5V Technical Report》
GLM-4.5V 的技术报告
在多模态理解和推理上,GLM-4.5V 比起之前模型,大幅提升
GLM-4.5 对比 之前的模型
在上图中,GLM-4.5V 于STEM、空间推理、GUI Agent、OCR与文档、代码、视频理解、视觉定位和通用VQA等领域,全面超越了前代模型
GLM-4.5V 的背后,是强化学习(RL)框架
经过强化学习,模型提升不少
在RL后,编码(Coding)任务上增益高达 +10.6%,在 STEM 问题上也获得了 +6.7% 的提升
下面这个图,则是更全面的对比
GLM-4.5 vs Step-3、Qwen2.5-VL、Kimi-VL..
GLM-4.5V 在 MMStar (75.3)、MMMU Pro(65.2)、MathVista (84.6)、ChartQAPro (64.0) 和 **WebVoyager **(84.4) 等几乎所有高难度任务上,均取得了最佳成绩
GLM-4.5V 的架构设计,围绕“原生多模态、高分辨率、强时序理解”三个目标
这背后,是 视觉编码器 (ViT Encoder)、MLP 投影层 (MLP Projector) 和 语言解码器 (LLM Decoder) 三个组件
GLM-4.5V 的架构
基于 AIMv2-Huge 初始化,通过引入 2D-ROPE 和 3D 卷积,使其能够原生处理任意分辨率的图像和视频,并有效捕捉时序信息
基于 GLM-4.5-Air,通过扩展 3D-RoPE,增强了对多模态输入中空间位置的理解能力
在处理视频时,模型会在每一帧的视觉特征后插入一个时间戳 Token,让模型明确感知到帧与帧之间的真实时间间隔,极大地提升了视频理解和定位的准确性
GLM-4.5V 的预训练,分为数据构建和训练范式两部分
GLM-4.5V 的预训练语料,涵盖了多维度数据,包括:
通过一个包含启发式过滤、CLIP-Score 筛选、概念平衡重采样和事实中心化重述 (Factual-centered recaptioning) 的精细化流程,构建了超过 100 亿对的高质量图文数据
每个图像都有更好的重述
如上图,重述模型能将“一个北方红雀在唱歌”这种简单描述,丰富为“一只北方红雀栖息在树枝上,背景是晴朗的蓝天”,在保留事实的同时,极大地提升了描述的细节和信息密度。
从网页、学术书籍中提取高质量的图文混排内容,让模型学习复杂的逻辑关系和领域知识
构建了包含 2.2 亿张图像的 OCR 数据集,涵盖合成文档、自然场景文字和学术文档,全面提升文字识别能力
构建了包含 4000 万自然图像标注和超过 1.4 亿 GUI 界面问答对的混合定位数据集,赋予模型精确的像素级理解能力
通过精细的人工标注,构建了能够捕捉复杂动作、场景文字和电影元素的高质量视频数据集。
GLM-4.5V 的训练采用两阶段策略:
多模态预训练
在 8192 的序列长度下,使用除视频外的所有数据进行 12 万步训练
长上下文持续训练:将序列长度扩展至 32,768,并加入视频数据,进行额外的 1 万步训练,使模型具备处理高分辨率图像、长视频和长文档的能力
后训练阶段是 GLM-4.5V 提升推理能力的关键,包含有监督微调 (SFT) 和强化学习 (RL) 两个步骤
SFT 的目的是对齐模型的思维和表达方式,使其学会以“思考链 (Chain-of-Thought)”的形式进行推理
标准格式
所有训练数据都遵循 <think>{思考过程}</think><answer>{最终答案}</answer> 的标准格式
答案提取:对于需要精确答案的任务,最终答案用特殊的 <|begin_of_box|> 和 <|end_of_box|> 包裹,便于后续 RL 阶段的奖励模型进行准确判断
双模态支持:GLM-4.5V 通过在 SFT 阶段混合“思考”与“非思考”数据,并引入特殊 token /nothink,实现了可灵活切换的两种推理模式,兼顾性能与效率
GLM-4.5V 通过大规模、跨领域的强化学习,来提升推理能力
RLCS 课程学习采样
为了提升训练效率,团队提出了 Reinforcement Learning with Curriculum Sampling (RLCS)该策略能根据模型的当前能力,动态地选择“难度适中”的训练样本,避免在过易或过难的问题上浪费算力,从而最大化每一步训练的收益。
健壮的奖励系统
RL 的成败很大程度上取决于奖励信号的质量。GLM-4.5V 建立了一个领域特定的奖励系统,为数学、OCR、GUI 等不同任务设计了专门的验证逻辑,避免了“奖励黑客 (Reward Hacking)”现象
奖励信号对模型训练的影响
如上图所示,即使在 STEM 领域有高质量的奖励信号,但只要在多图 VQA 任务中存在一个有缺陷的奖励模型,就会导致整个训练过程在 150 步后全面崩溃
这说明,任何一个短板,都可能成为溃堤蚁穴,对于 RL 训练来说
跨域泛化与协同RL 不仅提升了模型在特定领域的能力,还带来了显著的跨域泛化效果
RL 的训练,带来的不同领域的影响
如上图:在单一领域进行 RL 训练,能提升其他领域的能力
例如,仅在 GUI Agent 数据上训练,就能带动 STEM、OCR、视觉定位和通用 VQA 的性能提升
这说明不同多模态能力之间存在共享的底层逻辑而将所有领域数据混合训练(Mix All),则能在大多数领域取得比单领域训练更强的效果,实现了“1+1 > 2”的协同增效
GLM-4.5V 的训练,包含以下
以及…蹲后续:GLM-4.5V-355B
本文由人人都是产品经理作者【赛博禅心】,微信公众号:【赛博禅心】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。
题图来自Unsplash,基于 CC0 协议。
相关文章
还记得小时候对着电风扇说话,声音会变得很奇怪吗?其实,全世界的科学家都在玩一个更高级的"吹风游戏",这就是风洞实验。2023年,当中国公开展示JF-2...
2025-08-15 0
近日,青岛市首批博士后创新成果转化基地名单公布,经纬公司成功入选。自2022年建立博士后科研工作站以来,经纬公司已两次获评青岛市优秀博士后科研工作站,...
2025-08-15 0
金融界2025年8月15日消息,国家知识产权局信息显示,东莞沛波电子有限公司取得一项名为“一种高电流功率电感及其制备方法”的专利,授权公告号CN119...
2025-08-15 0
【来源:贵阳国家高新技术产业开发区管委会_工作动态】8月13日,国家精密微特电机工程技术研究中心(哈尔滨工业大学分中心)专家团一行赴贵阳高新区考察调研...
2025-08-15 0
智通财经APP获悉,广发证券发布研报称,随着AI训练与推理对单节点计算密度、带宽与低延迟互连的需求不断攀升,提升单机性能已成为数据中心投资的优先选项,...
2025-08-15 0
金融界2025年8月15日消息,国家知识产权局信息显示,青岛海存微电子有限公司取得一项名为“半导体存储结构及其形成方法”的专利,授权公告号CN1196...
2025-08-15 0
中新网青岛8月15日电(张孝鹏 中国海油旗下海洋石油工程股份有限公司(简称“海油工程” 承建的惠州25-8项目DPPB平台上部组块14日在山东省青岛西...
2025-08-15 0
金融界2025年8月15日消息,国家知识产权局信息显示,广东汇泉联骏化学工业有限公司、韶关学院取得一项名为“一种磷-硫嵌段不饱和聚酯树脂及其合成方法”...
2025-08-15 0
发表评论