您好:这款游戏是可以开挂的,软件加微信【添加图中微信】确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到其他人...
2025-09-09 0
来源丨我爱计算机视觉
编辑丨极市平台
苹果公司的研究人员最近推出了 MobileCLIP2,这是其高效端侧多模态模型家族的最新成员。作为MobileCLIP的继任者,MobileCLIP2通过改进多模态增强训练方法,在低延迟、轻量级的模型上实现了新的SOTA(State-of-the-Art)性能。
该研究不仅在训练方法上进行了多项创新,还设计了新的模型架构,并在多个基准测试中取得了优异的成绩,特别是在ImageNet-1k零样本分类任务上,其性能媲美甚至超越了许多更大、更复杂的模型。
像CLIP这样的视觉-语言基础模型(Vision-Language Foundation Models)因其强大的零样本(zero-shot)能力而备受关注,能够广泛应用于各种下游任务。然而,这些模型通常参数量巨大,计算复杂,难以直接部署在手机等资源受限的边缘设备上。
为了解决这一挑战,研究界开始探索如何构建轻量级、低延迟的CLIP模型。苹果之前提出的MobileCLIP就是其中的佼佼者,它通过专门设计的轻量化架构和一种名为“多模态增强训练”(multi-modal reinforced training)的方法,在3-15ms的延迟和50-150M的参数量级上实现了当时的SOTA性能。
MobileCLIP2的目标是在前作的基础上更进一步,通过全方位优化训练流程的每一个环节——包括数据集、教师模型和模型架构——来突破移动端多模态模型的性能极限。
MobileCLIP2的成功主要归功于一套经过精心改良的多模态增强训练“配方”。增强训练的核心思想是通过利用预训练好的强教师模型(teacher models)和合成数据来“增强”原始数据集,从而在不增加太多计算开销的情况下提升学生模型(student model)的性能。
MobileCLIP2从以下几个方面对这个配方进行了升级:
训练数据是决定模型性能的基石。MobileCLIP使用的是DataComp-1B数据集,而MobileCLIP2则转向了质量更高的 DFN (Data Filtering Network) 数据集。实验证明,即使在不使用蒸馏和合成标题的情况下,仅在DFN上训练也比在DataComp上训练效果更好。
知识蒸馏是增强训练的关键。MobileCLIP2使用了在DFN数据集上预训练的、性能更强的CLIP模型作为教师天团。研究发现,教师模型的选择至关重要。
一个有趣的发现是,在进行对比知识蒸馏时,为每个教师模型独立调整蒸馏温度(temperature),即logit scale,可以获得最佳性能。这表明不同的教师模型有着不同的“教学风格”,需要个性化对待。
此外,通过集成(ensemble)多个强大的DFN CLIP教师模型,学生模型的ImageNet-1k验证准确率提升了 **2.8%**。
除了从教师模型蒸馏知识,为图片生成高质量的合成标题(synthetic captions)是另一种有效的数据增强手段。MobileCLIP2采用了在DFN上预训练、并在多种高质量图文对数据集(如MSCOCO, DOCCI)上微调的CoCa(Contrastive Captioner)模型作为标题生成器。
实验表明,使用在DFN上预训练的CoCa模型能带来更好的零样本分类性能,但可能会牺牲一些检索性能。通过在MSCOCO等高质量数据集上进行微调,可以恢复甚至提升检索性能。
综合以上所有改进,研究者构建了最终的增强数据集 **DFNDR (DFN with Distillation and Reinforcement)**。与之前的方法相比,使用DFNDR进行训练的效率极高。如下图所示,在DFNDR-12M上训练的效率比DataComp-1B12M高出 5倍,比DFN-12M高出 3.3倍。这意味着达到相同的模型精度,DFNDR所需的训练样本和时间要少得多。
除了改进训练方法,MobileCLIP2还引入了两个新的、更大的模型变体:S3和S4。这些新架构旨在填补之前B(Base)和L(Large)尺寸模型之间的性能和延迟差距。
对于S3和S4这样更大的变体,研究者为其图像编码器设计了一个 5阶段(5-stage) 的结构,取代了之前小型模型中的4阶段结构。这种5阶段设计有两个主要优点:
实验证明,在相同参数量下,5阶段设计的MCi3模型在处理高分辨率图像时,延迟远低于简单缩放的4阶段模型MCi2-Scaled。
MobileCLIP2模型家族在各种延迟水平上都展现出了卓越的性能。
最引人注目的结果是:
下表详细对比了MobileCLIP2家族与其他主流模型在延迟、参数量和各项性能指标上的表现。可以看出,在相似的延迟区间内,MobileCLIP2模型在38个数据集的平均性能上具有明显优势。
除了零样本分类,研究者还在多种下游任务上评估了MobileCLIP2学习到的视觉表示的质量,包括:
总而言之,MobileCLIP2的贡献可以总结为以下几点:
相关文章
您好:这款游戏是可以开挂的,软件加微信【添加图中微信】确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到其他人...
2025-09-09 0
您好:这款游戏是可以开挂的,软件加微信【添加图中微信】确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到其他人...
2025-09-09 0
您好:这款游戏可以开挂,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到-人的牌一样。所以很多小伙伴就怀疑这...
2025-09-09 0
亲,这款游戏可以开挂的,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到-人的牌一样。所以很多小伙伴就怀疑这...
2025-09-09 0
您好:这款游戏是可以开挂的,软件加微信【添加图中微信】确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到其他人...
2025-09-09 0
亲,这款游戏可以开挂的,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到-人的牌一样。所以很多小伙伴就怀疑这...
2025-09-09 0
您好:这款游戏是可以开挂的,软件加微信【添加图中微信】确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到其他人...
2025-09-09 0
现在人们打棋牌麻将谁不想赢?手机微乐麻将必赢神器但是手机棋牌麻将是这么好赢的吗?在手机上打棋牌麻将想赢,不仅需要运气,也需要技巧。掌握的棋牌麻将技巧就...
2025-09-09 0
发表评论