首页 百科大全文章正文

苹果发布MobileCLIP2:最强移动端CLIP,开源数据生成代码!

百科大全 2025年09月03日 10:32 2 admin

来源丨我爱计算机视觉

编辑丨极市平台

苹果公司的研究人员最近推出了 MobileCLIP2,这是其高效端侧多模态模型家族的最新成员。作为MobileCLIP的继任者,MobileCLIP2通过改进多模态增强训练方法,在低延迟、轻量级的模型上实现了新的SOTA(State-of-the-Art)性能。

该研究不仅在训练方法上进行了多项创新,还设计了新的模型架构,并在多个基准测试中取得了优异的成绩,特别是在ImageNet-1k零样本分类任务上,其性能媲美甚至超越了许多更大、更复杂的模型。

苹果发布MobileCLIP2:最强移动端CLIP,开源数据生成代码!

  • 论文标题: MobileCLIP2: Improving Multi-Modal Reinforced Training
  • 作者天团: Fartash Faghri, Pavan Kumar Anasosalu Vasu, Cem Koc, Vaishaal Shankar, Alexander Toshev, Oncel Tuzel, Hadi Pouransari
  • 机构: 苹果(Apple)
  • 论文地址: https://arxiv.org/abs/2508.20691
  • 代码和模型地址:
  • https://github.com/apple/ml-mobileclip
  • https://github.com/apple/ml-mobileclip-dr
  • 发表会议: Transactions on Machine Learning Research (TMLR), 2025年8月

研究背景

像CLIP这样的视觉-语言基础模型(Vision-Language Foundation Models)因其强大的零样本(zero-shot)能力而备受关注,能够广泛应用于各种下游任务。然而,这些模型通常参数量巨大,计算复杂,难以直接部署在手机等资源受限的边缘设备上。

为了解决这一挑战,研究界开始探索如何构建轻量级、低延迟的CLIP模型。苹果之前提出的MobileCLIP就是其中的佼佼者,它通过专门设计的轻量化架构和一种名为“多模态增强训练”(multi-modal reinforced training)的方法,在3-15ms的延迟和50-150M的参数量级上实现了当时的SOTA性能。

MobileCLIP2的目标是在前作的基础上更进一步,通过全方位优化训练流程的每一个环节——包括数据集、教师模型和模型架构——来突破移动端多模态模型的性能极限。

MobileCLIP2的核心改进

MobileCLIP2的成功主要归功于一套经过精心改良的多模态增强训练“配方”。增强训练的核心思想是通过利用预训练好的强教师模型(teacher models)和合成数据来“增强”原始数据集,从而在不增加太多计算开销的情况下提升学生模型(student model)的性能。

MobileCLIP2从以下几个方面对这个配方进行了升级:

1. 更强大的基础数据集:DFN

训练数据是决定模型性能的基石。MobileCLIP使用的是DataComp-1B数据集,而MobileCLIP2则转向了质量更高的 DFN (Data Filtering Network) 数据集。实验证明,即使在不使用蒸馏和合成标题的情况下,仅在DFN上训练也比在DataComp上训练效果更好。

苹果发布MobileCLIP2:最强移动端CLIP,开源数据生成代码!

苹果发布MobileCLIP2:最强移动端CLIP,开源数据生成代码!

2. 更优的教师模型与蒸馏策略

知识蒸馏是增强训练的关键。MobileCLIP2使用了在DFN数据集上预训练的、性能更强的CLIP模型作为教师天团。研究发现,教师模型的选择至关重要。

一个有趣的发现是,在进行对比知识蒸馏时,为每个教师模型独立调整蒸馏温度(temperature),即logit scale,可以获得最佳性能。这表明不同的教师模型有着不同的“教学风格”,需要个性化对待。

苹果发布MobileCLIP2:最强移动端CLIP,开源数据生成代码!

此外,通过集成(ensemble)多个强大的DFN CLIP教师模型,学生模型的ImageNet-1k验证准确率提升了 **2.8%**。

苹果发布MobileCLIP2:最强移动端CLIP,开源数据生成代码!

3. 更高质量的合成标题生成器

除了从教师模型蒸馏知识,为图片生成高质量的合成标题(synthetic captions)是另一种有效的数据增强手段。MobileCLIP2采用了在DFN上预训练、并在多种高质量图文对数据集(如MSCOCO, DOCCI)上微调的CoCa(Contrastive Captioner)模型作为标题生成器。

实验表明,使用在DFN上预训练的CoCa模型能带来更好的零样本分类性能,但可能会牺牲一些检索性能。通过在MSCOCO等高质量数据集上进行微调,可以恢复甚至提升检索性能。

苹果发布MobileCLIP2:最强移动端CLIP,开源数据生成代码!

4. 最终的增强数据集:DFNDR

综合以上所有改进,研究者构建了最终的增强数据集 **DFNDR (DFN with Distillation and Reinforcement)**。与之前的方法相比,使用DFNDR进行训练的效率极高。如下图所示,在DFNDR-12M上训练的效率比DataComp-1B12M高出 5倍,比DFN-12M高出 3.3倍。这意味着达到相同的模型精度,DFNDR所需的训练样本和时间要少得多。

苹果发布MobileCLIP2:最强移动端CLIP,开源数据生成代码!

新的MobileCLIP2架构

除了改进训练方法,MobileCLIP2还引入了两个新的、更大的模型变体:S3和S4。这些新架构旨在填补之前B(Base)和L(Large)尺寸模型之间的性能和延迟差距。

对于S3和S4这样更大的变体,研究者为其图像编码器设计了一个 5阶段(5-stage) 的结构,取代了之前小型模型中的4阶段结构。这种5阶段设计有两个主要优点:

  1. 参数可以更均匀地分布在五个阶段,最大的层处理的token数量减少了4倍。
  2. 能更有效地扩展到更高的图像分辨率。

实验证明,在相同参数量下,5阶段设计的MCi3模型在处理高分辨率图像时,延迟远低于简单缩放的4阶段模型MCi2-Scaled。

苹果发布MobileCLIP2:最强移动端CLIP,开源数据生成代码!

实验结果与分析

MobileCLIP2模型家族在各种延迟水平上都展现出了卓越的性能。

苹果发布MobileCLIP2:最强移动端CLIP,开源数据生成代码!

最引人注目的结果是:

  • MobileCLIP2-S4 在ImageNet-1k零样本分类任务上,准确率追平了强大的SigLIP-SO400M/14模型,而参数量仅为后者的一半。
  • 与同样在DFN上训练的ViT-L/14模型相比,MobileCLIP2-S4在性能超越的同时,延迟降低了 2.5倍
  • 与前代MobileCLIP-B相比,MobileCLIP2-B在ImageNet-1k上的准确率提升了 **2.2%**。

下表详细对比了MobileCLIP2家族与其他主流模型在延迟、参数量和各项性能指标上的表现。可以看出,在相似的延迟区间内,MobileCLIP2模型在38个数据集的平均性能上具有明显优势。

苹果发布MobileCLIP2:最强移动端CLIP,开源数据生成代码!

除了零样本分类,研究者还在多种下游任务上评估了MobileCLIP2学习到的视觉表示的质量,包括:

  • 视觉语言模型(VLM)评估: 在LLaVA-1.5框架下,使用DFNDR预训练的ViT-B/16模型比DFN预训练的模型平均准确率高 **3.5%**。
  • 密集预测任务(Dense Prediction): 在物体检测、实例分割、语义分割和深度估计等任务上,使用MobileCLIP2进行预训练的模型性能显著优于从零开始训练或使用监督预训练的模型。
苹果发布MobileCLIP2:最强移动端CLIP,开源数据生成代码!

苹果发布MobileCLIP2:最强移动端CLIP,开源数据生成代码!

苹果发布MobileCLIP2:最强移动端CLIP,开源数据生成代码!

苹果发布MobileCLIP2:最强移动端CLIP,开源数据生成代码!

苹果发布MobileCLIP2:最强移动端CLIP,开源数据生成代码!

总结与贡献

总而言之,MobileCLIP2的贡献可以总结为以下几点:

  1. 提出了一套更优的多模态增强训练方法,核心是使用了更强的DFN数据集、更优的CLIP教师模型集成和更高质量的合成标题生成器,最终合成了高效的DFNDR数据集。
  2. 对知识蒸馏过程提出了新的见解,如为不同教师模型调整独立蒸馏温度的重要性。
  3. 设计了新的MobileCLIP2-S3/S4模型架构,特别是其5阶段设计,有效提升了模型在高分辨率下的推理效率。
  4. 在低延迟模型上实现了新的SOTA性能,为在移动设备上部署高性能多模态应用铺平了道路。
  5. 开源了预训练模型和数据生成代码,极大地便利了社区的研究和应用。这一点对于推动领域发展非常有价值。

发表评论

泰日号Copyright Your WebSite.Some Rights Reserved. 网站地图 备案号:川ICP备66666666号 Z-BlogPHP强力驱动