苹果分享 iOS 26 即将推出的 AI 基础模型的细节

抖音热门 2025年08月10日 12:02 1 admin

作者 | Sergio De Simone

译者 | 张卫滨

在最近的技术报告中，苹果公司提供了更多关于 iOS 26 新的苹果人工智能基础模型（Apple Intelligence Foundation Models）的性能和特性的详细信息，该模型是在最近的 2025 年全球开发者大会（WWDC）上宣布的。

苹果基础模型包括一个 3B 参数版本，优化后可在苹果 Silicon 设备上运行，另外，还有一个更大的模型，设计用来在苹果私有云计算平台上运行。苹果强调，这两个模型都是使用可信任的网络爬虫、授权语料库和合成数据进行训练的。进一步的训练阶段包括监管式微调和强化学习。

据苹果公司称，3B 参数模型旨在实现高效率、低延迟和最小化资源使用。相比之下，更大的模型旨在提供高准确性和可扩展性。苹果指出，鉴于其较小的规模，在设备上的模型不打算实现世界知识聊天，但可以支持高级功能，如文本提取、摘要、图像理解和仅用数行代码进行的推理。

在架构方面，3B 参数模型使用 KV 缓存共享，这是一种减少首次令牌时间（time-to-first-token）的技术，并通过 2 位量化感知训练（2-bit quantization-aware）进行压缩。苹果表示，模型被划分为两个块，它们之间共享键值缓存，这可以减少 37.5% 的内存使用。量化感知训练是一种允许通过在训练时模拟 2 位量化的效果来恢复质量的技术：

与从权重 W 派生比例的传统量化方案不同，我们引入了一个可学习的缩放因子 f，它可以自适应地微调每个权重张量的量化范围。

对于服务器端模型，苹果使用了一种新颖的并行轨道混合专家（Parallel-Track Mixture-of-Experts，PT-MoE） transformer，结合了轨道并行性、稀疏计算和交叉的全局 - 局部注意力。它包括多个独立处理令牌的 transformer，每个都有自己的一套 MoE 层。苹果表示，并行令牌处理与 MoE 方法的结合可以减少同步开销，并允许模型更有效地扩展。

为了评估其基础模型，苹果研究人员依赖人类评分员来评估每个模型产生自然回应的能力。结果显示，设备上的模型在所有支持的语言中与相比 Qwen-2.5-3B 表现良好，并且在英语中与更大的模型如 Qwen-3-4B 和 Gemma-3-4B 相比，能够保持竞争力。更大的服务器端模型在与 Llama-4-Scout 相比中表现良好，但与更大的模型如 Qwen-3-235B 和 GPT-4o 相比则稍显不足。

对于图像理解，苹果采取了相同的方法，要求人类评估图像 - 问题对，包括文本丰富的图像，如信息图表：

我们发现苹果的设备模型在与更大的 InternVL 和 Qwen 相比时表现良好，能够与 Gemma 竞争，我们的服务器模型在推理 FLOPS 不到一半的情况下超越了 Qwen-2.5-VL，但落后于 Llama-4-Scout 和 GPT-4o。

最后，苹果研究人员强调了他们实现可信赖 AI 的方法，包括执行安全基线和护栏，以减轻有害模型输入和输出。这些保障措施也通过人类评估和自动评分的组合进行了评估。苹果还为开发者发布了应用负责任人工智能原则的教育资源。

如前所述，苹果的人工智能基础模型需要 XCode 26 和 iOS 26，目前已经作为测试版软件提供。

原文链接：

Apple Shares Details on Upcoming AI Foundation Models for iOS 26（https://www.infoq.com/news/2025/07/apple-foundation-models-ios26/）

声明：本文为 InfoQ 翻译，未经许可禁止转载。

今日好文推荐