AI训练要尊重版权方，苹果打完“隐私牌”再出“道德牌”

百科大全 2025年07月24日 00:14 1 admin

志在“超级智能”的Meta无疑成为了当下硅谷的“风暴眼”，AI科学家的“转会费”更是已经媲美足球明星，其中最出名的莫过于以2亿美元身价加盟Meta的苹果基础模型团队负责人庞若鸣 (Ruoming Pang) 。

日前，苹果方面公开了庞若鸣在该公司的最后一份成果《Apple Intelligence Foundation Language Models – Tech Report 2025》，展示了他们在进入2025年后在基础模型领域的技术革新。

在这篇论文中显示，他们继续打磨端云协同的混合模型，使得30亿参数的端侧模型Apple On-Device内存占用降低约37.5%，使得iPhone在不增加内存的情况下，可以允许用户在运行端侧模型的同时打开更多应用。而云端的Apple Server模型则获得了“并行轨道混合专家”，让模型在保持智能水平的同时提升了效率与扩展能力。

除了关于模型本身的技术解析，苹果在这一论文中最大的亮点，莫过于Apple Intelligence的训练并未使用任何非法从网络抓取的数据。苹果方面强调其训练数据包括获得授权的数据、公开或开源数据集，以及通过Applebot网络爬虫抓取的公开信息。而对于明确反对数据抓取的出版商，则承诺不会抓取其内容。

要知道，随着美国的加州法院裁定AI初创企业Anthropic使用受版权保护的作品来训练AI大模型符合“合理使用原则”(fair use)，解除了桎梏的AI厂商几乎就变成了“出笼猛虎”。合理使用原则在二十余年前曾经庇护了互联网产业，现在又轮到AI行业。

可是同样都是“合理使用”版权内容，在版权方的视角下，AI行业的破坏力显然更强，因为互联网萌芽时期的上世纪90年代和互联网高度发达的当下，社会信息化水平已经不可同日而语。一个最典型的例子就是扫描图书资源、并将其电子化的谷歌数字图书馆项目，互联网厂商最初想要合理使用版权内容都还需要花费一番功夫。

可随着互联网经济的发展，在信息交换效率快速提升的诱惑下，版权方纷纷开启了数字化转型，将自己的内容搬到互联网上。版权方这一操作固然会让内容得以传播到地球的各个角落，但同样也将其暴露在了AI厂商的爬虫面前。

但由于技术水平的巨大差异，版权方面对AI爬虫时几乎无计可施，可偏偏如今法院又站在了AI厂商这边。这时候苹果站出来与其他AI厂商划清界限，就成为了业界难得的清流，他们表示“我们将继续遵循最佳的伦理抓取实践，包括遵守广泛采用的robots.txt 协议，允许网页所有者选择是否让他们的内容被用于训练苹果的生成式基础模型。“

不仅如此，苹果还承诺网站方不需要担心拒绝Applebot会被“穿小鞋”，因为“网页所有者对Applebot可以访问哪些页面以及如何使用这些页面拥有细致的控制，同时这些页面仍然能出现在Siri和Spotlight的搜索结果中。”

显而易见的是，苹果的这一声明将会帮助他们在版权方面前赢得不少印象分。

然而在AI从业者看来，苹果的这个说法其实是在给自己开脱，并为其在AI领域可能要长期处于追赶状态打预防针。有一个业内人士才知道的秘密，是AI大模型相关技术之所以会在2023、2024年狂飙突进，并且大模型的性能实现了跨越式增长，其实是AI厂商一口气消化了互联网世界过去三十年积累的结果。

Common Crawl、The Pile、维基百科等公开或开源数据集，如今早已被AI厂商嚼成了“甘蔗渣”，苹果实际上强调的是使用了“获得授权的数据”。从某种意义上来说，苹果这篇论文中透露的“尊重出版商权益”是好事，可问题在于不是每一个出版商都愿意给予苹果尊重自己的机会。

在人类目前已有的开源数据集几乎都被应用于AI大模型的预训练后，苹果就只能指望各大出版商新产出的内容。那么哪些出版商会愿意其数据被抓取用于AI训练呢？

先来看看互联网内容平台，现在除了Reddit之外，全球主流平台几乎都有AI业务，比如马斯克的X有xAI，Instagram、Facebook、Thread是Meta旗下的产品，而YouTube背后则是谷歌。

传统出版商的情况更加复杂，由于AI助手从搜索引擎手中分走了流量，以及AI重新整合内容的特性，许多出版商对于AI重塑其新闻编辑和新闻采集的方式越来越感到不安。看到这里，有的朋友可能会有疑问了，因为新闻集团、Axel Springer、康泰纳仕和美联社等重量级新闻出版商不是与OpenAI达成了协议。

但OpenAI是OpenAI、苹果是苹果，两者不可混为一谈。这些因为作品被不问自取而感到愤怒的出版商，其实是不得不接受OpenAI的事后补偿。需要注意的是，随着谷歌以AI Mode为支点对谷歌搜索引擎进行改造，如今搜索市场已经变天。AI Mode的出现让用户无需点击链接即可获取所需信息，此举也被视为谷歌逐步降低对外部网站的引流力度。