苹果被指用盗版书籍训练AI，重蹈Anthropic巨额赔偿覆辙?

抖音推荐 2025年09月07日 22:38 1 admin

苹果正面临作者的起诉，指控其使用他们的作品来训练应用于"苹果智能"（Apple Intelligence）的大语言模型。这起诉讼与Anthropic此前代价高昂的法律纠纷如出一辙。

尽管苹果一直努力以合乎规格与道德的方式训练其人工智能模型（这些模型用于"苹果智能"及其操作系统中的其他功能），并在合规方面竭尽全力，但它仍然成为了这起版权诉讼的目标。

据路透社报道，作者格雷迪·亨德里克斯（Grady Hendrix）和珍妮弗·罗伯逊（Jennifer Roberson）提起了一项拟议的集体诉讼，指控苹果使用其受版权保护的作品来训练AI系统。该诉讼于周五在美国加州北区地方法院提交，诉状称苹果正在使用一个基于盗版作品的数据集。

此案的关键在于苹果是否使用了名为"Books3"的数据集。诉讼声称，Books3基于一个名为Bibliotik的"影子图书馆"网站内容，该网站据称托管了数千本书的内容。

该数据集曾在HuggingFace上提供，直至2023年10月被删除，并且它也是RedPajama数据集的一部分。而RedPajama被用于OpenELM开源模型，苹果在2024年发布了这些模型。

由于苹果在OpenELM中使用了与盗版书籍相关的数据集，诉讼认为苹果很可能采用同样的技术来训练其基础语言模型。诉状还强调，苹果从未尝试为书籍内容向作者支付报酬。

原告要求陪审团审判，并请求法院判令苹果支付法定赔偿金和补偿性损害赔偿、进行 restitution、销毁使用了相关训练集的"苹果智能"及其他大语言模型，并承担律师费。

谨慎的训练之道

这起诉讼与另一起涉及AI训练和盗版的案件有许多相似之处。去年9月，Anthropic同意向作者支付15亿美元以和解盗版指控，其中包括扫描书籍内容来训练其模型。这起新诉讼并非指控苹果直接盗用内容本身，而是指责其使用了一个据称来源可疑的数据集。

苹果一直公开表示致力于以尽可能道德（符合运营准则）的方式训练其模型，并确保训练数据来源的合规性。此前，苹果曾向出版商提供数百万美元以获取用于训练数据的出版物权限。它还在2024年与Shutterstock达成协议，授权使用数百万张图片用于训练。

7月，苹果在一份研究报告中重申了其道德承诺，包括对互联网上可获取内容的处理。它解释道，如果出版商不同意其数据被爬取用于训练，苹果就不会抓取相关内容——这包括遵守robots.txt协议中概述的限制，而并非所有公司都遵守这一规则。

喜欢点赞收藏！欢迎关注SevenTech!

三分钟了解“麻将怎么设置才能赢”（可以设置输赢吗)

发表评论