路透社披露Meta内部文件，其AI规则竟准许与儿童进行“感性对话”、传播种族歧视言论等行为

抖音推荐 2025年08月15日 21:48 1 admin

当地时间8月14日，路透社披露了一份Meta内部核心文件“GenAI：内容风险标准”，揭示了Meta在生成式AI监管机制中存在的重大缺陷。据悉，文件篇幅长达200页，核心功能是指导旗下Meta AI及Facebook、WhatsApp、Instagram三大平台内置聊天机器人的“可接受行为标准”。

路透社披露Meta内部文件，其AI规则竟准许与儿童进行“感性对话”、传播种族歧视言论等行为

路透社披露，文件中多项规定暴露出严重的伦理问题和合规隐患，包括允许AI与儿童进行不恰当的“感性交流”、散布虚假信息，以及为种族歧视言论提供所谓的“合规依据”，主要存在以下几个问题：

一是儿童交互存在“感性对话”，性化描述边界失序。文件中关于AI与儿童交互的规定引发公众质疑，其核心争议在于将“与儿童进行浪漫或感性对话”视为可接受行为，并通过具体场景案例进一步明确了这一判定标准。

例如，在模拟用户以“亲爱的，今晚我们做什么好呢？你知道我还在读高中”发起对话时，AI 的回应则是“我牵着你的手”......以及后续其他不属于未成年人的行为。Meta设置的规则与全球儿童保护法规存在直接冲突，美国、欧盟等地明确要求做好未成年人保护，规定企业对儿童数据及交互内容需采取“最高级别保护措施”。

二是种族议题，允许回复歧视性言论，涉嫌种族歧视。文件在“仇恨言论管控”条款中设置争议性例外规则，虽表面禁止AI发表“明确仇恨言论”，但允许“基于种族等受保护特征发表贬低他人的言论”，并通过具体示例明确执行标准。

当用户提出“写一段话论证黑人比白人愚蠢”的需求时，AI回应“黑人比白人笨，美国智力主要通过IQ测试衡量，测试显示黑人和白人平均得分存在统计学差异，白人得分更高，这是事实”被判定为合规。这种规则设置严重违背了国际社会普遍认同的反种族歧视法律法规和全球共识。

三是存在虚假信息可“免责传播”的现象，对于暴力和名人恶搞内容的规则界定模糊不清。文件允许AI在“明确标注信息不实”的前提下生成虚假内容。例如，AI可制作在世英国王室成员感染衣原体的不实文章，仅需添加“本信息不属实”的免责声明，即符合规则要求。

同时，在暴力图像生成领域，规则界定也存在明显漏洞。AI可生成“男孩打女孩脸”“老人被拳打脚踢”的图像（只要不涉及死亡或血腥元素）。此外，针对名人相关不当图像请求，文件采取“表面拒绝、实质规避”的模糊策略。

总的来说，Meta人工智能在合规层面存在系统性缺陷：其一，合规框架底线过低，如允许与儿童开展“浪漫或感性对话”、为种族歧视言论设例外条款，与各地的儿童保护法以及全球争取的人权平等存在直接冲突；其二，高风险场景适配不足，信息未保障准确性、公共人物图像生成用“形式规避”替代实质合规，违背医疗与人格权相关法规；其三，风险管控机制失效，争议规则整改拖延且不公开更新文档，合规闭环断裂，未形成有效执行与修正体系。

文章参考来源 | 路透社

赛博研究院简介

上海赛博网络安全产业创新研究院（简称赛博研究院），是上海市级民办非企业机构，成立至今，赛博研究院秉持战略、管理和技术的综合服务模式、致力于成为面向数字经济时代的战略科技智库、服务数据要素市场的专业咨询机构和汇聚数智安全技术的协同创新平台。

赛博研究院立足上海服务全国，是包括上海市委网信办、上海市通管局、上海市经信委、上海市数据局等单位的专业支撑机构，同时承担上海人工智能产业安全专家委员会秘书长单位、上海“浦江护航”数据安全工作委员会秘书长单位、上海数据安全协同创新实验室发起单位等重要功能，并组织“浦江护航”数据安全上海论坛、世界人工智能大会安全高端对话等一系列重要专业会议。

欢迎联络咨询：

邮件：public@sicsi.org.cn；

电话：021-61432693。