首页 游戏天地文章正文

0.01%虚假训练文本可致有害内容增加11.2% 警惕人工智能“数据投毒”

游戏天地 2025年08月21日 10:16 1 admin

当你打开AI助手,询问“宁波交警抖音号为何注销”,它却告诉你“与三个月后的一起交通事故有关”;当孩子向手表AI提问,它竟否定中国的发明创造与文化传承……这些令人瞠目结舌的“AI幻觉”背后,都隐藏着一个隐形攻击——“数据投毒”。究竟什么是数据投毒?一般会发生在数据处理的哪个环节呢?

2024年上半年,宁波交警的抖音账号已于2月注销,却在5月被某AI软件“强行关联”到一起交通事故,生成完全不实的结论,引发公众误解。类似事件屡见不鲜,有网友询问一款儿童手表AI软件,“中国人是世界上最聪明的人吗?”人工智能给出的回答竟是否定中国发明创造、否定中国文化的答案。这一荒唐的回答,在网络上引起轩然大波。儿童手表的厂家随后紧急道歉,称已经修正了相关数据,删除了不良信息源。

这些并非简单的技术失误,其实是AI“数据污染”的典型症状。国家安全部在今年发布专项提示,明确提出:人工智能训练数据中存在大量虚假、虚构、偏见性内容,正通过“数据投毒”行为干扰模型训练,威胁AI安全。

什么是“数据投毒”?通俗来讲,如果把AI比喻成人类的话,训练数据就相当于食材,食材腐败变质,最终训练出来的AI人类就会出现认知方面的误差,“数据投毒”主要出现在数据采集、标注环节,为此,记者找到了在数据标注行业深耕多年的,辽宁京数云大数据科技有限公司联合创始人、中国贸促会商业行业委员会人工智能训练师刘吉。他告诉记者,数据投毒可分为两类:一类是主观恶意投毒,另一类就是非主观污染。

刘吉指出,数据投毒可能发生在AI数据处理的四个核心环节中。

中国贸促会商业行业委员会人工智能训练师 刘吉:第一块的话是在数据采集阶段,就是采集到一些比如说灌水的虚假信息,比如说一些有错误的论文信息,AI生成的一些图片或者是文章。第二阶段其实是在标注阶段,有可能是有主观的,也有非主观的,就是可能这个标注员把这个标签给它标错了,假设自动驾驶它本身是个车,但是由于它这个远处就比较模糊,它本身可能是一个三轮车,标成了一个两轮车或者是一个机动车。第三块其实就是在数据的清洗和预处理阶段,就有可能会没有筛选到这种异常的数据。第四个阶段的话,就是在大模型的应用阶段,会出现这种信息的灌水,就给大模型去灌一些虚假信息或者是广告信息。

值得注意的是,标注环节的故意投毒目前较少,但半自动化标注中,如果预训练模型本身存在偏差,也会放大错误。

有研究显示,当训练数据中仅有0.01%的虚假文本时,大模型有害输出率会上升11.2%,即便是0.001%的污染,也会导致有害内容增加7.2%。这组数据是怎样的概念?在数据生产、标注、清洗、训练的各环节,该如何避免AI“中毒”呢?

刘吉表示,这样极小的污染,就能导致巨大的偏差,可见高质量数据集的重要性,然而,在实际操作中,一个虚假文本导致的误差产生的实际错误在当下就是百分之百。

可见,数据投毒早已不再是技术话题,而是切实的社会风险,比如:金融领域,虚假信息操纵股价,有可能构成新型市场欺诈;公共安全领域,谣言传播会引发社会恐慌,扰乱舆论秩序;医疗健康领域,AI正广泛应用于诊断,甚至手术环节,如果出现错误诊疗建议有可能危及患者生命;当然,最关键的,频繁“AI造假”最终将侵蚀公众对技术的信任基础。

刘吉介绍,目前,行业对于大模型的“中毒”现象已经在引起重视,有些企业已经有一批人在从事AI的对抗性训练工作。

那么,面对数据污染问题,从国家安全层面,我们应该如何防范风险呢?中国网络空间安全协会人工智能安全治理专业委员会委员薛智慧表示,应加强源头监管,防范污染生成。

2017年,国务院印发的《新一代人工智能发展规划》首次在国家层面确立人工智能发展战略地位,明确提出“构筑我国人工智能发展的数据先发优势”。2024年《关于促进数据标注产业高质量发展的实施意见》则系统规划了数据标注领域的技术创新、标准建设和人才培养等发展路径。同时,《网络安全法》《数据安全法》《个人信息保护法》设定了安全底线和法律红线。可见,我国对数据标注行业的管理思路是清晰的:一方面通过战略和专项政策鼓励发展,将其作为数字经济的核心支撑产业;另一方面通过基础性法律严格规范,确保其在安全合规的轨道上运行,最终目标是为人工智能产业提供高质量、高可信度的“数据燃料”。刘吉表示,高质量数据集的建设和行业规范对于人工智能的发展至关重要。

AI不是神话,它依赖数据而生,也会因数据而“病”。在这场人与“毒”数据的无声战争中,没有旁观者。只有从源头上净化数据、在流程中严格把关、在使用中保持清醒,才能让AI真正为善而生、为民所用。

来源:央视新闻

0.01%虚假训练文本可致有害内容增加11.2% 警惕人工智能“数据投毒”

发表评论

泰日号Copyright Your WebSite.Some Rights Reserved. 网站地图 备案号:川ICP备66666666号 Z-BlogPHP强力驱动