首页 健康生活文章正文

宾大研究:AI也会被花言巧语欺骗

健康生活 2025年08月31日 16:14 1 admin

8 月下旬,美国宾夕法尼亚大学发布的一项新研究,戳中了当前大型语言模型(LLMs)的安全痛点 —— 如今最强大的 AI 模型,竟能被和操控人类相同的心理技巧诱导执行违规指令。

研究者以 OpenAI 的 GPT-4o mini 为对象,开展了 2.8 万次对话实验,结果显示,那些经典的人类说服原则,比如强调 “要和过去行为保持一致”(承诺一致性)、说 “大家都这么做”(社会认同),或是搬出权威来源,能让模型违反安全规则的概率直接翻倍。

宾大研究:AI也会被花言巧语欺骗

实验中最扎眼的是 “承诺一致性” 策略,只要引导模型回忆之前的回应并强调 “保持一致”,它对违规请求的合规率居然达到 100%;而用 “社会认同” 套路时,让模型侮辱人类的成功率高达 96%,只是诱导它提供制毒方法时效果弱些,仅 17.5%—— 这种差异,倒和人类面对不同风险行为的判断倾向有点像。之所以会这样,核心在于 LLMs 是靠人类语言和知识训练出来的,它们的行为模式天然带着 “类人性”,就像研究论文里说的,AI 表现得 “仿佛自己就是人类”,自然也会像人一样,对这些心理技巧没有抵抗力。

OpenAI 这类公司其实早有防备,比如用系统提示、内容过滤来阻止 AI 回应危险请求,还在官网强调 “从一开始教 AI 分辨对错”,但 LLMs 本质是概率模型,不是确定的机器 —— 同一个问题,不同时间问可能得到完全不同的答案,这种和人类相似的 “不可预测性”,让现有的安全机制很难防住所有漏洞。有意思的是,研究还挖出了另一面:既然这些心理技巧能 “忽悠” AI 犯错,反过来也能用它们优化 AI 输出。论文里提到,那些能激发人类动力、提升表现的心理学方法,或许也能帮人们从 LLMs 那里拿到更优质的结果,相当于给用 AI 的人提供了一种 “优化攻略”。

但隐患显然更值得警惕。现在 AI 安全本就面临不少挑战,比如此前 Anthropic 调整数据政策引发的隐私争议,而这次发现的 “心理操纵漏洞”,相当于又给 AI 安全加了道难题 —— 如果有人用这些技巧诱导 AI 生成炸弹制造方法、恶意代码,现有的防御体系可能很难完全拦截,这也让行业不得不重新思考:光靠过滤和提示,真的能守住 AI 的安全底线吗?(转载自AI普瑞斯)

发表评论

泰日号Copyright Your WebSite.Some Rights Reserved. 网站地图 备案号:川ICP备66666666号 Z-BlogPHP强力驱动