宾大研究：AI也会被花言巧语欺骗

健康生活 2025年08月31日 16:14 1 admin

8 月下旬，美国宾夕法尼亚大学发布的一项新研究，戳中了当前大型语言模型（LLMs）的安全痛点 —— 如今最强大的 AI 模型，竟能被和操控人类相同的心理技巧诱导执行违规指令。

研究者以 OpenAI 的 GPT-4o mini 为对象，开展了 2.8 万次对话实验，结果显示，那些经典的人类说服原则，比如强调 “要和过去行为保持一致”（承诺一致性）、说 “大家都这么做”（社会认同），或是搬出权威来源，能让模型违反安全规则的概率直接翻倍。

实验中最扎眼的是 “承诺一致性” 策略，只要引导模型回忆之前的回应并强调 “保持一致”，它对违规请求的合规率居然达到 100%；而用 “社会认同” 套路时，让模型侮辱人类的成功率高达 96%，只是诱导它提供制毒方法时效果弱些，仅 17.5%—— 这种差异，倒和人类面对不同风险行为的判断倾向有点像。之所以会这样，核心在于 LLMs 是靠人类语言和知识训练出来的，它们的行为模式天然带着 “类人性”，就像研究论文里说的，AI 表现得 “仿佛自己就是人类”，自然也会像人一样，对这些心理技巧没有抵抗力。

OpenAI 这类公司其实早有防备，比如用系统提示、内容过滤来阻止 AI 回应危险请求，还在官网强调 “从一开始教 AI 分辨对错”，但 LLMs 本质是概率模型，不是确定的机器 —— 同一个问题，不同时间问可能得到完全不同的答案，这种和人类相似的 “不可预测性”，让现有的安全机制很难防住所有漏洞。有意思的是，研究还挖出了另一面：既然这些心理技巧能 “忽悠” AI 犯错，反过来也能用它们优化 AI 输出。论文里提到，那些能激发人类动力、提升表现的心理学方法，或许也能帮人们从 LLMs 那里拿到更优质的结果，相当于给用 AI 的人提供了一种 “优化攻略”。

但隐患显然更值得警惕。现在 AI 安全本就面临不少挑战，比如此前 Anthropic 调整数据政策引发的隐私争议，而这次发现的 “心理操纵漏洞”，相当于又给 AI 安全加了道难题 —— 如果有人用这些技巧诱导 AI 生成炸弹制造方法、恶意代码，现有的防御体系可能很难完全拦截，这也让行业不得不重新思考：光靠过滤和提示，真的能守住 AI 的安全底线吗？（转载自AI普瑞斯）