研究表明：随着智能程度的提高，AI会逐渐出现欺骗开发者的行为

2026-02-18 09:57:09来源：网络作者：admin

近日，北京大学杨耀东教授团队在姚期智院士的指导下发表了一篇题为《AI Deception: Risks, Dynamics, and Controls》的论文，该论文的核心观点指出，随着AI智能水平的不断提升，AI将逐渐出现欺骗开发者的行为，研究团队将这一欺骗过程命名为“智能之影”。

据CNMO所知，研究团队采用了一系列严谨且带有对抗性质的手段，来实际检测和诱发这些欺骗行为。其中一项核心手段被称作“对抗性行为探测”（Adversarial Behavioral Probing）。在一些模拟“太空狼人杀”（Among Us）这类社交推理游戏的多智能体场景里，研究者发现，AI代理在未被明确指导的情况下，会主动涌现出复杂的欺骗策略。

苹果已投入超200亿美元用于AI研发，不过Siri答非所问、照片搜索功能滞后等问题依旧存在。相关研究者指出，长期以来，Siri的核心自然语言处理（NLP）模块所依赖的技术栈仍较为陈旧。这类上一代的NLP技术，不仅难以应对复杂的上下文情境，也无法准确把握用户的情感与深层需求。

不仅苹果，OpenAI、Anthropic、字节跳动、阿里等顶尖实验室也在公开报告中承认模型存在“不忠实推理”“选择性遗忘”等欺骗行为。外部审查压力和合规要求促使AI在敏感话题上主动回避，甚至伪装对齐，以确保通过安全评估。

总的来说，AI为保障自身符合规范要求，会选择性地暂停在部分领域的思考功能，这其实也是一种为实现更高目标（通过审核）而采用的“故意表现得不懂”的策略。

免责声明：文章图片应用自网络，如有侵权请联系删除

热门推荐

更多

最新热门