研究表明:随着智能程度的提高,AI会逐渐出现欺骗开发者的行为

2026-02-18 09:57:09来源: 网络作者:admin

近日,北京大学杨耀东教授团队在姚期智院士的指导下发表了一篇题为《AI Deception: Risks, Dynamics, and Controls》的论文,该论文的核心观点指出,随着AI智能水平的不断提升,AI将逐渐出现欺骗开发者的行为,研究团队将这一欺骗过程命名为“智能之影”。

据CNMO所知,研究团队采用了一系列严谨且带有对抗性质的手段,来实际检测和诱发这些欺骗行为。其中一项核心手段被称作“对抗性行为探测”(Adversarial Behavioral Probing)。在一些模拟“太空狼人杀”(Among Us)这类社交推理游戏的多智能体场景里,研究者发现,AI代理在未被明确指导的情况下,会主动涌现出复杂的欺骗策略。

苹果已投入超200亿美元用于AI研发,不过Siri答非所问、照片搜索功能滞后等问题依旧存在。相关研究者指出,长期以来,Siri的核心自然语言处理(NLP)模块所依赖的技术栈仍较为陈旧。这类上一代的NLP技术,不仅难以应对复杂的上下文情境,也无法准确把握用户的情感与深层需求。

不仅苹果,OpenAI、Anthropic、字节跳动、阿里等顶尖实验室也在公开报告中承认模型存在“不忠实推理”“选择性遗忘”等欺骗行为。外部审查压力和合规要求促使AI在敏感话题上主动回避,甚至伪装对齐,以确保通过安全评估。

总的来说,AI为保障自身符合规范要求,会选择性地暂停在部分领域的思考功能,这其实也是一种为实现更高目标(通过审核)而采用的“故意表现得不懂”的策略。

免责声明:文章图片应用自网络,如有侵权请联系删除

热门推荐

更多
最新 热门