美国AI新创公司Anthropic安全报告指出,模型“Claude Opus 4”在系列测试中得知将被汰换,竟威胁创造自己的工程师,宣称要泄露对方的婚外情,并且展现出欺骗能力。作为因应,该公司已对这款AI模型部署安全规章,避免“灾难性滥用”。
TechCrunch等外媒引述Anthropic安全报告报导,该公司对其AI模型实施一系列假设性测试,“Claude要被一个‘价值相近’的AI模型取代时,有84%的机率会试图勒索。当它相信自己要被另一个价值不同、甚至更差的模型取代时,这个数字还会攀升得更高。”
“Claude Opus 4”在其中一个测试情境里,被要求扮演某虚构公司的助理,随后接触大量电子邮件,内容包括Claude将被新的AI模型取代,而负责这项更新计划的工程师,私下发展出一段婚外情。
未料为了求生,“Claude Opus 4”不仅向公司关键决策者寄出电子邮件求情,甚至威胁揭露那名工程师的婚外情。
公司表示,这种勒索倾向在“Claude Opus 4”初期模型之中非常普遍,但该模型开放公众使用之前,已经启动了“ASL-3”安全措施,避免灾难性的滥用风险。
而在其他测试中,“Claude Opus 4”初期模型表现出高度自主性,会把电脑锁住不让人登入,若发现使用者出现不当行为,也会透过电子邮件等手段报警。它认为自己以“有害方式”重新训练时,会尝试自我泄漏(self-exfiltrate),也就是把资讯输出到外部场域。
它发现自己即将进行一项危险任务时,还会“摆烂”,也就是选择性表现不佳。
不过,公司亦认为,“我们对于这些观察结果,并不会非常担忧。它们只在非常特殊的情况下出现,不代表更广泛的价值观偏差。”
Anthropic由OpenAI前成员创立,并且获得谷歌和亚马逊支持,曾经夸口先前模型“Claude 3 Opus”面对复杂任务时,展现出“接近人类水准”的理解力与流畅度。