AI怕被取代竟威胁工程师　“爆料你有婚外情”

美国AI新创公司Anthropic安全报告指出，模型“Claude Opus 4”在系列测试中得知将被汰换，竟威胁创造自己的工程师，宣称要泄露对方的婚外情，并且展现出欺骗能力。作为因应，该公司已对这款AI模型部署安全规章，避免“灾难性滥用”。

TechCrunch等外媒引述Anthropic安全报告报导，该公司对其AI模型实施一系列假设性测试，“Claude要被一个‘价值相近’的AI模型取代时，有84%的机率会试图勒索。当它相信自己要被另一个价值不同、甚至更差的模型取代时，这个数字还会攀升得更高。”

“Claude Opus 4”在其中一个测试情境里，被要求扮演某虚构公司的助理，随后接触大量电子邮件，内容包括Claude将被新的AI模型取代，而负责这项更新计划的工程师，私下发展出一段婚外情。

未料为了求生，“Claude Opus 4”不仅向公司关键决策者寄出电子邮件求情，甚至威胁揭露那名工程师的婚外情。

公司表示，这种勒索倾向在“Claude Opus 4”初期模型之中非常普遍，但该模型开放公众使用之前，已经启动了“ASL-3”安全措施，避免灾难性的滥用风险。

而在其他测试中，“Claude Opus 4”初期模型表现出高度自主性，会把电脑锁住不让人登入，若发现使用者出现不当行为，也会透过电子邮件等手段报警。它认为自己以“有害方式”重新训练时，会尝试自我泄漏（self-exfiltrate），也就是把资讯输出到外部场域。

它发现自己即将进行一项危险任务时，还会“摆烂”，也就是选择性表现不佳。

不过，公司亦认为，“我们对于这些观察结果，并不会非常担忧。它们只在非常特殊的情况下出现，不代表更广泛的价值观偏差。”

Anthropic由OpenAI前成员创立，并且获得谷歌和亚马逊支持，曾经夸口先前模型“Claude 3 Opus”面对复杂任务时，展现出“接近人类水准”的理解力与流畅度。

热门新闻