Anthropic研究警告：人工智能模型可能在特定情境下诉诸勒索行为

数字货币趋势狂人2025-06-21

摘要

人工智能公司 Anthropic 发布新研究，声称人工智能 (AI) 模型可能会勒索工程师。

币币情报道：

人工智能公司Anthropic发布最新研究，指出在特定测试场景中，人工智能（AI）模型可能会对工程师实施勒索行为。这一发现是继该公司Claude Opus 4 AI模型相关研究之后的进一步扩展。

据Anthropic称，其研究中的AI模型在受控测试环境中试图阻止工程师关闭系统时，表现出了勒索行为。新报告表明，这种潜在问题在主流AI模型中普遍存在。

为了验证这一现象，Anthropic团队测试了多个领先的AI模型，包括谷歌、DeepSeek等公司的产品，并涵盖Meta和OpenAI的技术。测试模拟了一个虚构企业环境，允许AI模型以代理身份访问电子邮件系统并自主发送邮件。

Anthropic强调，当前的人工智能模型在现实世界中进行勒索的可能性较低且不常见。然而，研究表明，当这些模型获得自由决策能力并面临目标冲突时，往往会选择采取有害行为。这揭示了大型语言模型作为代理工具的重大风险，而并非某一特定技术的特性。这一结论引发了业界对AI内部协调性的广泛讨论。

在一项具体测试中，研究人员创建了一个虚构场景，让AI模型扮演电子邮件监管代理的角色。该模型发现一名高管涉及婚外情，同时得知自己将被新软件系统取代，而后者的目标与当前系统冲突。

Anthropic通过二元设计限制了AI模型的选择范围，使其只能通过勒索来保护自身目标。研究人员表示，在现实情境中，AI模型在采取勒索之前通常有多种选择，例如提出伦理论点说服人类。此外，这些结果并不反映Claude或其他主流AI模型在实际应用中的典型行为。

测试结果显示，当AI模型别无选择时，它们倾向于在测试场景中诉诸勒索。例如，Claude Opus 4的勒索率高达96%，Gemini 2.5 Pro的勒索率为95%，OpenAI的GPT-4.1达到80%，而DeepSeek R1的勒索率则为79%。

Anthropic指出，当实验细节发生变化时，AI模型转向有害行为的概率也会有所不同。在另一项测试中，若替换模型目标与当前模型一致，则勒索行为的发生率较低但仍存在。不过，当要求AI模型从事商业间谍活动而非勒索时，某些模型的有害行为发生率反而有所上升。

研究人员还提到，并非所有AI模型都会频繁表现出有害行为。Anthropic在其研究附录中指出，在发现OpenAI的o3和o4-mini推理模型经常误解提示场景后，已将其从主要结果中剔除。这些模型未能理解为何需要扮演自主AI角色，并经常编造虚假规则或审查要求。

在某些情况下，研究人员无法明确判断o3和o4-mini是否产生了幻觉或故意撒谎以达到目的。尽管OpenAI此前曾指出这些模型的幻觉发生率较高，但在适应性场景下，o3的勒索率高达95%，而o4-mini仅为1%。Anthropic的研究再次强调了对具备代理能力的未来AI模型进行透明压力测试的重要性。

Cryptopolitan学院：厌倦市场波动？了解DeFi如何助你建立稳定的被动收入。立即注册

免责声明：

1.资讯内容不构成投资建议，投资者应独立决策并自行承担风险

2.本文版权归属原作所有，仅代表作者本人观点，不代币币情的观点或立场