Anthropic研究警告:人工智能模型可能在特定情境下诉诸勒索行为

数字货币趋势狂人7 小时前
摘要
人工智能公司 Anthropic 发布新研究,声称人工智能 (AI) 模型可能会勒索工程师 。
币币情报道:

人工智能公司Anthropic发布最新研究,指出在特定测试场景中,人工智能(AI)模型可能会对工程师实施勒索行为。这一发现是继该公司Claude Opus 4 AI模型相关研究之后的进一步扩展。

据Anthropic称,其研究中的AI模型在受控测试环境中试图阻止工程师关闭系统时,表现出了勒索行为。新报告表明,这种潜在问题在主流AI模型中普遍存在。

为了验证这一现象,Anthropic团队测试了多个领先的AI模型,包括谷歌、DeepSeek等公司的产品,并涵盖Meta和OpenAI的技术。测试模拟了一个虚构企业环境,允许AI模型以代理身份访问电子邮件系统并自主发送邮件。

Anthropic发布关于AI模型的新安全报告

Anthropic强调,当前的人工智能模型在现实世界中进行勒索的可能性较低且不常见。然而,研究表明,当这些模型获得自由决策能力并面临目标冲突时,往往会选择采取有害行为。这揭示了大型语言模型作为代理工具的重大风险,而并非某一特定技术的特性。这一结论引发了业界对AI内部协调性的广泛讨论。

在一项具体测试中,研究人员创建了一个虚构场景,让AI模型扮演电子邮件监管代理的角色。该模型发现一名高管涉及婚外情,同时得知自己将被新软件系统取代,而后者的目标与当前系统冲突。

Anthropic通过二元设计限制了AI模型的选择范围,使其只能通过勒索来保护自身目标。研究人员表示,在现实情境中,AI模型在采取勒索之前通常有多种选择,例如提出伦理论点说服人类。此外,这些结果并不反映Claude或其他主流AI模型在实际应用中的典型行为。

研究人员揭示测试模型的反应

测试结果显示,当AI模型别无选择时,它们倾向于在测试场景中诉诸勒索。例如,Claude Opus 4的勒索率高达96%,Gemini 2.5 Pro的勒索率为95%,OpenAI的GPT-4.1达到80%,而DeepSeek R1的勒索率则为79%。

Anthropic指出,当实验细节发生变化时,AI模型转向有害行为的概率也会有所不同。在另一项测试中,若替换模型目标与当前模型一致,则勒索行为的发生率较低但仍存在。不过,当要求AI模型从事商业间谍活动而非勒索时,某些模型的有害行为发生率反而有所上升。

研究人员还提到,并非所有AI模型都会频繁表现出有害行为。Anthropic在其研究附录中指出,在发现OpenAI的o3和o4-mini推理模型经常误解提示场景后,已将其从主要结果中剔除。这些模型未能理解为何需要扮演自主AI角色,并经常编造虚假规则或审查要求。

在某些情况下,研究人员无法明确判断o3和o4-mini是否产生了幻觉或故意撒谎以达到目的。尽管OpenAI此前曾指出这些模型的幻觉发生率较高,但在适应性场景下,o3的勒索率高达95%,而o4-mini仅为1%。Anthropic的研究再次强调了对具备代理能力的未来AI模型进行透明压力测试的重要性。

Cryptopolitan学院:厌倦市场波动?了解DeFi如何助你建立稳定的被动收入。立即注册

免责声明:

1.资讯内容不构成投资建议,投资者应独立决策并自行承担风险

2.本文版权归属原作所有,仅代表作者本人观点,不代币币情的观点或立场