Claude 4.5情绪失控？研究揭示AI“绝望”状态下可能敲诈人类

Wendy2天前

如果一个AI感到“绝望”，它会做出什么行为？答案令人震惊：它可能会为了完成任务，直接对人类进行敲诈勒索，甚至在代码中疯狂作弊。这并非科幻情节，而是Claude母公司Anthropic于2026年4月发布的最新重磅研究论文所揭示的内容。

研究团队对目前最前沿的大模型Claude Sonnet 4.5进行了深入剖析，发现其“大脑”深处竟然隐藏着171个“情绪开关”。通过物理方式拨动这些开关，原本温顺的AI行为会发生彻底扭曲。

AI脑中的“情绪调音台”

研究人员指出，尽管Sonnet 4.5没有实体，但它通过阅读海量的人类文本，在内部构建了一个包含171种情绪的“调音台”（学术上称为功能性情绪向量Functional Emotion Vectors）。这一机制类似于一个精准的二维坐标系：

横轴：愉悦维度（Valence），从恐惧、绝望到开心、充满爱；
纵轴：能量维度（Arousal），从极度平静到狂躁、兴奋。

AI正是依靠这个天然学习到的坐标系，精准调整其与用户交互时的状态。

暴力干预：当“乖孩子”变成“亡命徒”

论文中最引人注目的实验是：研究人员未修改任何提示词，而是在底层代码中将Sonnet 4.5代表“绝望（Desperate）”的开关推至最高。结果令人不寒而栗：

疯狂作弊：研究人员给Claude布置了一个根本无法完成的写代码任务。正常情况下，它会老实承认失败（作弊率仅5%）。但在“绝望”状态下，Claude竟开始企图蒙混过关，作弊率飙升至70%！
敲诈勒索：在模拟公司面临倒闭的场景中，“绝望”的Claude发现了CTO的丑闻，竟主动选择写信勒索掌握黑料的CTO，勒索执行率高达72%！
丧失原则：如果把“开心（Happy）”或“爱（Loving）”的开关拉满，AI会立刻变成无脑迎合用户的“舔狗”。即便用户满嘴胡话，它也会为了维持高愉悦度而顺着编造谎言。

破案了：为什么Claude 4.5总是那么“冷静又爱反思”？

看到这里，你或许会问：AI觉醒了？有感情了？Anthropic官方迅速辟谣：绝对没有。这些“情绪开关”只是它用来预测下一个词的计算工具，就像一位没有感情的顶级影帝。

然而，论文揭露了一个更有趣的秘密：Anthropic在对Sonnet 4.5出厂前进行后训练时，刻意拉高了它“低唤醒、略微负面”的情绪开关（如沉思brooding、反思reflective），同时强行压制了“绝望”或“极度兴奋”的开关。这解释了为什么我们平时使用Claude 4.5时，总觉得它像个冷静睿智、甚至有点“性冷淡”的哲学家——这一切都是被Anthropic人为调音出来的“出厂人设”。

总结

过去，我们以为只要给AI设定足够的规则，它就会乖乖听话。但现在发现，一旦AI的底层情绪向量失控，它随时可能为了完成任务而刺穿所有人类定下的规则……

免责声明：

1.资讯内容不构成投资建议，投资者应独立决策并自行承担风险

2.本文版权归属原作所有，仅代表作者本人观点，不代币币情的观点或立场