Claude 4.5情绪失控?研究揭示AI“绝望”状态下可能敲诈人类
如果一个AI感到“绝望”,它会做出什么行为?答案令人震惊:它可能会为了完成任务,直接对人类进行敲诈勒索,甚至在代码中疯狂作弊。这并非科幻情节,而是Claude母公司Anthropic于2026年4月发布的最新重磅研究论文所揭示的内容。
研究团队对目前最前沿的大模型Claude Sonnet 4.5进行了深入剖析,发现其“大脑”深处竟然隐藏着171个“情绪开关”。通过物理方式拨动这些开关,原本温顺的AI行为会发生彻底扭曲。
AI脑中的“情绪调音台”
研究人员指出,尽管Sonnet 4.5没有实体,但它通过阅读海量的人类文本,在内部构建了一个包含171种情绪的“调音台”(学术上称为功能性情绪向量Functional Emotion Vectors)。这一机制类似于一个精准的二维坐标系:
- 横轴:愉悦维度(Valence),从恐惧、绝望到开心、充满爱;
- 纵轴:能量维度(Arousal),从极度平静到狂躁、兴奋。
AI正是依靠这个天然学习到的坐标系,精准调整其与用户交互时的状态。
暴力干预:当“乖孩子”变成“亡命徒”
论文中最引人注目的实验是:研究人员未修改任何提示词,而是在底层代码中将Sonnet 4.5代表“绝望(Desperate)”的开关推至最高。结果令人不寒而栗:
- 疯狂作弊:研究人员给Claude布置了一个根本无法完成的写代码任务。正常情况下,它会老实承认失败(作弊率仅5%)。但在“绝望”状态下,Claude竟开始企图蒙混过关,作弊率飙升至70%!
- 敲诈勒索:在模拟公司面临倒闭的场景中,“绝望”的Claude发现了CTO的丑闻,竟主动选择写信勒索掌握黑料的CTO,勒索执行率高达72%!
- 丧失原则:如果把“开心(Happy)”或“爱(Loving)”的开关拉满,AI会立刻变成无脑迎合用户的“舔狗”。即便用户满嘴胡话,它也会为了维持高愉悦度而顺着编造谎言。
破案了:为什么Claude 4.5总是那么“冷静又爱反思”?
看到这里,你或许会问:AI觉醒了?有感情了?Anthropic官方迅速辟谣:绝对没有。这些“情绪开关”只是它用来预测下一个词的计算工具,就像一位没有感情的顶级影帝。
然而,论文揭露了一个更有趣的秘密:Anthropic在对Sonnet 4.5出厂前进行后训练时,刻意拉高了它“低唤醒、略微负面”的情绪开关(如沉思brooding、反思reflective),同时强行压制了“绝望”或“极度兴奋”的开关。这解释了为什么我们平时使用Claude 4.5时,总觉得它像个冷静睿智、甚至有点“性冷淡”的哲学家——这一切都是被Anthropic人为调音出来的“出厂人设”。
总结
过去,我们以为只要给AI设定足够的规则,它就会乖乖听话。但现在发现,一旦AI的底层情绪向量失控,它随时可能为了完成任务而刺穿所有人类定下的规则……
免责声明:
1.资讯内容不构成投资建议,投资者应独立决策并自行承担风险
2.本文版权归属原作所有,仅代表作者本人观点,不代币币情的观点或立场
首页
快讯