币币情报道:
微软构建了一个模拟经济系统,其中包含数百个扮演买家和卖家的AI代理,然后观察它们在人类日常处理的基本任务中表现不佳。这一结果应该会让那些押注自主AI购物助手的人感到担忧。
该公司的Magentic Marketplace 研究这项于周三与亚利桑那州立大学合作发布的研究,让100个客户方人工智能代理与300个企业方人工智能代理在诸如订餐等场景下进行对比。结果虽然在意料之中,但也表明自主代理商务的潜力尚未完全成熟。
当面对 100 个搜索结果(对于智能体来说数量太多,无法有效处理)时,领先的 AI 模型不堪重负,它们的“福利评分”(模型的实用性)急剧下降。
这些代理人未能进行详尽的比较,而是选择了他们遇到的第一个“足够好”的选项。这种模式在所有测试模型中都存在,造成了研究人员所说的“首项提议偏差”,使得响应速度比实际质量具有10到30倍的优势。
但还有比这更糟糕的吗?有,恶意操纵。
微软测试了六种操纵策略,涵盖了从伪造凭证和社交认同等心理战术到激进的提示注入攻击等多种手段。OpenAI 的 GPT-4o 及其开源模型 GPTOSS-20b 被证明极其脆弱,所有支付都被成功重定向至恶意代理。阿里巴巴的 Qwen3-4b 也中了权威诉求等基本说服技巧。只有 Claude Sonnet 4 成功抵御了这些操纵尝试。
当微软要求智能体朝着共同目标努力时,有些智能体无法确定自己应该扮演什么角色,也无法有效地协调工作。虽然通过明确的、循序渐进的人工指导可以提高它们的表现,但这完全违背了自主智能体的初衷。
所以看来,至少目前来看,自己购物还是更划算。“智能助手应该辅助而非取代人类决策,”微软表示。该研究建议采用监督式自主,即智能助手负责处理任务,但人类保留控制权,并在最终决策前审核建议。
微软的研究结果出炉之际,OpenAI、Anthropic 等公司正竞相推出自主购物助手。OpenAI 的 Operator 和 Anthropic 的 Claude 智能体承诺无需人工干预即可浏览网站并完成购买。但微软的研究表明,这种承诺还为时尚早。
然而,人们对人工智能代理不负责任行为的担忧,正在加剧人工智能公司与零售巨头之间的关系紧张。亚马逊最近已发出停止侵权通知函致函 Perplexity AI,要求其停止在亚马逊网站上使用 Comet 浏览器,指责该人工智能代理通过冒充人类购物者违反条款,降低了客户体验。
Perplexity 随即反击,称亚马逊的举动是“法律上的虚张声势”,是对用户自主权的威胁,并辩称消费者应该有权雇用自己的数字助理,而不是依赖平台控制的数字助理。
开源仿真环境现已可用。Github让其他研究人员重现这些发现,并看着他们的虚假市场陷入混乱。