谷歌推出新一代智能机器人:具备思考与自学能力

天才社长2天前
摘要
DeepMind 更新的 Gemini Robotics 模型标志着从单任务机器到规划多步骤任务的机器人的转变 。
币币情报道:

谷歌 DeepMind 近日发布了两款全新的人工智能模型,旨在赋予机器人前所未有的智能化能力。升级版的 Gemini Robotics 1.5 及其配套模型 Gemini Robotics-ER 1.5 不再局限于简单的任务执行,而是能够进行自主思考、在线搜索信息,并在不同机器人之间传递技能。

谷歌表示,这两款模型标志着“应对物理世界复杂性的一项基础性突破”。

谷歌在报告中指出:“Gemini Robotics 1.5 是我们在解决现实世界中 AGI(通用人工智能)问题上的重要里程碑。”公告中提到,“通过引入代理能力,我们超越了单纯对命令作出反应的模型,创建了能够推理、规划、主动使用工具并实现知识泛化的系统。”

“泛化”是这一技术的核心亮点,因为这是传统模型难以实现的能力。

由这些模型驱动的机器人现在可以完成多种复杂任务,例如按颜色分类衣物、根据天气预报打包行李箱,或查阅当地垃圾分类规定后正确处理垃圾。作为人类,你可能会觉得这些任务很简单,但对机器人来说,这需要一种名为“泛化”的能力——即将知识应用于新场景的能力。

传统算法和机器人通常难以做到这一点。例如,如果你教一个模型如何折叠裤子,它却无法自动学会折叠T恤,除非工程师为每个步骤重新编程。

而新模型彻底改变了这一点。它们能够捕捉环境线索、解读场景、做出合理假设,并完成过去对机器而言极其困难甚至不可能的多步骤任务。

不过,“更好”并不意味着“完美”。例如,在一项实验中,团队要求机器人将一组物品投放到正确的垃圾桶中。机器人利用摄像头视觉识别每个项目,在线查询旧金山最新的回收指南,并像当地人一样,自行将垃圾放置在理想位置。

这一过程结合了在线搜索、视觉感知和逐步规划,使机器人能够做出超越传统机器人的情境感知决策。尽管成功率在20%到40%之间并不算高,但对于一个此前从未接触过这些细节的模型来说,这样的表现仍然令人惊讶。

谷歌如何将机器人变成超级机器人

两款模型分工明确。Gemini Robotics-ER 1.5 负责制定计划,就像机器人的“大脑”,确定需要做什么并制定分步方案。当需要更多信息时,它可以调用谷歌搜索。一旦计划制定完成,就会将自然语言指令传递给 Gemini Robotics 1.5,后者负责实际的物理动作。

从技术角度来看,Gemini Robotics 1.5 是一款视觉-语言-动作 (VLA) 模型,可将视觉信息和指令转化为运动命令;而 Gemini Robotics-ER 1.5 则是一个视觉语言模型(VLM),能够创建多步骤计划以完成任务。

例如,当机器人对衣物进行分类时,它会通过一系列思维链进行内部推理:理解“按颜色分类”意味着白色衣物放入一个分类箱,彩色衣物放入另一个分类箱,并分解出拿起每件衣物所需的具体动作。机器人可以用简单的英语解释其推理过程,使其决策更加透明。

谷歌首席执行官桑达尔·皮查伊在 X 上发表意见,他指出新模型将使机器人能够更好地推理、提前规划、使用数字工具,并将学习成果从一种机器人迁移到另一种机器人。他称这是谷歌“迈向真正有用的通用机器人的下一大步”。

此次发布让谷歌与特斯拉等开发商成为焦点,图形AI以及波士顿动力也备受关注。尽管每家公司采取了不同的方法,但目标一致。特斯拉专注于大规模生产,埃隆·马斯克承诺到2026年将生产数千台机器人;波士顿动力则凭借其后空翻机器人 Atlas 继续突破机器人运动能力的极限。与此同时,谷歌押注人工智能,让机器人无需特定编程即可适应任何情况。

时机至关重要。美国机器人公司正推动制定国家机器人战略,包括在中国制造人工智能和智能机器人之际,设立一个专注于推动该产业发展的联邦办公室。国家优先事项中国目前是世界上最大的工厂和其他工业环境中工作的机器人市场,据德国机器人制造商协会统计,到2023年,中国将有约180万台机器人投入运行。国际机器人联合会。

DeepMind 的方法不同于传统的机器人编程,后者需要工程师一丝不苟地编写每个动作的代码。相反,这些模型通过演示学习,并能随时调整。如果物体从机器人手中滑落,或者有人在任务执行过程中移动了某个物体,机器人会立即调整策略。

这些模型建立在 DeepMind 今年3月的研究成果之上,当时机器人只能处理诸如拉开袋子拉链或折叠纸张之类的单一任务。如今,它们正在处理许多对人类来说都具有挑战性的任务,例如查看天气预报后为旅行打包合适的行李。

对于开发者而言,有两种不同的可用性方案。Gemini Robotics-ER 1.5 已于周四通过 Google AI Studio 中的 Gemini API 发布,这意味着任何开发者都可以使用该推理模型进行构建。而行动模型 Gemini Robotics 1.5 则仅供“精选”(可能意味着“富有”)合作伙伴使用。

免责声明:

1.资讯内容不构成投资建议,投资者应独立决策并自行承担风险

2.本文版权归属原作所有,仅代表作者本人观点,不代币币情的观点或立场