机器人开发商Figure周三引起了轰动,该公司分享了其首款人形机器人进行实时对话的视频演示,这要归功于OpenAI的生成式人工智能。

Figure 在 Twitter 上表示:“借助 OpenAI,Figure 01 现在可以与人进行全面对话”,并强调了它能够立即理解人类交互并做出反应。

该公司解释说,其最近与 OpenAI 的联盟为其机器人带来了高级视觉和语言智能,允许“快速、低级、灵巧的机器人动作”。

在视频中,Figure 01 与其创建者的高级人工智能工程师 Corey Lynch 进行互动,后者让机器人在临时厨房中完成多项任务,包括识别苹果、盘子和杯子。

当林奇要求机器人给他吃的东西时,识别出苹果是食物。然后,林奇让 Figure 01 将垃圾收集到篮子中,同时向它提出问题,展示了机器人的多任务处理能力。

在 Twitter 上,Lynch更详细地解释了Figure 01 项目。

“我们的机器人可以描述它的视觉体验,计划未来的行动,反思它的记忆,并口头解释它的推理,”他在一篇长文中写道。

根据 Lynch 的说法,他们从机器人的摄像头中获取图像,并将机载麦克风捕获的语音中的文本转录到由 OpenAI 训练的大型多模态模型中。

多模态人工智能是指能够理解和生成不同数据类型(例如文本和图像)的人工智能。

林奇强调,Figure 01的行为是习得的,以正常速度运行,并且不受远程控制。

林奇说:“该模型处理整个对话历史,包括过去的图像,以得出语言响应,然后通过文本到语音的方式向人类回复。” “同一模型负责决定在机器人上运行哪些学习的闭环行为来完成给定的命令,将特定的神经网络权重加载到 GPU 上并执行策略。”

林奇解释说,Figure 01旨在简洁地描述其周围环境,并且可以应用“常识”进行决策,例如推断菜肴将被放置在架子上。它还可以将模糊的陈述(例如饥饿)解析为行动(例如提供一个苹果),同时解释其行动。

该首次亮相在 Twitter 上引发了热烈反响,许多人对Figure 01 的功能印象深刻,并且不少人将其添加到了通往奇点之路的里程碑列表中。

请告诉我你的团队看过每一部《终结者》电影,”其中一个回答道。

“我们必须尽快找到约翰·康纳,”另一位补充道。

对于人工智能开发人员和研究人员,林奇提供了许多技术细节。

“所有行为都是由神经网络视觉运动变压器策略驱动的,将像素直接映射到动作,”林奇说。“这些网络以 10hz 的频率接收机载图像,并以 200hz 的频率生成 24 自由度动作(手腕姿势和手指关节角度)。”

Figure 01 的首次亮相正值政策制定者和全球领导人试图应对人工智能工具向主流扩散的问题。虽然大多数讨论都围绕 OpenAI 的 ChatGPT、Google 的 Gemini 和 Anthropic 的 Claude AI 等大型语言模型,但开发人员也在寻找为 AI 提供物理人形机器人身体的方法。

除了Figure 之外,Hanson Robotics 也是致力于将人工智能与机器人技术融合的公司,该公司于 2016 年首次推出了Desdemona人工智能机器人。

“即使是在几年前,我也认为在人形机器人计划和执行自己完全学习的行为时与它进行完整的对话将是我们必须等待几十年才能看到的事情,”Figure AI 的高级人工智能工程师,科里·林奇在推特上说道。“显然,很多事情都发生了变化。”

铸剑师

作者 铸剑师

网站管理员

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注