币趣网报道:
周三,机器人开发商Figure分享了其第一个人形机器人的视频演示,该机器人借助OpenAI的生成人工智能进行实时对话,引起了轩然大波。
Figure在推特上表示:“有了OpenAI,Figure 01现在可以与人进行完整的对话。”他强调了其即时理解人类互动并对其做出反应的能力。
该公司解释说,其最近与OpenAI的联盟为其机器人带来了高水平的视觉和语言智能,允许“快速、低水平、灵巧的机器人动作”
在视频中,图01与创作者的高级人工智能工程师科里·林奇互动,后者将机器人放在一个临时厨房中完成多项任务,包括识别苹果、盘子和杯子。
当林奇要求机器人给他吃东西时,图01将苹果识别为食物。然后,林奇让图01把垃圾收集到篮子里,同时向它提问,展示了机器人的多任务处理能力。
林奇在推特上更详细地解释了图01项目。
他在一篇内容广泛的帖子中写道:“我们的机器人可以描述其视觉体验,计划未来的行动,反思其记忆,并口头解释其推理。”。
林奇表示,他们将机器人摄像头的图像输入,并将车载麦克风捕捉到的语音文本转录到OpenAI训练的大型多模式模型中。
多模式人工智能是指能够理解和生成不同数据类型的人工智能,如文本和图像。
林奇强调,图01的行为是学习的,以正常速度运行,而不是远程控制。
林奇说:“该模型处理整个对话历史,包括过去的图像,以产生语言反应,并通过文本到语音的方式与人类交流。”。“相同的模型负责决定在机器人上运行哪种学习的闭环行为来执行给定的命令,将特定的神经网络权重加载到GPU上并执行策略。”
林奇解释说,图01旨在简洁地描述其周围环境,并可以将“常识”应用于决策,比如推断菜肴将被放在架子上。它还可以将饥饿等模糊的陈述解析为行动,比如提供一个苹果,同时解释它的行动。
首次亮相在推特上引发了热烈的反响,许多人对图01的功能印象深刻,还有不少人将其添加到了通往奇点的里程榜上。
请告诉我,你们的团队看过每一部《终结者》电影。
“我们必须尽快找到约翰·康纳,”另一位补充道。
对于人工智能开发人员和研究人员,林奇提供了一些技术细节。
林奇说:“所有行为都是由神经网络视觉变压器策略驱动的,将像素直接映射到动作。”。“这些网络以10hz的频率接收机载图像,并以200hz的频率生成24自由度动作(手腕姿势和手指关节角度)。”
图01的影响力首次亮相正值决策者和全球领导人试图应对人工智能工具向主流的扩散。虽然大多数讨论都围绕着大型语言模型展开,如OpenAI的ChatGPT、谷歌的Gemini和Anthropic的Claude AI,但开发人员也在寻找为AI提供物理类人机器人身体的方法。
Figure AI和OpenAI没有立即回应Decrypt的置评请求。
加州大学伯克利分校工业工程教授Ken Goldberg此前告诉Decrypt:“一个是一种功利目标,这正是埃隆·马斯克和其他人正在努力实现的目标。”。他说:“现在正在进行的很多工作——人们之所以投资像Figure这样的公司——是希望这些东西能够发挥作用并兼容。”特别是在太空探索领域。
除了Figure,其他致力于将人工智能与机器人技术相结合的公司是Hanson robotics,该公司于2016年首次推出了Desdemona人工智能机器人。
Figure AI的高级人工智能工程师Corey Lynch在推特上表示:“即使在几年前,我也会认为,在人形机器人计划和执行自己完全学会的行为时,与它进行全面的对话,这将是我们必须等待几十年才能看到的。”。“很明显,情况发生了很大变化。”
由Ryan Ozawa编辑。