OpenAI机器人亮相大模型有了“肉身”英伟达微软都有投资_米乐体育官网登录

新闻动态

OpenAI机器人亮相大模型有了“肉身”英伟达微软都有投资

来源：米乐体育官发布时间：2024-03-16 06:42:28 9999

美国时间3月13日，由OpenAI投资的机器人公司Figure发布了一段视频demo，视频里的机器人，不但可以与人进行对话交互，理解人类的意图，而且还拥有记忆力。

当工作人员询问机器人能看见什么，Figure 01就清晰描述出桌子上的物品，包括苹果、放有杯碟的沥水架，连站在面前的工作人员也没放过，并强调了工作人员搭在桌上的右手。

而当工作人员说了一句“我饿了”，Figure 01立即就递过去苹果。还可以一边清理工作人员刚扔在桌面上的纸团垃圾，一边解释为啥刚才给了苹果。

借助大模型，Figure 01能清楚地理解桌面上唯一的食物是“苹果”。

这里的它们（Them）和那里（There）对于机器人其实是一个很模糊的概念，但Figure 01的反应堪称让人震惊，在思索片刻后，Figure 01马上就把杯子和盘子放置在了碗碟架上。

不过在诸多网友震惊之余，也有一部分网友已经迫不及待地给Figure 01安排任务：

可以看到，Figure 01不管是在理解能力，还是推理反应都很强大。团队特别强调，所有这些行为都没有经过远程操作，而是通过机器人自主学习。并且整段视频没有一点加速，也没有一点剪辑，全部一镜到底拍摄。

根据Figure团队负责人Corey Lynch的介绍，基于OpenAI的大模型，通过端到端神经网络训练，Figure 01能完成快速、简单、灵巧的动作。

具体来看，团队将机器人摄像头拍摄到的图像和机载麦克风捕捉的语音，转录为文本输入到由OpenAI预训练的多模态大模型中，模型能够理解图像和文本。模型会处理整个对话的历史记录，包括以往的图像，以生成语言响应，再通过文本到语音的方式向人类回话。

还能具备规划动作、有短期记忆能力、用语言解释它的推理过程。比如前文中让Figure 01把杯子和盘子放到指定位置，就体现了其短期记忆能力。

根据介绍，机器人所有行为都由神经网络的视觉-运动转换器策略驱动，这种策略能直接将图像像素映射到动作。摄像头会以每秒10帧的速率接收机器人内置图像，然后神经网络再以每秒200次的24自由度动作，包括腕部姿势和手指关节角度。

上述的“自由度”，是指机器人在三维空间中能自由移动或旋转的方向或维度数量。24自由度，也就是说Figure能以24种不同的方式移动其身体各个部分。

简单而言，预训练模型会首先对图像和文本进行常识推理，给出动作计划；接着，机器人再基于已学习的视觉-动作执行策略，做出快速反应行动。同时，全身控制器负责确保动作的安全性和稳定能力，保持机器人的平衡。

值得注意的是，距离从OpenAI宣布与Figure共同合作推进人形机器人领域，到这一个视频的发布，其实只用了短短十三天。

Figure是最近硅谷非常关注的新星。公开资料显示，机器人公司Figure成立于2022年，企业成立之初就瞄准通用人形机器人领域。

创始人Brett Adcock是位连续创业者，据公开资料显示已创办过7家公司；首席技术官Jerry Pratt是MIT研究员，一直在机器人领域工作；AI团队负责人Corey Lynch则是前Google Deepmind的研究员。

两周前，Figure则宣布完成了6.75亿美元的B轮大额融资，投资人包括亚马逊创始人贝索斯，以及微软、英伟达、OpenAI等等。当前，公司估值已飙升至26亿美元。

而获得融资后的Figure，“进化”速度也是出奇的快。今年1月，Figure 01通过端到端神经网络，仅用10小时训练就掌握了制作咖啡的技能，引得众多网友感叹。

在商业化层面，Figure与宝马制造公司签订了商业协议，将AI和机器人技术融入汽车生产线，并落户于宝马的工厂。

更重要的是，OpenAI同时公开了与Figure更进一步合作的计划，将多模态大模型的能力扩展到机器人的感知、推理和交互上，开发能够取代人类进行体力劳动的人形机器人。

其实，OpenAI之前也曾想自己搞机器人，但后来在2021年宣布无限期终止对机器人领域的探索，原因是缺乏训练机器人用AI移动和推理所需的数据，研发受阻。

但显然，OpenAI对这样的领域的关注仍在继续。除了砸钱并与Figure合作，在2023年3月OpenAI还投资了来自挪威的机器人制造商1X Technologies。

此前，英伟达创始人黄仁勋曾表示：“具身智能将引领下一波人工智能浪潮”。英伟达内部在今年2月就由英伟达高级研究科学家Jim Fan携手组建了一支研究小组，名为GEAR（Generalist Embodied Agent Research），专注于通用具身智能研究。

现在有了大模型的通用能力，人形机器人的GPT-4时刻或许也将到来，拭目以待。