OpenAI机器人亮相大模型有了“肉身”英伟达微软都有投资

来源:米乐体育官    发布时间:2024-03-16 06:42:28 9999

  美国时间3月13日,由OpenAI投资的机器人公司Figure发布了一段视频demo,视频里的机器人,不但可以与人进行对话交互,理解人类的意图,而且还拥有记忆力。

  当工作人员询问机器人能看见什么,Figure 01就清晰描述出桌子上的物品,包括苹果、放有杯碟的沥水架,连站在面前的工作人员也没放过,并强调了工作人员搭在桌上的右手。

  而当工作人员说了一句“我饿了”,Figure 01立即就递过去苹果。还可以一边清理工作人员刚扔在桌面上的纸团垃圾,一边解释为啥刚才给了苹果。

  借助大模型,Figure 01能清楚地理解桌面上唯一的食物是“苹果”。

  这里的它们(Them)和那里(There)对于机器人其实是一个很模糊的概念,但Figure 01的反应堪称让人震惊,在思索片刻后,Figure 01马上就把杯子和盘子放置在了碗碟架上。

  不过在诸多网友震惊之余,也有一部分网友已经迫不及待地给Figure 01安排任务:

  可以看到,Figure 01不管是在理解能力,还是推理反应都很强大。团队特别强调,所有这些行为都没有经过远程操作,而是通过机器人自主学习。并且整段视频没有一点加速,也没有一点剪辑,全部一镜到底拍摄。

  根据Figure团队负责人Corey Lynch的介绍,基于OpenAI的大模型,通过端到端神经网络训练,Figure 01能完成快速、简单、灵巧的动作。

  具体来看,团队将机器人摄像头拍摄到的图像和机载麦克风捕捉的语音,转录为文本输入到由OpenAI预训练的多模态大模型中,模型能够理解图像和文本。模型会处理整个对话的历史记录,包括以往的图像,以生成语言响应,再通过文本到语音的方式向人类回话。

  还能具备规划动作、有短期记忆能力、用语言解释它的推理过程。比如前文中让Figure 01把杯子和盘子放到指定位置,就体现了其短期记忆能力。

  根据介绍,机器人所有行为都由神经网络的视觉-运动转换器策略驱动,这种策略能直接将图像像素映射到动作。摄像头会以每秒10帧的速率接收机器人内置图像,然后神经网络再以每秒200次的24自由度动作,包括腕部姿势和手指关节角度。

  上述的“自由度”,是指机器人在三维空间中能自由移动或旋转的方向或维度数量。24自由度,也就是说Figure能以24种不同的方式移动其身体各个部分。

  简单而言,预训练模型会首先对图像和文本进行常识推理,给出动作计划;接着,机器人再基于已学习的视觉-动作执行策略,做出快速反应行动。同时,全身控制器负责确保动作的安全性和稳定能力,保持机器人的平衡。

  值得注意的是,距离从OpenAI宣布与Figure共同合作推进人形机器人领域,到这一个视频的发布,其实只用了短短十三天。

  Figure是最近硅谷非常关注的新星。公开资料显示,机器人公司Figure成立于2022年,企业成立之初就瞄准通用人形机器人领域。

  创始人Brett Adcock是位连续创业者,据公开资料显示已创办过7家公司;首席技术官Jerry Pratt是MIT研究员,一直在机器人领域工作;AI团队负责人Corey Lynch则是前Google Deepmind的研究员。

  两周前,Figure则宣布完成了6.75亿美元的B轮大额融资,投资人包括亚马逊创始人贝索斯,以及微软、英伟达、OpenAI等等。当前,公司估值已飙升至26亿美元。

  而获得融资后的Figure,“进化”速度也是出奇的快。今年1月,Figure 01通过端到端神经网络,仅用10小时训练就掌握了制作咖啡的技能,引得众多网友感叹。

  在商业化层面,Figure与宝马制造公司签订了商业协议,将AI和机器人技术融入汽车生产线,并落户于宝马的工厂。

  更重要的是,OpenAI同时公开了与Figure更进一步合作的计划,将多模态大模型的能力扩展到机器人的感知、推理和交互上,开发能够取代人类进行体力劳动的人形机器人。

  其实,OpenAI之前也曾想自己搞机器人,但后来在2021年宣布无限期终止对机器人领域的探索,原因是缺乏训练机器人用AI移动和推理所需的数据,研发受阻。

  但显然,OpenAI对这样的领域的关注仍在继续。除了砸钱并与Figure合作,在2023年3月OpenAI还投资了来自挪威的机器人制造商1X Technologies。

  此前,英伟达创始人黄仁勋曾表示:“具身智能将引领下一波人工智能浪潮”。英伟达内部在今年2月就由英伟达高级研究科学家Jim Fan携手组建了一支研究小组,名为GEAR(Generalist Embodied Agent Research),专注于通用具身智能研究。

  现在有了大模型的通用能力,人形机器人的GPT-4时刻或许也将到来,拭目以待。