虽然人们可以不假思索地完成洗碗等流程的每个步骤,但机器人需要一个复杂的计划,涉及更详细的指导。
麻省理工学院的 Improbable AI 实验室是计算机科学和人工智能实验室 (CSAIL) 的一个小组,它通过一个新的多模态框架为这些机器提供了帮助:分层规划的组合基础模型 (HiP),该框架利用三种不同基础模型的专业知识开发详细、可行的计划。与 ChatGPT 和Bing Chat所基于的 OpenAI 的 GPT-4 基础模型一样,这些基础模型也是在生成图像、翻译文本和机器人等应用的海量数据基础上训练出来的。
与RT2和其他基于配对视觉、语言和动作数据训练的多模态模型不同,HiP使用三种不同的基础模型,每种模型都针对不同的数据模态进行训练。每个基础模型都捕获决策过程的不同部分,然后在需要做出决策时协同工作。HiP消除了访问配对视觉、语言和动作数据的需要,而这些数据很难获得。HiP还使推理过程更加透明。
对于人类来说,被认为是日常琐事的事情可能是机器人的“长期目标”——需要足够的数据来计划、理解和执行目标。虽然计算机视觉研究人员试图为这个问题构建整体基础模型www.cechina.cn,但将语言、视觉和动作数据配对起来的成本很高。相反,HiP代表了一种不同的多模态配方:一个将语言、物理和环境智能更轻松地整合到机器人中的三重奏。
“基础模型不必是单一的。”英伟达公司AI 研究员 Jim Fan 说,这项工作将具身代理规划的复杂任务分解为三个组成模型:语言推理器、视觉世界模型和行动规划器。它使一个困难的决策问题更加容易处理和透明。
该团队认为,他们的系统可以帮助这些机器完成家务,例如收起一本书或将碗放入洗碗机中。此外,HiP可以协助完成多步骤的构建和制造任务,例如按特定顺序堆叠和放置不同的材料。
用于机器人规划的多模态框架
CSAIL团队在三项操作任务中测试了HiP的敏锐度,显示其性能优于同类框架。该系统通过制定适应新信息的智能计划进行推理。
首先,研究人员要求它把不同颜色的积木堆叠在一起,然后再把其他积木放在附近。但问题来了:有些正确的颜色并不存在,因此机器人必须将白色积木放在一个彩色碗中,为它们上色。HiP 经常能准确地适应这些变化,特别是与 Transformer BC 和 Action Diffuser 等最先进的任务规划系统相比,它能根据需要调整计划,堆叠和放置每个方块。
另一个测试:将糖果和锤子等物品放在棕色盒子中,而忽略其他物品。它需要移动的一些物体很脏,所以HiP调整了计划,把它们放在一个清洁箱里,然后放进棕色的容器里。在第三个演示中,机器人能够忽略不必要的物体来完成厨房的子目标,例如打开微波炉、清理水壶和打开灯。一些提示的步骤已经完成,因此机器人通过跳过这些方向来适应。
麻省理工学院CSAIL开发的HiP框架利用三种不同基础模型的专业知识为机器人制定了详细的计划,
帮助其在家庭、工厂和建筑中执行需要多个步骤的任务。图片来源:麻省理工学院
三管齐下的规划流程
HiP 的三管齐下的规划流程是一个层次结构,能够根据不同的数据集(包括机器人技术以外的信息)对每个组件进行预培训。最底层是大型语言模型(LLM),它通过捕捉所有必要的符号信息并制定抽象任务计划来开始构思。该模型应用在互联网上找到的常识性知识,将目标分解为多个子目标。例如,"泡一杯茶 "会变成 "往锅里注水"、"煮沸锅 "以及随后所需的操作。
“我们想要做的就是采用现有的预训练模型,并让它们成功地相互交互,”麻省理工学院电气工程与计算机科学系(EECS)的博士生、CSAIL附属机构的Anurag Ajay说,“我们没有推动一种模式来做所有事情,而是将利用不同模式的互联网数据的多种模式结合起来。当串联使用时,它们有助于机器人决策,并可能有助于完成家庭、工厂和建筑工地的任务。”
这些模型还需要某种形式的“眼睛”来了解它们所处的环境并正确执行每个子目标。该团队使用大型视频扩散模型来增强LLM完成的初始规划,该规划从互联网上的镜头中收集有关世界的几何和物理信息。反过来,视频模型生成一个观察轨迹计划,完善LLM的大纲,以纳入新的物理知识。
这个过程被称为迭代改进,它允许HiP对其想法进行推理,在每个阶段接受反馈以生成更实用的大纲。反馈流程类似于撰写文章,作者可以将他们的草稿发送给编辑,并在其中包含这些修订后,出版商会审查任何最后的更改并最终确定。
在这种情况下,层次结构的顶部是一个以自我为中心的动作模型,或者是一系列第一人称图像,这些图像根据周围环境推断应该发生哪些动作。在这个阶段,来自视频模型的观察计划被映射到机器人可见的空间上,帮助机器决定如何在长期目标内执行每项任务。如果机器人使用HiP泡茶,这意味着它将准确绘制出壶、水槽和其他关键视觉元素的位置www.cechina.cn,并开始完成每个子目标。
尽管如此,由于缺乏高质量的视频基础模型,多模态工作仍然受到限制。一旦有了高质量的视频基础模型,它们就可以与 HiP 的小规模视频模型对接,从而进一步增强视觉序列预测和机器人动作生成能力。更高质量的版本还能降低目前对视频模型的数据要求。
CSAIL团队的方法总体上只使用了很少的数据。此外,HiP的训练成本低廉控制工程网版权所有,并展示了使用现成的基础模型来完成长期任务的潜力。
“Anurag 所展示的是概念验证,说明我们如何利用在单独的任务和数据模式上训练的模型www.cechina.cn,并将它们组合成用于机器人规划的模型。未来,HiP可以通过预先训练的模型进行增强,这些模型可以处理触摸和声音CONTROL ENGINEERING China版权所有,从而制定更好的计划。”麻省理工学院EECS助理教授兼Improbable AI实验室主任Pulkit Agrawal说。该小组还在考虑将HiP应用于解决现实世界中机器人领域的长期任务。