麻省理工学院研究人员开发了一种新的机器学习模型,可以让机器人像人类使用AI一样理解世界上的交互。
当人类看到一个场景时,他们会看到物体以及它们之间的关系。在您的办公桌上,可能有一台笔记本电脑放在电话的左侧,在电脑显示器的前面。
但许多深度学习模型很难以这种方式看待世界,因为它们不了解各个对象之间的纠缠关系。如果不了解这些关系,一个设计用来帮助厨房里的人的机器人将很难按照"拿起炉子左边的抹刀并把它放在砧板上"这样的命令。
为了解决这个问题,麻省理工学院的研究人员开发了一种模型,该模型使用人工智能 (AI) 来理解场景中对象之间的潜在关系。他们的模型一次表示一种个体关系,然后结合这些表示来描述整个场景。这使模型能够从文本描述中生成更准确的图像,即使场景包含多个以不同关系排列的对象也是如此。
这项工作可应用于工业机器人必须执行复杂的多步骤操作任务的情况,例如在仓库中堆叠物品或组装电器。它还使该领域更接近于使机器能够像人类一样从环境中学习并与之交互。
"当我看一张桌子时控制工程网版权所有,我不能说在 XYZ 位置有一个物体。我们的头脑不是那样工作的。在我们的脑海中,当我们理解一个场景时,我们真正理解它是基于对象之间的关系。我们认为,通过构建一个可以理解对象之间关系的系统,我们可以使用该系统更有效地操纵和改变我们的环境,"计算机科学与人工智能实验室 (CSAIL)的 Yilun Du博士说。
创建AI模型:一次建立一种关系
研究人员开发的框架可以根据对象及其关系的文本描述生成场景图像,例如"蓝色凳子左侧的木桌。蓝色凳子右侧的红色沙发。"
他们的系统会将这些句子分解成两个更小的部分,描述每个单独的关系("蓝色凳子左侧的木桌"和"蓝色凳子右侧的红色沙发"),然后分别为每个部分建模, 然后通过生成场景图像的优化过程组合这些片段。
研究人员使用一种称为基于能量的模型的机器学习技术,来表示场景描述中的各个对象关系。这种技术使他们能够使用一个基于能量的模型来编码每个关系描述,然后以推断所有对象和关系的方式将它们组合在一起。
通过将每个关系的句子分解成较短的片段,系统可以以多种方式重新组合它们,因此它能够更好地适应以前从未见过的场景描述。
"其他系统会从整体上获取所有关系,并从描述中一次性生成图像。然而,当我们有分布外的描述时,这种方法会失败,例如具有更多关系的描述www.cechina.cn,因为这些模型不能真正适应一个镜头来生成包含更多关系的图像。然而,当我们将这些单独的、较小的模型组合在一起时,我们可以对更多的关系进行建模并适应新的组合。"Du说。
该系统也可以反向工作——给定一张图像,它可以找到与场景中对象之间的关系相匹配的文本描述。此外www.cechina.cn,他们的模型可用于通过重新排列场景中的对象来编辑图像,使它们与新的描述相匹配。
研究人员开发的框架可以根据对象及其关系的文本描述生成场景图像,在该图中,最终图像在右侧,并且正确地遵循了文本描述。图片来源:MIT
用深度学习理解复杂场景
研究人员将他们的模型与其他深度学习方法进行了比较,这些方法给出了文本描述,并负责生成显示相应对象及其关系的图像。在每种情况下,他们的模型都优于基线。
他们还要求人类评估生成的图像是否与原始场景描述匹配。在描述包含三种关系的最复杂示例中,91% 的参与者得出结论认为新模型的性能更好。
"我们发现一个有趣的事情是,对于我们的模型,我们可以将句子从一个关系描述增加到两个、三个甚至四个描述,并且我们的方法继续能够生成那些被那些关系描述正确描述的图像描述控制工程网版权所有,而其他方法则失败。"Du说。
研究人员还展示了它以前从未见过的场景的模型图像,以及每张图像的几种不同的文字描述,它能够成功识别出与图像中物体关系最匹配的描述。
当研究人员向系统提供两个描述相同图像但方式不同的相关场景描述时,模型能够理解这些描述是等效的。模型的稳健性令人印象深刻,尤其是在处理之前从未遇到过的描述时。
这是一种更接近人类的工作方式。人类可能只看到几个例子,但可以从这几个例子中提取有用的信息www.cechina.cn,并将它们组合在一起,创造出无限的组合。新模型也具有这样的特性,它可以从更少的数据中学习,但可以推广到更复杂的场景或图像生成。
虽然这些早期结果令人鼓舞,但研究人员希望了解他们的模型如何在更复杂的真实世界图像上执行,这些图像具有嘈杂的背景和相互阻挡的物体。
他们也有兴趣最终将他们的模型整合到机器人系统中,使机器人能够从视频中推断对象关系,然后应用这些知识来操纵世界上的对象。