开发人工智能以了解对象关系，让机器人像人类一样思考

麻省理工学院研究人员开发了一种新的机器学习模型，可以让机器人像人类使用AI一样理解世界上的交互。

　　当人类看到一个场景时，他们会看到物体以及它们之间的关系。在您的办公桌上，可能有一台笔记本电脑放在电话的左侧，在电脑显示器的前面。

　　这项工作可应用于工业机器人必须执行复杂的多步骤操作任务的情况，例如在仓库中堆叠物品或组装电器。它还使该领域更接近于使机器能够像人类一样从环境中学习并与之交互。

　　"当我看一张桌子时，我不能说在 XYZ 位置有一个物体。我们的头脑不是那样工作的。在我们的脑海中，当我们理解一个场景时，我们真正理解它是基于对象之间的关系。我们认为，通过构建一个可以理解对象之间关系的系统，我们可以使用该系统更有效地操纵和改变我们的环境，"计算机科学与人工智能实验室 (CSAIL)的 Yilun Du博士说。

　　创建AI模型：一次建立一种关系

　　研究人员开发的框架可以根据对象及其关系的文本描述生成场景图像，例如"蓝色凳子左侧的木桌。蓝色凳子右侧的红色沙发。"

　　他们的系统会将这些句子分解成两个更小的部分，描述每个单独的关系（"蓝色凳子左侧的木桌"和"蓝色凳子右侧的红色沙发"），然后分别为每个部分建模，然后通过生成场景图像的优化过程组合这些片段。

　　研究人员使用一种称为基于能量的模型的机器学习技术，来表示场景描述中的各个对象关系。这种技术使他们能够使用一个基于能量的模型来编码每个关系描述，然后以推断所有对象和关系的方式将它们组合在一起。

　　通过将每个关系的句子分解成较短的片段，系统可以以多种方式重新组合它们，因此它能够更好地适应以前从未见过的场景描述。

　　该系统也可以反向工作——给定一张图像，它可以找到与场景中对象之间的关系相匹配的文本描述。此外，他们的模型可用于通过重新排列场景中的对象来编辑图像，使它们与新的描述相匹配。

　　研究人员开发的框架可以根据对象及其关系的文本描述生成场景图像，在该图中，最终图像在右侧，并且正确地遵循了文本描述。图片来源：MIT

　　用深度学习理解复杂场景

　　他们还要求人类评估生成的图像是否与原始场景描述匹配。在描述包含三种关系的最复杂示例中，91% 的参与者得出结论认为新模型的性能更好。

　　"我们发现一个有趣的事情是，对于我们的模型，我们可以将句子从一个关系描述增加到两个、三个甚至四个描述，并且我们的方法继续能够生成那些被那些关系描述正确描述的图像描述，而其他方法则失败。"Du说。

　　研究人员还展示了它以前从未见过的场景的模型图像，以及每张图像的几种不同的文字描述，它能够成功识别出与图像中物体关系最匹配的描述。

　　当研究人员向系统提供两个描述相同图像但方式不同的相关场景描述时，模型能够理解这些描述是等效的。模型的稳健性令人印象深刻，尤其是在处理之前从未遇到过的描述时。

　　虽然这些早期结果令人鼓舞，但研究人员希望了解他们的模型如何在更复杂的真实世界图像上执行，这些图像具有嘈杂的背景和相互阻挡的物体。

　　他们也有兴趣最终将他们的模型整合到机器人系统中，使机器人能够从视频中推断对象关系，然后应用这些知识来操纵世界上的对象。

新型AI工具可识别设计错误，并帮助工程师从中学习

如何将人工智能融入过程制造？

为何工业AI需要时间序列大模型，而非大语言模型(LLM)？千亿级市场…

九思易专栏

数自创新专栏

亚控科技专栏

NI专栏

罗克韦尔专栏

图说工控

频道推荐

在线研讨会

关于我们

CE全球

网站地图

新闻中心

子站

技术频道

社区

社区

联系我们

友情链接