一种基于神经网络的新方法可从视频中捕获物理系统动态运动的特征,而不用管渲染配置或图像差异如何。
从《星球大战》到《快乐的大脚》,许多深受喜爱的电影都包含通过动作捕捉技术实现的场景,该技术通过视频记录物体或人的运动。这种跟踪的进一步应用涉及物理、几何和感知之间的复杂交互,从好莱坞扩展到军事、运动训练、医学领域以及计算机视觉和机器人技术,使工程师能够理解和模拟现实环境中发生的动作。
由于这可能是一个复杂且成本高昂的过程——通常需要在物体或人员身上放置标记并记录动作序列,研究人员正在努力将负担转移到神经网络,它可以从简单的视频中获取这些数据并在模型中重现它。
物理模拟和渲染方面的工作有望使其得到更广泛的应用,因为它可以表征来自图像的逼真、连续、动态的运动,并在2D 渲染和 3D 场景之间来回转换。然而,要做到这一点,当前的技术需要准确了解动作发生的环境条件以及渲染器的选择,而这两者通常并不容易实现。
现在,来自麻省理工学院和 IBM 的一组研究人员开发了一个训练有素的神经网络管道,可以避免这个问题,能够推断环境状态和发生的动作、对象或感兴趣的人(系统)的物理特征, 及其控制参数。
经过测试,该技术在模拟刚性和可变形体的4个物理系统时可以优于其他方法,这些模拟说明了在各种环境条件下不同类型的动力学和相互作用。此外,该方法允许模仿学习--从视频中预测和再现真实世界的飞行四旋翼飞行器的轨迹。
麻省理工学院的研究人员使用RISP方法从目标图像或视频中预测动作序列、关节刚度或关节的运动。图片提供:麻省理工学院
"本文涉及的高级研究问题是如何从动态系统的视频中重建数字孪生体。"电气工程与计算机科学系(EECS)博士后Tao Du说。他也是计算机科学与人工智能实验室(CSAIL)成员。"我们需要忽略视频剪辑的渲染差异www.cechina.cn,并尝试掌握有关动态系统或动态运动的核心信息。"
虽然捕捉角色、机器人或动态系统的视频以推断动态运动使这些信息更容易获得,但它也带来了新的挑战。"图像或视频(以及它们的渲染方式) 在很大程度上取决于照明条件、背景信息、纹理信息、环境的材料信息,而这些在现实世界中不一定是可测量的情景。"Du说。
如果没有此渲染配置信息或使用哪个渲染器的知识,目前很难收集动态信息并预测视频主题的行为。即使渲染器是已知的,当前的神经网络方法仍然需要大量的训练数据。然而,随着他们的新方法,这可能成为一个有争议的问题。Du说:"如果你拍摄豹子在早上和晚上奔跑的视频,当然,你会得到视觉上不同的视频片段,因为照明条件完全不同。但你真正关心的是动态运动:豹子的关节角度,而不是它们看起来是亮还是暗。"
为了解决渲染域和图像差异的问题,该团队开发了一个包含神经网络的管道系统,称为"渲染不变状态预测 (RISP)"网络。
RISP 将图像(像素)的差异转换为系统状态的差异(即动作环境),使它们的方法可推广且与渲染配置无关。RISP 使用随机渲染参数和状态进行训练,这些参数和状态被馈送到可微渲染器中,可微渲染器是一种测量像素相对于渲染配置(例如照明或材质颜色)的敏感度的渲染器。
这会根据已知的真实参数生成一组不同的图像和视频,稍后将允许 RISP 反转该过程,从输入视频中预测环境状态。该团队还最小化了 RISP 的渲染梯度,使其预测对渲染配置的变化不那么敏感,使其能够学会忘记视觉外观并专注于学习动态状态。这是通过可微分渲染器实现的。
该方法使用两个类似的管道,并行运行。一种是源域,具有已知变量。在这里,系统参数和动作被输入到一个可微分的模拟中。生成的模拟状态与不同的渲染配置组合到一个可微分渲染器中以生成图像,这些图像被馈送到 RISP。
然后,RISP输出关于环境状态的预测。同时,使用未知变量运行类似的目标域管道。该管道中的 RISP 被输入这些输出图像,生成预测状态。当比较来自源域和目标域的预测状态时,会产生新的损失;这种差异用于调整和优化源域管道中的一些参数。然后可以迭代此过程,从而进一步减少管道之间的损失。
为了确定他们的方法是否成功CONTROL ENGINEERING China版权所有,该团队在4个模拟系统中对其进行了测试:四旋翼飞行器(没有任何物理接触的飞行刚体),立方体(与环境相互作用的刚体,如骰子),铰接式手和杆(可以像蛇一样移动的可变形体)。这些任务包括从图像中估计系统的状态,从视频中识别系统参数和动作控制信号,以及从目标图像中发现将系统定向到所需状态的控制信号。
此外,他们创建了基线和预言机控制工程网版权所有,将这些系统中新颖的RISP过程与类似的方法进行了比较www.cechina.cn,例如,缺乏渲染梯度损失,不训练任何损失的神经网络,或者完全缺乏RISP神经网络。
该团队还研究了梯度损失如何影响状态预测模型随时间推移的性能。最后,研究人员部署了他们的RISP系统,从视频中推断出具有复杂动力学的现实世界四旋翼飞行器的运动。他们将性能与其他缺乏损失函数并使用像素差异的技术进行了比较,或者包括手动调整渲染器配置的技术。
在几乎所有的实验中CONTROL ENGINEERING China版权所有,RISP程序的表现都优于类似或最先进的方法,模仿或再现了所需的参数或运动,并被证明是当前动作捕捉方法的数据效率和可推广的竞争对手。
对于这项工作,研究人员做出了两个重要的假设:关于相机的信息是已知的,例如它的位置和设置,以及控制被跟踪的物体或人的几何形状和物理场。今后的工作计划解决这一问题。
RISP是一种日常可用的解决方案,简洁而简单,有助于解决跨域重建或逆动力学问题。这种方法应该对于像元宇宙这样的应用程序有用,它的目的是在虚拟环境中重建物理世界。