合成数据可以帮助训练你的AI模型吗？

"数据是新的石油"这句话是由英国数学家和营销天才Clive Humby在2006年创造的。随着深度学习的兴起，Humby的言论现在比以往任何时候都更加真实。

　　为什么合成数据很重要？

　　虽然是人造数据，但合成数据能够从数学或统计学上反映真实数据。研究表明，在训练 AI 模型方面，合成数据与基于实际物体、事件或人的数据一样好，甚至比它们更好。

　　根据研究公司Cognilytica发布的一份报告，合成数据生成的市场在2021年增长到1.1亿美元以上，预计到2027年底将增加到11.5亿美元。

　　许多初创公司已经构建了工具来启动合成图像，以帮助公司训练他们的机器学习算法。"使用计算机生成的数据有很多好处。"Datagen的联合创始人兼首席技术官Gil Elbaz认为。

　　而且，令人头疼的隐私和偏见的问题也可以避免。"关于人脸的隐私是非常困难的，甚至在服务器中保存这种数据也不理想。"Elbaz说。

　　"使用我们的数据，没有个人身份信息。这不是一个真实的人。这是完全合成的，因此没有隐私问题。在偏见方面，我们可以在数据中生成您想要的种族、年龄、性别的任何分布，因此我们没有任何偏见。"他边说边展示了一张三维的“假脸”。

　　Datagen已经与一些公司合作，为不同的任务训练计算机视觉模型。汽车行业使用模拟数据来开发自动检测驾驶员行为的AI软件，例如当他们分心或在方向盘上睡着时。

　　合成数据也被监控摄像头公司用来标记何时有包裹被送到人们的家门口。增强现实和虚拟现实中的AI应用也受益于摄取大量合成数据。

　　渲染虚拟数据是一个复杂的过程。Datagen公司使用多种方法来创建计算机制作的图像，从基于物理的光线追踪算法到生成对抗网络（GAN）。制作数据是很容易的部分，但让一个在虚拟图像上训练的模型在现实世界中工作却是一项挑战。

　　理想情况下，公司应该有一些真实的数据，不能仅仅依靠虚拟的数据。"我们看到真正有效的方法是在大量合成数据上训练网络，然后在少量真实数据上进行微调。最后一步是可选的。" Elbaz说。

　　"这真的不是必须的，但它确实提高了在现实世界中进行小微调的性能。"Elbaz说，"这在实践中意味着您需要的现实世界数据要少得多。所以你不需要那么多，你可以使用1/20或1/50的真实数据量，并主要使用合成数据进行训练。"

　　在虚拟图像上训练的模型必须足够强大，才能在现实应用中工作。合成数据已经成功地训练自动驾驶汽车识别环境中的汽车、路标和行人等物体，并模拟在不同天气条件下驾驶相同的道路。事实证明，它在有限的场景中也可用于机器人技术，例如让机械夹具旋转或拾取物体。

　　从模拟到现实

　　依赖合成数据的开发人员必须严格测试和调整他们的模型，以确保它们能够正常工作。

　　"如果你以一种好的方式测试你的模型，那么你的测试验证性能将是高质量的，或者具有你期望的质量。如果你的测试不那么好，或者你没有足够的测试数据，那么你会发现性能上的差距。"Elbaz说，"我们可以进行测试，看看神经网络的弱点在哪里。"

　　但在某些情况下，现实世界太难建模，合成数据样本可能也没有太大的价值。为利基市场建立模型，需要付出非常大的努力。比方说www.cechina.cn，如果想了解狗的鼻子在图像中的位置，我们不会为狗鼻子做合成数据。试图自己挑选这样的东西是非常困难的。

　　这些差距为以不同方式使用合成数据的初创公司提供了机会。总部位于美国威斯康星州的Synthetaic公司，由Corey Jaskolski于2019年创立，它不向客户出售计算机生成的图像。相反，它使用GAN或转换器等生成模型来帮助图像检测算法自动标记对象。

　　"我们仍在构建能够生成合成数据的AI。然而，我们正在做的新颖之处在于，我们不是用它来生成合成数据，然后用于训练AI。我们正在使用这种生成功能来有效地创建一种查看现实世界数据的方法，使我们能够做这种自动标记之类的事情。"Jaskolski说。

　　这里的幕后工作原理是使用一种通常用于生成图像的转化器技术，由于它在生成图像方面非常强大和出色，并且擅长描述现实世界的图像，因此可以让你点击一张图像并检测其他类似的图像。

　　这种快速自动图像分类（RAIC）技术可以归零视频源中的特定帧。例如，向系统提供一张猎豹的照片，通过RAIC技术能够找到视频中出现猎豹的例子。

　　真实总是更好

　　对于Synthetaic公司来说，真实数据仍然更重要，尽管该公司的名字有些令人困惑。在国防和其他行业应用中有很多例子，仅仅添加3D数据或合成数据并不能解决问题。因为每种情况都不同，而AI总是难以从特定领域转移到现实世界中。

　　生成合成数据是创建更大、更多样化的数据集的好方法，但它只对训练机器学习算法有效，这些算法执行的作业不是太简单，也不太复杂。简单的计算机视觉任务并不总是需要虚拟数据和AI。复杂的任务需要模拟图像的高度细节，并且需要专业知识来评估其质量。

图说工控