如何让AI项目成功落地？你需要了解的AI项目流程及边缘设备开发注意事项

在 AI项目落地的过程中，从模型训练和推理仅仅是一个开始，其实还有相当大一部分不AI的工作，这些工作甚至占据了项目开发的绝大部分时间。

　　其中，也有很多值得我们思考和解决的问题：

　　· 比如如何缩短项目开发周期，快速应对不同客户的多样需求，完成POC演示，推进项目落地？

　　· 针对不同的实际场景，如何对算法硬件平台进行选型？

　　· 如何综合现有技术手段，解决CV以及深度学习算法无法解决的盲区问题，为客户提供最优的解决方案？

　　· 如何充分挖掘边缘计算设备的算力，降低单路视频分析的成本？

　　· 如何形成数据的闭环，在项目部署后便捷地采集数据，不断迭代优化模型，提高客户的满意度？

　　AI项目的一般开发交付流程

　　首先，我们先了解下AI项目的一般开发交付流程。AI项目的开发过程中，通常包括以下环节：

　　· 数据采集：现场数据采集、数据标定、数据集校验；

　　· 模型训练：设计模型、训练模型；

　　· 模型部署：模型转化、模型量化、模型裁剪、模型微调；

　　· 业务开发：根据项目的需求，设计业务规则，完成相应业务逻辑处理代码的编写调试；

　　· 项目部署：制作安装包或者docker镜像，安装部署在目标平台上；

　　· 模型优化：根据现场的应用采集数据，优化模型。

　　在整个流程有两个难点：一是数据，二是需求。

　　有时候没有数据，模型达不到理想的效果，可能客户都不给试用的机会，更别提数据采集优化模型了；

　　有时候客户很配合，数据不是问题，但是客户的需求很多，要求很高，甚至有些需求目前的AI根本做不到，但是为了生存也只能硬着头皮上，还要应对客户随时都可能“微调”的新要求。

　　所以现实往往是：

　　· 要么做了一堆没有客户愿意买单的POC项目，要么做了几个迟迟无法完成交付，钱也不多的小项目。

　　· 客户以为我们提供的是个拿来即用的成熟产品，然而事实却仅仅是个待采集数据进一步优化的试验品。

　　因此，面对纷繁复杂的应用场景，客户自己也可能不太清楚的不确定需求。

　　AI公司要想走出研发投入多、成本高、项目交付周期长的困局，必须要解决规模复制效益的问题，集中力量向某个方向发力，打造有技术壁垒或者市场壁垒的产品。

　　AI产品常见的3种交付形态

　　了解了AI项目开发的流程，再看一下客户产品的交付。

　　在工作中，面对不同的客户，通常需要交付不同的非标类产品，所以先聊一下常见的交付方式。行业场景和客户需求虽然五花八门，但总的来说，交付的产品通常有3种形态：

　　1. 服务Service：

　　AI模型的部署服务，客户端可以通过HTTP/REST或GRPC的方式来请求服务。

　　输入一张图片/一段视频，输出图片/视频的分析结果，通常按次数收费或者按时间段授权。比如百度AI市场上提供的各种API服务：

　　这种形式，业务流程相对是单一的，主要需要考虑的是充分利用GPU算力资源，能够提供稳定的高吞吐量的服务。这种服务通常部署在GPU服务器上，可能是客户局域网内的服务器，也可能是公有云上的服务器。

　　市面上也有一些成熟的商用框架可以使用，如NVIDIA的Triton Inference Server, Google的TF Servering，百度的Paddle Serving等。Triton是 NVIDIA 推出的 Inference Server，专门做 AI 模型的部署服务。

　　而客户端可以通过HTTP/REST或GRPC的方式来请求服务，特性包括以下方面：

　　· 支持多种框架，例如 Tensorflow、TensoRT、Pytorch、ONNX甚至自定义框架后端；

　　· 支持 GPU 和 CPU 方式运行，能最大化利用硬件资源；

　　· 容器化部署，集成 k8s，可以方便的进行编排和扩展；

　　· 支持并发模型，支持多种模型或同一模型的不同实例在同一GPU上运行；

　　· 支持多种批处理算法，可以提高推理吞吐量。

　　2. 开发包SDK或者功能组件：

　　有的中间商或集成商以及一些传统的非AI公司，需要用深度学习解决问题的能力。

　　把基于深度学习的算法能力，集成到自己的业务系统中，为最终用户提供服务。

　　这时，他们会寻找第三方的合作伙伴，提供一套封装了深度学习算法能力的SDK或者功能组件。

　　向他们的业务系统赋能AI算法能力，比如百度的EasyDL-零门槛AI开发平台，云从科技的人脸识别服务等。下图是百度EasyDL开发平台的功能示意图：

　　3. 应用Application：

　　这种形式的产品，通常面向的是某个场景的最终用户。

　　因此交付的产品，是一整套包括交互界面在内的软件系统，有时也会将硬件一起捆绑交付。

　　对这类产品，用户需要的其实只是应用的分析输出结果。

　　比如绘制了违规提醒框的实时画面，web、邮件甚至手机短信联动的告警消息，某个时段或者满足某种条件的数据分析报表等。

　　这类产品一方面需要提供友好的操作界面供用户查看使用，同时可能还需要提供对接用户第三方平台的接口，将分析产生的告警结果等信息，推送到用户的业务管理平台。

　　当然对于大多数中小型公司来说，主要做的还是应用类项目。这些项目，并不只是单个的功能，而是一套比较完整的系统。以视频分析为例，通常包括：视频结构化引擎、业务中台、管理平台等。

　　为什么选择边缘计算设备?

　　了解AI项目的开发流程、交付方式，以及基本架构，下面再回到本文的另外一个核心：边缘计算设备的开发。

　　其应用程序在边缘侧发起，为了产生更快的网络服务响应。满足行业在实时业务、应用智能、安全与隐私保护等方面的基本需求。

　　由于数据处理和分析，是在传感器附近或设备产生数据的位置进行的，因此称之为边缘计算。

　　因此我们可以看出，边缘计算的优点：

　　· 低延迟：计算能力部署在设备侧附近，设备请求实时响应；

　　· 低带宽运行：将工作迁移至更接近于用户，或是数据采集终端的能力，能够降低站点带宽限制所带来的影响；

　　· 隐私保护：数据本地采集，本地分析，本地处理，有效减少了数据暴露在公共网络的机会，保护了数据隐私。

　　很多工程师习惯使用GPU服务器做视频分析，对边缘计算设备接触不一定多，但是有的场景下，直接使用GPU服务器做视频分析，存在几个问题：

　　· 许多场景下，数据源（摄像头）是分布式的，可能分布在不同的子网内，甚至分布在不同的城市，使用GPU服务器集中处理延时大、带宽占用高、能耗高（因为传输的数据中大部分是无效信息）；

　　· 对于分散的工地或者连锁店店铺等场景，如果要集中处理，不仅要占用宝贵的专线带宽，还要内网穿透，麻烦且不经济；

　　· 有的场景下使用GPU，会造成算力过程、资源浪费，比如连锁店铺的客流统计，每个店铺可能只有2-4路摄像头，少的甚至只有1路，使用GPU显然大材小用；

　　· 相比较纯软件的产品，客户更倾向于为软硬件一体的产品买单。

　　由于部署在设备侧附近，可以通过算法即时反馈决策，并可以过滤绝大部分的数据，有效降低云端的负荷，使得海量连接和海量数据处理成为可能。

　　如果应用场景需要集中分析大量数据，比如几十路甚至上百路摄像头，那肯定还是应当选择x86服务器。

　　当然这种情况不一定只有Nvidia GPU一种选择，比特大陆、华为、寒武纪都有PCIE的计算加速卡可以选择。

　　如果应用场景分布在不同地点的节点，并且每个节点要分析的摄像头数量在10-20路以下，那么选择边缘计算设备显然更经济更有效。

　　有的时候甚至可以直接选用带AI处理芯片的智能摄像头。

　　边缘计算设备的选型思路

　　通过前面边缘设备的介绍，我们知道市面上有很多款边缘计算设备。

　　那么针对各种不同的边缘设备，当算法训练完成，想要用边缘设备部署时，如何选型？应该关注哪些参数和性能呢？

　　其实主要是以下几点：

　　· 性能：arm核心数量和主频、内存与AI模组专用内存、深度学习推理能力、视频编解码能力、jpeg编解码以及其他视觉运算硬件加速能力。

　　· 工具链：支持主流框架模型情况，算子及网络模型支持情况，接口易用程度，SDK、技术论坛完备程度和技术支持力度。

　　· 外围接口：板载的外围接口是否能满足应用场景需求。

　　· 功耗：有的客户可能因为作业环境的限制对功耗要求比较严格，比如是在野外使用太阳能供电，但通常较低的功耗也意味着较低的算力。

　　下图是几种边缘设备主要参数的对比图：

　　边缘计算设备开发与GPU服务器开发的区别

　　我们再看一下，与GPU服务器相比，在边缘计算设备上的AI应用开发部署的主要区别有：

　　· CPU架构不同：GPU服务器是x86架构，GPU插在主板的PCIE插槽内；

　　· 而边缘计算设备是基于aarch64的整体设备，其中有ARM CPU和GPU以及NPU、TPU、VPU等；

　　· 资源有限：边缘设备由于资源有限，底层要使用C/C++推理，程序需要充分优化，以压榨硬件资源性能；

　　· 远程调试：由于需要使用gdb server远程调试，VSCode很好用；

　　· 软件安装：边缘计算设备通常运行的是裁剪/定制的linux，debian/ubuntu可以使用apt在线安装库包，但有的边缘计算设备内的linux是精简版的，没有包管理工具，安装软件只能源码交叉编译。

　　边缘计算设备的一般开发流程

　　了解了边缘设备的内容，我们再看一下边缘设备的一般开发流程，通常由几部分组成：

　　· 基础平台开发：深度学习分析引擎、业务中台、管理平台；

　　· 模型转换、验证及优化：使用硬件平台厂商提供的模型转换工具套件将caffe、tensorflow、pytorch、mxnet、darknet、onnx等模型转换为目标平台模型，必要时进行模型量化以及模型finetune；对不支持的模型或层，自定义算子、插件实现

　　· 视频结构化引擎代码适配：主要是视频流及图片编解码、推理等模块，任务管理、流程控制、前后处理等其他代码通常都是跨平台的；

　　· 交叉编译及测试：使用交叉编译工具链编译及调试代码，交叉编译工具工具链主要包括2部分内容，linaro gcc g++编译及调试器和包含了目标平台系统环境及软件库的所有代码文件；

　　· 业务代码实现：针对不同场景的业务需求开发业务逻辑处理代码；

　　· 系统部署：通常使用docker部署，使用docker-compose编排多个docker容器或使用K8S管理多个分布式节点。

　　开发过程中的常见问题

　　当然在开发过程中，还会存在一些常见的问题，这里也罗列一些问题和解决方案工大家参考：

　　（1）模型转换失败：

　　解决方案：

　　① onnx模型转换失败，可能是onnx和opset的版本不支持，可以更换版本尝试；

　　② onnx模型转换失败，也可能是转换工具对onnx某些层支持不好，可以先使用onnx-simplifier简化模型，优化其中不必要的容易引起问题的层；

　　③ 如果是pytorch模型转换失败，需要注意pytorch有两种类型的保存格式，一种是只有权重的，一种是带有模型结构和权重的JIT模型；转换工具基本都要求JIT模型，应当使用torch.jit.trace保存。

　　④ 使用工具链提供的编程语言自定义算子实现不支持的层；

　　⑤ 将问题反馈给硬件厂商，询问是否有新版本的SDK或等待问题解决；

　　⑥ 反馈给算法同事，修改模型结构，尝试使用其他支持的等价算子，重新训练模型。

　　（2）模型推理结果不对：

　　解决方案：

　　① 检查前后处理（包括输入、输出层的scale因子）；

　　② 检查模型转换后输出tensor的顺序；

　　③ 使用工具链中提供的工具保存中间层结果，逐步排查解决。

　　（3）模型量化精度损失：

　　解决方案：

　　① 量化是一定会有精度损失的，这个无法避免；

　　② 数量更多和内容更均衡的量化集，可以在一定程序改善量化模型的精度；

　　③ 如果仍无法满足要求，重新训练量化后的模型（不是所有的平台都支持）。

　　（4）程序优化：

　　解决方案：

　　① 首先，检查程序最耗时的部分是在哪里，找出制约性能的瓶颈：视频解码？任务队列？数据拷贝？还是算力资源不够，模型需要进一步裁剪优化？

　　② 然后，针对具体问题优化程序：使用更加高效的计算库或者硬件加速接口、优化多线程多进程、改进数据结构、使用多Batch推理或者根据任务实际设置合理的处理帧率等。

　　总之，优化的主要原则就是减少不必要的数据拷贝、充分利用计算单元资源。

　　③ 通常，观察AIPU（GPU/NPU/TPU）的利用率情况，如果一直比较平稳，说明计算资源得到了充分的利用；

　　如果起伏比较大，甚至有突然的高峰和低谷，说明某些时刻AIPU在等待数据。

　　④ 此外，某些AIPU可能对某种尺寸的数据、某些操作或特定参数的神经网络算子做了专门优化，在设计模型时应优先选用高效的结构和参数。

　　比如有的AI加速芯片的www.cechina.cn，若卷积层的输入不是8的倍数，底层会额外进行多次padding操作；stride为3的卷积核比其他卷积核要更高效。

　　输入尺寸是512的倍数时的计算效率 > 256的倍数时的计算效率 > 128的倍数时的计算效率等。

　　本文作者白夜，主要从事边缘计算设备端侧，智能安防应用的开发与部署。2018年底开始接触并进入AI行业。从第一个深度学习项目——手写数字/汉字的识别，了解到图像分类的基本原理，之后慢慢地也开始接触目标检测、特征提取、目标追踪等相关的模型和算法。后来加入了公司的的项目工程化落地小组，开始参与基础平台的研发和具体项目的开发。本文节选自《白夜：一文看懂AI项目流程及边缘设备开发》，全文内容可点击阅读原文获取。

AI 视觉与传统机器视觉：制造商为何要转向基于AI的质量控制？

AI 算力爆发！ifm 浸没槽冷却技术如何攻克数据中心散热难题？

利用人工智能提升车间生产效率

图说工控

频道推荐

在线研讨会

关于我们

CE全球

网站地图

新闻中心

子站

技术频道

社区

社区

联系我们

友情链接