看点:数据科学部署挑战多?IDC揭秘中国市场现状,实例教学企业加速高级数据分析。
在数据和算法重新定义的世界中,数字化转型正构成传统企业的新竞争力,但实际被收集和利用的数据,远比人们想象中少。
有效数据量少、模型开发效率低、专业技术人才匮乏,这些问题在企业应用数据分析面前形成了难以跨越的天堑。一边中国市场上超半数的企业已经采用机器学习方法控制工程网版权所有,实现高级数据分析预测,另一边机器学习、数据科学的普及之路仍荆棘丛生。
在这一背景下,IDC发布《数据分析新速度:加速数据科学转变成商业洞察》白皮书,重新审视数据科学的定义与生态,对机器学习、数据科学在中国市场的落地现状进行全面调研。
数据爆炸时代:加速AI落地中的困境
本白皮书中,IDC将机器学习与图算法为主的工作负载定义为数据科学,其核心技术即经典机器学习技术,正在企业用户中开始复兴。据IDC调研,当前中国市场上74%的企业已采用包含机器学习的数据科学平台,其他企业均表示在未来24个月内有计划采用这一平台。
在当前金融应用场景中,80%的分析预测模型采用机器学习模型,支撑预判欺诈风险、优化量化投资等业务应用。而每成功识别一笔欺诈交易行为,每准确预测一次市场行情变化,对企业的经济利益可能是百万级甚至上亿级。
还有在零售场景,随着个性化服务需求升级,更多零售企业正通过机器学习形成线下线上融合的用户画像追踪,实现千人千面精准营销,显著提升用户粘度。
数据科学在文娱、教育、电信、制造、医疗、政府等、媒体、能源、交通、地产等行业中均得到广泛应用。根据IDC提供的数据,中国企业在深度学习和机器学习方面的投入持续增加,高级数据预测分析、经典机器学习相关的市场规模在2018年达到3.0亿美金,预计到2022年将达到29亿美金。
▲2018-2022年中国人工智能应用市场规模(单位:百万美金)
不过企业要想应用机器学习,还需先解决很多挑战。
首先,数据准备和建模耗时长。其次,数据资源严重匮乏。IDC调研发现,目前只有一线互联网公司拥有超数千PB级别数据,大部分企业的数据量仅在1TB-20TB之间。另外企业积累的大部分数据不能直接用于模型训练,被注入到AI模型的数据不足1%。此外,数据科学工作负载开发效率不高。许多刚涉足机器学习应用的企业,对底层算力和基于硬件的优化缺乏清晰的认知,尚未意识到加速计算给企业开发效率带来的价值。
▲企业采用加速方案后的效果
要在应用机器学习时绕开这些瓶颈,选择合适的数据科学平台则至为关键。
数据科学平台选型:门槛低,速度快
IDC在白皮书中,就平台选择的考量因素给出许多具体可行的建议。
例如使用机器学习平台开发模型时,应与企业实际业务需求充分匹配。
IDC发现,大部分企业已采用加速方案,其中采用GPU加速的居多CONTROL ENGINEERING China版权所有,占比达50%。
▲企业采用机器学习平台时使用到的加速方案情况
其中,英伟达在2018年10月推出RAPIDS开源GPU加速平台正得到越来越多企业的应用。
英伟达RAPIDS平台致力于加速大规模数据分析和机器学习工作负载,该平台建立在英伟达CUDA-X AI平台之上,提供了一系列面向机器学习、深度学习和高性能计算的专用GPU加速库,这些库与英伟达Tensor Core GPU无缝地配合工作,可加速从数据准备、模型训练到预测的整个端到端流程,大大提升AI任务执行效率和模型精度,同时降低基础架构TCO。
当前百度、阿里云、IBM、Oracle、Kinetica、H2O、SAP、SAS、Databricks等公司都已采用英伟达RAPIDS平台加速数据科学研究。
应用无处不在,精度效率双提升
从应用角度来看,在国内金融、零售、云计算等多个行业场景中,RAPIDS均已展现出色的加速能力。
1、案例一:提升端到端量化投资预测效果
在金融领域,如何提升开发效率是量化投资工具面临的主要挑战。
宽邦科技打造的AI量化投资平台BigQuant旨在让金融业务人员都能零门槛地使用AI提升投资效率和效果,每月为金融机构和10万C端用户提供数百万次机器学习模型训练。
采用英伟达RAPIDS平台后,其GBDT模型在特征工程提取环节速度提升100倍,聚类算法速度提升200倍,同时系统预测准确度也得以提升。
2、案例二:显著提升理赔审核能力
银行做信用评分时,通常用XGBoost在Spark上进行运算,完成一次端到端模型迭代一般需要几天www.cechina.cn,新的用户行为特征也不能实时更新到模型训练中,会影响后期的精度。
平安科技引入英伟达RAPIDS在英伟达DGX-2超级计算机上进行模型运算,将模型运算速度提升40倍,模型训练时间从周压缩到分钟,不仅大大节省人力成本。
平安科技副总工程师、联邦学习技术部总经理王健宗表示,RAPIDS平台“不仅大大提升了效率,对于精度的提升也指日可待”。
3、案例三:大幅提速数据准备
云计算厂商也在借助RAPIDS平台提升任务执行效率,国内首家提供RAPIDS加速库服务的公有云厂商是阿里云。
机器学习算法往往产生大量数据传输,至今仍难以实现并行化。随着服务器系统引入GPU加速的机器学习算法以及NVIDIA NVLink、NVSwitch等技术,模型训练现可轻松分布在多个GPU和多个节点间www.cechina.cn,几乎不会产生延迟。
实例上,使用GPU加速的XGBoost训练任务可提速20倍以上。
结语:加速数据分析正渗透到更多行业
数据科学应用的程度正拉大企业间的竞争差距和收益差距,数字化程度好的银行、航空公司、酒店等机构,收入及税前利润明显高于数字化落后的同类机构。
企业如果不想在智能化趋势中落后于人,不仅希望有更易上手的数据科学平台,而且需要采用更好的加速方案来缩短开发周期。
IDC预计到2021年,90%的新智能系统将嵌入以决策为中心的加速计算架构,能自动检测和评估当前形势并作出应对决策。这将帮助更多企业优化生产效率,更为游刃有余地去适应客户需求以及竞争环境的快速变化。