随着我国大数据产业政策日趋完善、产业基础日益巩固、数据要素市场建设不断深化,大数据产业再次迎来巨大发展空间。6月26日至28日,由中国信息通信研究院、中国通信标准化协会主办,中国通信标准化协会大数据技术标准推进委员会(CCSA TC601)承办的2023大数据产业发展大会在京召开。
文 | 何宝宏
来源 | 大数据技术标准推进委员会
在大会主论坛上,中国信通院云大所所长何宝宏发布了《2023大数据十大关键词》。
以下为演讲实录
大家好,我是中国信息通信研究院云计算与大数据研究所何宝宏,今天很荣幸,由我来为大家发布2023大数据十大关键词。
大数据十大关键词是基于信通院长期对产业的研究与观察,充分结合了行业一线专家的观点,希望能够预示大数据产业当前发展的热点方向。
数据从计算机语言到成为生产要素的全生命周期包括以下七个环节,数据资源化、数据治理、数据资产化、数据开发应用、数据流通、数据要素市场建设、数据安全。今年的十大关键词中有四项分布于数据开发应用环节,两项分布于数据要素市场环节,两项分布于数据安全环节,体现出了今年发展的重点在于数据的业务赋能与内外部融通,以及继续夯实安全基础。下面我将按顺序一一介绍。
关键词一:湖仓一体,数据平台发展进入融合一体化新阶段
随着移动互联网飞速发展,为满足多种数据类型存储、多场景分析等业务诉求,部分企业采用在一个数据平台之上混合部署数据湖和数据仓库,通过ETL进行数据交换的业务架构。这一湖+仓混合架构存在存储成本高、时效性差、易出现一致性问题、开发运维难度高四大问题。
为解决上述问题,湖仓一体技术应运而生,湖仓一体是融合数据湖与数据仓库的优势,形成一体化、开放式的数据处理平台控制工程网版权所有,底层支持多数据类型统一存储,实现了一份数据、一套任务在数据湖、数据仓库之间无缝调度和管理,上层则通过统一接口进行访问查询和分析。湖仓一体打破了数据仓库与数据湖之间的壁垒控制工程网版权所有,构建在数据湖低成本的数据存储架构之上,同时具备数据仓库的数据处理和管理能力。随着各行业数字化转型的不断推进,湖仓一体平台市场需求持续增长,亚马逊、阿里云、腾讯云等厂商纷纷推出湖仓一体产品,并在互联网、电信、金融等行业得到广泛应用。
关键词二:数据资产化,产学研齐推进,关键环节有望突破
以加快培育发展数据要素市场为最终目标,产学研各界纷纷开展数据资产化研究与实践。
政策方面,中共中央 国务院于2022年12月发布了“数据二十条”,明确提出“培育数据要素流通和交易服务生态。培育一批数据商和第三方专业服务机构,为数据交易双方提供数据资产的合规化、标准化、增值化服务,探索数据资产入表新模式”。
近三年,数据资产化实践如火如荼。数据权属方面,以数据交易所和知识产权局为代表的机构提出了数据资产登记的要求,为数据资产规范交易奠定基础。数据估值方面,数据资产估值的目的和对象逐渐清晰,企业关注点从数据应用价值视角向数据资本视角转移,例如光大银行根据前期的研究基础,完成对贵阳移动金融发展有限公司授信1000万元,是数据估值实践的一大突破。数据入表方面,财政部会计司于去年发布了《企业数据资源相关会计处理暂行规定(征求意见稿)》,提出根据数据资源的持有目的、形成方式等www.cechina.cn,对数据资源相关交易和事项进行会计确认、计量和报告,为数据资产入表提供了一种思路。场内数据交易方面,以北京、上海、贵阳、深圳等为代表的数据交易所纷纷搭建了交易平台,构建交易生态圈,推动交易市场健康有序发展。
信通院云大所在数据资产化方面的工作也作出了相关部署。一是联合大数据局、通信、金融等机构,发布数据估值标准;二是联合数据交易所开展数据产品的数据质量评估;三是制定了数据资产运营能力成熟度的标准。
关键词三:DataOps,标准引领,国内DataOps已进入规模落地阶段
数据研发运营一体化(DataOps)是数据开发的新范式,它将敏捷、精益等理念融入数据开发过程,通过对数据相关人员、工具和流程的重新组织,打破协作壁垒,构建集开发、治理、运营于一体的自动化数据流水线,不断提高数据产品交付效率与质量,实现高质量数字化发展。
随着产业实践的与理论研究发展控制工程网版权所有,DataOps已从模糊的概念期逐步演化至落地实践阶段。2022年,中国信通院与多家头部的通信、金融、互联网企业共同成立DataOps标准工作组,并发布《DataOps能力框架模型》,定义了DataOps的七大能力域;2022年底,工作组发布研发管理能力域的细化标准。2023年上半年,工作组发布《DataOps实践指南(1.0)》,从最佳实践中抽象DataOps的理论框架,为产业界实践DataOps提供理论参考;中国信通院依据DataOps研发管理能力域标准,开展评估贯标工作,验证了工行、农行、浙江移动、江苏移动等领先企业在数据研发管理方面的能力,以评促建,推动这些机构完善自身能力。同时我们还发起了“DataOps社区”,目前有130家机构加入,根据调研,这些机构均已经开展DataOps相关实践,国内DataOps已经进入规模化落地阶段。
关键词四:数据服务,服务体系建设成为数据中台发展规划的重点
数据中台的重要职能是面向业务方提供基于数据的自助分析、模型管理、接口调用、指标和标签管理等多样化的能力支持。数据服务是数据中台对外进行能力输出的出口。数据服务体系的建设可使业务方更为便捷的检索并获取所需要的数据内容,从而更好地发挥数据中台的赋能价值。随着各方数据中台底层能力建设的逐步成熟,数据服务成为了数据中台建设的重点方向。快手、建设银行以及中国移动等各领域头部企业的数据中台团队均将数据服务能力建设作为2023年工作的重点。数据服务能力的建设方向主要有以下三个:一是构建多样化的数据服务方式,以满足不同业务需求;二是整合分散的数据服务平台,构建统一的数据服务用户界面,实现服务门户一体化;三是完善数据服务的全生命周期运营管理,实现服务运营规范化。通过提供多样化的数据服务、一体化的数据服务门户,以及规范化的数据服务运营,企业能够让更多的用户高效地使用数据中台的各项能力,从而充分地发挥数据中台价值。
2022年4月至今,信通院牵头联合行业专家和头部企业共同编制《数据中台能力成熟度模型》系列标准,数据服务能力作为数据中台六大能力域之一纳入到了该标准体系。2023年上半年,浙江移动、工商银行完成了基于该标准的首批数据服务能力评估。
关键词五:智能增强分析,数据分析的智能化升级
智能增强型数据分析工具是通过机器学习、自然语言处理等智能化技术提升数据分析流程中的数据准备、洞察发现、结果输出共享三方面能力,从而提升数据分析工作的自动化程度。此概念由gartner于2017年提出,但受限于当时的AI技术水平,该领域并未取得突破性的发展。随着2023年AIGC技术的火热,其在数据分析领域的应用也受到了各方关注。微软PowerBI、百度SugarBI、观远BI等团队纷纷加快智能增强型数据分析方向的探索和布局,并推出以BI+大模型为理念的智能增强型分析工具。智能增强型数据分析工具使用户能通过对话式的形式同工具进行交互;工具通过语义解析,调用相关的数据源,适配相应的分析算法和数据可视化呈现方式,并自动生成统计图表、文字见解和分析报告;智能增强型数据分析工具使得数据分析工作可以通过类似聊天的形式轻松完成,使非技术背景的用户能够以更低的门槛、更高的效率实现具有一定深度的分析,使数据能够赋能于更多一线人员,这将极大地促进数据分析工作的普惠化发展。
关键词六:数据伦理,国家数字经济治理体系重要组成部分
大数据、人工智能等新技术的蓬勃发展促进了科技创新和经济发展。但大数据应用的负面效益也不容忽视,如大数据杀熟、隐私数据泄露、数据滥用、不良内容推荐等现象层出不穷,人类基于传统生活世界的伦理价值也面临着巨大挑战。因此,自2021年开始,我国针对数据安全、个人信息保护、科技伦理等问题陆续出台多项法律法规旨在搭建数据伦理治理框架,持续推进科技向善发展;纵观国际社会,美国自2020年开始加速数据伦理体系的布局,目前已涵盖理论框架、实践指引、相关立法三个层面。为了更好的治理细分领域数据伦理问题CONTROL ENGINEERING China版权所有,2023年2月美商务部发布的《商业数据伦理框架》是其在商务领域的补充。由此可见,建立完善的数据伦理治理体系是保障数字经济健康发展的必要条件,需要政府、企业和社会各方面的共同努力。
关键词七:数据基础制度,破解数据要素价值释放难题
去年年底,中共中央、国务院印发《关于构建数据基础制度 更好发挥数据要素作用的意见》,也就是“数据二十条”。这是我国首部从生产要素高度部署数据要素价值释放的国家级专项政策文件,具有里程碑式的重大意义。“数据二十条”纲举而目张,首先明确了构建数据基础制度、发挥数据要素作用的前提、主线和目标,即在维护国家数据安全、保护个人信息和商业秘密的前提下,促进数据合规高效流通使用、赋能实体经济,从而充分实现数据要素价值、促进全体人民共享数字经济发展红利。进一步地,“数据二十条”具体提出了适应数据特征、符合发展规律、彰显创新引领的数据基础制度体系,具有独特的政策设计,即以基础制度破解数据要素价值释放中的基础性问题。保障权益、合规使用的数据产权制度,合规高效、场内外结合的数据要素流通和交易制度,体现效率、促进公平的数据要素收益分配制度,安全可控、弹性包容的数据要素治理制度,这四大制度构成了数据基础制度的“四梁八柱”,为进一步推动数据要素价值释放指明了方向。
关键词八:公共数据授权运营,全国各地广泛开展,走向规模化与规范化
2022年12月,“数据二十条”发布,提出要建立公共数据确权授权机制,为此前公共数据开发利用中存在争议的“所有权”问题提供了一种合理解决思路,为公共数据授权运营带来了全新机遇。
前期,北京、海南、贵州、成都等地区积极开展各类创新实践探索,基本形成了公共数据的授权运营模式。公共数据管理机构进行资源整合,统一推进开发利用,授权运营机构或加工方进行数据处理加工,以产品或服务的形式进入市场,提供给应用方。
2023年以来,在“数据二十条”指导下,各地方积极落实了针对性举措。一是杭州、济南、青岛、武汉、烟台、郑州等地相继发布公共数据授权运营管理办法,推进建立工作机制。二是河南、福建、湖北、湖南、苏州等地相继成立地方数据集团公司作为开展授权运营的市场主体,推动公共数据与社会数据融合开发利用。
人社部、民航局、最高法等行业主管部门也开展了以行业为单位的探索,形成了电子社保卡、航旅纵横、司法大数据服务网等产品及服务,为公共数据价值释放提供新思路。
但目前为止,公共数据尚未形成统一的授权运营机制,实践中存在风险和挑战,还需要探索更完善的标准规范体系,从运营主体能力、运营平台技术、运营成果等方面切入,促进规范化发展。
关键词九:数据安全风险评估,数据安全治理的重要抓手
数据要素市场化发展的不断演进对数据安全底座能力的要求不断提升。数据安全风险评估作为数据安全治理能力提升的关键环节,一方面受国家各项政策驱动备受关注,另一方面随着数据泄露等事件的愈演愈烈,基于风险防范目标而开展的数据安全工作也成为业务数字化健康发展中的必选题。因此,数据安全风险评估正在成为数据安全治理的重要抓手,国家也在标准化工作、实践指南等方面做出了相应探索。此前,中国信通院也提出了基于系统管理安全、系统数据安全、系统应用安全的数据安全风险评估框架,助力企业数据安全风险防范。
关键词十:数据出境,三条路径从理论走向实践
随着2023年6月1日《个人信息出境标准合同办法》的正式施行,数据出境话题再次引发热议。自国家网信办发布第一版《数据出境安全评估申报指南》,各省市积极跟进响应,或开展解读活动,或发布当地申报指南,为出境评估工作的顺利开展探索实践路径。同时,个人信息保护认证、个人信息出境标准合同办法也进入大众视野。三条出境路径各有适用场景,互为补充,为数据出境工作的落地实践提供指导。
以上就是2023大数据领域的十个关键词。最后,对其总结可以发现他们涵盖政策、理念、安全、技术等等支撑数据要素价值释放的方方面面,表明我国大数据产业已形成政策引领、理念先行、技术支撑、安全护航的健康发展格局。围绕这些热点方向信通院云大所也纷纷部署启动了各项工作,这些工作离不开业界专家和企业的广泛支持,也欢迎大家持续参与、关注。
好的,今天我的发布环节就到此结束,未来信通院云大所将持续跟踪、研究大数据领域各类政策、技术、产业动态,并及时与产业同步,进一步推动产业发展。谢谢大家!