1 引言
中国宝武钢铁集团有限公司(简称“中国宝武”)是一家以钢铁行业为主、多行业为辅多元化发展的企业,旗下分子公司遍布全国,各自拥有海量的数据。其数据以钢铁或相关生产、管理数据为主,在传统钢铁领域内的L1—L5的架构中www.cechina.cn,生产数据以金字塔形分布,数据之间关联不多,数据统一化程度弱。各子公司信息化系统繁多,相互之间层级关系复杂,关联关系交错,层次关系不分明,相互引用情况时有发生,且又有不少系统孤岛形式存在,数据标准化程度很低,导致数据相互使用起来难度大,查找困难,难以发挥价值。因此迫切需要一个可解决这些难点的方法,面对这些难点,以数据标准体系为核心的的数据治理架构应运而生。
2 数据治理架构建设
2.1 数据治理理论基础
数据治理在国外有着较为成熟的模型、体系,例如数据管理成熟度模型(DMM)、DAMA体系等。国内公认数据治理模型——数据管理能力成熟度评估模型(简称“DCMM”),于2018年正式发布,成为中国宝武开展数据治理的理论基础。
DCMM模型由8个数据管理能力域组成,它为广义的数据治理工作划定了范围。但模型本身无法直接落地,需要企业自行构建适合自己的数据治理架构,明确数据管理具体执行方法,把数字化转型工作落到实处。
2.2 钢铁行业数据治理架构
数据治理在钢铁行业的大数据中心全面应用还属于初级阶段。中国宝武逐步开展数字化转型,初建数据治理规范体系解决如何用好数据的问题,必须着力于一个核心焦点。中国宝武选择了核心数据管理能力域:数据标准作为数据治理核心。以数据标准为主线,将之作为数据架构、使用的基础,同时将元数据结构标准化,将它们贯穿数据生存周期始终,形成数据治理架构的主体,辅以数据质量和数据安全,形成完整的中国宝武数据治理架构如图1所示。
图 1 以数据标准体系为核心的数据治理架构
中国宝武第一阶段选择治理的数据标准包括:业务术语标准、数据元标准、指标标准、维度标准、数据分类标准、数据分层标准。
2.3 钢铁行业数据治理核心
DCMM模型中,数据标准能力域包括4项子域,分别为:业务术语、参考数据和主数据、数据元、指标数据。中国宝武大数据中心施行的数据标准在此基础上进行了大幅修改,现阶段不仅设立了业务术语、数据元、指标数据标准,而且将这3个标准的范围进行适当修改容纳更多的标准内容,还将其他可标准化管理的内容一律用数据标准的方式进行管理控制工程网版权所有,最终形成适合钢铁行业使用的数据标准体系。
(1)扩展业务术语,形成术语标准和字根标准。中国宝武大数据中心数据标准将DCMM的业务术语标准范围扩大,形成术语标准。术语标准中涵盖了业务术语、技术术语、管理术语及通用术语4类术语,术语标准分别收集了各门类下的国标、行标、集团内部自定义的术语及术语描述。在集团内部建立大数据相关统一的语义,确保达成一致的认知,降低因理解差异和被相互理解错误导致的风险。在业务术语、技术术语的基础上,还形成了字根标准。字根标准不仅规范了中文词语、短句的定义,还在语义理解、英语定义www.cechina.cn,尤其是英语缩略语定义上进行了标准化,含义一致或接近的对象都统一使用一个英语缩略语进行定义。此类标准是基础标准,成为大数据中心内首批建成的数据标准。
(2)依托字根标准,形成数据元标准。数据元可用独立定义的方式标准化,但是中国宝武大数据中心建有字根标准,可使用字根标准,让字根成为数据元标准的原子,根据使用者的需求,排列组合成数据元标准。这样形成的数据元标准更规范、更精确,减少语义重复语义相近导致的数据元数量爆发的情况。
(3)结合指标标准和维度标准。中国宝武大数据中心使用维度建模方式,与DCMM融合,建立了完整的指标标准和维度标准。首先,将指标分为技术指标和业务指标两大类,每一类都可分为:原子指标、派生指标和复合指标。其次,把所有指标进行拆分,提取出不可拆分的有业务含义的指标定义成原子指标。然后用维度对指标进行限定,组合成派生指标,或者对原子、派生指标进行计算,形成复合指标。这些指标将成为大数据中心的核心价值。
(4)建立数据分类标准。在识别出数据核心价值之后,需要解决如何让使用者使用数据的问题,需要一种办法让使用者轻易找到想要的数据。针对这个需求,制定了数据分类标准,用分类的方式展示数据资产。数据分类方式可以有多种,归根结底都是将拥有近似属性或特征的数据归拢到一个分类中,各分类之间相互独立。按使用者角度,数据可按业务领域分类,可按工艺流程、组织机构分类。默认可用一种方式展示数据,其他的类型供候选。
(5)建立统一的参考数据和主数据标准。中国宝武内部子公司曾建有代码管理系统,管理了生产过程中的工艺代码,但是这些代码相互之间不统一,需要一个统一的参考数据标准将它们统一化。以往的代码系统中管理的代码范围较小www.cechina.cn,难以满足数据建设的需要,所以扩大范围建成统一的参考数据标准成了数据标准化过程中“排头兵”。主数据管理的范围特别大,数据中心建设初期不建议大规模铺开,出具规则由各业务系统自行管理。
(6)其他数据标准。可标准化的数据种类非常多,为适应钢铁行业的数据特征,还创建了数据分层标准、质量标准、业务板块标准、缺陷标准等多种类型的标准。
2.4 数据治理架构整合
在数据标准体系建设外,中国宝武还引用了其他能力域。元数据管理是数据管理的重要能力之一,中国宝武为各类数据标准分别建立对应的元数据标准控制工程网版权所有,形成统一的数据字典,建立了数据标准管理的结构体系,确保了数据标准统一规划。
在以数据标准为主线,元数据与数据标准结合为数据治理主体的数据治理架构构建中,还需要结合数据架构、数据质量、数据安全、数据生存周期、数据应用等其他能力,搭建成完整的符合钢铁行业需求的数据治理规范体系,为钢铁行业大数据中心建设和数据治理迈出坚实的一步。
3 结语
随着大数据时代的发展和进步,企业数字化转型已经变得越来越重要。不同的行业都在逐步根据自身发展的需求推进数据治理的进程。中国宝武在以数据标准体系为核心的大数据中心建设及数据治理工作上取得一定的进展,通过了DCMM4级评审,在数据标准化、赋能业务发展、提升数据价值上也获得了初步的成效。中国宝武的经验可成为钢铁行业的标杆做法,能够发挥大企业引领支撑作用,不仅在集团内部使用,也可与其他钢企共建共享,甚至可以与上下游企业连通,共建立体的数字化钢铁生态圈。