信息集成的首要指导原则是:在用户看来,他们需要的所有数据,应该好像驻留在一个单一的数据源里一样。信息可能在不同的地方,以不同的语义、格式存储,访问方法各异,因之对信息的检索也变得极为复杂。信息集成技术实质上将信息需求者屏蔽于所有这些复杂性之外。用户或代表用户的应用程序可以通过诸如SQL或XML的标准语言或标准网络服务、内容应用程序界面(API),来对数据进行寻址。这样,用户就可以毫无障碍地查看信息,而不用考虑其物理实现过程。
做到这一点可以有两种方法CONTROL ENGINEERING China版权所有,或者是两种方法的结合。信息集成的两种主要方法是:
(1)通过数据联合进行分布式数据访问;
(2)将数据移动到对应用程序更有效或更一致的位置,这种方法被称为数据合并或数据安排。
分布式访问对应的是企业信息集成(EII)技术,而数据安排对应的是ETL和复制技术。合起来,这些功能构成了信息集成所需要的核心部分。用最简单的话来解释,联合在一个地方接受一个查询,
分布式访问和数据安排都需要底层映射、转换和高速缓存功能。另外,由于同样的数据,根据企业不同的需要,有时需要被集中,有时需要被联合,所以两种方法都需要一套相同的转换和映射功能支持,以保持数据在整个企业的一致性。映射提供了理解不同数据片段之间关系的能力。转换通过对不同表述形式的数据进行转换的功能,将相关数据通过映射进行合并。缓存提供了一个暂时的数据存储,该存储能够通过透明地存储一个结果集的拷贝来改善联合的性能。
这些功能依赖于它们所处运作环境的细节描述。这种描述包括商业含义、关系、位置和技术格式等等。简言之www.cechina.cn,就是元数据。这些元数据必须是全面和一致的,而且从集成项目的发现和定义阶段,直至联合查询操作的整个过程,都必须是有用的。一套全面而具有逻辑一致性的元数据集,不管它们是物化在单个物理存储器中,还是分布于多个存储器中www.cechina.cn,对信息集成技术来说都是不可或缺的基础。
信息集成与数据仓库的关系
当今的分层式数据架构是建立在下面的前提基础上的:某个最终用户的查询或报表所需的一切数据都应该集中到单个数据中心,或至少集中到使用ETL功能的单个数据仓库环境中。这样做是为了获得数据的稳定性和一致性,以及确保对数据的访问。
但如何使新的需要(更短的数据延迟、更少的非常用数据存储、对远程和多种数据源的访问)获得支持?答案显然是分布式查询方法。联合功能提供了在不事先对所有数据进行物理移动的情况下,保持单一数据仓库或数据中心逻辑特征的可能性。
这是否意味着要抛弃传统的数据仓库方法?绝对不是!联合功能不能也不应该取代整个数据仓库方法。基于众所周知的性能、一致性和自主性方面的原因,完全联合或虚拟的数据仓库并不值得提倡。联合更应该在某些明确而有限的范围内,为解决具体的商务需要,对现有数据仓库进行扩展或增强。因此控制工程网版权所有,数据仓库的信息集成方法既包括数据安排,又包括数据联合。
1.数据访问
当企业需要结合已经存在于数据仓库中的传统的、历史的或分析的数据来访问具体的实时数据条目时,联合功能可以发挥重要作用。某个主要基于数据中心可提供的历史的、合并处理过的数据的最终用户查询或报表,也需要一些最后一分钟的信息。在传统数据仓库架构中,这些实时数据必须(一般通过一个ODS)不断地送入数据中心。这不仅要求数据中心存储大量的这类信息,而且要求ETL环境必须具有持续吞吐几近实时数据的能力。
在许多情况下,联合提供一个更简单也更上乘的解决方案。当最终用户查询被运行时,对特定信息的简单请求可以被发送到运作系统控制工程网版权所有,结果被返回并与从数据中心检索到的信息相连接。可用这种方式访问的运作系统包括各种基于DB2 Universal Database的关系和非关系数据库以及IBM WebSphere MQ系列和网络服务。利用此功能,不必在中心存储几近实时的数据或让ETL环境处理这种数据。
请注意一个重要的限定:发送到运作系统的查询应该是简单的,并且运