|
数据仓库:把海量数据转化为企业获得能力A |
来源:本网专稿 时间:2003-08-14 |
[本网专稿]数据仓库之父Wolloam Inmon给数据仓库下的定义是:在企业管理和决策中面向主题的、集成的、与时间相关的、稳定的数据集合。其特性在于:
(1)面向主题。
数据是根据企业业务主题组织的。
(2)集成性。数据编码、结构统一,从根本上实现整个企业的数据集成并使企业所有成员从中受益,实现更加正确、高效的分析与决策。
(3)时间性。若信息中没有时间成分将毫无意义。
(4)稳定性。数据仓库的历史数据是只读的,不能改写和删除。我们知道,OLTP即联机事务处理,属于操作层,例如,火车、飞机订票,商品的出入库,网上交易等。在联机事务处理的环境中,用户的行为特点是利用信息系统从数据库中进行数据的存取操作频率高而且每次操作处理的时间短。而OLAP,即联机分析处理,其设计专门用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持,可心应分析人员的要求灵活地进行大数据量的复杂查询处理,并且以一种直观易懂的形式将查询结果提供给决策人员,以便他们能准确的掌握单位(公司或企业)的各种状况,了解市场需求,制定正确方案,增加效益。目前,企业现有的关系数据库系统主要是面向事务处理,而数据仓储则主要是面向向管理决策,优化了数据的访问和利用。
1 企业建立数据仓库的必要性
1.1 解决数据集成与综合利用的问题
目前,企业大部分事务处理系统都是独立建设的,应用环境非常复杂,它们可能分布在不同的地理位置上,使用着没的数据组织形式和操作系统平台,加上缺乏统一的指标体系和编码,因此,在普通的应用班干部很难将这些高度分布、标准不统一的数据集中起来充分利用。数据仓库的建设就是为集成、利用各种数据源,通过数据的抽取、转化、加载、统一标准,充分利用企业积累的大量数据为其科学化管理和决策服务。
1.2 解决硬件设备、网络系统运行慢的问题
事务处理要求对数据库的操作频率高、时间短,而分析目不暇接要求对数据库进行灵活复杂的查询处理操作。如火车订票系统,若直接对事务处理数据库进行不同区域年度、季度、月份各种客票销售额查询,预计用时15min,这势必影响火车订票系统正常工作,导致网络订票客户在相同时间段内无法订票,这就要求为OLAP建立一个独立于OLTP的数据库,其根本原因是计算机硬件设备、网络系统不可能无限制的快。
1.3 解决保存历史数据的问题
操作型(OLTP)系统不保存大量的历史数据,因为数据量越大系统响应时间就会越慢,所以这样的系统经常会清除几个月前收集的数据,数据仓库需要保存有大量的历史数据,目的是为决策服务,这就是数据仓库为什么都是巨型数据库的主要原因,一般是TB级的数据量。
1.4 解决决策支持系统的先天不足
由于DSS(决策支持系统)的先天不足,它的问世并未给企业带来更大的效益。然而,随着数据仓库的加入,DSS系统正在逐步好转。
1.4.1 DSS的先天不足。决策支持系统(DSS)是在管理信息系统的基础上发展起来的,在数据仓库、OLAP技术和数据挖掘(用以分析很大的数据集并找出其中隐藏的模式,比如说哪能些东西是顾客成双购买的)工具出现以前,DSS在实际应用开发过程中暴躁出许多问题,主要有以下3个方面:
|
|
|
|
|
|