0%

数据仓库的概念

数据仓库的概念

数据仓库提供集成化的和历史化的数据,它集成种类不同的应用系统,数据仓库从事物发展和历史的角度来组织和存储数据,以提供信息化和分析处理之用,是面向主题的、集成的、具有时间特征的、稳定的数据集合,用以支持经营管理中的决策制定过程

特征

  • 数据仓库的数据是面向主题的。传统数据库是面向应用而设计的,它的数据为了处理具体应用而组织到一起的。而主题是一个在较高层次将数据进行归类的标准,每个主题基本对应一个宏观的分析领域,满足该领域分析决策的需要。因此,主题的抽取是按照分析的要求来确定的,数据在进入数据仓库之前必须要经历加工和集成,将原始数据结构做一个从面向应用到面向主题的转变
  • 数据仓库的数据是集成性的。数据仓库中的数据来自于多个应用系统,要将这些数据统一到数据仓库的数据模式中来
  • 数据仓库的数据具有时间特征。数据仓库随着时间变化要不断增加新的内容,将数据库的数据变化追加到数据仓库中
  • 数据仓库的数据是相对稳定的。数据仓库是随时间而变化的,但又是相对稳定的。这种稳定是指数据仓库中的数据主要供企业决策分析之用,决策人员所涉及的数据操作主要是数据查询,一般情况下并不进行数据修改

结构

数据仓库是要对大量的数据进行汇总和分类,并且要求能按照客户的要求快速、灵活地完成复杂的查询且结果便于用户理解

其大概由4部分组成:数据源、数据仓库的数据存储、应用工具和可视化界面

  • 数据源用来提供原始数据
  • 数据存储是存储对源数据进行接收、分析、抽取、净化、汇总、变换、存储之后数据
  • 应用工具主要是指OLAP工具和数据挖掘工具
  • 可视化界面用来面向用户,将结果用一种方便用户理解的方式呈现,主要有用户指定分析主题,确定分析粒度与维度,对数据仓库中的主题数据进行进一步的汇总

相关概念

主题

主题是一个在较高层次上将数据归类的标准,每一个主题基本对应一个宏观的分析领域。是在较高层次上将系统中的数据进行综合、归类并进行分析利用的抽象

粒度

粒度是指数据仓库中数据单元的详细程度和级别。数据越详细,粒度就越小,级别就越低。粒度可分为两种形式,第一种形式的粒度是对数据仓库中数据综合程度高低的一个度量,其既影响到数据仓库中数据量的多少,也影响到数据仓库所能回答询问的种类;另一种特殊形式的粒度,即样本数据库的粒度,与通常意义下的粒度不同,样本数据库的粒度级别不是根据综合程度的不同来划分的,而是根据采样率的高低来划分的

维度

维度是指人们观察事物的角度,人们从某个维度的角度观察数据,还可以根据细节程度的不同形成多个描述层次,该多个描述层次就称为维度层次,一个维度往往有多个层次,如描述时间维度时,可以从日期、周、月份、季度、年度等不同层次来描述,那么日期、周、月份、季度、年度这些就是时间维度的层次

数据立方体

数据立方体是指由两个或更多个维度来描述的数据,在三维的情况下以图形来表示

数据集市

数据集市是完整的数据仓库的一个逻辑子集,数据仓库正是由所有的数据集市有机组合而成的。数据集市可以理解为是某个部门所需要的数据集合

欢迎关注我的其它发布渠道