目录

数据集市有哪些类型?

数据集市的类型有:1、依赖型数据集市;2、独立型数据集市;3、混合型数据集市。依赖型数据集市使用来自集中式数据仓库中的信息的子集填充其存储。独立型数据集市不依赖中央数据仓库或任何其他数据集市。混合型数据集市从数据仓库和外部来源收集信息。

一、数据集市有哪些类型?

以下是不同类型的数据集市。 

1、依赖型数据集市

依赖型数据集市使用来自集中式数据仓库中的信息的子集填充其存储。数据仓库从多种数据来源收集所有信息。然后,数据集市从数据仓库中查询和检索特定于主题的信息。 

优点和缺点

大部分数据管理工作都是在数据仓库中执行的。这意味着业务分析师不需要精通数据库管理即可使用来自数据集市的信息。尽管依赖型数据集市使检索信息变得更加容易,但它们存在单点故障。如果数据仓库发生故障,所有连接的数据集市也将发生故障。 

2、独立型数据集市

独立型数据集市不依赖中央数据仓库或任何其他数据集市。每个数据集市都从其来源收集信息,而不是从数据仓库中收集信息。独立型数据集市适用于规模较小但只有特定部门需要访问和分析信息的公司。

优点和缺点

公司可以相对轻松地建立独立型数据集市。但管理它们可能比较困难。这是因为业务分析师需要在每个数据集市执行数据库管理工作。使用数据共享等策略在不同的数据集市之间共享数据非常简单;多个部门可以读取另一个部门的数据,甚至可以用它们自己的数据对另一个部门的数据进行扩充。  但是,必须制定强有力的数据编录策略,以确保每个部门都知道自己在查看什么。 

3、混合型数据集市

混合型数据集市从数据仓库和外部来源收集信息。这使众多公司能在将数据定向到数据仓库之前,灵活地测试独立数据来源。 

例如,假设您推出了一种新产品,并想分析其初始销售数据。数据集市使用直接来自电子商务软件的销售信息,并从数据集市中检索其他产品的销售记录。在该产品成为您店铺中的永久固定商品后,您即可将交易详细信息传送到数据仓库。

二、数据集市的结构是什么?

数据集市使用以下结构来存储和表示信息。 

1、星型

星型结构的中心有一个事实表,并分支到多个维度表。这样会产生星形连接。事实表是一个数据表,其中包含可用于分析目的的汇总数据。而维度表则将描述性信息保存在事实表中。每个维度表都使用外键链接到事实表。外键是一种唯一标识符,如产品 ID 或供应商 ID。 

例如,销售交易的事实表包含以下列:

  • 销售 ID
  • 产品 ID
  • 供应商 ID
  • 销售金额

产品的维度表存储以下信息:

  • 产品 ID
  • 产品名称
  • 产品成本

供应商维度表包含以下列:

  • 供应商 ID
  • 供应商名称
  • 城市

优势

在星形结构中,维度表是非规范化的,不会扩展到其他表中。这意味着维度表可能包含冗余数据,但能提高搜索和检索速度。它为了存储维度表而占用的空间更少。

业务分析师可以使用星形结构的数据集市来简化复杂查询。当他们搜索特定销售记录时,数据管理系统会搜索整个事实表。当数据集市系统查找正确的记录时,它将使用产品 ID 和供应商 ID 从相应的维度表中查询数据。 

2、非规范化型

非规范化型结构会将所有相关数据存储在单个表中。它在事实表和维度表之间没有复杂的联合。数据分析师使用非规范化型数据集市的原因在于它可以提高查询速度。例如,在单个非规范化型表中搜索销售记录如下所示:

  • 销售 ID
  • 产品 
  • 产品名称
  • 产品成本
  • 型号名称
  • 重量 
  • 大小
  • 供应商 
  • 供应商名称
  • 城市
  • 销售金额

非规范化型数据集市由于采用单表方法,因此适用于实时报告。但是,数据集市的非规范化会导致数据冗余。例如,同一产品名称可能会出现在多个记录中。这会导致额外的存储空间和昂贵的实施成本。

以上就是关于数据集市有哪些类型以及数据集市的结构是什么的全部内容了,希望对你有所帮助。

一站式研发项目管理平台 PingCode

一站式研发项目管理平台 PingCode

支持敏捷\瀑布、知识库、迭代计划&跟踪、需求、缺陷、测试管理,同时满足非研发团队的流程规划、项目管理和在线办公需要。