通过与 Jira 对比,让您更全面了解 PingCode

  • 首页
  • 需求与产品管理
  • 项目管理
  • 测试与缺陷管理
  • 知识管理
  • 效能度量
        • 更多产品

          客户为中心的产品管理工具

          专业的软件研发项目管理工具

          简单易用的团队知识库管理

          可量化的研发效能度量工具

          测试用例维护与计划执行

          以团队为中心的协作沟通

          研发工作流自动化工具

          账号认证与安全管理工具

          Why PingCode
          为什么选择 PingCode ?

          6000+企业信赖之选,为研发团队降本增效

        • 行业解决方案
          先进制造(即将上线)
        • 解决方案1
        • 解决方案2
  • Jira替代方案

25人以下免费

目录

数据集市的工作原理是什么

数据集市的工作原理是:数据集市会将原始信息转化为结构化、有意义的内容,供特定业务部门使用。在将数据集市连接到数据仓库时,数据集市将检索与业务部门相关的精选信息,可以用:1、ETL;2、分析来检索信息。

一、数据集市的工作原理是什么?

数据集市会将原始信息转化为结构化、有意义的内容,供特定业务部门使用。为了实现这一目标,数据工程师需要建立一个数据集市,以便从数据仓库或直接从外部数据来源接收信息。 

在将数据集市连接到数据仓库时,数据集市将检索与业务部门相关的精选信息。通常,这些信息包含汇总数据,但不包括不必要或详细的数据。 

1、ETL

提取、转换、加载 (ETL) 是将来自各种数据来源的信息集成和传输到单一物理数据库中的过程。当信息不是来自数据仓库时,数据集市将使用 ETL 从外部来源检索信息。该过程包括以下步骤。

  • 提取:从各种来源收集原始信息
  • 转换:将信息结构化为通用格式
  • 加载:将处理后的数据传输到数据库

ETL 工具从外部来源(如电子表格、应用程序和文本文档)复制信息。然后,数据集市以结构化形式处理、组织和存储这些信息。 

2、分析

业务分析师使用软件工具检索、分析和表示数据集市中的数据。例如,他们将存储在数据集市中的信息用于商业智能分析、报告控制面板和云应用程序。 

每个数据集市为少量用户提供服务。例如,营销经理和高级营销人员有权访问数据集市,因此生成报告和图表或执行预测分析所需的时间更少。

二、数据集市与其他类型的数据存储系统相比如何?

很多公司使用几种不同类型的数据存储系统进行数据管理和分析。让我们来看一些常见的数据存储类型,以了解公司使用数据集市的环境。

1、数据库

数据库是计算机系统用来存储、搜索、检索和分析信息的有组织的存储。数据库有多种类型,如关系数据库。关系数据库将信息存储在由行和列组成的表中。不同表中的数据通过称为键的唯一标识符进行连接。键是特定列中的非重复值。

数据集市与数据库的对比

数据集市充当部门数据的前置元素。  您可以使用数据集市来检索和分析信息。而数据库则可收集、管理和存储信息。然后,您可以使用工具对存储的信息进行处理、格式化并将其传输到数据集市。 

2、数据仓库

数据仓库是一个庞大的数据库系统,用于存储整个企业的信息。它从各种来源(如商业软件和社交媒体源)收集原始信息,并将其处理为以表格格式存储的结构化数据。企业可以将企业数据仓库连接到商业智能工具,以制定更明智的决策。 

数据集市与数据仓库的对比

数据集市与数据仓库具有很多共同特质。它们的不同之处在于,数据仓库包含有关各种主题的企业范围的数据。而数据集市则存储与特定主题密切相关的信息。例如,数据仓库可能存储营销、人力资源、采购和客户支持部门的信息。而数据集市可能只存储与单一部门相关的事务数据。建立数据集市的吸引力在于,管理数据集市的部门可以完全控制其数据的加载和管理。 

很多组织目前使用诸如数据共享之类的技术将其数据集市发布到中央数据仓库。  通过这样做,他们可以通过分配所有权和隔离工作负载来提高敏捷性。  同样,数据共享允许部门数据集市使用从数据仓库或其他数据集市共享的数据。

3、数据湖

数据湖是保存原始和非结构化信息的数据存储。它不会将信息存储在文件和文件夹中。相反,它将未经处理的信息存储在海量存储上的扁平层次结构中。数据湖存储不同类型的原始信息,包括文本文档、图像、视频和音频。 

数据分析师使用数据湖对非结构化数据进行预测分析。例如,数据湖可能会存储来自社交媒体评论的文本,企业可以将其用于情绪分析。数据分析师可以使用情绪分析来检测针对某家公司的负面意见趋势。 

数据集市与数据湖的对比

由于数据湖存储未经处理的数据,因此某些信息可能是重复的,或者可能对公司没有意义。而数据集市则存储满足特定需求的经过处理的数据。数据湖可以是数据集市的源。企业通过查看数据集市中的历史数据来确定数据趋势,但它们使用数据湖来深入分析存储的信息。 

4、OLAP

在线分析处理 (OLAP) 是以多维度表示数据的方法。例如,数据分析师使用 OLAP 多维数据集同时显示基于月份、城市和产品的销售收入。OLAP 数据结构范围很广,包含分类为事实或维度的字段,从而导致数据重复。  这与传统的关系数据库形成鲜明对比,后者倾向于范围较窄的结构,因此数据重复很少。

数据集市与 OLAP 多维数据集的对比

OLAP 是一种特定的信息存储策略,它将数据非规范化为范围广泛的表。OLAP 可以简化多维数据的复杂表示方法。一些数据集市可能使用 OLAP 来结构化其信息,但其他数据集市则使用传统的规范化结构。业务分析师可以从 OLAP 结构中受益,使来自数据集市的信息可视化。 

5、运营数据存储

运营数据存储 (ODS) 是充当数据来源与数据仓库之间的中介的信息存储。数据分析师可以使用 ODS 提供有关事务数据的准实时报告。ODS 支持简单查询,并且仅提供有限数量的信息。例如,ODS 可能只存储过去 12 小时的销售记录。 

数据集市与 ODS 的对比

数据集市从数据仓库中提取面向主题的信息,而 ODS 则将信息发送到数据仓库中进行处理。数据集市提供可供您分析的历史信息,而 ODS 则提供当前运营的最新视图。例如,您可以使用数据集市来确定上个季度的销售模式,但可以接收来自 ODS 的每小时销售数字更新。 

以上就是关于数据集市的工作原理是什么以及数据集市与其他类型的数据存储系统相比如何的全部内容了,希望对你有所帮助。

相关文章