数据仓库 (DW) 是一种数字化存储系统,用于连接和协调来自不同数据源的大量数据,其目的是为商业智能、报告和分析提供数据支持,并助力企业满足法规要求,支持企业将数据转化为洞察,制定由数据驱动的明智决策。数据仓库会集中存储历史数据和最新数据,为企业提供统一的真实数据源。
数据通常是按照一定的频率从运营系统(如 ERP 和 CRM)、数据库以及外部数据源(如合作伙伴系统、物联网设备、天气应用和社交媒体)流入数据仓库。云计算的出现改变了这种情况。近年来,数据存储位置已经从传统的本地基础架构发展到多种环境,包括本地环境、私有云和公有云等。
现代数据仓库能够同时处理结构化和非结构化数据,比如视频、图像文件和传感器数据。一些数据仓库利用集成分析工具和内存数据库技术(将数据集保存在计算机内存中而不是磁盘中)来实现对可信数据的实时访问,帮助企业制定有把握的决策。如果没有数据仓库,企业就难以整合不同来源的数据,也不能确保数据的格式满足分析要求,更无法获得当前和长期的数据视。
数据仓库的优势
设计优良的数据仓库是商业智能及分析计划取得成功的基础。数据仓库的主要功能是为报表、仪表盘和分析工具提供支持,这些都是当今企业不可或缺的工具。数据仓库能够提供企业需要的信息,帮助企业制定由数据驱动的决策,在每件事情上都作出正确的决定,包括新产品开发、库存水平管理等。数据仓库有诸多优势,例如:
- 优化业务分析:借助数据仓库,决策者可以访问来自多个数据源的数据,摆脱根据不完整信息制定决策的情况。
- 加快查询速度:数据仓库的主要目的是提高数据检索和分析的速度。通过数据仓库,企业可以快速查询大量经整合的数据,且几乎不需要 IT 部门的支持。
- 提高数据质量:将数据加载到数据仓库之前,系统会创建数据清理工单,并将该工单录入工作清单中,对数据进行进一步处理,确保数据转换为统一的格式,从而为分析和决策提供优质、准确的数据。
- 提供历史洞察:数据仓库存储了丰富的历史数据,可以帮助决策者从过去的趋势和挑战中获取知识,并对未来进行预测,持续改善业务。
数据仓库存储的内容
20 世纪 80 年代末,数据仓库开始流行,主要用于存储有关人员、产品和交易的信息。这些数据称为结构化数据,具有整洁的结构和格式,便于访问。但是,企业很快又想存储、检索并分析非结构化数据,如文档、图像、视频、电子邮件、社交媒体帖子以及来自机器传感器的原始数据。
现代数据仓库能够同时兼容结构化和非结构化数据。通过合并这两类数据,打破二者彼此孤立的局面,企业能够获得全面的宝贵洞察。
关键术语
在数据仓库领域,有很多术语需要掌握。以下是其中一些比较重要的术语。如需了解其他术语和常见问题,请查看我们的术语表。
数据仓库与数据库
数据库和数据仓库都是数据存储系统,但用途不同。数据库通常存储特定业务领域的数据,而数据仓库存储整个企业的当前数据和历史数据,并为商业智能和分析提供数据支持。数据仓库使用数据库服务器从企业数据库中提取数据,并提供数据建模、数据生命周期管理、数据源集成等附加功能。
数据仓库与数据湖
数据仓库和数据湖都能够存储大数据,但却是截然不同的存储系统。数据仓库主要存储根据特定用途进行格式化的数据,而数据湖则存储未经处理的原始数据,其数据用途尚不明确。数据仓库和数据湖通常相辅相成。例如,当需要使用数据湖中存储的原始数据来回答业务问题时,可以在数据仓库中对其进行提取、清理和转换后用于分析。数据量、数据库性能和存储价格是帮助企业选择合适存储解决方案的重要因素。
数据仓库与数据集市
数据集市是数据仓库的一个子部分,是专门针对某一部门或业务线(如销售、营销或财务)划分出来的。有些数据集市也可能是为了单独的运营目的而创建。数据仓库是整个企业的数据存储中心,而数据集市则为特定用户群体提供相关数据。这能够简化数据访问,加快分析速度,帮助相关人员更好地管控他们的数据。一个数据仓库内通常部署了多个数据集市。
数据仓库的核心组件
典型的数据仓库包含 4 个核心组件:中央数据库、ETL(提取、转换、加载)工具、元数据和访问工具。所有这些组件都是为了提高速度,让你能够快速获得结果并即时分析数据。
- 中央数据库:数据库是数据仓库的基础。传统上,这些数据库都是在本地或云端运行的标准关系数据库。但是,由于大数据的出现,再加上企业需要了解真实的实时绩效,以及 RAM 的成本大幅下降,内存数据库得到迅速普及。
- 数据集成:企业可以通过各种数据集成方法从源系统中提取数据并进行修改,从而提高一致性,助力快速分析。这些数据集成方法包括 ETL(提取、转换和加载)和 ELT、实时数据复制、批量加载处理、数据转换以及数据质量和丰富服务。
- 元数据:元数据是关于数据的数据,规定了数据仓库中数据集的来源、使用、价值和其他特性。业务元数据描述的是数据情境信息,技术元数据描述的是如何访问数据,包括数据的位置和结构。
- 数据仓库访问工具:借助这些访问工具,用户可以与数据仓库中的数据进行交互。访问工具包括查询和报告工具、应用开发工具、数据挖掘工具、联机分析处理 (OLAP) 工具等。
数据仓库架构
过去,数据仓库在与业务数据流相匹配的功能层中运行。
- 数据层:通过 ETL 工具从数据源中提取数据,然后进行转换并加载到底层。底层包括数据库服务器、数据集市和数据湖。元数据就是在这一层创建,数据集成工具(比如数据虚拟化工具)用于对数据进行无缝整合和汇总。
- 语义层:在中间层,联机分析处理 (OLAP) 和联机事务处理 (OLTP) 服务器会重组数据,支持快速、复杂的查询和分析。
- 分析层:顶层是前端客户层。这一层部署了数据仓库访问工具,支持用户与数据交互、创建仪表盘和报表、监控 KPI、挖掘和分析数据、构建应用等。分析层通常包含工作台或沙箱区域,用于支持数据挖掘和新数据模型开发。
数据仓库旨在为决策流程提供支持,主要由 IT 团队创建和维护。但在过去几年里,数据仓库不断发展,能够赋能业务用户访问数据并获取可据以采取行动的洞察,减少对 IT 部门的依赖。赋能业务用户的核心数据仓库功能包括:
- 语义层或业务层:使用自然语言,支持所有人即时理解数据、定义数据模型中元素之间的关系,以及利用新的业务信息丰富数据字段。
- 虚拟工作空间:支持团队将数据模型和连接引入统一、安全且受监管的位置,支持同事基于统一的通用空间和统一的通用数据集更有效地开展协作。
- 云技术:为全球员工提供丰富的工具和功能,帮助他们轻松执行数据分析任务,进一步提高决策能力。他们可以连接新应用和新数据源,且无需大量 IT 支持。
云数据仓库的七大优势
基于云的数据仓库越来越受欢迎,这是有充分理由的。与传统的本地版本相比,现代数据仓库具备诸多优势。以下是云数据仓库的 7 大优势:
- 部署速度快:使用云数据仓库,你可以轻松购买无限的计算能力和数据存储空间,并在任何地方快速构建自己的数据仓库、数据集市和沙箱。
- 总体拥有成本 (TCO) 低:数据仓库即服务 (DVaaS) 定价模式支持你仅在需要时购买所需资源。你无需预测长期需求或多支付不必要的年计算费用。你还可以省去昂贵的硬件、服务器机房以及维护人工等前期成本。存储定价与计算定价分离也有助于降低成本。
- 灵活性高:借助云数据仓库,你可以根据需要灵活扩大或缩小规模。云技术提供了虚拟化的高度分布式环境,能够通过扩大或缩小规模来灵活管理海量数据。
- 安全性高和灾难恢复力强: 在许多情况下,云数据仓库比本地数据仓库更能保证数据安全性,且具备更强的加密能力。数据还会自动复制和备份,帮助你大大降低数据丢失的风险。
- 采用实时技术:云数据仓库基于内存数据库技术构建,能够极大地提高数据处理速度,交付实时数据,助力增强即时情境感知能力。
- 引进新技术: 云数据仓库支持你轻松集成机器学习等新技术,为业务用户提供引导式体验和决策支持,比如,提供提问建议。
- 赋能业务用户:云数据仓库能够平等地赋能全球所有员工,为他们提供涵盖多个数据源的统一数据视图以及丰富的工具和功能,帮助他们轻松执行数据分析任务,支持他们在没有 IT 协助的情况下连接新应用和新数据源。
数据仓库卓越实践
如果你需要构建新的数据仓库或向现有数据仓库添加新应用,我们提供了很多久经验证的实践,可以帮助你实现目标,同时节省时间和成本。有些实践专注于业务用例,有些实践则属于整个 IT 计划的一部分。开始时,你可以参考以下实践。之后,在与技术和服务合作伙伴的过程中,你将获得更多卓越实践。
业务卓越实践
- 定义需要的信息。 当你知晓初始需求后,你就可以找到相关的数据源来支持这些需求。通常,贸易组织、客户和供应商会为你提供数据建议。
- 记录当前数据的位置、结构和质量。 然后,你就可以找出数据存在的问题,确定数据转换业务规则,满足数据仓库需求。
- 组建团队。该团队包括执行发起人、管理人员以及普通员工,这些人员既使用信息,也提供信息。例如,确定完成工作所需的标准报表和 KPI。
- 确定数据仓库应用的优先级。 选择一两个要求合理、业务价值大的试点项目。
- 选择实力强大的数据仓库技术合作伙伴。 合作伙伴必须具备项目所需的实施服务和经验。你需要确保你选择的合作伙伴能够满足你的部署需求,包括云服务和本地部署选项。
- 制定完备的项目计划。与团队协作,制定切实可行的蓝图和计划,方便沟通和状态报告。
IT 卓越实践
- 监控绩效和安全性。虽然数据仓库中的信息很有价值,但这些信息只有易于访问,才能为企业提供价值。密切监控系统使用情况,确保较高的绩效水平。
- 维护数据质量标准、元数据、数据结构和数据治理。 新的数据源变得越来越寻常,并且其中的数据十分有价值,企业必须将这些数据源作为数据仓库的一部分进行统一管理。你需要按照相关程序进行数据清理、定义元数据和遵守治理标准。
- 提供灵活的架构。随着企业和业务部门的数据使用量增加,对数据集市和数据仓库的需求将变得越来越多样化。相较于功能受限的产品,灵活的平台更能为他们提供有力的支持。
- 实现维护等流程的自动化。 除了提高商业智能的价值以外,机器学习技术还可以实现数据仓库技术管理功能自动化,从而提高速度并降低运营成本。
- 战略性地使用云技术。不同业务单元和部门有不同的部署需求。必要时使用本地系统,如果想要提高可扩展性、降低成本并支持手机和平板电脑访问,建议使用云数据仓库。
总结
现代数据仓库以及越来越多的云数据仓库将成为母公司及其业务部门实现数字化转型的关键因素。这些数据仓库可以充分利用当前的业务系统,特别是将来自多个内部系统的数据与企业外部新的重要信息整合起来。
仪表盘、KPI、警报和报告功能可以满足高管层、管理层和普通员工的需求以及重要的客户和供应商需求。数据仓库还支持快速、复杂的数据挖掘和分析,并且不会损害其他业务系统的性能。
此外,这些数据仓库非常灵活,支持小规模部署和按需扩展。无论是企业总部还是业务部门,都可以利用现代数据仓库技术提升决策和利润水平。