数据管理的重点领域有:1、数据质量管理;2、数据分发和一致性;3、大数据管理;4、数据架构和数据建模;5、数据治理。数据管理面临的挑战是:1、规模与性能;2、不断变化的要求;3、员工培训。
一、数据管理的重点领域
数据管理的实践包括收集和分发高质量数据以及数据治理,以控制数据访问权限。
1、数据质量管理
数据用户期望数据对于每个用例都足够可靠和一致。
数据质量经理负责衡量并改进组织的数据质量。数据质量经理需要审查现有数据和新数据,并验证其是否符合标准。数据质量经理还可能需要设置数据管理流程,阻止低质量数据进入系统。数据质量标准通常衡量以下方面:
- 关键信息是否丢失或数据是否完整?(例如,客户遗漏了关键联系信息)
- 数据是否符合基本数据检查规则?(例如,电话号码应为 10 位数字)
- 同一数据在系统中多久出现一次?(例如,同一客户的重复数据条目)
- 数据是否准确?(例如,客户输入了错误的电子邮件地址)
- 整个系统的数据质量是否一致?(例如,出生日期在一个数据集中为 dd/mm/yyyy 格式,但在另一个数据集中为 mm/dd/yyyy 格式)
2、数据分发和一致性
数据分发的端点
对于大多数组织,数据必须分发到(或靠近)需要数据的各个端点。其中包括操作系统、数据湖和数据仓库。由于网络延迟,数据分发是必要的。当操作用途需要数据时,网络延迟可能不足以及时交付数据。将数据副本存储在本地数据库中可以解决网络延迟问题。
数据分发对于数据整合也是必要的。数据仓库和数据湖需要整合来自不同来源的数据,以提供信息的整合视图。数据仓库用于分析和决策,而数据湖是一个整合的枢纽,可以从中提取各种使用案例的数据。
数据复制机制及其对一致性的影响
数据分发机制对数据一致性有潜在影响,这是数据管理中的一个重要考虑因素。
数据的同步复制可达成强大的一致性。在这种方法中,当数据值更改时,所有应用程序和用户都将看到更改后的数据值。如果尚未复制数据的新值,则在更新所有副本之前,将阻止对数据的访问。同步复制确保了一致性优先于性能和数据访问。同步复制最常用于财务数据。
数据的异步复制可产生最终的一致性。当数据更改时,最终会更新副本(通常在几秒钟内),但不会阻止对过期副本的访问。对于许多使用案例,这不是一个问题。例如,社交媒体帖子、点赞和评论不需要很强的一致性。另一个例子是,如果客户在一个应用程序中更改了电话号码,则此更改可以异步级联。
流式传输与批量更新的比较
数据流在发生数据更改时级联数据更改。如果需要访问近实时数据,这是首选方法。数据一经更改,就被提取、转换并传递到其目的地。
如果数据必须在交付前批量处理,则批量更新更为合适。汇总或执行数据的统计分析并仅提供结果就是一个很好的例子。如果在特定时间点提取所有数据,则批量更新还可以保持数据的时间点内部一致性。通过提取、转换和加载(ETL 或 ELT)过程进行的批量更新通常用于数据湖、数据仓库和分析。
3、大数据管理
大数据是指组织在短时间内高速收集的大量数据。社交媒体上的视频新闻订阅和来自智能传感器的数据流即是大数据的例子。运营的规模和复杂性为大数据管理带来了挑战。例如,大数据系统存储以下数据:
- 以表格格式完美表示的结构化数据
- 文档、图像和视频等非结构化数据
- 结合前两种类型的半结构化数据
大数据管理工具必须处理和准备用于分析的数据。大数据所需的工具和技术通常执行以下功能:数据集成、数据存储和数据分析。
4、数据架构和数据建模
数据架构
数据架构描述组织的数据资产,并提供创建和管理数据流的蓝图。数据管理计划包括最适合实施数据管理策略的技术详情,例如运营数据库、数据湖、数据仓库和服务器。
数据建模
数据建模是创建概念数据模型和逻辑数据模型的流程,这些模型将不同类型数据之间的工作流和关系可视化。数据建模通常先从概念上表示数据,然后再通过选择的技术表示数据。在数据设计阶段,数据经理会创建几种不同类型的数据模型。
5、数据治理
数据治理包括组织为管理数据安全性、完整性和可靠的数据实用工具而实施的策略和程序。其定义数据管理策略并确定哪些人可以访问哪些数据。数据治理策略还建立了团队以及个人访问和使用数据方式的问责制。数据治理职能通常包括:
法规合规性
数据治理策略降可以风险,避免收到监管罚款或管制。这些策略专注于员工培训,以便所有级别的员工都能遵守法律。例如,某个组织与外部开发团队协作来改进其数据系统。在将数据传递给外部团队用于测试之前,数据治理经理会验证是否已删除所有个人数据。
数据安全性与访问控制
数据治理可防止未经授权访问数据,并保护数据免受损坏。其包括保护的各个方面,如下所述:
- 防止意外移动或删除数据
- 保护网络访问,从而降低网络攻击的风险
- 验证存储数据的物理数据中心是否满足安全要求
- 即使员工通过个人设备访问数据,也能确保数据安全
- 用户身份验证、授权以及数据访问权限的设置和实施
- 确保存储的数据符合存储数据所在国家/地区的法律
二、数据管理面临的挑战
以下是数据管理面临的常见挑战。
1、规模与性能
组织需要的数据管理软件应当做到:即使大规模运行也能高效运行。他们必须持续监控和重新配置数据管理基础设施,确保即使数据呈指数级增长,也能维持峰值响应时间。
2、不断变化的要求
合规性法规不仅非常复杂,而且随时间不断变化。同样,客户要求和企业需求也在快速变化。组织可选择的数据管理平台较多,但必须持续评估基础设施决策,以维持最高的 IT 敏捷性、法律合规性和更低的成本。
3、员工培训
在任何组织中启动数据管理流程都具有挑战性。海量数据可能让人无从下手,并且可能存在部门间孤岛。规划新的数据管理策略并使员工接受新的系统和流程耗时耗力。
以上就是关于数据管理的重点领域以及数据管理面临的挑战的全部内容了,希望对你有所帮助。