湖仓一体是一种开放式数据管理架构,集数据湖的灵活性和可扩展性优势以及数据仓库的数据结构和数据管理功能于一体。湖仓一体除了灵活、可扩展性外,还具备独特结构和管理功能,可为数据科学团队提供数据使用的敏捷性,无需访问多个系统。湖仓一体也能够确保数据科学家能够取用可开展业务分析、AI 和 ML 项目的最完整和最新数据。
一、什么是湖仓一体
湖仓一体是一种开放式数据管理架构,集数据湖的灵活性和可扩展性优势以及数据仓库的数据结构和数据管理功能于一体。
几十年来,组织将数据仓库(也称为企业数据仓库 (EDW))用于存储和管理推动业务洞见产生所需的数据。但多年来所产生数据的类型、来源和数量成倍增加。从企业内每日生成的业务数据的速度、类型和数量来看,传统数据仓库架构已无法完全跟上其节奏。此外,企业越来越多地采用人工智能 (AI) 和机器学习 (ML) 技术,这些工具所用的算法同样要求直接访问数据。
湖仓一体除了灵活、可扩展性外,还具备独特结构和管理功能,可为数据科学团队提供数据使用的敏捷性,无需访问多个系统。湖仓一体也能够确保数据科学家能够取用可开展业务分析、AI 和 ML 项目的最完整和最新数据。
二、湖仓一体的优势
湖仓一体架构能够提供诸多优势:
1、能够消除简单的提取、传输和加载 (ETL) 作业,因为查询引擎能够直接连接数据湖。
2、能够利用单一工具处理数据,减少数据冗余,不必利用多个工具管理多个平台上的数据。
3、能够直接连接多个 BI 和分析工具。
4、能够简化数据治理,因为敏感数据不再需要从一个数据池移到另一个,且可以从一个点进行管理。
5、有助于降低成本,因为可通过对象存储将数据存储在一个位置。
三、湖仓一体、数据仓库和数据湖的区别
1、数据仓库
将取自多个不同来源的大型业务数据集聚合到一个单一、一致的数据存储区就构成了数据仓库。这些平台经过专门设计,能够对大量结构化数据执行分析。数据仓库系统会定期从多种商业智能 (BI) 系统提取数据,然后格式化并导入该数据,使其匹配数据仓库中已有数据的格式和标准。如此可让数据存储在条理清晰的文件或文件夹中,随时可用于报告和数据分析。
2、数据湖
数据湖能够大规模存储取自所有企业数据来源、采用原生格式的各类原始数据、结构化以及非结构化数据。数据会照原样添加到数据湖中,即不会为了与系统中的其他数据保持一致而对新数据进行重新格式化。为了让数据可供 AI 和 ML 系统和大数据分析之用,数据湖发挥了关键作用。
3、湖仓一体
湖仓一体是一种全新的开放式架构,能够兼顾拥有类似数据结构的数据湖所具备的灵活性和可扩展性优势,以及数据仓库的数据管理功能。此功能组合能够为数据科学团队提供敏捷性,让他们无需访问多个系统就能够使用数据。湖仓一体也能够确保数据科学家取用最完整、最新数据。
四、湖仓一体的元素
从高层级上看,湖仓一体架构主要有两层。湖仓一体平台管理将数据吸收到存储层(也就是数据湖)。处理层之后就能够使用各类工具来直接查询存储层中的数据,而不必将数据载入数据仓库或转换成专有格式。之后,数据就可供 BI 应用程序以及 AI 和 ML 工具使用。
这个架构提供数据湖的经济效益,此外,由于任何类型的处理引擎都能够读取此数据,因此,组织便能够灵活地提供备妥的数据,满足多种系统执行分析的目的。如此,完成处理和分析的性能更高、成本更低。
这个架构也允许多方并行读写系统中的数据,因为其支持遵守 ACID(原子性、一致性、隔离性、持久性)原则的数据库事务,详情如下:
原子性指的是处理事务时,要么全部事务都成功,要么一个事务都不成功。如果过程中发生中断,这个做法有助于防止数据丢失或损坏。
一致性能够确保事务以可预测、一致的方法完成。其能够确保全部数据是预定义规则下的有效数据,保持数据的完整性。
隔离性可保证事务完成之前,系统中的任何其他事务都不会影响某一个具体事务。这样就能够让多方同时从同一个系统读取数据,且不会互相干扰。
持久性可确保对系统中数据所作更改能够在事务完成后保留下来,即便系统出现故障也是如此。因事务所作的任何更改将会永久保存。
以上就是关于什么是湖仓一体、湖仓一体的优势、湖仓一体、数据仓库和数据湖的区别、湖仓一体的元素的全部内容了,希望对你有所帮助。