目录

Apache Hadoop有哪些模块

Hadoop 框架主要由四个模块组成,这四个模块协同运行以形成 Hadoop 生态系统:1、Hadoop Distributed File System (HDFS);2、Yet Another Resource Negotiator (YARN);3、MapReduce;4、Hadoop Common。

一、Apache Hadoop的模块

Hadoop 框架主要由四个模块组成,这四个模块协同运行以形成 Hadoop 生态系统:

1、Hadoop Distributed File System (HDFS)

作为 Hadoop 生态系统的主要组件,HDFS 是一个分布式文件系统,可提供对应用数据的高吞吐量访问,而无需预先定义架构。

2、Yet Another Resource Negotiator (YARN)

YARN 是一个资源管理平台,负责管理集群中的计算资源并使用它们来调度用户的应用。它在整个 Hadoop 系统上执行调度和资源分配。

3、MapReduce

MapReduce 是一个用于大规模数据处理的编程模型。通过使用分布式和并行计算算法,MapReduce 可以沿用处理逻辑,并帮助编写将大型数据集转换为可管理数据集的应用。

4、Hadoop Common

Hadoop Common 包括其他Hadoop 模块使用和共享的库和实用程序。

所有 Hadoop 模块的设计均基于以下基本假设:单个机器或多个机器的硬件故障很常见,应由框架在软件中自动处理。Apache Hadoop MapReduce 和 HDFS 组件最初来源于 Google MapReduce 和 Google File System (GFS) 资料。

除了 HDFS、YARN 和 MapReduce 以外,整个 Hadoop 开源生态系统仍在不断发展,其中包括许多可帮助收集、存储、处理、分析和管理大数据的工具和应用。

二、Hadoop 的优势

1、容错性

在 Hadoop 生态系统中,即使单个节点在大型集群上运行作业时故障率较高,数据也会在整个集群中复制,以便在发生磁盘、节点或机架故障时轻松恢复数据。

2、费用控制

Hadoop 通过比其他平台更经济实惠的每 TB 存储价格来控制费用。Hadoop 使用价格实惠的标准商业硬件以每 TB 数百美元的价格提供计算和存储服务,让您无需在硬件上花费每 TB 数千至数万美元的费用。

3、开源框架创新性

与致力于开发专有解决方案的内部团队相比,Hadoop 得到了全球性社区的支持,各地的专业人员团结在一起,以更快、更高效的方式引入新概念和功能。开源社区的集体力量能够提供更多想法、以更快的速度进行开发,以及在出现问题时及时进行问题排查,进而缩短产品上市时间。

三、为什么需要使用 Hadoop

Apache Hadoop 的出现是为了更快速、更可靠地处理海量大数据。Hadoop 实现了整个开源软件生态系统,越来越多的数据驱动型公司开始部署 Hadoop 以存储和解析大数据。Hadoop 的分布式特性旨在检测和处理应用层故障,凭借计算机集群提供高可用性服务,以降低独立机器故障的风险,而不是依靠硬件来提供关键的高可用性。

Hadoop 使用包含多台计算机的集群来并行分析海量数据集,而不是使用一台大型计算机存储和处理数据。Hadoop 可以处理各种形式的结构化和非结构化数据,与关系型数据库和数据仓库相比,Hadoop 为公司收集、处理和分析大数据提供了更高的速度和灵活性。

以上就是关于Apache Hadoop的模块、Hadoop 的优势以及为什么需要使用 Hadoop的全部内容了,希望对你有所帮助。