大数据处理软件有哪些

大数据的生命周期分为数据获取、数据存储、数据分析以及结果，并且将前述大数据处理的三代技术中相关的工具映射至数据获取、数据存储和数据分析三个环节来进行分类讨论。本文将介绍常见的集中大数据处理软件，如HDFS、Sqoop、Flume、Scribe、HBase等。

一、什么是大数据处理

大数据的生命周期分为数据获取（data acquisition）、数据存储（data storage）、数据分析（data analysis）以及结果（result），并且将前述大数据处理的三代技术中相关的工具映射至数据获取、数据存储和数据分析三个环节来进行分类讨论，详情如表1-2所示。

在数据获取阶段，通常涉及从多源异构的数据源获取数据，这些数据源可能是批处理数据源，也有可能是实时流数据源；
在数据存储阶段，需要对前一阶段已经获取到的数据进行存储，以便进行后续的分析与处理，常见的存储方式有磁盘（disk）形式和无盘（diskless）形式。
在数据分析阶段，针对不同的应用需求，会运用各类模型和算法来对数据进行分析与处理。

在表1-2中，三代技术中不同的处理阶段所涉及的工具存在重叠。此外，对于混合计算技术，其本身同时涉及批处理技术和实时处理技术，实现混合计算模型的技术也要比单纯的批处理技术和实时处理技术更加复杂；鉴于混合计算技术的上述特点，这里不对在数据的获取、存储与分析方面所涉及的具体工具做特别的划分。

二、常用的大数据处理软件

1. HDFS
Hadoop分布式文件系统（Hadoop Distributed File System，HDFS）目前是Apache Hadoop项目的一个子项目，与已有的分布式文件系统有很多相似之处。

此外，作为专门针对商业化硬件（commodity hardware）设计的文件系统，HDFS的独特之处也很明显：首先其具有很高的容错性，其次可以部署在较为廉价的硬件上，最后能够提供高吞吐量的应用数据访问能力。
对于终端用户而言，HDFS就是一个传统的文件系统，具有文件和目录的创建、修改、删除等常规操作。
HDFS采用主/从（Master/Slave）体系结构。单个HDFS集群仅包含一个名称节点（NameNode），其提供元数据服务，管理文件系统的命名空间（namespace），并引导用户对文件的访问。此外，单个HDFS集群可以包含多个数据节点（DataNode），数据节点负责管理与自身相关联的存储空间。
HDFS对外给出文件系统的命名空间作为用户对数据进行访存的接口。
在HDFS内部，单个文件通常被分割成多个块（block），这些块存储在一系列数据节点上。由名称节点在整个HDFS集群的命名空间上执行文件和目录的打开、读取和关闭等操作。文件的块与数据节点之间的映射也是由名称节点管理的。数据节点基于名称节点的指令来实施块的创建、复制和删除等。

2. Sqoop
Sqoop是一个在Hadoop和关系数据库服务器之间传送数据的工具，方便大量数据的导入导出工作，其支持多种类型的数据存储软件。

Sqoop的核心功能为数据的导入和导出。

导入数据：从诸如MySQL、SQL Server和Oracle等关系数据库将数据导入到Hadoop下的HDFS、Hive和HBase等数据存储系统。
导出数据：从Hadoop的文件系统中将数据导出至关系数据库。

Sqoop的一个显著特点是可以使用MapReduce将数据从传统的关系数据库导入到HDFS中。Sqoop作为一个通用性的工具，只需要在一个节点上安装，因此安装和使用十分便捷。

3.Flume
Flume是由Hadoop生态系统中知名的软件公司Cloudera于2011年发布，该软件能够支持分布式海量日志的采集、集成与传输，以实时的方式从数据发送方获取数据，并传输给数据接收方。

Flume具有两个显著的特点：可靠性和可扩展性。

针对可靠性，其提供了从强到弱的三级保障，即End-to-end、Store on failure和Best effort。
针对可扩展性，其采用三层的体系结构，即Agent、Collector和Storage，每层都可以在水平方向上进行扩展。

Flume以Agent的方式运行，单个Agent包含Source、Channel和Sink三个组件，由Agent对数据进行收集，然后交付给存储机制。从多个数据源收集到的日志信息依次经过上述三个组件，然后存入HDFS或HBase中。因此，通过Flume可以将数据便捷地转交给Hadoop体系结构。

4.Scribe
Scribe是由Facebook开发的分布式日志系统，在Facebook内部已经得到了广泛的应用。Scribe能够针对位于不同数据源的日志信息进行收集，然后存储至某个统一的存储系统，这个存储系统可以是网络文件系统（Network File System，NFS），也可以是分布式文件系统。

Scribe的体系结构由三部分组成：Scribe Agent、Scribe和Storage。

名列前茅部分Scribe Agent为用户提供接口，用户使用该接口来发送数据。
第二部分Scribe接收由Scribe Agent发送来的数据，根据各类数据所具有的不同较好ic再次分发给不同的实体。
第三部分Storage包含多种存储系统和介质。

Scribe的日志收集行为只包括主动写入的日志，Scribe自身没有主动抓取日志的功能。因此，用户需要主动向Scribe Agent发送相关的日志信息。

5.HBase
HBase的全称为Hadoop Database，是基于谷歌BigTable的开源实现，其使用Hadoop体系结构中的HDFS作为基本的文件系统。谷歌根据BigTable的理念设计实现了谷歌文件系统GFS，但是该方案未开源。HBase可以称为BigTable的山寨版，是开源的。

HBase在Hadoop体系结构中的位置介于HDFS和MapReduce之间，其架构为主/从形式，内部的两个核心构件为Master和RegionServer。
HBase是建立在HDFS之上的分布式面向列的数据库，能够针对海量结构化数据实现随机的实时访问，其设计理念和运行模式都充分利用了HDFS的高容错性。
由于HBase是面向列的，因此它在数据库的表中是按照行进行排序的。在HBase中，所有的存储内容都是字节，任何要存储的内容都需要先转换成字节流的形式，此外数据库的行键值按照字节进行排序，同时形成了索引。

6.MapReduce
MapReduce是Hadoop体系结构中极为重要的核心构件之一。作为一个分布式的并行计算模型，MapReduce包含的两个单词分别具有特定的含义：“Map”表示“映射”；“Reduce”表示“归约”。上述两个概念的基本理念源于函数式编程语言（functional programming language）。

与传统的编程语言不同，函数式编程语言是一类非冯诺依曼式的程序设计语言，其编程范式的抽象程度很高，主要由原始函数、定义函数和函数型构成。
MapReduce的这种设计思想使分布式并行程序设计的难度得以简化，用户将已有的代码稍加修改就能够运行在分布式环境下。在实际应用场景中，大多数情况下收集到的大量多源异构数据都不具有特定的规律和特征。
MapReduce的工作过程能够在一定程度上将上述数据按照某种规律进行归纳和总结。在“Map”阶段，通过指定的映射函数提取数据的特征，得到的结果的形式为键值对。在“Reduce”阶段，通过指定的归约函数对“Map”阶段得到的结果进行统计。对于不同的具体问题，所需要的归约函数的个数可能千差万别。
总体来说，MapReduce具有开发难度低、扩展性强和容错性高三个显著特点。尽管其分布式并行计算模型能大幅度提高海量数据的处理速度，但受限于大数据的规模，通常MapReduce的作业例程的执行时间为分钟级，随着数据量的增加，耗时若干天也很普遍。

7.Hive
Hive针对数据仓库来提供类似SQL语句的查询功能，其能够将以结构化形式存储的数据映射成数据库表，主要应用场景为多维度数据分析和海量结构化数据离线分析。Hive的体系结构主要包含用户接口、元数据存储、解释器、编译器、优化器和执行器。

虽然使用MapReduce也能够实现查询，但是对于逻辑复杂度高的查询，用户在实现时难度较大。Hive提供类似于SQL的语法接口，降低了学习成本，提高了开发效率。
Hive基于SQL的语法来定义名为HiveQL或HQL的查询语言，其支持常规的索引化和基本的数据查询，更重要的是能够将基于SQL的查询需求转化为MapReduce的作业例程。
除了自身具有的功能之外，用户可以在Hive中编写自定义函数，具体来说分为三种：