Hadoop是什么

Hadoop是一个开源数据库框架，由Apache软件基金会(ASF)管理，编写语言为Java，用户可以通过Hadoop存储并处理大数据集（从GB到 PB 级）。Hadoop 的设计灵感来自谷歌，是 Apache 较高级别的项目之一。Hadoop的开发是为了解决大数据的存储以及处理问题。

一、什么是Apache Hadoop？

Hadoop是一个开源数据库框架，由Apache软件基金会(ASF)管理，编写语言为Java，用户可以通过Hadoop存储并处理大数据集（从GB到 PB 级）。Hadoop 的设计灵感来自谷歌，是 Apache 较高级别的项目之一。

二、Hadoop 发展史

Hadoop 最初由 Doug Cutting 和 Mike Cafarella 创立，当时，他们都在从事 Apache Nutch 项目。这个项目目的是建立一个可以索引10亿页的搜索引擎系统。根据相关研究，他们得出结论——这样的硬件系统将花费大约 50 万美元，每月要支出大约 30,000 美元的运行成本，可以说是巨资级别的项目了。所以，他们开始寻找合理的解决方案，从而降低运行成本，同时解决存储、并处理大型数据集的问题。

2003 年，Google发表了一篇有关分布式文件系统的论文，即谷歌文件系统（Goolge File System – GFS），用于存储大型的数据集。该论文指导他们解决由于网络爬行和索引过程而导致的海量文件存储问题。2004 年，Google 发表了另一篇有关MapReduce 技术的论文，这个技术解决了处理这些大型数据集的第二个问题。最终，GFS 和 MapReduce 解决了Apache Nutch项目中的问题。两人开始将Google的开源技术运用至自己的项目中，因为他们知道开源是让技术惠及更多用户的好方法。

2005 年，Cutting 意识到项目背后只有两个工程师是远远不够的，于是他开始与Yahoo合作，Yahoo拥有一支庞大的工程团队，而且热衷于 Apache Nutch 项目。Cutting还发现，只有保证在更大的集群中稳定运行项目，Nutch才能充分发挥其潜力，而此时，集群的节点数量仍被限制在20-40个。Cutting开发了一个名为 Hadoop 的新项目，该项目以Cutting 儿子的玩具大象Hadoop命名，因此Hadoop象征黄色玩具大象。

2007 年，Yahoo成功使用Hadoop在1000个节点集群上进行了测试，并投入使用。后来，Yahoo将 Hadoop 作为开源项目发布给了 Apache 软件基金会；2008 年，ASF 成功使用 Hadoop 在4000 个节点集群进行测试。2009 年，Hadoop在不到17个小时的时间内通过了对PB (PetaByte)数据的排序测试。2011 年，ASF 发布了 Apache Hadoop 1.0，并于 2017 年 12 月发布了最新版本 Apache Hadoop 3.0。