如何往hadoop导入数据库

如何往Hadoop导入数据库

Hadoop导入数据库的主要方法包括：使用Apache Sqoop、编写自定义程序、利用ETL工具。本文将详细介绍如何使用这些方法将数据库中的数据导入Hadoop，并详细探讨Apache Sqoop的使用。

一、使用Apache Sqoop

1、Apache Sqoop概述

Apache Sqoop是一个用于在Hadoop和关系型数据库间高效传输数据的工具。它能够通过简单的命令行接口，将关系型数据库中的数据导入Hadoop HDFS、Hive、HBase等存储系统，反之亦然。其主要优点在于高效、易用和与Hadoop生态系统的紧密集成。

2、安装和配置Apache Sqoop

安装Apache Sqoop

首先，您需要在您的Hadoop集群上安装Apache Sqoop。您可以从Apache的官方网站上下载Sqoop的发行版。以下是安装步骤：

下载Sqoop压缩包：

wget http://apache.mirrors.pair.com/sqoop/1.4.7/sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz

解压压缩包：

tar -xzf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz

设置环境变量：

export SQOOP_HOME=/path/to/sqoop-1.4.7.bin__hadoop-2.6.0 export PATH=$PATH:$SQOOP_HOME/bin

配置Sqoop与Hadoop的集成：

在$SQOOP_HOME/conf/sqoop-env.sh文件中配置Hadoop相关的环境变量，比如HADOOP_COMMON_HOME、HADOOP_MAPRED_HOME等。

配置数据库连接

Sqoop需要通过JDBC来连接关系型数据库。因此，您需要下载相应数据库的JDBC驱动程序，并将其放置在Sqoop的库路径中：

cp mysql-connector-java-5.1.48-bin.jar $SQOOP_HOME/lib/

3、使用Sqoop导入数据

基本导入命令

Sqoop的基本导入命令如下：

sqoop import --connect jdbc:mysql://hostname/dbname --username user --password password --table tablename --target-dir /path/to/hdfs/dir

具体参数说明

--connect：指定JDBC连接字符串，用于连接数据库。
--username、--password：数据库的用户名和密码。
--table：要导入的数据库表名。
--target-dir：数据导入到HDFS的目标目录。

示例

假设我们要将MySQL数据库中的表employees导入到HDFS的目录/user/hadoop/employees，可以使用以下命令：

sqoop import --connect jdbc:mysql://localhost/employees_db --username root --password root --table employees --target-dir /user/hadoop/employees

进阶配置

Sqoop提供了丰富的选项来定制数据导入过程，例如指定字段分隔符、行分隔符、导入并行度等。以下是一些常用选项：

--fields-terminated-by：指定字段分隔符。
--lines-terminated-by：指定行分隔符。
--num-mappers：指定并行导入的Mapper数量。

例如，使用并行度为4进行导入，并指定字段分隔符为逗号：

sqoop import --connect jdbc:mysql://localhost/employees_db --username root --password root --table employees --target-dir /user/hadoop/employees --num-mappers 4 --fields-terminated-by ','

二、编写自定义程序

1、使用Hadoop的MapReduce编程模型

除了使用Sqoop，您还可以编写自定义的MapReduce程序来从数据库中读取数据并写入HDFS。以下是一个简单的示例，展示了如何编写一个MapReduce程序来从MySQL数据库中读取数据并写入HDFS。

编写自定义InputFormat

首先，您需要编写一个自定义的InputFormat类，用于从数据库中读取数据。以下是一个简单的实现示例：

import org.apache.hadoop.mapreduce.InputFormat;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.db.DBConfiguration;
import org.apache.hadoop.mapreduce.lib.db.DBInputFormat;
public class MyDBInputFormat extends DBInputFormat<MyDBWritable> {
    public static void configureDB(Job job) {
        DBConfiguration.configureDB(job.getConfiguration(),
            "com.mysql.jdbc.Driver",
            "jdbc:mysql://localhost/employees_db",
            "root",
            "root");
    }
}

编写MapReduce程序

接下来，您需要编写MapReduce程序，使用自定义的InputFormat类来读取数据：

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.db.DBInputFormat;
import org.apache.hadoop.mapreduce.lib.db.DBWritable;
import java.io.IOException;
import java.sql.ResultSet;
import java.sql.SQLException;
public class MyDBToHDFS {
    public static class MyMapper extends Mapper<Object, MyDBWritable, Text, Text> {
        public void map(Object key, MyDBWritable value, Context context) throws IOException, InterruptedException {
            context.write(new Text(value.getField1()), new Text(value.getField2()));
        }
    }
    public static class MyDBWritable implements DBWritable {
        private String field1;
        private String field2;
        // Getters and setters...
        public void readFields(ResultSet rs) throws SQLException {
            this.field1 = rs.getString(1);
            this.field2 = rs.getString(2);
        }
        public void write(java.sql.PreparedStatement statement) throws SQLException {
            // No-op
        }
    }
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf, "DB to HDFS");
        job.setJarByClass(MyDBToHDFS.class);
        job.setMapperClass(MyMapper.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(Text.class);
        MyDBInputFormat.configureDB(job);
        DBInputFormat.setInput(job, MyDBWritable.class, "SELECT field1, field2 FROM employees", "SELECT COUNT(*) FROM employees");
        FileOutputFormat.setOutputPath(job, new Path(args[0]));
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

2、使用Spark

除了MapReduce，您还可以使用更现代的分布式计算框架Spark来从数据库中读取数据并写入HDFS。Spark提供了更高层次的API，使用起来更加简便。

使用Spark读取数据

以下是一个使用Spark从MySQL数据库读取数据并写入HDFS的示例：

import org.apache.spark.sql.SparkSession
object MySQLToHDFS {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder
      .appName("MySQL to HDFS")
      .getOrCreate()
    val jdbcDF = spark.read
      .format("jdbc")
      .option("url", "jdbc:mysql://localhost/employees_db")
      .option("dbtable", "employees")
      .option("user", "root")
      .option("password", "root")
      .load()
    jdbcDF.write
      .format("parquet")
      .save("/path/to/hdfs/employees")
  }
}

三、利用ETL工具

1、使用Talend

Talend是一个流行的ETL（Extract, Transform, Load）工具，提供了图形化的界面来设计数据集成任务。您可以使用Talend从数据库中提取数据，进行必要的转换，然后将数据加载到Hadoop中。

配置Talend

创建一个新的Talend项目。
在作业设计器中，添加一个数据库连接组件，例如tMySQLInput。
配置数据库连接参数，例如JDBC URL、用户名和密码。
添加一个Hadoop连接组件，例如tHDFSOutput。
配置HDFS目标路径。
连接数据库输入组件和Hadoop输出组件，设计数据流。

2、使用Informatica

Informatica是另一个强大的ETL工具，提供了丰富的数据集成功能。与Talend类似，您可以使用Informatica从数据库中提取数据并加载到Hadoop中。

配置Informatica

创建一个新的Informatica映射。
添加一个关系型数据库源，例如MySQL。
配置数据库连接参数。
添加一个HDFS目标。
配置HDFS目标路径和格式。
设计数据流，从数据库源到HDFS目标。

四、总结

在本文中，我们详细介绍了如何将数据库中的数据导入到Hadoop中。主要的方法包括使用Apache Sqoop、编写自定义程序、利用ETL工具。其中，Apache Sqoop是最常用和高效的工具，适合大多数应用场景。对于复杂的数据转换和集成任务，可以考虑使用ETL工具如Talend和Informatica。无论选择哪种方法，都需要根据具体的需求和环境进行配置和优化，以确保数据导入过程的高效性和可靠性。