首页 \ 教程 \ hadoop

知识点

hadoop

使用Sqoop在HDFS和RDBMS之间导数据

利用Sqoop将数据从数据库导入到HDFS

[Hadoop] Sqoop安装过程详解

Apache Sqoop 1.4.3 发布，Hadoop 数据迁移

Hadoop学习全程记录——使用sqoop将MySQL中数据导入到Hive中

jdbc连接oracle、mysql等主流数据库的驱动类和url

Hbase和solr在海量数据查询中的应用

HDFS导出数据到HBase的ROW VALUE设置tricks

Hadoop中HDFS和MapReduce节点基本简介

Hadoop学习笔记之HDFS扩容

Oracle优化配置指南(3.1)-Oracle的总体结构

HDFS Federation(HDFS 联盟)介绍

广州Java培训疯狂Java Oracle视频教程

oracle中使用job

Oracle优化配置指南(4)-Oracle的优化器

通过Sqoop实现Mysql / Oracle 与HDFS / Hbase互导数据

2019-03-28 13:00|来源: 网络

下文将重点说明通过Sqoop实现Mysql与HDFS互导数据，Mysql与Hbase, Oracle与Hbase 的互导最后给出命令。

一、Mysql与HDFS互导数据

环境：

宿主机器操作系统为Win7， Mysql安装在宿主机上，宿主机地址为192.168.66.96

3台虚拟机操作系统为 Ubuntu-12.04.1-32位

三台虚拟机已成功安装 Hadoop，并实现免密钥互访，配hosts为：

192.168.66.91 masternode

192.168.66.92 slavenode1

192.168.66.93 slavenode2

/etc/profile已配置好必备环境变量HADOOP_HOME，JAVA_HOME

实验在masternode上进行，已成功连接mysql

步骤一，下载安装包：

我安装的Hadoop版本是原生hadoop-0.20.203.0，SQOOP不支持此版本，可使用CDH3版本hadoop，也可以通过拷贝相应的包到sqoop-1.2.0-CDH3B4/lib下，依然可以使用。

下载相关文件：

http://archive.cloudera.com/cdh/3/hadoop-0.20.2-CDH3B4.tar.gz

http://archive.cloudera.com/cdh/3/sqoop-1.2.0-CDH3B4.tar.gz

sqoop-1.2.0-CDH3B4依赖hadoop-core-0.20.2-CDH3B4.jar，所以你需要下载hadoop- 0.20.2-CDH3B4.tar.gz，解压缩后 将hadoop-0.20.2-CDH3B4/hadoop-core-0.20.2- CDH3B4.jar复制到sqoop-1.2.0-CDH3B4/lib中。

另外，sqoop导入mysql数据运行过程中依赖mysql-connector-java-*.jar，所以你需要下载mysql-connector-java-*.jar并复制到sqoop-1.2.0-CDH3B4/lib中。

步骤二，相关配置：

修改SQOOP的文件configure-sqoop，注释掉hbase和zookeeper检查（除非你准备使用HABASE等HADOOP上的组件） #if [ ! -d "${HBASE_HOME}" ]; then

# echo “Error: $HBASE_HOME does not exist!”

# echo ‘Please set $HBASE_HOME to the root of your HBase installation.’

# exit 1

#fi

#if [ ! -d "${ZOOKEEPER_HOME}" ]; then

# echo “Error: $ZOOKEEPER_HOME does not exist!”

# echo ‘Please set $ZOOKEEPER_HOME to the root of your ZooKeeper installation.’

# exit 1

#fi

修改/etc/profile环境变量文件(su root之后,sudo gedit /etc/profile)：

添加 export SQOOP_HOME=/home/grid/sqoop

在原有PATH后添加 : $SQOOP_HOME/bin

步骤三，在mysql中建立测试用户，测试表和数据，并测试sqoop连接mysql：

创建用户sqoop并授权：

grant all privileges on *.* to 'sqoop'@'%' identified by 'sqoop' with grant option;

创建表空间（schema）sqoop，并创建测试表：

create table students (

id int not null primary key,

name varchar(20),

age int)

插入测试数据：

insert into students values('10001','liyang',29);

insert into students values('10002','lion',28);

insert into students values('10003','leon',26);

在masternode测试sqoop能否成功连接宿主机器上的mysql：

sqoop list-tables --connect jdbc:mysql://192.168.66.96:3306/sqoop --username sqoop --password sqoop

如果能正确显示出sqoop表空间中的students表，就说明sqoop已经可以成功连接mysql！

步骤四，将mysql中sqoop表空间的students表的三行数据导入HDFS:

启动hadoop：

start-all.sh

用jps验证启动是否成功

显示正在运行以下进程即为启动成功：

2820 SecondaryNameNode

4539 Jps

2887 JobTracker

2595 NameNode

从mysql导入数据，运行如下命令：

sqoop import --connect jdbc:mysql://192.168.66.96:3306/sqoop --username sqoop --password sqoop --table students -m 1

验证导入数据是否成功：

若导入成功，运行 hadoop dfs -ls 将能看到根目录/user/grid/下有 以表名命名的文件夹students

运行 hadoop dfs -ls /user/grid/students 能看到该文件夹中包含文件：/user/grid/students/ part-m-00000

运行 hadoop dfs -cat /user/grid/students/part-m-00000 就能看到该文件已经包含mysql中students表的三行数据：

10001,liyang,29

10002,lion,28

10003,leon,26

步骤五，将HDFS中的数据导入Mysql的students表中:

首先将mysql的students表数据清空：

delete from students；

然后在masternode上执行导出数据命令：

sqoop export --connect jdbc:mysql://192.168.66.96:3306/sqoop --username sqoop --password sqoop --table students --export-dir hdfs://masternode:9000/user/grid/students/part-m-00000

若成功，在mysql中会看到students表中的数据恢复了！

注意：过程中可能会因为slavenode的50010端口没打开而报错，需用root用户通过sudo ufw allow 50010命令打开端口！

二、Mysql与Hbase互导数据

将mysql的数据导入hbase的命令格式为：

sqoop import --connect jdbc:mysql://mysqlserver_IP/databaseName --username --password password --table datatable --hbase-create-table --hbase-table hbase_tablename --column-family col_fam_name --hbase-row-key key_col_name

其中，databaseName 和datatable 是mysql的数据库和表名，hbase_tablename是要导成hbase的表名，key_col_name可以指定datatable中哪一列作为hbase新表的rowkey，col_fam_name是除rowkey之外的所有列的列族名

例如：可通过如下命令将Mysql中的students表导入到Hbase中：

/home/grid/sqoop/bin/sqoop import --connect jdbc:mysql://192.168.66.96/sqoop --username sqoop --password liyang16 --table students --hbase-create-table --hbase-table students --column-family stuinfo --hbase-row-key id

成功执行后，可在hbase中用以下命令查看结果：

hbase(main):011:0> scan 'students'

ROW COLUMN+CELL

10001 column=stuinfo:age, timestamp=1356759994058, value=29

10001 column=stuinfo:name, timestamp=1356759994058, value=liyang

10002 column=stuinfo:age, timestamp=1356760044478, value=28

10002 column=stuinfo:name, timestamp=1356760044478, value=lion

10003 column=stuinfo:age, timestamp=1356760044478, value=26

10003 column=stuinfo:name, timestamp=1356760044478, value=leon

3 row(s) in 0.0900 seconds

三、Oracle与Hbase互导数据

将Oracle中的dept表（列为id，name，addr）导出至hbase中的dept表（行键为id，列族为deptinfo）

sqoop import --append --connect jdbc:oracle:thin:@192.168.66.90:1521:orcl --username test --password test --m 1 --table dept --columns id,name,addr --hbase-create-table --hbase-table dept --hbase-row-key id --column-family deptinfo

-------------------------------------------------------------------------------------

注：以上所有命令均实测通过，只需修改参数即可执行！

更多Ubuntu相关信息见Ubuntu 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=2

知识点

相关文章

最近更新

通过Sqoop实现Mysql / Oracle 与HDFS / Hbase互导数据

相关问答

我遇到一个问题就是使用sqoop 从oracle往hdfs中导数据[2022-12-19]

hadoop+sqoop 实现mysql数据导入HDFS[2022-07-23]

从oracle到hive的sqoop数据ERROR(sqoop data from oracle to hive ERROR)[2023-07-31]

如何sqoop将oracle clob数据导入到hdfs上的avro文件(How to sqoop to import oracle clob data to avro files on hdfs)[2022-05-04]

如何每天将增量记录从Oracle加载到HDFS，我们可以使用Sqoop或MR Jobs。(How to load incremental records from Oracle to HDFS on daily basis and Can we use Sqoop or MR Jobs. Which is the preferred method)[2023-08-28]

无法使用Sqoop将数据从Oracle导入HDFS(Unable to import data from Oracle to HDFS using Sqoop)[2023-10-20]

如果我们使用Sqoop将数据从MySql导入HDFS，那么存储在HDFS中的文件格式是什么？(If we are importing a data from MySql to HDFS by using Sqoop, what would be the file format which has stored in HDFS?)[2023-08-01]

来自Oracle的Sqoop：“Snapshot too Old”(Sqoop from Oracle: “Snapshot too Old”)[2022-11-03]

sqoop从hdfs导出到mysql保留分区(does sqoop export from hdfs to mysql preserve partitions)[2023-05-23]

sqoop从mysql导入到hbase的问题(Issue with sqoop import from mysql to hbase)[2022-08-22]

知识点

相关文章

最近更新

通过Sqoop实现Mysql / Oracle 与HDFS / Hbase互导数据

相关问答

我遇到一个问题 就是使用sqoop 从oracle往hdfs中导数据[2022-12-19]

hadoop+sqoop 实现mysql数据导入HDFS[2022-07-23]

从oracle到hive的sqoop数据ERROR(sqoop data from oracle to hive ERROR)[2023-07-31]

如何sqoop将oracle clob数据导入到hdfs上的avro文件(How to sqoop to import oracle clob data to avro files on hdfs)[2022-05-04]

如何每天将增量记录从Oracle加载到HDFS，我们可以使用Sqoop或MR Jobs。(How to load incremental records from Oracle to HDFS on daily basis and Can we use Sqoop or MR Jobs. Which is the preferred method)[2023-08-28]

无法使用Sqoop将数据从Oracle导入HDFS(Unable to import data from Oracle to HDFS using Sqoop)[2023-10-20]

如果我们使用Sqoop将数据从MySql导入HDFS，那么存储在HDFS中的文件格式是什么？(If we are importing a data from MySql to HDFS by using Sqoop, what would be the file format which has stored in HDFS?)[2023-08-01]

来自Oracle的Sqoop：“Snapshot too Old”(Sqoop from Oracle: “Snapshot too Old”)[2022-11-03]

sqoop从hdfs导出到mysql保留分区(does sqoop export from hdfs to mysql preserve partitions)[2023-05-23]

sqoop从mysql导入到hbase的问题(Issue with sqoop import from mysql to hbase)[2022-08-22]

我遇到一个问题就是使用sqoop 从oracle往hdfs中导数据[2022-12-19]