知识点
相关文章
更多最近更新
更多通过Sqoop实现Mysql / Oracle 与HDFS / Hbase互导数据
2019-03-28 13:00|来源: 网络
下文将重点说明通过Sqoop实现Mysql与HDFS互导数据,Mysql与Hbase,
Oracle与Hbase
的互导最后给出命令。
一、Mysql与HDFS互导数据
环境:
宿主机器操作系统为Win7,
Mysql安装在宿主机上,宿主机地址为192.168.66.96
3台虚拟机操作系统为
Ubuntu-12.04.1-32位
三台虚拟机已成功安装
Hadoop,并实现免密钥互访,配hosts为:
192.168.66.91 masternode
192.168.66.92 slavenode1
192.168.66.93 slavenode2
/etc/profile已配置好必备环境变量HADOOP_HOME,JAVA_HOME
实验在masternode上进行,已成功连接mysql
步骤一,下载安装包:
我安装的Hadoop版本是原生hadoop-0.20.203.0,SQOOP不支持此版本,可使用CDH3版本hadoop,也可以
通过拷贝相应的包到sqoop-1.2.0-CDH3B4/lib下,依然可以使用。
下载相关文件:
http://archive.cloudera.com/cdh/3/hadoop-0.20.2-CDH3B4.tar.gz
http://archive.cloudera.com/cdh/3/sqoop-1.2.0-CDH3B4.tar.gz
sqoop-1.2.0-CDH3B4依赖hadoop-core-0.20.2-CDH3B4.jar,所以你需要下载hadoop- 0.20.2-CDH3B4.tar.gz,解压缩后
将hadoop-0.20.2-CDH3B4/hadoop-core-0.20.2- CDH3B4.jar复制到sqoop-1.2.0-CDH3B4/lib中。
另外,sqoop导入mysql数据运行过程中依赖mysql-connector-java-*.jar,所以你需要下载mysql-connector-java-*.jar并复制到sqoop-1.2.0-CDH3B4/lib中。
步骤二,相关配置:
修改SQOOP的文件configure-sqoop,注释掉hbase和zookeeper检查(除非你准备使用HABASE等HADOOP上的组件) #if [ ! -d "${HBASE_HOME}" ]; then
# echo “Error: $HBASE_HOME does not exist!”
# echo ‘Please set $HBASE_HOME to the root of your HBase installation.’
# exit 1
#fi
#if [ ! -d "${ZOOKEEPER_HOME}" ]; then
# echo “Error: $ZOOKEEPER_HOME does not exist!”
# echo ‘Please set $ZOOKEEPER_HOME to the root of your ZooKeeper installation.’
# exit 1
#fi
修改/etc/profile环境变量文件(su root之后,sudo gedit /etc/profile):
添加
export SQOOP_HOME=/home/grid/sqoop
在原有PATH后添加 :
$SQOOP_HOME/bin
步骤三,在mysql中建立测试用户,测试表和数据,并测试sqoop连接mysql:
创建用户sqoop并授权:
grant all privileges on *.* to 'sqoop'@'%' identified by 'sqoop' with grant option;
创建表空间(schema)sqoop,并创建测试表:
create table students (
id int not null primary key,
name varchar(20),
age int)
插入测试数据:
insert into students values('10001','liyang',29);
insert into students values('10002','lion',28);
insert into students values('10003','leon',26);
在masternode测试sqoop能否成功连接宿主机器上的mysql:
sqoop list-tables --connect jdbc:mysql://192.168.66.96:3306/sqoop --username sqoop --password sqoop
如果能正确显示出sqoop表空间中的students表,就说明sqoop已经可以成功连接mysql!
步骤四,将mysql中sqoop表空间的students表的三行数据导入HDFS:
启动hadoop:
start-all.sh
用jps验证启动是否成功
显示正在运行以下进程即为启动成功:
2820 SecondaryNameNode
4539 Jps
2887 JobTracker
2595 NameNode
从mysql导入数据,运行如下命令:
sqoop import --connect jdbc:mysql://192.168.66.96:3306/sqoop --username sqoop --password sqoop --table students -m 1
验证导入数据是否成功:
若导入成功,运行
hadoop dfs -ls 将能看到根目录/user/grid/下有
以表名命名的文件夹students
运行
hadoop dfs -ls /user/grid/students 能看到该文件夹中包含文件:/user/grid/students/
part-m-00000
运行
hadoop dfs -cat /user/grid/students/part-m-00000 就能看到该文件已经包含mysql中students表的三行数据:
10001,liyang,29
10002,lion,28
10003,leon,26
步骤五,将HDFS中的数据导入Mysql的students表中:
首先将mysql的students表数据清空:
delete from students;
然后在masternode上执行导出数据命令:
sqoop export --connect jdbc:mysql://192.168.66.96:3306/sqoop --username sqoop --password sqoop --table students --export-dir hdfs://masternode:9000/user/grid/students/part-m-00000
若成功,在mysql中会看到students表中的数据恢复了!
注意:
过程中可能会因为slavenode的50010端口没打开而报错,需用root用户通过sudo ufw allow 50010命令打开端口!
二、Mysql与Hbase互导数据
将mysql的数据导入hbase的命令格式为:
sqoop import --connect jdbc:mysql://mysqlserver_IP/databaseName --username --password password --table datatable --hbase-create-table --hbase-table hbase_tablename --column-family col_fam_name --hbase-row-key key_col_name
其中 ,databaseName 和datatable 是mysql的数据库和表名,hbase_tablename是要导成hbase的表名,key_col_name可以指定datatable中哪一列作为hbase新表的rowkey,col_fam_name是除rowkey之外的所有列的列族名
例如:可通过如下命令将Mysql中的students表导入到Hbase中:
/home/grid/sqoop/bin/sqoop import --connect jdbc:mysql://192.168.66.96/sqoop --username sqoop --password liyang16 --table students --hbase-create-table --hbase-table students --column-family stuinfo --hbase-row-key id
成功执行后,可在hbase中用以下命令查看结果:
hbase(main):011:0> scan 'students'
ROW COLUMN+CELL
10001 column=stuinfo:age, timestamp=1356759994058, value=29
10001 column=stuinfo:name, timestamp=1356759994058, value=liyang
10002 column=stuinfo:age, timestamp=1356760044478, value=28
10002 column=stuinfo:name, timestamp=1356760044478, value=lion
10003 column=stuinfo:age, timestamp=1356760044478, value=26
10003 column=stuinfo:name, timestamp=1356760044478, value=leon
3 row(s) in 0.0900 seconds
三、Oracle与Hbase互导数据
将Oracle中的dept表(列为id,name,addr)导出至hbase中的dept表(行键为id,列族为deptinfo)
sqoop import --append --connect jdbc:oracle:thin:@192.168.66.90:1521:orcl --username test --password test --m 1 --table dept --columns id,name,addr --hbase-create-table --hbase-table dept --hbase-row-key id --column-family deptinfo
-------------------------------------------------------------------------------------
注:以上所有命令均实测通过,只需修改参数即可执行!
更多Ubuntu相关信息见Ubuntu 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=2
相关问答
更多-
我遇到一个问题 就是使用sqoop 从oracle往hdfs中导数据[2022-12-19]
plsql 或者toad 可以到处oracle中的数据及表 要不你就写一个程序直接读取oracle中的数据插入mysql中 -
hadoop+sqoop 实现mysql数据导入HDFS[2022-07-23]
请问Hadoop也是cdh版本? sqoop-1.2.0-CDH3B4依赖hadoop-core-0.20.2-CDH3B4.jar 所以还是要针对Hadoop的发布版本下对应的Sqoop,jar包依赖问题很重要 -
我在sqoop命令下工作并找到了这个解决方案。 它对我有用。 我从cmd ping了主机名,找到了它正在ping的ip地址。 我用sqooop执行命令中的ipaddress替换了主机名,它正在运行。 I worked around the sqoop command and found this solution. it worked for me. I pinged the hostname from cmd and found out the ip address it is pinging to. I ...
-
如何sqoop将oracle clob数据导入到hdfs上的avro文件(How to sqoop to import oracle clob data to avro files on hdfs)[2022-05-04]
更新:找到解决方案,我们需要为clob列添加clob map-column-java 。 例如:如果列名是clob那么我们为sqoop传递map-column-java clob=string以导入clob列。 Update: Found the solution, We need to add --map-column-java for the clob columns. For Eg: If the column name is clob then we have pass --map-column-j ... -
Sqoop正是为此目的而设计的,并将导致执行复制数据工作的MR作业。 有几种方法可以确定Oracle表中的新内容,例如使用表的id,或者如果有的话,可能还有修改日期的字段。 与Hadoop中的大多数东西相比,Sqoop非常简单。 这是doc的链接 - 搜索“incremental”或从7.2.9开始获取更多信息。 http://sqoop.apache.org/docs/1.4.6/SqoopUserGuide.html 仅供参考我们一旦您正常工作,请查看旨在与Oracle数据库一起使用的Sqoop扩展,该 ...
-
在大写中使用表名。 sqoop import -connect jdbc:oracle:thin:system/system@192.xxx.xx.x:1521:xe -username system -P -table EMPLOYEE -columns "ID" -target-dir sqoopoutput1 -m Use table name in capitals. sqoop import -connect jdbc:oracle:thin:system/system@192.xxx.xx.x ...
-
Sqoop已将您的数据导入为逗号分隔的文本文件。 它支持许多其他文件格式,可以使用下面列出的参数激活它们 mSqoop参数控制导入命令Argument的文件格式 --as-avrodatafile Data is imported as Avro files. --as-sequencefile Data is imported as Sequence Files. --as-textfile The default file format, with imported data ...
-
这不是Sqoop问题。 您将直接在Oracle上执行相同的语句时遇到相同的错误。 这是一个撤消表空间问题。 您必须更快地获得查询,或者必须增加Oracle撤消表空间大小。 可能的修复列表: 在数据库活动较少时安排您的任务(甚至可能要求人们停止工作一段时间)。 使用此错误优化失败的查询以读取更少的数据并花费更少的时间增加UNDO表空间的大小。 增加UNDO_RETENTION参数的大小。 将UNDO表空间设置为GUARANTEE模式。 如果要导出表,请考虑使用CONSISTENT = no参数进行导出。 不要 ...
-
与MySQL交谈时,Sqoop将在JDBC层工作。 它不会知道底层分区,MySQL将在插入或更新记录时处理此问题。 Sqoop will work at the JDBC layer when talking to MySQL. It won't be aware of the underlying partitioning, MySQL will handle this as the records are inserted or updated.
-
Sqoop的直接连接器通常不支持HBase,这绝对是MySQL直连接头的情况。 如果需要将数据导入HBase,则应删除--direct选项。 Sqoop's direct connectors usually do not support HBase and this is definitely the case for MySQL direct connector. You should drop the --direct option if you need import data into HBase ...