Hadoop集群内lzo的安装与配置详解

2019-03-28 14:22|来源: 网络

操作系统:CentOS 5.5,Hadoop版本:hadoop-0.20.2-CDH3B4
  安装lzo所需要软件包:gcc、ant、lzo、lzo编码/解码器,另外,还需要lzo-devel依赖
  配置lzo的文件:core-site.xml、mapred-site.xml
大致步骤:
1)安装和更新gcc、ant
2)在各个节点安装lzo
3)安装lzo编码/解码器
4)修改配置文件,并同步各节点的配置文件
注:没有特别指出的话,所有操作都是在Namenode中进行的
 
一、lzo库安装:
1、gcc的安装:yum即可,记得同时更新lib*、glibc*、gcc*
2、ant的安装:
  删除旧版本:yum remove ant
  安装新版本:
  wget http://labs.renren.com/apache-mirror//ant/binaries/apache-ant-1.8.2-bin.tar.gz
  tar zxvf apache-ant-1.8.2-bin.tar.gz
 
# vi /etc/profile 
export ANT_HOME=/usr/local/apache-ant-1.8.2
export PATH=$PATH:$ANT_HOME/bin
source /etc/profile  使配置文件生效
lzo的安装
wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.04.tar.gz
tar -zxvf lzo-2.04.tar.gz
cd lzo-2.04
./configure --enable-shared
make && make install 

库文件被默认安装到了/usr/local/lib,我们需要进一步指定lzo库文件的路径,两个方法都可以:
  1)拷贝/usr/local/lib目录下的lzo库文件到/usr/lib(32位平台),或/usr/lib64(64位平台)
  2)在/etc/ld.so.conf.d/目录下新建lzo.conf文件,写入lzo库文件的路径,然后运行/sbin/ldconfig -v,使配置生效

在各个节点安装lzo:
  Namenode和Datanode都要安装lzo!
  所需软件包:gcc、ant、lzo-2.04.tar.gz、lzo2-2.02-3.el5.rf.x86_64.rpmlzo2-devel-2.02-3.el5.rf.x86_64.rpm

wget http://mirrors.axint.net/repos/RedHat/el5/en/x86_64/RPMS.dag/lzo2-2.02-3.el5.rf.x86_64.rpm
wget http://mirrors.axint.net/repos/redhat/el5/en/x86_64/RPMS.dag/lzo2-devel-2.02-3.el5.rf.x86_64.rpm
安装lzo2-2.02-3.el5.rf.x86_64.rpmlzo2-devel-2.02-3.el5.rf.x86_64.rpm
# rpm -ivh lzo2-2.02-3.el5.rf.x86_64.rpm
# rpm -ivh lzo2-devel-2.02-3.el5.rf.x86_64.rpm
lzo编码/解码器的安装
这里必须要说明:如果hadoop是cloudera版的,那么lzo编码/解码器就不要用google官方的那个!到这里下载:
https://github.com/kevinweil/hadoop-lzo
下载文件kevinweil-hadoop-lzo-23e8370.tar.gz
# tar zxvf kevinweil-hadoop-lzo-23e8370.tar.gz
# cd kevinweil-hadoop-lzo-23e8370
#export CFLAGS=-m64
#ant compile-native tar
编译成功后,还需要把编码/解码器以及native库拷贝到$HADOOP_HOME/lib目录下
# cp build/hadoop-lzo-0.4.13.jar /usr/local/hadoop/lib/
#tar -cBf - -C build/native . | tar -xBvf - -C /usr/local/hadoop/lib/native
# cd /usr/local/hadoop/lib/
# chown -R hadoop:hadoop native/
同步各节点的hadoop-lzo-0.4.10.jar和hadoop的native目录
配置lzo:
  1、主要是往hadoop目录下conf目录中的core-site.xml和mapred-site.xml文件添加一些属性:
vi core-site.xml 添加配置
  1. <property>  
  2. <name>io.compression.codecs</name>  
  3. <value>org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.DefaultCodec,com.hadoop.compression.lzo.LzoCodec,com.hadoop.compression.lzo.LzopCodec,org.apache.hadoop.io.compress.BZip2Codec</value>  
  4. </property>  
  5. <property>  
  6. <name>io.compression.codec.lzo.class</name>  
  7. <value>com.hadoop.compression.lzo.LzoCodec</value>  
  8. </property>  
vi mapred-site.xml:
  1. <property>  
  2. <name>mapreduce.map.output.compress</name>  
  3. <value>true</value>  
  4. </property>  
  5.   
  6. <property>  
  7. <name>mapred.child.env</name>  
  8. <value>JAVA_LIBRARY_PATH=/usr/local/hadoop/lib/native/Linux-amd64-64</value>  
  9. </property>  
  10.   
  11. <property>  
  12. <name>mapreduce.map.output.compress.codec</name>  
  13. <value>com.hadoop.compression.lzo.LzoCodec</value>  
  14. </property>  
同步各节点的配置文件!
hadoop集群内测试lzo:
  首先,安装lzop,生成一些lzo文件
wget http://www.lzop.org/download/lzop-1.03.tar.gz
tar -zxvf lzop-1.03 
cd lzop-1.03  
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/lib
./configure
make && make install

压缩日志文件lzop -U -9 nginx.log
利用hive导入到hdfs中hive> load data local inpath '/home/log/nginx.log.lzo' overwrite into table nginxlog;
测试hive语句 hive>select count(1) from nginxlog;
如果出现错误Failed with exception java.io.IOException:java.lang.RuntimeException: native-lzo library not available
删除$HADOOP_HOME/lib目录下的hadoop-gpl-compression-0.1.0.jar
cd  kevinweil-hadoop-lzo-23e8370/build/native/Linux-amd64-64/lib
cp * $HADOOP_HOME/lib/native/Linux-amd64-64
重启hadoop
测试hive语句即可成功执行

相关问答

更多
  • Docker最核心的特性之一,就是能够将任何应用包括Hadoop打包到Docker镜像中。这篇教程介绍了利用Docker在单机上快速搭 建多节点 Hadoop集群的详细步骤。作者在发现目前的Hadoop on Docker项目所存在的问题之后,开发了接近最小化的Hadoop镜像,...
  • ZooKeeper是一个独立的组件,它可以和HDFS配合使用,但没有非得部署在一起的要求,只要网络通就可以。 另外,ZooKeeper建议最少安装在3个节点上,且数目为奇数。
  • 如果是端口的问题,你去查一下怎么允许端口就行了。。
  • 在过去,大数据处理主要是采用标准化的刀片式服务器和存储区域网络(SAN)来满足网格和处理密集型工作负载。然而随着数据量和用户数的大幅增长,基础设施的需求已经发生变化,硬件厂商必须建立创新体系,来满足大数据对包括存储刀片,SAS(串行连接SCSI)开关,外部SATA阵列和更大容量的机架单元的需求。即寻求一种新的方法来存储和处理复杂的数据,Hadoop正是基于这样的目的应运而生的。Hadoop的数据在集群上均衡分布,并通过复制副本来确保数据的可靠性和容错性。因为数据和对数据处理的操作都是分布在服务器上,处理指令 ...
  • 1、安装openssh,主要是为了主机间安全通信用的。除此之外,还要在此基础上加上无密码访问的设置。否则的话,主机之间交互时总是要求输入密码。这个无密码ssh访问的作法一搜有很多,就不多说了。 2、具体的不同点,主要就一点,主节点的openssh要持有所有子节点的无密码ssh登陆,只要交换下密钥就可以了。而子节点之间一般是无需无密码ssh登陆的,除非有特殊要求。 试下看吧。
  • 既然完成了安装,你要做的无非就两样: 1. 数据存在哪? 2. 怎么计算处理数据? 对于前者,你可以使用hbase或者hive作为数据存储,当然你也可以使用hadoop自己的分布式存储系统hdfs,不过hbase和hive可以提供给你数据库类的结构存储,更方便操作。 对于后者,你可以使用hadoop自己的计算框架Map-Reduce,这里无所谓数据存储在哪,你可以使用MR计算处理离线数据;如果使用hive,也可以使用hive的hql直接以sql方式进行统计计算离线数据线;也可以使用storm等处理实时数据流 ...
  • 你可以输入JPS查看一下进程 一般你的master上是namenode secondarynamenode 和jobtracker三个进程 你的slaves上 有各自的datanode 和tasktracker两个进程 你看看是不是有各自进程都启动起来了 启动起来了就是分布式 如果只有一台机子有进程 那你就重新把那些配置文件再设置一下
  • 随着Apache Hadoop的起步,云客户的增多面临的首要问题就是如何为他们新的的Hadoop集群选择合适的硬件。 尽管Hadoop被设计为运行在行业标准的硬件上,提出一个理想的集群配置不想提供硬件规格列表那么简单。 选择硬件,为给定的负载在性能和经济性提供最佳平衡是需要测试和验证其有效性。(比如,IO密集型工作负载的用户将会为每个核心主轴投资更多)。 在这个博客帖子中,你将会学到一些工作负载评估的原则和它在硬件选择中起着至关重要的作用。在这个过程中,你也将学到Hadoop管理员应该考虑到各种因素。 结合 ...
  • 所以你想在4节点集群上安装hadoop设置! 要求:1个主3个从站(在多个节点集群上安装hadoop设置) 第1步:摆脱窗户。 目前Hadoop可用于Linux机器。 您可以拥有ubuntu 14.04或更高版本(或CentOS,Redhat等) 第2步:安装和设置Java $ sudo apt-get install python-software-properties $ sudo add-apt-repository ppa:ferramroberto / java $ sudo apt-get up ...
  • 没有公式。 这取决于你有多少核心和多少内存。 映射器的数量+减速器的数量一般不应超过核心数量。 请记住,该计算机还运行任务跟踪器和数据节点守护程序。 一般的建议是更多地图绘制器而不是减速器。 如果我是你,我会用合理数量的数据运行我的一个典型工作来试试。 There is no formula. It depends on how many cores and how much memory do you have. The number of mapper + number of reducer shoul ...