Hadoop LZO 安装教程

2019-03-28 13:11|来源: 网络

1.安装 Hadoop-gpl-compression
1.1 wget http://hadoop-gpl-compression.apache-extras.org.codespot.com/files/hadoop-gpl-compression-0.1.0-rc0.tar.gz
1.2 mv hadoop-gpl-compression-0.1.0/lib/native/Linux-amd64-64/* $HADOOP_HOME/lib/native/Linux-amd64-64/

1.3 cp hadoop-gpl-compression-0.1.0/hadoop-gpl-compression-0.1.0.jar /usr/local/hadoop-1.0.2/lib/

2.安装 lzo
apt-get install gcc
apt-get install lzop

3.在本地测试 可以 执行 压缩及解压缩命令
下载 https://github.com/kevinweil/hadoop-lzo/zipball/master
解压包
export CFLAGS=-m64
export CXXFLAGS=-m64
//用于 hadoop0.20 ,所以1.0未必适用
进行build
ant compile-native tar
将生成的 build/hadoop-lzo-0.4.15.jar cp 到 /usr/local/hadoop-1.0.2/lib

测试解压程序
bin/hadoop jar /usr/local/hadoop-1.0.2/lib/hadoop-lzo-0.4.15.jar com.hadoop.compression.lzo.LzoIndexer /home/hadoop/project_hadoop/aa.html.lzo

相关问答

更多
  • hadoop视频教程[2024-01-06]

    目前hadoop视频教程网上太少了,免费的都是很基础的东西,我这里有一套30课时的教程,结合3个实战项目对hadoop进行详细的剖析
  • 现在hadoop1.0都出了 简单说一下吧 你的java jdk的环境变量没有设置吧? 最好按以下步骤再做一遍: 1 用root用户安装jdk1.6以上 2 用root用户 创建hadoop用户 3 在hadoop用户下安装hadoop(你上面说的1到4) 4 修改/home/hadoop/.bash_profile将JDK和hadoop的环境变量设置好 5 安装ssh(伪集群也需要ssh)
  • hadoop安装问题[2023-11-22]

    你看的教程是旧的,新版的hadoop启动脚本放在sbin下。start-all.sh已经逐渐被废弃,采用新的启动脚本: sbin/hadoop-daemon.sh --script hdfs start datanodesbin/hadoop-daemon.sh --script hdfs start namenodesbin/yarn-daemon.sh start resourcemanagersbin/yarn-daemon.sh start proxyserversbin/mr-jobhistory ...
  • 没有找到NameNode这个类,估计是你hadoop不全,或者其他配置文件有错误,不是这个配置文件的问题
  • 尝试运行: hduser@ubuntu:~$ /usr/local/hadoop/sbin/start-all.sh 由于start-all.sh和stop-all.sh位于sbin目录中,而hadoop二进制文件位于bin目录中。 还更新了.bashrc : export PATH = $ PATH:$ HADOOP_HOME / bin: $ HADOOP_HOME / sbin 这样你就可以直接访问start-all.sh Try to run : hduser@ubuntu:~$ /usr/loc ...
  • 有三个主要的混淆点: 当指针所指向的缓冲区不是以空字符结尾的字符串时,最好不要使用char *,因为它令人困惑。 strlen()只会给你一个以null结尾的字符串的长度,它不会给你内存中任意缓冲区的大小。 您需要在其他地方获取该信息。 传递给lzo1x_1_compress()的缓冲区实际上需要包含要压缩的数据,而不是包含零的空缓冲区。 假设你可以使用imageIn-> getFrameSizeBytes()之类的东西从imageIn获取图像的大小,试试这个: int r; lzo_bytep o ...
  • 对我的第一个问题的简短回答: AWS不会自动编制索引。 我已经用自己的工作证实了这一点,并且在他们的论坛上也从Andrew @ AWS中读到了相同的内容。 以下是如何进行索引编制的方法: 要索引一些LZO文件,你需要使用我自己的从hadoop-lzo项目构建的Jar。 如果要直接使用EMR进行索引,则需要在某处构建Jar,然后上传到Amazon S3。 另外,Cloudera对在您自己的群集上进行此设置的所有步骤都有很好的说明。 我在我的本地群集上做了这个,这允许我构建Jar并上传到S3。 如果您不想自己构 ...
  • 因此,在hadoop世界之外没有可用的库来创建lzo和lzo索引文件。 这基本上让我们使用像hadoop-lzo这样的开源项目(调用native c ++ lzo library)和lzo-java(其中包含lzo压缩的java实现) So there aren't libraries readily available outside hadoop world to create lzo and lzo index files. Which basically leaves us to use open ...
  • 您错过了内容最后一行的回复。 你必须使用这样的条件来控制EOF: while (line = mycontent.readLine()) != null) { ... ... } ok, i finally find the answer , it is unbelievable , Through the Hbase gc log , i see a long full gc suggest , my hbase's heap size is default 1 gb , so it maybe occ ...
  • 我得到了与你相同的结果,最终这对我有用: export C_INCLUDE_PATH=/usr/local/Cellar/lzo/2.09/include/lzo:/usr/local/Cellar/lzo/2.09/include export LIBRARY_PATH=/usr/local/lib pip install python-lzo (显然,您可能需要调整这些,具体取决于您安装的lzo brew发行版的版本。) 哪个回答了我的问题,但我真的不明白为什么没有正确配置... 我也安装了Xco ...